ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
--------------- o0o ---------------
VŨ THỊ LAN ANH NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU KÊ KHAI NỘP
THUẾ PHỤC VỤ THANH TRA
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
THÁI NGUYÊN - 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ĐẠI HỌC THÁI NGUYÊN
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG
--------------- o0o ---------------
VŨ THỊ LAN ANH
NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY
ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU KÊ KHAI NỘP
THUẾ PHỤC VỤ THANH TRA
Chuyên ngành: Khoa học máy tính
Mã số: 60480101
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học
GS.TS.Vũ Đức Thi
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
THÁI NGUYÊN - 2016
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LỜI CẢM ƠN
Trong thời gian hai năm của chương trình đào tạo thạc sỹ, trong đó gần một nửa thời
gian dành cho các môn học, thời gian còn lại dành cho việc lựa chọn đề tài, giáo viên hướng
dẫn, tập trung vào nghiên cứu, viết, chỉnh sửa và hoàn thiện đề tài. Với quỹ thời gian như vậy
và với vị trí công việc đang phải đảm nhận, không riêng bản thân em mà hầu hết các sinh
viên cao học muốn hoàn thành tốt luận văn của mình trước hết đều phải có sự sắp xếp thời
gian hợp lý, có sự tập trung học tập và nghiên cứu với tinh thần nghiêm túc, nỗ lực hết mình;
tiếp đến cần có sự ủng hộ về tinh thần, sự giúp đỡ về chuyên môn một trong những điều kiện
không thể thiếu quyết định đến việc thành công của đề tài.
Để hoàn thành được đề tài này trước tiên em xin gửi lời cảm ơn đến thầy giáo
hướng dẫn GS.TS Vũ Đức Thi, thầy đã có những định hướng cho em về nội dung và
hướng phát triển, đã có những đóng góp quý báu cho em về những vấn đề chuyên môn
của đề tài, giúp em tháo gỡ kịp thời những vướng mắc trong quá trình làm luận văn.
Em xin gửi lời cảm ơn tới Tập thể cán bộ nghiên cứu nhóm thực hiện đề tài do
TS Nguyễn Long Giang Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công
nghệ Việt Nam làm chủ nhiệm đã cung cấp đầy đủ các số liệu thu được từ Chi cục thuế
Hà Nội hỗ trợ và giúp đỡ Em tiến hành các thử nghiệm thành công.
Em cũng xin cám ơn các thầy cô giáo Trường Đại học Công nghệ thông tin và
Truyền thông Thái Nguyên, cũng như bạn bè cùng lớp đã có những ý kiến đóng góp bổ
sung cho đề tài luận văn của em. Xin cảm ơn gia đình, người thân cũng như đồng nghiệp
luôn quan tâm, ủng hộ hỗ trợ về mặt tinh thần trong suốt thời gian từ khi nhận đề tài đến
khi hoàn thiện đề tài này.
Trong nội dung của luận văn chắc chắn còn nhiều thiếu sót. Em rất mong các
Thầy cô cùng bạn bè đó góp để bản luận văn của Em được hoàn thiện hơn.
Em xin trân trọng cảm ơn.
Thái Nguyên, ngày 20 tháng 08 năm 2016
Sinh viên
Vũ Thị Lan Anh
i
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
LỜI CAM ĐOAN
Em xin cam đoan đây là công trình nghiên cứu của riêng em.
Các số liệu, trong luận văn được sử dụng từ nguồn số liệu được cung cấp bởi
chi cục thuế Hà Nội thực hiện năm 2014. Kết quả nghiên cứu này chưa được sử
dụng trong bất kể nghiên cứu nào khác.
Thái Nguyên, ngày 20 tháng 8 năm 2016
TÁC GIẢ
Vũ Thị Lan Anh
ii
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
MỤC LỤC
MỞ ĐẦU Chương 1. 1.1.
1.2.
2.3.
Chương 3.
..................................................................................................................... 1 Tổng quan hồi quy, bài toán tính điểm rủi ro thuế ...................................... 3 Kiến thức cơ bản về phân tích hồi quy ............................................................. 3 1.1.1 Khái niệm cơ bản về hàm nội suy ................................................................. 3 1.1.2 Bài toán hồi quy ............................................................................................ 8 Phát biểu bài toán phân tích điểm rủi ro ......................................................... 13 1.2.1 Mục tiêu của bài toán .................................................................................. 13 1.2.2 Yêu cầu của bài toán phân tích tính điểm rủi ro ......................................... 13 Chương 2. Mô hình hồi quy tuyến tính........................................................................ 16 2.1. Mô hình hồi quy tuyến tính đơn ..................................................................... 16 2.1.1 Vấn đề mô hình hồi quy ............................................................................... 16 2.1.2 Ước lượng hệ số hồi quy ............................................................................. 18 2.1.3 Tính chất của ước lượng của các hệ số hồi quy .......................................... 19 2.1.4 Kiểm định giả thuyết ................................................................................... 20 2.1.5 Khoảng tin cậy ............................................................................................ 23 2.1.6 Tính phù hợp của mô hình........................................................................... 27 2.1.7 Tuyến tính hóa một số mô hình ................................................................... 31 2.2. Mô hình hồi quy tuyến tính bội ...................................................................... 32 2.2.1 Phương trình hồi quy .................................................................................. 32 2.2.2 Ước lượng hệ số hồi quy và tính chất của ước lượng ................................. 34 2.2.3 Kiểm định giả thuyết ................................................................................... 35 2.2.4 Ước lượng và dự đoán ................................................................................ 37 2.2.5 Phân tích phần dư ....................................................................................... 38 2.2.6 Sử dụng phần mềm ...................................................................................... 38 2.2.7 Lựa chọn biến và xây dựng mô hình ........................................................... 41 Phân tích hồi quy logistic ................................................................................ 49 2.3.1 Mô hình hồi quy logistic ............................................................................. 49 2.3.2 Phân tích hồi quy logistic đa thức ............................................................... 51 Bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế 53
3.1. Tính cấp thiết xây dựng hệ thống tính điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế ................................................................................................. 53 Bài toán tính điểm rủi ro của doanh nghiệp .................................................... 54 3.2. Các bước xây dựng mô hình giải quyết bài toán ............................................ 56 3.3.
iii
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
3.4.
3.3.1 Xây dựng mô hình hồi quy tuyến tính bội ................................................... 57 3.3.2 Mô hình tổng thể bài toán tính điểm rủi ro cho doanh nghiệp ................... 59 3.3.3 Thực thi mô hình để tính điểm rủi ro cho doanh nghiệp ............................. 60 3.3.4 Tiền xử lý dữ liệu ......................................................................................... 61 Thử nghiệm và đánh giá kết quả ..................................................................... 63 3.4.1 Mục tiêu thử nghiệm .................................................................................... 63 3.4.2 Công cụ thử nghiệm và môi trường thử nghiệm ......................................... 63 3.4.3 Quy trình thử nghiệm .................................................................................. 64 DANH MỤC TÀI LIỆU THAM KHẢO .......................................................................... 70 ................................................................................................................... 71 PHỤ LỤC
iv
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Danh mục hình vẽ
Hình 2.1. Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy ................ 17
Hình 2.2. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm ......................... 18
Hình 2.3. Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2 đường
hyperbol ngoài) cho mức tiêu thụ nhiên liệu ........................................................ 26
Hình 2.4. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm ......................... 27
Hình 2.5. Dáng điệu phần dư ................................................................................ 28
Hình 2.6. Đồ thị phần dư chuẩn hóa cho số liệu độ kéo ....................................... 31
Hình 2.7. Miền biến thiên của các biến hồi quy ................................................... 38
Hình 2.8. Đồ thị xác suất chuẩn và phần dư chuẩn hóa của số liệu lực kéo ......... 41
Hình 2.9. Phần dư chuẩn hóa theo quan sát của số liệu độ tan ............................. 48
Hình 2.10. Mối liên hệ giữa logit(p) và p, cho 1
v
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Danh mục bảng
Bảng 1.1. Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon ........................... 16
Bảng 2.1. Phân tích phương sai để kiểm định tính hiệu quả của hồi quy ................ 23
Bảng 2.2. Phân tích hệ số và phân tích phương sai cho Ví dụ 2.2 ........................... 30
Bảng 2.4. Số liệu cho mô hình hồi quy bội .............................................................. 32
Bảng 2.5. Kết quả xử lý với số liệu lực kéo dây dẫn .............................................. 39
Bảng 2.6. Tóm tắt, phân tích phương sai và phân tích hệ số cho Ví dụ 2.3 ............ 40
Bảng 2.7. Số liệu độ tan ........................................................................................... 45
Bảng 2.8. Tóm tắt, phân tích phương sai và phân tích các hệ số cho mô hình đầy đủ
của số liệu độ tan ...................................................................................................... 47
Bảng 2.9. Tóm tắt, phân tích phương sai, phân tích hệ số của mô hình cuối cùng
theo phương pháp cân nhắc từng bước của số liệu độ tan ....................................... 48
vi
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
MỞ ĐẦU
Dữ liệu thống kê rất đa dạng và phong phú, khai thác được dữ liệu này góp phần
đưa ra được những ý kiến tốt cho kết luận đối với hoạt động của các công ty, doanh
nghiệp. Dựa trên các phương pháp phân tích dữ liệu hồi quy trên cơ sở đề xuất phương
pháp hiệu quả.
Vấn đề gian lận trong thuế có ảnh hưởng lớn trong nguồn thu ngân sách của các
quốc gia. Dựa trên phân tích dữ liệu hồi quy phân tích rủi ro nhằm phát hiện các gian
lận của người nộp thuế và các doanh nghiệp tham gia đóng thuế để đưa ra quyết định
thanh tra trường hợp có biểu hiện gian lận thuế. Kết quả phân tích này nhằm phát hiện
trường hợp gian lận đem lại lợi ích tăng nguồn thu ngân sách, thúc đẩy sự phát triển kinh
tế, xã hội của đất nước. Phân tích rủi ro là một phương pháp quản lý khoa học và hiệu
quả để giải quyết bài toán quản lý thuế trong điều kiện số lượng người nộp thuế ngày
càng tăng lên nhanh chóng, mức độ quản lý ngày càng phức tạp do trình độ của người
nộp thuế ngày càng cao, các hoạt động kinh tế phát sinh ngày càng đa dạng và phong
phú dẫn đến khối lượng công việc của công tác quản lý thuế tăng lên vượt quá khả năng
tăng nguồn lực bị hạn chế nhất định của các cơ quan thuế.
Từ các nội dung được nêu trên tôi lựa chọn đề tài “Nghiên cứu phương pháp
phân tích hồi quy ứng dụng trong phân tích dữ liệu kê khai nộp thuế phục vụ thanh
tra” làm luận văn tốt nghiệp thạc sỹ của mình.
Nội dung chính của luận văn gồm 3 chương bao gồm
Chương 1: Luận văn trình bày cơ sở toán học trong việc xác định công thức hàm
nội suy và hàm hồi quy cùng các thuật toán tương ứng, đây là một lĩnh vực quan trong
của toán học đối với lớp các bài toán thực nghiệm nhằm xây dựng các công thức gần
đúng miêu tả mối ràng buộc giữa các số liệu xuất hiện trong các thí nghiệm tại các phòng
thí nghiệm. các kiến tức này là rất cần thiết làm cơ sở để nghiên cứu các nội dung trong
luận văn.
1
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 2: Luận văn trình bày các kiến thức cơ bản về Mô hình hồi quy tuyến
tính, một trong những mô hình đã và đang được phát triển trong công nghệ thông tin
giải quyết các bài toán tối ưu hóa theo tư tưởng quần thể ngẫu nhiên. Mô hình hồi quy
bội chính là cơ sở để xây dựng thuật toán giải bài toán thực tế được đưa ra trong chương
3.
Chương 3: Nội dung chính của chương 3 trình bày mô hình bài toán tính điểm
rủi ro của doanh nghiệp phục vụ thanh tra kiểm tra thuế, một bài toán quan trọng
trong ngành thuế. Trên cơ sở mô hình bài toán, luận văn đã xây dựng phương tình tính
điểm rủi ro giải quyết bài toán, tiến hành thực nghiệm với số liệu được cung cấp của chi
cục thuế Hà Nội. Tiến hành đánh giá và kết luận về mối ràng buộc giữa các số liệu thực
nghiệm.
2
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 1. TỔNG QUAN HỒI QUY, BÀI TOÁN TÍNH ĐIỂM RỦI RO THUẾ
1.1. KIẾN THỨC CƠ BẢN VỀ PHÂN TÍCH HỒI QUY 1.1.1 Khái niệm cơ bản về hàm nội suy
Chúng ta xét một dạng bài toán xuất phát từ các số liệu thực nghiệm sau đây
Cho trước (n+1) cặp các giá trị thực nghiệm
…..
…..
Các giá trị được gọi là các mốc nội suy. Cần xác định một
hàm số 𝑓(𝑥) để sao cho thỏa mãn các điều kiện
𝑓(𝑥𝑖) = 𝑦𝑖 𝑖 = 0,1, … , 𝑛
Tức là đồ thị của hàm cần đi qua tất cả các mốc nội suy.
Nếu hàm tồ n ta ̣i thì hàm số đó đươ ̣c go ̣i là hàm hồi quy và bài toán xác đi ̣nh
𝑓(𝑥) đươ ̣c go ̣i là bài toán nô ̣i suy.
Bài toán này rất có ý nghĩa trong thực tế vì nếu xác định đươ ̣c hàm 𝑓(𝑥) thì ta có thể xác đi ̣nh đươ ̣c mo ̣i giá tri ̣ củ a y ứ ng vớ i mo ̣i 𝑥 = {𝑥0, 𝑥𝑛} - các giá tri ̣ đó đươ ̣c go ̣i là
các giá tri ̣ nô ̣i suy.
Trong toán ho ̣c, ngườ i ta thườ ng xác đi ̣nh da ̣ng hàm 𝑓(𝑥) bở i mô ̣t trong các da ̣ng
công thức hàm số sau đây:
+ Đa thứ c đa ̣i số
+ Phân thứ c đa ̣i số
+ Đa thứ c lươ ̣ng giác
+ Hàm ghép trơn (Spline)
+ Hàm mũ
Sau đây chúng ta sẽ xét cơ sở toán học của các phương pháp xác định hàm hồi
quy trong từng trường hợp cụ thể
1.1.1.1. Đa thứ c nội suy
Ta sẽ xác đi ̣nh
3
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
(1.1)
Xuất phát từ điều kiện hàm cần phải đi qua tất cả các mốc nội suy, dễ thấy
rằng các hệ số sẽ đươ ̣c xác đi ̣nh thông qua hệ phương trình đa ̣i số
tuyến tính sau đây:
𝑛 + 𝑎1𝑥0 𝑛 + 𝑎1𝑥1
𝑎0𝑥0 𝑎0𝑥1 (1.2)
𝑛 + 𝑎1𝑥𝑛
𝑛−1 + ⋯ + 𝑎𝑛 = 𝑦0 𝑛−1 + ⋯ + 𝑎𝑛 = 𝑦1 … … … 𝑛−1 + ⋯ + 𝑎𝑛 = 𝑦𝑛
{ 𝑎0𝑥𝑛
Có thể thấy rằng định thứ c củ a hê ̣ đại số tuyến tính (1.2) thỏa mãn
(1.3) | | | =0 |
𝑛 𝑥1 𝑥0
1 1. … .1 𝑥0 𝑥1.. . . 𝑥𝑛 2.. . . 𝑥𝑛 2 𝑥1 2 𝑥0 … . . 𝑛.. . . 𝑥𝑛 𝑛
Do đó hê ̣ phương trình đa ̣i số trên có nghiê ̣m duy nhất, tức là đa thứ c nội suy
luôn luôn tồ n tại và duy nhất.
Nhâ ̣n xét:
Để xác đi ̣nh đa thứ c nô ̣i suy theo phương pháp đa ̣i số , ta cần phải giải hê ̣ phương
. Khi đó về mặt toán học, chú ng ta trình đại số tuyến tính vớ i (n+1) ẩn
cần phải sử dụng các phương pháp giải các hệ phương trình đại số tuyến tính như phương pháp Krame, phương pháp khử Gauss, … với đô ̣ phứ c ta ̣p tính toán rất cao. Điều này sẽ bất lợi trong việc xác định đa thức nội suy với số mốc nôi suy là rất lớn.
Sau đây chúng ta sẽ tìm hiểu các phương pháp xác đi ̣nh đa thứ c nội suy tránh
đươ ̣c viê ̣c giải hê ̣ đại số tuyến tính.
1.1.1.2. Đa thứ c nội suy Lagrange
𝐿𝑘(𝑥) = { Đi ̣nh nghi ̃a 1.1: Đa thứ c bâ ̣c n thỏ a mãn tính chất 1, 𝑥 = 𝑥𝑘 0, 𝑥 ≠ 𝑥𝑘
Đươ ̣c gọi là nhân tử Lagrange
Dễ thấy rằng
4
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
(1.4) Hay 𝐿𝑘(𝑥𝑖) = { 0 𝑘ℎ𝑖 𝑘 ≠ 𝑖 1 𝑘ℎ𝑖 𝑘 = 𝑖
Khi đó ta thấy rằng
(1.5)
Như vậy khác với phương pháp đại số, để xác định đa thức nội suy, ta chỉ cần
xác định các giá trị của nhân tử .
Xuất phát từ khái niệm về nhân tử Lagrange, chúng ta có thể xây dựng thuật toán
xác định đa thức nội suy theo phương pháp nhân tử như sau:
Thuật toán:
; giá trị mốc cần xác định . Input:
Output: Giá trị đa thức
Pn = 0
For k = 0 to n do
Begin
+ Xác định nhân tử
+
End;
Trong đó giá trị của nhân tử được xác định bởi công thức (1.4).
Dễ thấy rằng đối với thuật toán trên thì độ phức tạp của thuật toán là O(n2)
Nếu kí hiệu là hàm nghiệm đúng thì bằng cơ sở của toán học giải tích,
chúng ta có thể chứng minh rằng sai số của phép nội suy được đánh giá bằng công thức
Trong đó
5
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
(1.6)
Như vậy nếu với số mốc nội suy là lớn thì việc xấp xỉ bằng đa thức nội suy sẽ đạt
độ chính xác rất cao.
Ngoài phương pháp nhân tử lagrange, người ta có thể sử dụng các phương pháp
khác như phương pháp Newton để xác định đa thức nội suy trong trường hợp các mốc
nội suy là cách đều. Điều này sẽ giảm đáng kể khối lượng tính toán trong thuật toán
1.1.1.3. Hà m ghé p trơn (Spline)
Khi sử du ̣ng đa thứ c nô ̣i suy, khi số mớ i nô ̣i suy là lớ n thì dẫn tớ i bâ ̣c củ a đa thứ c là rất lớ n, điều này không thuâ ̣n tiê ̣n cho quá trình tính toán và sai số có thể là tăng lên. Để khắc phu ̣c nhươ ̣c điểm này, ngườ i ta có thể sử du ̣ng phương pháp ghép các đa thứ c bâ ̣c thấp la ̣i vớ i nhau để thu đươ ̣c mô ̣t đườ ng cong trơn. Hàm trơn trên toàn đoa ̣n {𝑥0, 𝑥𝑛}
đươ ̣c go ̣i là hàm ghép trơn (Spline).
Sau đây chú ng ta sẽ trình bày phương pháp hàm ghép trơn bằng việc sử du ̣ng các
đa thứ c bâ ̣c ba S3(x) để xây dựng hàm ghép trơn bâ ̣c 3
Xét đoa ̣n 𝐷𝑖 = {𝑥𝑖−1, 𝑥𝑖}, chúng ta xét các đa thức bậc 3 được biểu diễn dưới dạng
(1.7)
Trong đó các hệ số ai, bi, ci, di cần phải thỏa mãn các điều kiện sau đây:
+ Điều kiện ghép trơn tại các mốc nội suy
(1.8)
+ Điều kiện nội suy
Si(xi) = fi (i = 0,…,n) (1.9)
Xuất phát từ công thức (1.7) ta sẽ thu được
6
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
(1.10)
Trong đó kí hiệu
Từ điều kiện liên tục, ta có
(1.11)
Xuất phát từ điều kiện (1.8), ta thu được các hệ thức sau
(1.12)
Như vậy các hệ thức (1.10) - (1.12) lập thành hệ 4n-2 phương trình với 4n ẩn số.
Để thêm vào 2 phương trình nữa, người ta đặt thêm điều kiện đạo hàm của tại 2
mút biên .
Chẳng hạn xét điều kiện S”(x1) = S”(xn) = 0 được gọi là điều kiện biên tự nhiên,
khi đó ta có
c1 = 0, cn + 3dnhn = 0 (1.13)
Như vậy ta có đủ 4n phương trình để xác định 4n ẩn.
Do các hệ số ai đã được xác định bởi phương trình (1.10) nên ta chỉ cần xác định
các ẩn bi, ci, di qua hệ 3n phương trình. Qua các phép biến đổi ta có hệ sau đây:
ℎ𝑖 3
𝑐𝑖+1−𝑐𝑖 3ℎ𝑖 𝑓𝑖−𝑓𝑖−1 ℎ𝑖
(𝑖 = 1,2, … , 𝑛) 𝑑𝑖 = { (1.14) − 𝑏𝑖 = (𝑐𝑖+1 − 2𝑐𝑖) (𝑖 = 1,2, … , 𝑛)
𝑓𝑖−𝑓𝑖−1 ℎ𝑖
𝑐1 = 𝑐𝑛+1 = 0 { (1.15) ] − ℎ𝑖𝑐𝑖 + 2(ℎ𝑖 + ℎ𝑖+1)𝑐𝑖+1 + ℎ𝑖+1𝑐𝑖+2 = 3 [𝑓𝑖+1−𝑓𝑖 ℎ𝑖+1
Hệ (1.15) là hệ phương trình với ma trận 3 đường chéo trội, do đó dễ dàng giải
được hệ bằng thuật toán truy đuổi với độ phức tạp tính toán là O(n). Sau khi giải được
các ẩn ci, qua (1.14) ta sẽ xác định được bi và di.
Đánh giá sai số: Nếu kí hiện là hàm nghiệm đúng là hàm ghép trơn
thì có thể chứng minh rằng sai số được đánh giá qua công thức
7
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
5
3|
2
|𝑓(𝑥) − 𝑆(𝑥)| ≤ |𝑓𝑥 𝑀ℎ3 trong đó 𝑀 = max 𝑥0≤𝑥≤𝑥𝑛
Nhận xét: Việc xác định hàm hồi quy bằng phương pháp hàm ghép trơn có ưu
điểm là việc tính toán được chuyển về việc giải hệ đại số bằng thuật toán truy đuổi 3
đường chéo. Tuy nhiên độ chính xác của phương pháp chỉ tương đương với
1.1.1.4. Nội suy bằng hàm hữu tỉ
Ta xác định hàm (1.16) với bn = 1
Tại các điểm sao cho thỏa mãn hàm đi qua tất cả các
mốc nội suy, tức là
(1.17)
Hệ phương trình đại số trên là hệ phương trình đối với các ẩn a0,a1, …,
am,b0,b1,…,bn-2. Như vậy, để xác định hàm nội suy hữu tỉ thì ta phải giải hệ phương trình
đại số tuyến tính với (n+m+1) ẩn.
1.1.2 Bài toán hồi quy
Đặt vấn đề:
Khi xét bài toán nội suy, ta đã giả thiết rằng mối quan hệ giữa đại lượng
𝑥(𝑥0, 𝑥1, … , 𝑥𝑛) và 𝑦(𝑦0, 𝑦1, … , 𝑦𝑛) là tồn tại với quan hệ 𝑦 = 𝑓(𝑥). Việc xác định đa
thức nội suy chẳng hạn còn thỏa mãn điều kiện Tuy nhiên
trong trường hợp khi 𝑥 và 𝑦 là các đại lượng ngẫu nhiên, chẳng hạn là các kết quả của
các phương pháp đo đạc trọng địa chất hay các số liệu quan trắc môi trường hoặc số liệu
của các thí nghiệm hóa sinh, mối quan hệ giữa và 𝑦 (Hay còn gọi là mối tương quan)
là chưa đánh giá được thì việc xác định đa thức nội suy là không thực tế và khó thực
hiện. Trong những trường hợp như vậy, người ta thường sử dụng phương pháp dự đoán
8
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
tức là mong muốn xác định một hàm gần đúng với quy luật của các số liệu thực nghiệm
tức là giá trị của hàm cần đảm bảo lệch ít nhất so với các số liệu thực nghiệm, các hàm
như vậy được gọi là các hàm hồi quy.
Sau đây chúng ta đưa ra một số kết quả về mặt toán học thực nghiệm đối với lớp
các hàm hồi quy.
1.1.2.1. Phương pháp bình phương cực tiểu
Giả sử chúng ta có cặp các giá trị thực nghiệm đối với các
đối tượng ngẫu nhiên và 𝑦
…..
…..
Ta cần xác định mối tương quan giữa 2 đại lượng và 𝑦 theo công thức
y =F(x, a0, a1, … , am)
sao cho
trong đó a0, a1, …, am là các tham số cần xác định.
Để xác định các tham số a0, a1, …, am, ta đưa ra điều kiện là tổng bình phương
độ lệch giữa giá trị thực nghiệm và giá trị hàm tại các điểm
là nhỏ nhất, tức là:
(1.18)
Để hàm đạt cực trị thì theo lý thuyết về hàm số nhiều biến số, điều kiện cần là:
(1.19)
Hệ thức (1.19) chính là các hệ phương trình để giải ra các ẩn số
9
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tùy thuộc vào công thức của hàm , chúng ta sẽ thu được
các dạng hàm hồi quy khác nhau. Sau đây chúng ta sẽ nghiên cứu một số dạng hàm hồi
quy cụ thể.
1.1.2.2. Hàm hồi quy tuyến tính
Chúng ta tìm hàm hồi quy dưới dạng tuyến tính bậc nhất
Khi đó các hệ số cần xác định từ điều kiện cực trị hàm số
Điều kiện cần
Hay (1.20)
Hệ (1.20) là hệ phương trình với a,b. Giải hệ trên ta xác định được a và b
(1.21)
10
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1.1.2.3.
Hàm hồi quy bậc 2
Chúng ta tìm hàm hồi quy dưới dạng tuyến tính bậc hai
Khi đó các hệ số cần xác định từ điều kiện cực trị hàm số
Điều kiện cần
Hay
(1.22)
Hệ (1.22) chính là hệ phương trình đại số cho phép xác định ra các hệ số a, b, c.
Hoàn toàn tương tự, chúng ta có thể xác định được các hàm hồi quy bậc 3, bậc 4, bậc 5
…
1.1.2.4. Các phương pháp đưa về dạng tuyến tính
1/ Dạng hàm mũ
Lấy logarit 2 vế, ta có:
khi đó đặt ta thu được
2/ Dạng hàm lũy thừa
11
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Lấy logarit hai vế ta có:
Đặt
Ta thu được
Như vậy, bằng phép lấy logarit ta có thể đưa các dạng hàm mũ, hàm lũy thừa về
dạng hàm hồi quy tuyến tính
1.1.2.5. Hồi quy nhiều chiều (hồi quy bội)
Đặt bài toán
Xét các biến ngẫu nhiên – biến phụ thuộc
– biến độc lập
Giả sử qua thí nghiệm, ta thu được bảng số liệu sau đây:
….
….
….
…. … …. …. ….
….
Ta cần xác định hàm hồi quy bội dạng:
Y = a0 + a1x1 + a2x2 + …. + anxn
Trong đó Y = (y1, y2, …, ym)T
Các hệ số cũng được xác định từ điều kiện bình phương cực tiểu
2/ Một số dạng đưa về tuyến tính
a/ Hàm phi tuyến dạng tích
Logarit hóa 2 vế ta có
12
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
b/ Hàm dạng mũ
Logarit 2 vế ta có
Như vậy bằng lý thuyết các hàm hồi quy, qua các bộ số liệu thực nghiệm chúng
ta có thể xác định được mối quan hệ giữa các đại lượng ngẫu nhiên một cách gần đúng
thông qua các công thức của các hàm hồi quy khác nhau. Các công thức này sẽ làm công
cụ để đưa ra các quy luật tự nhiên thông qua các thí nghiệm. Việc xác định các công
thức hàm hồi quy có thể thực hiện được bằng phương pháp bình phương cực tiểu việc
tính toán có thể thực hiện được thông qua một số phần mềm.
1.2. PHÁT BIỂU BÀI TOÁN PHÂN TÍCH ĐIỂM RỦI RO 1.2.1 Mục tiêu của bài toán
Xuất phát từ nhu cầu thực tế Tổng cục Thuế để đánh giá xếp loại rủi ro doanh
nghiệp phục vụ công tác quản lý thuế của cơ quan thuế.
- Tính điểm rủ ro doanh nghiệp hỗ trợ công tác lập kế hoạch thanh tra, kiểm tra.
Lựa chọn trường hợp thanh tra, kiểm tra dựa trên cơ sở điểm rủi ro đã tính.
1.2.2 Yêu cầu của bài toán phân tích tính điểm rủi ro
1.2.2.1. Yêu cầu chung:
Việc triển khai thực hiện các công việc nhằm đáp ứng các công việc sau đây:
Xử dụng bộ tiêu chí đánh giá xác định độ mức độ rủi ro đối với NNT do Tổng
cục thuế cung cấp.
Thử nghiệm bộ tiêu chí với dữ liệu lịch sử 01 Cục Thuế.
Xây dựng bài toán tính điểm rủi ro dựa trên bộ tiêu chí phân tích đánh giá rủi ro
nhằm hỗ trợ cơ quan thuế lập kế hoạch thanh tra, kiểm tra thuế.
13
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1.2.2.2.
Yêu cầu cụ thể
Tính điểm rủi ro của doanh nghiệp được tính với ngưỡng từ 0 đến 100. Điểm 0
là rủi ro thấp nhất và điểm 100 là rủi ro cao nhất.
a). Nguồn thông tin phân tích, đánh giá tính điểm rủi ro được dựa trên cơ sở dữ
liệu thông tin ngành thuế hiện có, cụ thể:
+ Thông tin đăng ký thuế
+ Thông tin từ các tờ khai thuế (GTGT, TNDN, TTĐB...)
+ Thông tin từ Báo cáo tài chính DN
+ Thông tin thu nộp NSNN
+ Thông tin về kết quả thanh tra, kiểm tra
+ Thông tin từ các quyết định của cơ quan thuế
+ Thông tin nợ thuế
+ Thông tin về tình hình thực hiện tuân thủ nghĩa vụ thuế của NNT.
Đầu ra
Đầu vào (thuộc tính)
Các quy tắc nghiệp vụ
Lịch sử về tính tuân thủ của NNT
Lịch sử về tính tuân thủ của NNT
Tính điểm rủi ro NNT
Các mẫu thử
b). Quy trình thực hiện việc phân loại, đánh giá rủi ro NNT:
Mô hình toán học
Bộ lọc
Phương pháp tính toán
…
Lựa chọn các trường hợp thanh, kiểm tra
14
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 1: Sơ đồ quy trình phân loại, đánh giá rủi ro NNT
Giải thích sơ đồ:
Dữ liệu đầu vào bao gồm 16 chỉ tiêu các thông tin về người nộp thuế, lịch sử về
tính tuân thủ của NNT, các quy tắc đánh giá về nghiệp vụ,...
Sau khi thực hiện qua các hàm tính toán tự động các dữ liệu đầu vào, kết quả đầu
ra là danh sách NNT được đánh trọng số tương ứng với NNT. Từ danh sách này
cơ quan thuế sẽ lựa chọn các trường hợp thanh tra, kiểm tra.
Kết luận
Nội dung chính của chương 1 luận văn trình bày cơ sở lý thuyết về bài toán nội
suy, các phương pháp xây dựng các hàm nội suy cơ bản như hàm nội suy Lagrange, nội
suy bằng hàm ghép trơn cũng như phân tích độ phức tạp tính toán trong việc xây dựng
các hàm nội suy. Luận văn cũng đưa ra khái niệm về hàm hồi quy thực nghiệm cũng
như cơ sở toán học của phương pháp bình phương cực tiểu trong việc xác định hàm hồi
quy. Đây là các kiến thức quan trọng làm cơ sở cho việc nghiên cứu các kết quả trong
chương 2 và chương 3 của luận văn.
Để tìm hiểu được mối liên quan giữa bài toán tính điểm rủi ro của ngành thuế
phục vụ công tác thanh tra, kiểm tra. Với dữ liệu ngành thuế cung cấp bài toán tính điểm
rủi ro của ngành thuế với 16 chỉ tiêu được cung cấp đều có ảnh hưởng trực tiếp đến việc
tính toán điểm rủi ro cho từng doanh nghiệp, vậy mô hình dự báo đối với ngành thuế
phù hợp với mô hình hồi quy tuyến tính bội vì mỗi một chỉ tiêu là một thông số cần quan
tâm.
15
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 2. MÔ HÌNH HỒI QUY TUYẾN TÍNH
2.1. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN 2.1.1 Vấn đề mô hình hồi quy
Nhiều bài toán trong khoa học kỹ thuật đòi hỏi khảo sát quan hệ giữa hai hoặc
nhiều biến. Lấy làm ví dụ, chúng ta xét số liệu ở Bảng 1.1, ở đó y chỉ thị độ sạch của
oxy sinh ra trong quá trình chưng cất hóa học, còn x là nồng độ phần trăm của
hydrocarbon có mặt ở bình ngưng bộ phận chưng cất.
Bảng 1.1. Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon
TT y(%) TT x(%) x(%) y(%) TT x(%) y(%)
0.99 90.01 8 1.23 91.77 15 1.11 89.85 1
1.02 89.05 9 1.55 99.42 16 1.2 90.39 2
1.15 91.43 10 1.4 93.65 17 1.26 93.25 3
1.29 93.74 11 1.19 93.54 18 1.32 93.41 4
1.46 96.73 12 1.15 92.52 19 1.43 94.98 5
1.36 94.45 13 0.98 90.56 20 0.95 87.33 6
0.87 87.59 14 1.01 89.54 21 1.32 94.01 7
Khi thể hiện các điểm (xi, yi) lên đồ thị, ta nhận được đồ thị rải điểm như ở Hình
2.1. Ta nhận thấy, mặc dầu không có đường cong đơn giản nào đi qua các điểm này,
song có thể khẳng định rằng, các điểm ấy dường như nằm phân tán quanh một đường
cong với phương trình y = f(x) nào đó. Vậy có thể giả thiết rằng giá trị trung bình của Y
– biến chỉ thị độ sạch khi nồng độ phần trăm X của hydrocarbon tại mức x thỏa mãn
quan hệ
E(Y|x) = f(x) (2.1.1)
Để tổng quát hóa, chúng ta nên dùng mô hình xác suất bằng cách coi Y là biến
ngẫu nhiên mà ứng với giá trị x của biến X thì
Y = f(x) + (2.1.2)
với là sai số ngẫu nhiên.
Trước hết chúng ta xét trường hợp đơn giản nhất, cũng rất hay xảy ra trong thực
16
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
tế, khi f(x)=ax+b. Khi đó (2.1.2) trở thành
100
95
90
85 .8
1.0
1.2
1.4
1.6
Y= ax+b+ (2.1.3)
Hình 2.1. Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy
Mô hình (2.1.3) được gọi là mô hình hồi quy tuyến tính đơn; x được gọi là biến
hồi quy (hay biến độc lập, biến giải thích), Y được gọi là biến phản hồi (hay biến phụ
thuộc, biến được giải thích); a, b được gọi là các tham số hồi quy, a: hệ số chặn, b: hệ
số góc; đường thẳng y= ax + b được gọi là đường hồi quy (lý thuyết).
Mô hình được gọi là tuyến tính vì nó tuyến tính với các tham số a, b (a, b có lũy
thừa 1); được gọi là đơn vì có một biến hồi quy.
Giả sử ở quan sát thứ i biến X nhận giá trị xi , biến Y nhận giá trị yi và sai lầm
ngẫu nhiên là i . Như vậy, dưới dạng quan sát, mô hình (2.1.3) trở thành
{ (2.1.4)
𝑦1 = 𝑎 + 𝑏𝑥1 + 𝜀1 … … … … … … … . 𝑦𝑛 = 𝑎 + 𝑏𝑥𝑛 + 𝜀𝑛
Lưu ý rằng yi là các biến ngẫu nhiên.
Để khảo sát mô hình chúng ta phải tiến hành các thí nghiệm, các phép đo đạc hay
các phép quan sát, gọi chung là quan sát, để có bộ số liệu {(xi, yi)}. Thông qua bộ số
liệu này, người ta đưa ra các xấp xỉ (ước lượng) tốt cho các tham số. Mô hình với các
hệ số đã ước lượng được gọi là mô hình thực nghiệm (empirical model) hay mô hình lọc
(filted model). Dùng mô hình thực nghiệm chúng ta có thể tiến hành một số dự đoán,
tính các giá trị cực trị cũng như các khía cạnh của vấn đề điều khiển.
17
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2.1.2 Ước lượng hệ số hồi quy
Bây giờ giả sử các biến y1,..., yn nhận các giá trị cụ thể nào đó, vẫn ký hiệu là
y1,..., yn . Khi đó
i = yi - (axi + b) (2.1.5)
thể hiện độ lệch của quan sát thứ i so với đường hồi quy lý thuyết (xem Hình
2 = ∑ (𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖))2
𝑛 ∑ 𝑒𝑖 𝑖=1
𝑛 𝑖=1
2.2). Tổng bình phương các độ lệch
thể hiện “chất lượng” của việc xấp xỉ số liệu bởi đường hồi quy lý thuyết. Ta
2
không thể biết đường hồi quy lý thuyết, việc ta có thể làm là tìm các hệ số a, b để
𝑛 𝑖=1
→ 𝑚𝑖𝑛 (2.16) ℓ(a, b) = ∑ ((𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖))
𝜕ℓ
𝜕ℓ
Vì ℓ(a,b) là đa thức bậc 2 của 2 ẩn a, b; điều kiện cần để nó đạt cực tiểu là
𝜕𝑎
𝜕𝑏
Đ ộ lệch
Đư ờng hồi quy th ực nghiệm
Đư ờng hồi quy lý thuy ết
= = 0 (2.1.7)
Hình 2.2. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm
Thực ra chứng minh được đây cũng là điều kiện đủ. Đây là hệ 2 phương trình
𝑥𝑦̅̅̅̅−𝑥̅.𝑦̅
tuyến tính bậc nhất của a, b. không khó khăn gì ta tính được nghiệm của hệ này là:
𝑆𝑥𝑥/𝑛 𝑎̂ = 𝑦̅ − 𝑏̂𝑥̅
𝑏̂ = { (2.1.8)
1
1
1
trong đó
𝑛 ∑ 𝑥𝑖 𝑖=1
𝑛 ∑ 𝑦𝑖 𝑖=1
𝑛 ∑ 𝑥𝑖𝑦𝑖 𝑖=1
𝑛 ; 𝑆𝑥𝑥 = ∑ (𝑥𝑖 − 𝑥̅)2 𝑖=1
𝑛
𝑛
𝑛
𝑥̅ = ; 𝑦̅ = ; 𝑥𝑦̅̅̅ = (2.1.10)
18
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Với các ước lượng này ta được phương trình hồi quy thực nghiệm
(2.1.10) 𝑦 = 𝑎̂𝑥𝑖 + 𝑏̂
Phương pháp tìm các ước lượng của hệ số như trên gọi là phương pháp bình
phương cực tiểu.
Các phương trình (2.1.5) - (2.1.10) áp dụng với mọi giá trị cụ thể của các biến
ngẫu nhiên y1,..., yn nên chúng cũng đúng cho các biến ngẫu nhiên này.
Dưới đây, khi áp dụng các phương trình này và khi không sợ lầm lẫn, ta không
phân biệt các biến ngẫu nhiên y1,..., yn với các giá trị cụ thể của chúng.
2.1.3 Tính chất của ước lượng của các hệ số hồi quy
Từ (1.8) ta có ngay 𝑦̅ = 𝑎̂ + 𝑏̂𝑥̅. Như vậy, đường hồi quy đi qua điểm “trung
tâm” (x, y) của số liệu.
Lưu ý rằng, ước lượng hệ số (2.1.8) hoàn toàn không cần các giả thiết về các
thành phần ngẫu nhiên i . Để có các tính chất tốt của ước lượng, cần có những giả thiết
đặt lên các thành phần ngẫu nhiên này. Giả thiết dễ chấp nhận là chúng có kỳ vọng
không, cùng phương sai 2, độc lập; giả thiết tiếp sau là chúng có phân bố chuẩn:
1,...,n độc lập, cùng phân bố chuẩn N(0;2). (2.1.11)
Khi đó ước lượng hệ số có những tính chất thống kê tốt thể hiện ở định lý sau.
Định lý 1.1. Khi điều kiện (1.1.11) thỏa mãn thì:
a. 𝑎̂ và 𝑏̂ lần lượt là ước lượng không chệch của tham số a và b:
E[𝑎̂] = a; E[𝑏]̂ =b (2.1.12)
Phương sai của các ước lượng 𝑎̂ và 𝑏̂ được tính như sau
2 = 𝑉[𝑎̂] = 𝜎2 (1 𝜎𝑎 𝑛
(𝑥̅)2 𝑆𝑥𝑥
2 = V[𝑏̂] =
+ ),
𝜎2 𝑆𝑥𝑥
1
1
(2.1.13) 𝜎𝑏
2 𝑛 ∑ 𝑒𝑖 𝑖=1 =
𝑛−2
𝑛−2
𝜎̂ 2 = ∑ (𝑦𝑖 − 𝑦̂𝑖)2 Uớc lượng không chệch của phương sai chung 2 của mô hình cho bởi 𝑛 𝑖=1
với: 𝑦̂𝑖 = 𝑎̂ + 𝑏̂𝑥𝑖: dự báo của quan sát thứ i 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖: phần dư thứ i. Ý tưởng chứng minh phần i) dựa vào chỗ 𝑎̂ và 𝑏̂ là tổ hợp tuyến tính của các biến
ngẫu nhiên chuẩn nên chúng là các biến ngẫu nhiên chuẩn, rồi thực hiện phép lấy kỳ
19
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
vọng.
Vì 2 trong công thức (2.1.13) chưa biết, ta phải dùng xấp xỉ của nó là 𝜎̂ 2. Chúng
ta đưa ra định nghĩa.
Định nghĩa 2.2: Đối với mô hình HQTT đơn, sai số chuẩn hóa (thực nghiệm) của hệ số
góc và hệ số chặn lần lượt được xác định bởi
𝑎̂2 𝑆𝑥𝑥
𝑥̅2 𝑆𝑥𝑥
+ ] (2.1.15) 𝑠𝑒(𝑏̂) = √ ; 𝑠𝑒(𝑎̂) = √𝜎̂ 2 [1 𝑛
trong đó, 𝜎̂ 2 được tính theo (2.1.14).
2.1.4 Kiểm định giả thuyết
Một khâu quan trọng để kiểm tra tính phù hợp của mô hình hồi quy là kiểm định
giả thuyết. Các hệ số 𝑎̂, 𝑏̂, và 𝜎̂ 2 là những biến ngẫu nhiên nên có thể làm một số kiểm
định về chúng. Ta luôn nhớ rằng điều kiện (2.1.11) phải được thỏa mãn. Các đối thuyết
đưa ra dưới đây đều là 2 phía. Độc giả có thể đưa ra đối thuyết 1 phía với điều chỉnh
thích hợp các ngưỡng phê phán.
a. Sử dụng kiểm định T
Hệ số góc là tham số quan trọng nhất của mô hình hồi quy tuyến tính đơn. Xét
bài toán kiểm định giả thuyết hai phía:
𝑏0 𝐻1
(2.1.16) 𝐻0: 𝑏 = : 𝑏 ≠ 𝑏0
Ở đây, b0 là giá trị cho trước. Từ giả thiết (2.1.11), yi là các biến ngẫu nhiên độc lập và 𝑦𝑖~𝑁(𝑎 + 𝑏𝑥𝑖: 𝜎2). 𝑏̂ là tổ hợp tuyến tính của các biến ngẫu nhiên yi nên nó cũng có phân bố chuẩn. Theo Định lý 1.1, 𝑏̂ có phân bố chuẩn N(b;2 /SXX) . Ngoài ra,
như trong chứng minh của Định lý trên, (n - 2)̂2/2 có phân bố khi bình phương với n
- 2 bậc tự do và độc lập với 𝑏̂ . Theo Định lý 3.21, dưới giả thuyết H0 thì
𝑏̂−𝑏0 √̂2 ⁄
𝑆𝑥𝑥
~𝑇(𝑛 − 2) (2.1.17) 𝑇𝑏 =
Như vậy, chúng ta sẽ bác bỏ H0 (ở mức ý nghĩa ) nếu
|𝑏̂− 𝑏0| 𝑠𝑒(𝑏̂)
|𝑏̂−𝑏0| √̂2 ⁄
𝑆𝑥𝑥
| = (𝑛 − 2) (2.1.18) |𝑇𝑏 = > 𝑡 2
Trường hợp đặc biệt quan trọng là khi b0 = 0:
20
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
H0: b = 0 / H1: b 0. (2.1.19)
Điều này liên quan đến ý nghĩa (hay tác dụng) của hồi quy (significance of
regression): Nếu không bác bỏ H0 (coi b = 0) thì có nghĩa rằng không có một quan hệ
tuyến tính nào giữa X và Y (có thể là quan hệ thực sự của X và Y là quan hệ phi tuyến),
sự thay đổi của biến X không kéo theo sự thay đổi dự đoán biến Y, X không có (hoặc
rất ít) tác dụng để dự đoán Y; dự đoán cho Y tốt nhất nên dùng Y.
Tương tự, giả thuyết liên quan đến hệ số chặn là
H0 : a = a0 / H1 : a a0 . (2.1.20)
Bởi vì
+
]
𝑎̂−𝑎0 1 √̂2[ 𝑛
𝑥̅ 𝑆𝑥𝑥
~𝑇(𝑛 − 2) (2.1.21) 𝑇𝑎 =
Nên giả thuyết bị bác bỏ ở mức nếu
|𝑎̂−𝑎0| 𝑠𝑒(𝑎̂)
+
]
√̂2[
|𝑎̂− 𝑎0| 𝑥̅2 1 𝑆𝑥𝑥 𝑛
= (𝑛 − 2). (2.1.22) |𝑇𝑎| = > 𝑡 2
Phân tích phương sai
Phương pháp phân tích phương sai được dùng để kiểm định tính hiệu quả của
việc lập mô hình. Trước hết, từ chỗ 𝑦𝑖 − 𝑦̅ = (𝑦̂𝑖 − 𝑦̅) + (𝑦𝑖 − 𝑦̂𝑖), bình phương hai vế
rồi lấy tổng ta được:
𝑛 𝑖=1
𝑛 𝑖=1
𝑛 𝑖=1
𝑛 𝑖=1
(2.1.23) ∑ (𝑦𝑖 − 𝑦̅)2 = ∑ (𝑦̂𝑖 − 𝑦̅)2 + ∑ (𝑦𝑖 − 𝑦̂𝑖)2
𝑛 𝑖=1
,
Chúng ta xác định các đại lượng sau đây: Tổng bình phương đầy đủ:𝑆𝑆𝑇 = 𝑆𝑌𝑌 = ∑ (𝑦𝑖 − 𝑦̅)2, Tổng bình phương hồi quy: 𝑆𝑆𝑅 = ∑ (𝑦̂𝑖 − 𝑦̅)2 Tổng bình phương các phần dư (các sai số):
𝑛 𝑆𝑆𝐸 = ∑ (𝑦𝑖 − 𝑦̂𝑖)2 𝑖=1
(2.1.24)
Biểu thức (1.1.23) được viết lại dưới dạng:
SST = SSR + SSE (2.1.23’)
Có thể chứng minh rằng, SSR/[2 + b2Sxx] và SSE/2 là những biến ngẫu nhiên
độc lập, có phân bố khi bình phương với 1 và n - 2 bậc tự do tương ứng. Như vậy, nếu
giả thuyết H0 : b=0 là đúng thì
21
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
𝑆𝑆𝑅
1⁄
𝑀𝑆𝑅 𝑀𝑆𝐸
𝑆𝑆𝐸 ⁄ (𝑛−2)
(2.1.25) = 𝐹0 =
có phân bố F(1,n-2).
Các đại lượng MSR,MSE gọi chung là bình phương trung bình.
Nói chung, bình phương trung bình được tính bằng cách lấy tổng bình phương
chia cho bậc tự do của nó.
Chúng ta sẽ bác bỏ H0 nếu F0 > f(1;n-2).
Trong các phần mềm thống kê, thủ tục kiểm định được trình bày ở bảng phân
tích phương sai giống như Bảng 2.1.
22
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Bảng 2.1. Phân tích phương sai để kiểm định tính hiệu quả của hồi quy
Nguồn Bậc tự do P- giá trị F0 Tổng các bình phương Bình phương trung bình
P
𝑀𝑆𝑅 𝑀𝑆𝐸 1 n-2 n-1 Hồi quy Sai số MSR MSE
Đầy đủ SSR SSE SST
Nếu P-giá trị lớn hơn mức ý nghĩa chọn trước, chúng ta phải chấp nhận giả thuyết
b=0 , tức là việc xây dựng mô hình không có tác dụng. Cần phải tìm mô hình khác, lấy
thêm số liệu…
Lưu ý. Chứng minh được, thủ tục phân tích phương sai và thủ tục kiểm định T
cho bài toán kiểm định giả thuyết 2 phía (2.1.16) là tương đương theo nghĩa chấp nhận
giả thuyết hay bác bỏ giả thuyết là đồng thời với 2 thủ tục này. Tuy nhiên, kiểm định T
linh động hơn, có thể xét kiểm định 1 phía, trong khi phân tích phương sai chỉ có thể xét
1 phía
2.1.5 Khoảng tin cậy
a. Khoảng tin cậy của các tham số
Bởi vì các thống kê Ta, Tb ở (2.1.22), (2.1.17) có phân bố T(n –2) nên dễ dàng
xây dựng khoảng tin cậy cho chúng.
Với giả thiết chuẩn (2.1.11), khoảng tin cậy 100(1-)% cho hệ số chặn a và hệ
số góc b lần lượt là
2⁄ (𝑛 − 2)√̂2 [1
𝑛
𝑥̅2 𝑆𝑋𝑋
(𝑎̂ ± 𝑡 + ]),
2⁄ (𝑛 − 2)√ ̂2
𝑆𝑋𝑋
(𝑏̂ ± 𝑡 ) (2.1.26)
Khoảng tin cậy cho đáp ứng trung bình
(𝑥0−𝑥̅)2 𝑆𝑋𝑋
]. Tuy nhiên, vì nhói chung chúng ta không biết 2 mà phải dùng ước + Vì y0 = E[Y|x0] = a + bx0 nên một ước lượng điểm cho giá trị này là 𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0 . Đây là ước lượng không chệch của a và b. Phương sai của 𝑎̂ + 𝑏̂𝑥0 là 2 [1 𝑛
23
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
+
]
√̂2[
𝑦̂0− 𝑦0 1 𝑛
𝑥̅2 𝑆𝑥𝑥
lượng ̂2 của nó. Dễ thấy rằng ~ 𝑇(𝑛 − 2). Từ đó ta có:
Khoảng tin cậy 100(1-)% cho đáp ứng trung bình khi x= x0 là (𝑦̂0 ± ), trong
đó
(𝑥0−𝑥̅)2 𝑆𝑋𝑋
] + . (2.1.27)
= 𝑡 2⁄ (𝑛 − 2)√̂2 [1 { 𝑛 𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0
Dự đoán quan sát tương lai
Một ứng dụng quan trọng của phân tích hồi quy là dự đoán quan sát (cá biệt) của
biến Y trong tương lai tại mức x0 cho trước của biến hồi quy, ký hiệu là Y|x0 hay đơn
giản là Y0 .
Ước lượng điểm cho giá trị quan sát tương lai của biến ngẫu nhiên là giá trị trung
bình của nó, ở đây là y0 = a + bx0. Các tham số a, b lại chưa biết, ta phải dùng ước lượng
của chúng. Vậy, ước lượng điểm cho y0 là:
(2.1.28) 𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0
Chú ý rằng biến ngẫu nhiên Y0 là quan sát tương lai, nó độc lập với các quan sát
quá khứ y1,...,yn. Cùng với các giả thiết độc lập, cùng phân bố chuẩn của các sai số, sai
1
số dự đoán 𝑒0 = 𝑌0 − 𝑦̂0 có phân bố chuẩn quy tâm, phương sai
𝑛
(𝑥0−𝑥0)2 𝑆𝑋𝑋
+ ]. 𝑉[𝑒0] = 𝑉[𝑌0] + 𝑉[𝑦̂0] = 2 [1 +
Giống như trên, ta tìm được khoảng tin cậy (còn gọi là khoảng dự đoán) 100(1-
1
)% cho quan sát tương lại Y0 tại x0 là (𝑦̂0 ± ∗) với
𝑛
(𝑥0−𝑥̅)2 𝑆𝑋𝑋
+ ] , (2.1.29)
∗ = 𝑡 2⁄ (𝑛 − 2)√̂2 [1 + { 𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0
Nhận xét. Cả hai khoảng (1.1.27) và (1.1.29) đều đạt cực tiểu tại x0 = 𝑥̅ và rộng
dần khi x0 đi ra xa x. Mặt khác, với cùng mức ý nghĩa, cùng xét tại điểm x0 , khoảng dự
đoán luôn luôn rộng hơn khoảng tin cậy. Chúng ta sẽ thấy rõ hơn hiện tượng này ở ví
dụ sau.
Ví dụ 1.1. Thông thường, người ta vẫn nghĩ mức tiêu thụ nhiên liệu không phụ
thuộc vào việc lái xe nhanh hay chậm. Để kiểm tra người ta cho chạy thử một chiếc xe
24
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
con ở nhiều vận tốc khác nhau từ 45 đến 70 dặm/giờ. Kết quả ghi thành bảng
Vận tốc 45 50 55 60 65 70 75
Liệu có thể thay đổi cách nghĩ rằng mức tiêu thụ nhiên liệu không phụ thuộc vào
Mức tiêu thụ 24,2 25,0 23,3 22,0 21,5 20,6 19,8 (ml/gal)
vận tốc xe? Tìm các khoảng tin cậy 95% cho giá trị trung bình và của quan sát tương lai
của mức tiêu thụ nhiên liệu khi xe ở vận tốc 50 ml/h .
Chúng ta xét mô hình hồi quy tuyến tính đơn Y = a + bx + , trong đó Y là mức
tiêu thụ nhiên liệu, x là vận tốc xe. Cần phải xét xem hệ số b có bằng không hay không.
Muốn thế ta xét bài toán kiểm định:
H0 : b = 0/H1 : b 0 .
Tính toán các thống kê liên quan ta được
𝑥̅ = 60; 𝑆𝑥𝑥 = 700; 𝑦̅ = 22,757; 𝑆𝑌𝑌 = 21,757; 𝑆𝑌𝑌 = −119 𝑎̂ = 32,543; 𝑏̂ = -0.17; SSR = 1.527
Mô hình thực nghiệm: y = 32,54- 0,17x.
Tra bảng ta thấy t0.025(5) = 2,571. Theo (1.1.26), khoảng tin cậy 95% của b là (-
) = (-0,224;- 0,116). Khoảng này không chứa điểm 0, vậy ta bác bỏ 0,170 2.571√1.527 3500
giả thuyết b = 0 với mức ý nghĩa 5%; coi b 0, tức là mức tiêu thụ nhiên liệu phụ thuộc
vào vận tốc xe. Cũng có thể tính trực tiếp để bác bỏ b = 0:
= 𝑇𝑏 = = 8,13 > 2,571 = 𝑡0.025 |𝑏̂ − 𝑏0| √𝜎̂ 2/𝑆𝑋𝑋 |−0.17| √0,305426 700
Dùng (2.1.27) và (2.1.29), khoảng tin cậy và khoảng dự đoán 95% tại vận tốc
50ml/h là:
(50−60)2 700
+ ]) = (24,04 ± 1,37) = (22,67; 24,41) (24,04 ± 2,571 [√1 7
25
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1
7
(50−60)2 700
(24,04 ± 2,571 [√1 + + ]) = (24,04 ± 2,92) = (21,12; 26,96)
Khi x0 thay đổi, mút trên và mút dưới của khoảng tin cậy tạo thành 2 đường
hyperbol giữa, của khoảng dự báo tạo thành 2 đường hyperbol ngoài ở Hình 2.3. Một
lần nữa ta thấy khoảng tin cậy cho giá trị trung bình của quan sát là hẹp hơn.
Hình 2.3. Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2 đường
hyperbol ngoài) cho mức tiêu thụ nhiên liệu
Lưu ý khi sử dụng mô hình hồi quy
Trường hợp nội suy. Nói chung, sau những kiểm định cần thiết, chúng ta có thể
sử dụng mô hình hồi quy thực nghiệm (2.1.10) để làm một số dự đoán “nội suy”. Cụ thể
là, khi X nhận giá trị x0 nằm trong dải biến thiên [a;b] của số liệu, giá trị dự đoán của trung bình, cũng như giá trị quan sát tương lai của biến đầu ra sẽ là 𝑎̂ + 𝑏̂𝑥0… Sự chính xác của các công thức này đã chỉ ra ở phần b) và c).
Trường hợp ngoại suy. Sử dụng phương trình hồi quy để dự đoán giá trị của biến
Y ứng với những giá trị của biến đầu vào X nằm ngoài dải biến thiên của số liệu gọi là
dự đoán ngoại suy. Tuy nhiên, ở ngoài dải biến thiên của số liệu, các giả thiết về mô
hình, thậm chí là quan hệ E[Y|X = x] = ax + b có thể không còn đúng. Vì thế, dự đoán
với sai lầm đáng kể có thể gây ra từ ngoại suy.
26
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 2.4. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm
Một cách khắc phục là lấy thêm quan sát (làm thêm thí nghiệm) để dải biến thiên
rộng ra, chứa điểm ta quan tâm. Tuy nhiên trong kỹ thuật, nhiều khi ngoại suy là cách
duy nhất mà ta có thể tiệm cận vấn đề. Cần lưu ý rằng ta nên áp dụng nó một cách mềm
mỏng, với x0 không xa dải biến thiên [a; b], ta vẫn có thể có kết quả khả dĩ. Tóm lại, ta
chỉ áp dụng ngoại suy một cách hãn hữu khi rất cần thiết, chưa thể có đủ số liệu và không
còn cách nào khác.
2.1.6 Tính phù hợp của mô hình
a. Phân tích phần dư
Bước khởi đầu của phân tích hồi quy là dựng đồ thị rải điểm của quan sát. Nếu
dáng điệu đồ thị tập trung quanh 1 đường thẳng nào đó, chúng ta sẽ đi tìm các hệ số a,
b. Tuy nhiên, việc lập mô hình phải dựa vào các giả thiết chuẩn (2.1.11). Vì các phần
dư ei = yi - 𝑦̂i đại diện tốt cho các sai số i , người ta thường dùng phân tích phần dư để
kiểm tra xem mô hình có phù hợp hay không.
Các phần dư phải tuân theo phân bố chuẩn. Một phương pháp kiểm tra xấp xỉ
tính chuẩn là lập tổ chức đồ khi số quan sát n lớn, hoặc lập đồ thị P - P chuẩn khi n nhỏ.
⁄ , i = 1, ..n. Nếu các Người ta cũng hay dùng các phần dư chuẩn hóa 𝑑𝑖 = 𝑒𝑖 √̂2
sai số có phân bố chuẩn, có khoảng 95% các phần dư chuẩn hóa rơi vào khoảng (-2; 2)
(nếu Z N(0;1) thì P{-2 < Z < 2} = 0,95). Hơn nữa, đồ thị di phải có dạng bình thường,
tập trung “đều đặn” trong dải (-2; 2) quanh trục hoành như dạng (a) ở Hình 2.5. Vi phạm
điều đó, chẳng hạn nếu nó có dạng (b), (c), (d) thì phải sửa chữa mô hình, hay tìm mô
hình khác và phân tích lại.
Bởi vì {i,i =1,...,n} là dãy các biến ngẫu nhiên độc lập thì khi sắp xếp chúng theo 27
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
thứ tự bất kỳ vẫn được dãy các biến ngẫu nhiên độc lập. Chúng ta vừa nói đến dãy phần
dư di theo chiều tăng của chỉ số thời gian i. Người ta cũng lập dãy phần dư theo chiều
tăng của xi hay của 𝑦̂𝑖.
Nếu một trong các đồ thị đó có dạng (b) thì phương sai của sai số tăng lên theo
thời gian (theo chiều tăng của xi hay của 𝑦̂𝑖 ), xảy ra (c) thì phương sai của sai số thay
đổi, xảy ra (d) thì cần thêm một số hạng bậc cao hơn vào mô hình đa thức hay phải tìm
mô hình khác.
Hình 2.5. Dáng điệu phần dư
Hệ số xác định (coefficient of determination)
Hệ số xác định ký hiệu bởi R 2 được tính theo công thức sau:
𝑆𝑆𝑅 𝑆𝑆𝑇
𝑆𝑆𝐸 𝑆𝑆𝑇
𝑅2 = = 1 − (2.1.30)
Theo (2.1.23’), tính chất của hệ số xác định là: 0 R2 1.
Ta thường coi R2 như là độ biến động trong biến đầu ra được giải thích bởi các
giá trị đầu vào khác nhau. Khi R2 lớn, gần bằng 1, thì có nghĩa rằng hầu như độ biến
động của các biến đầu ra được giải thích bởi sự khác biệt của các biến đầu vào. Chẳng
hạn, với số liệu mức tiêu thụ xăng, vì R2 = 0,9298 nên ta nói mô hình chứa đựng 92,98
% độ biến động trong số liệu.
Gọi rXY là hệ số tương quan mẫu của các cặp điểm (xi,yi) thì ta có thể thấy
R2 = rXY2 (2.1.30’)
Như vậy, nếu coi X là biến ngẫu nhiên thì hệ số xác định R2 chính bằng bình
28
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2 vì X không là biến ngẫu nhiên.
phương của hệ số tương quan mẫu giữa X và Y. Tuy nhiên chúng ta vẫn viết hệ số xác
định là R2 mà không phải rXY
Giá trị R2 thường được xem như một chỉ thị cho tính “tốt” của mô hình: Khi giá
trị này gần bằng 1, mô hình phù hợp tốt; khi giá trị này nhỏ, gần bằng 0, mô hình không
phù hợp với số liệu, cần tìm mô hình khác. Tuy nhiên, cần thận trọng, ngưỡng nào cho
một mô hình cụ thể lại là điều ta chưa biết, ít ra là đến thời điểm này.
Ví dụ 2.2. Trong nhà máy sản xuất các linh kiện bán dẫn, linh kiện hoàn chỉnh là
dây được bó xếp lại thành một cái khung. Người ta quan tâm đến 3 biến: lực kéo (số đo
của lực làm cho khung bị hỏng), độ dài của dây, và chiều cao của khuôn đúc. Số liệu có
25 quan sát thể hiện ở 4 cột đầu Bảng 2.5.
Trước hết ta quan tâm đến mối quan hệ giữa lực kéo y và độ dài x1 của dây, ở
đây để tiện ta vẫn ký hiệu là x. Thể hiện số liệu lên đồ thị, dường như đây là quan hệ
1
tuyến tính. Chúng ta dùng mô hình Y = ax +b + để lọc số liệu. Ta tính được:
𝑛 𝑖=1 = 8,24; 𝑆𝑋𝑋 = ∑ (𝑥𝑖 − 𝑥̅)2 = 698,56 ∑ 𝑥𝑖
𝑛 𝑖=1
𝑛
1
1
𝑥̅ =
𝑛 ∑ 𝑦𝑖 𝑖=1 = 29,0328; 𝑥𝑦̅̅̅ =
𝑛 𝑖=1
𝑛
𝑛
1
𝑦̅ = 320,3388; ∑ 𝑥𝑖𝑦𝑖 =
𝑛 𝑖=1
𝑛
(𝜎𝑦𝑛)2 = = 224,237 ∑ (𝑦𝑖 − 𝑦̅)2
𝑥𝑦̅̅̅̅−𝑥̅𝑦̅
Từ đó ước lượng của các hệ số là:
𝑆𝑋𝑋/𝑛
𝑏̂ = = 2,9027; 𝑎̂ = 𝑦̅ − 𝑏̂𝑥̅ = 5,115
Ta thu được phương trình:
1
𝑌 = 5,115 + 2,9027𝑥 (2.1.32)
𝑛 𝑖=1
𝑛−2
. Tuy nhiên trước hết Ước lượng của 2 có thể tính theo ̂2 = ∑ (𝑦𝑖 − 𝑦̂𝑖)2
(∑
)
ta tìm hệ số xác định:
(∑
)
𝑆𝑆𝑅 𝑆𝑆𝑇
(𝑦̂𝑖−𝑦̅)2 (𝑦𝑖−𝑦̅)2
𝑛 𝑖=1 𝑛 𝑖=1
𝑅2 = = = 0.964
Đây là giá trị khá lớn. Ta nói có 96,4% số liệu được giải thích bởi mô hình.
Theo (2.1.31) thì
𝑛 ∑(𝑦𝑖 − 𝑦̂𝑖)2 = 𝑖=1
𝜎̂ 2 = (1 − 𝑅2)(𝑦𝜎𝑛)2 = 9,5696 = 3,09342 1 𝑛 − 2 𝑛 𝑛 − 2
29
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Bây giờ ta kiểm định hệ số b = 0. Theo (2.1.15),
𝑠𝑒(𝑏̂) = √ = = 24,80 = 0.1179 ⇒ 𝑇𝑏 2,9027 0,1179 |𝑏̂ − 0| 𝑠𝑒(𝑏̂) 𝜎̂ 2 𝑆𝑋𝑋
P – giá trị của phân bố Student 23 bậc tự do ứng với giá trị 24,80 là 0,000. Vậy
ta chấp nhận giả thuyết b 0.
Bây giờ ta xét phân tích phương sai.
𝑛 𝑖=1
𝑆𝑆𝑅 1
= 5885,9 𝑆𝑆𝑅 = ∑ (𝑦̂𝑖 − 𝑦̅)2 = 5885,9 ⇒
𝑛 𝑖=1
𝑆𝑆𝐸 𝑛−2
220,1 ⇒ 𝜎̂ 2 = = 9,569 𝑆𝑆𝐸 = ∑ (𝑦𝑖 − 𝑦̂𝑖)2 =
𝑛 𝑖=1
6105,9
⇒ 𝐹 = = 615,08 𝑆𝑆𝑇 = ∑ (𝑦𝑖 − 𝑦̅)2 = 𝑆𝑆𝑅 1⁄ ⁄ 𝑆𝑆𝐸 (𝑛−2)
P - giá trị của phân bố F(1,23) ứng với giá trị 615,08 bằng 0,000 nên ta cũng kết
luận b0.
Các kết quả tính toán trên được cô đọng lại vào trong bảng phân tích hệ số và
phân tích phương sai. Thông thường các phần mềm thống kê đều đưa ra các bảng này
(xem Bảng 2.2).
Bảng 2.2. Phân tích hệ số và phân tích phương sai cho Ví dụ 2.2
R R Square Std. Error of the Estimate Adjusted R Square
.982 .964 .962 3.0934
df Mean Square F Sig. Sum of Squares
Regression 5885.852 5885.852 615.080 .000 1
Residual 220.093 9.569 23
Total 6105.945 24
95% Confidence Interval for B
t Sig. B Lower Bound Upper Bound Unstandardized Coefficients Std. Error
30
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Constant 5.115
1.146 4.464 .000 2.744 7.485
X1 2.903 .117 24.801 .000 2.661 3.145
Ta lập đồ thị rải điểm của các phần dư chuẩn hóa di =ei /̂ theo 𝑦̂𝑖 như Hình 2.6. Nhìn vào đồ thị ta thấy có 1 số liệu nằm ngoài dải [-2; 2]. Phần dư chuẩn hóa phân bố khá đều đặn trong dải [-2; 2], duy chỉ có 1 giá trị nằm ngoài dải này (tỷ lệ vi
phạm là 1/25, nhỏ hơn 5% nên chấp nhận được).
Tóm lại, chúng ta chấp nhận mô hình (2.1.32).
Bây giờ một dây có độ dài 8 sẽ có sức kéo trung bình là: 𝑦̂(8) = 5,115+ 2,9027.8
= 28,336.
Theo (2.1.27), khoảng tin cậy 90% của ước lượng này là (28,336 1.062) =
(27,274; 29,398). Theo (2.1.29), khoảng tin cậy 90% cho quan sát tương lai khi dây có
3
2
1
0
0
20
40
60
80
-1
-2
-3
độ dài 8 là (28,336 5,407) = (22.929; 33.743) .
Hình 2.6. Đồ thị phần dư chuẩn hóa cho số liệu độ kéo
2.1.7 Tuyến tính hóa một số mô hình
Dùng phép biến đổi loga với biến hồi quy hay biến phản hồi, hoặc với cả hai,
dùng phép nghịch đảo với biến hồi quy ..., ta có thể đưa một số mô hình về dạng tuyến
tính.
Hồi quy logarith y = a + b.ln x
Hồi quy mũ y = a.eb.x ( ln y = lna + bln x)
Hồi quy lũy thừa y = a.xb ( ln y = lna + bln x)
Hồi quy nghịch đảo y = a + b.(1/ x)
31
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hồi quy tam thức y = a + bx +cx2
2.2. MÔ HÌNH HỒI QUY TUYẾN TÍNH BỘI
Mô hình hồi quy tuyến tính bội là sự mở rộng tự nhiên của mô hình hồi quy
tuyến tính đơn. Chúng ta ghi ra dưới đây những kết quả tóm tắt.
2.2.1 Phương trình hồi quy
a. Dạng quan sát và dạng ma trận
Giả sử mối quan hệ giữa biến phụ thuộc (biến phản hồi) Y và k biến độc lập (biến
hồi quy) x1,...,xk cho bởi mô hình
(2.2.1) 𝑌 = 0 + 1𝑥1 + ⋯ + 𝑘𝑥𝑘 +
trong đó 0, 1,..., k là các tham số chưa biết, gọi là các hệ số hồi quy, 0 gọi là hệ số
chặn, 1,..., k là các hệ số góc; là sai số ngẫu nhiên có kỳ vọng 0 và phương sai 2 .
Khi không sợ nhầm lẫn, ta viết ngắn gọn (2.2.1) dưới dạng
E[Y | x1,..., xk ] = 0 + 1x1 + ...+ kxk (2.2.2)
hay đơn giản hơn nữa
E[Y] = 0 + 1x 1 + ... + kxk (2.2.3)
Để tìm hiểu mô hình (2.2.1) chúng ta tiến hành n quan sát và ghi lại kết quả dưới
dạng bảng như Bảng 2.4.
Bảng 2.4. Số liệu cho mô hình hồi quy bội
y x1 x2 . x k
x1k
y1 x11 x12 .
. . . .
xnk
yn xn1 xn2 .
Như vậy, dưới dạng quan sát, mô hình (2.2.1) viết lại dưới dạng:
{ (2.2.4)
𝑌1 = 𝛽0 + 𝛽1𝑥11+ . . +𝛽𝑘𝑥1𝑘 + 𝜀1 … … … … … … … … … … … … … . . 𝑌𝑛 = 𝛽0 + 𝛽1𝑥𝑛1+ . . +𝛽𝑘𝑥𝑛𝑘 + 𝜀𝑛
Để thuận lợi cho ký hiệu và các phân tích tiếp theo, chúng ta sử dụng các ký hiệu 32
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
ma trận sau đây.
𝑦 = [ ] ; 𝑥 = [ ] 𝑦1 . 𝑦𝑛 1 𝑥11 𝑥12 . . . 𝑥1𝑘 . . . . . . . . . . . 1 𝑥𝑛1 𝑥𝑛2 . . . 𝑥𝑛𝑘
𝛽 = [ ] ; 𝜀 = [ ] 𝜀1 . 𝜀𝑛 𝛽0 . 𝛽𝑘
Khi đó, phương trình (2.2.4) được viết lại dưới dạng ma trận
y = Xβ + ε, (2.2.5)
Trong đó y là n - véc tơ quan sát, X là ma trận cấp np của các biến độc lập (p =
k + 1) - còn gọi là ma trận kế hoạch - β là p - véc tơ các hệ số hồi quy, ε là n - véc tơ sai
số ngẫu nhiên.
Tuyến tính hóa một số mô hình
Mô hình (2.2.3) là tuyến tính vì nó tuyến tính với các tham số i .
Trong ứng dụng chúng ta thường gặp mô hình dạng:
(2.2.6) 𝐸[𝑌] = 𝛽1𝑔1(𝑥1, … , 𝑥𝑙) + ⋯ 𝛽𝑝𝑔𝑝(𝑥1, … , 𝑥𝑙)
trong đó g1,...,gp là các hàm nào đó của các biến hồi quy x1,...,𝑥ℓ.
Đây là mô hình tuyến tính với các tham số i , phi tuyến với các biến x1,..., 𝑥ℓ.
Xét phép đổi biến
𝑧1 = 𝑔1(𝑥1, … , 𝑥ℓ); … ; 𝑧𝑝 = 𝑔𝑝(𝑥1, … , 𝑥ℓ)
Ta có thể đưa (2.2.5) về dạng thông thường
(2.2.7) 𝐸[𝑌] = 𝛽1𝑧1 + ⋯ + 𝛽𝑝𝑧𝑝
là mô hình tuyến tính với cả tham số lẫn các biến hồi quy. Như vậy từ nay ta vẫn
gọi mô hình (2.2.6) là tuyến tính. Xét một số trường hợp đặc biệt.
b1. Hồi quy đa thức. Xét mô hình
E[Y] = a0 + a1x + … + akxk .
Đặt z1= x; ...; zk = xk , ta đưa mô hình này về dạng
E[Y] =a 0 +a1z1 +... +a kzk .
Đặc biệt, người ta hay xét mô hình tam thức và đa thức bậc ba:
E[Y] = a + cx + cx2,
33
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
E[Y] = a + cx + cx2+ dx3.
b2. Mô hình đa thức bậc 2 của hai biến. Đó là mô hình
E[Z] =a +bx +cy +dx2 + exy + fy2
Đây là mô hình tuyến tính với 6 tham số a, b, c, d, e, f. Trường hợp giả thuyết e
= 0 bị bác bỏ, ta nói hai biến hồi quy x và y là tương tác với nhau, mô hình có chứa số
hạng tích chéo xy. Trái lại, nếu e = 0, ta nói mô hình không chứa số hạng tích chéo xy,
2 biến x và y là không tương tác với nhau.
b3. Dùng phép biến đổi loga với biến phản hồi
Giả sử biến phản hồi Y biểu diễn dưới dạng hồi quy mũ:
𝑌 = 𝐴𝑒1𝑥1+..+ 𝑘𝑥𝑘.
trong đó A, 1, ..., k là các tham số, là sai số ngẫu nhiên dạng nhân.
Logarit hóa ta được
𝑍 = 𝐿𝑛𝑌 = 𝑙𝑛𝐴 + 1𝑥1 + ⋯ + 𝑘𝑥𝑘 +
là mô hình tuyến tính thông thường.
Người ta cũng dùng phép biến đổi loga với các biến hồi quy, hoặc với cả biến
phản hồi lẫn các biến hồi quy để được các mô hình tuyến tính hóa.
b4. Hồi quy có chứa sin, cos.
Giả sử biến phụ thuộc có dạng
Y(t) =a + bt + csint +dcost + .
Bằng cách đặt x1 = t; x2 = sin t; x3 = cos t , ta đưa mô hình về dạng tuyến tính
thông thường.
2.2.2 Ước lượng hệ số hồi quy và tính chất của ước lượng
Giả thiết đầu tiên cần có là ma trận X có số hàng ít nhất bằng số cột, p = k +1
n, và hạng của nó bằng số cột:
Rank(X) = p. (2.2.8)
Khi đó, ước lượng làm cực tiểu tổng bình phương các sai số
gọi là ước lượng bình phương cực tiểu, ký biệu là ̂, cho bởi:
𝛽̂ = (𝑋𝑇𝑋)−1𝑋𝑇𝑦 (2.2.9)
34
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1
1
Giống như (1.1.14), ước lượng cho sai số chung của mô hình là
2 𝑛 ∑ 𝑒𝑖 𝑖=1 =
𝑛 𝑖=1
𝑛−𝑝
𝜎̂ 2 = (2.2.10) ∑ (𝑦𝑖 − 𝑦̂𝑖)2
1𝑥𝑖1 + ⋯ + ̂
0 + ̂
𝑘𝑥𝑖𝑘: dự báo của quan sát thứ i
𝑛−𝑝 𝑦̂𝑖 = ̂ ei = yi - 𝑦̂𝑖 : phần dư thứ i.
với
Nhận thấy vế phải của (2.2.10) có chứa mẫu số n -p. Vậy, khi số biến hồi quy p
tăng lên, (chẳng hạn với hồi quy đa thức, khi số bậc của đa thức tăng) có thể sai số mô
hình tăng lên. Ta sẽ có mô hình cực tồi nếu p n.
Để nghiên cứu các tính chất của ước lượng tham số, giống với trường hợp có 1
biến hồi quy, cần có giả thiết:
1,..., n độc lập, cùng phân bố chuẩn N(0;2). (2.2.11)
Định lý 2.2. Với các giả thiết (2.2.8), (2.2.11) thì:
a. 𝛽̂ là ƯL không chệch của véc tơ tham số : E[𝛽̂ ˆ] = .
Ma trận covarian của 𝛽̂ cho bởi:
Cov(𝛽̂) = (XT X)-12
2 theo (2.2.10) là ước lượng không chệch của 2 :
E[𝜎̂ 2] = 2
2.2.3 Kiểm định giả thuyết
a. Kiểm định ý nghĩa của hồi quy.
Đó là kiểm tra xem có một quan hệ tuyến tính nào đó giữa biến phản hồi Y với
một tập con nào đó của các biến hồi quy x1,...,xk hay không. Cụ thể là xét bài toán kiểm
định:
H0 : 1 = 2 = ... = n = 0 / H1 : j 0 với ít nhất một j{1,..., k}.
Nếu H 0 bị bác bỏ thì có nghĩa là ít ra một trong các biến hồi quy x1,...,xk có ý
nghĩa đối với mô hình.
Dưới giả thuyết H0 có thể chứng minh tổng bình phương hồi quy và tổng bình
phương các sai số theo (1.1.24) là những biến ngẫu nhiên độc lập và có bậc tự do tương
ứng là k và n-p.
𝑆𝑆𝑅 𝑘⁄ ⁄ 𝑆𝑆𝐸 (𝑛−𝑝)
𝑀𝑆𝑅 𝑀𝑆𝐸
= ~𝐹(𝑘; 𝑛 − 𝑝) (2.2.12) 𝐹0 =
35
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Từ đó giả thuyết bị bác bỏ ở mức nếu F0 f(k;n-p).
Các phần mềm thường dùng P–giá trị và đưa ra bảng phân tích phương sai cho
thủ tục vừa nêu.
2
Người ta cũng xét kiểm định cho một tập con của các hệ số 0, 1,..., k bằng 0.
Hệ số xác định bội R2 và hệ số xác định hiệu chỉnh 𝑅𝑎𝑑𝑗
Với mô hình hồi quy nhiều biến định nghĩa hệ số xác định bội R 2 và các tính
chất của nó như với trường hợp hồi quy đơn:
𝑆𝑆𝑅 𝑆𝑆𝑇
𝑆𝑆𝐸 𝑆𝑆𝑇
𝑅2 = = 1 −
Tính chất đặc biệt của hệ số xác định là nó không giảm khi tăng số biến hồi quy.
Từ đó, hệ số xác định khó nói cho ta biết việc tăng biến có lợi gì hay không, nhất là khi
sự gia tăng hệ số xác định là nhỏ. Vì thế nhiều nhà phân tích lại thích dùng hệ số xác
2 = 1 −
định hiệu chỉnh (adjusted R2):
⁄ 𝑆𝑆𝐸 (𝑛−𝑝) ⁄ 𝑆𝑆𝑇 (𝑛−1)
(2.2.13) 𝑅𝑎𝑑𝑗
Mẫu ở vế phải là hằng số, còn tử là ước lượng của sai số; nó bé nhất khi và chỉ
adj lớn nhất. Từ đó, một quy tắc lựa chọn biến hồi quy
khi hệ số xác định hiệu chỉnh R2
2
là:
lớn nhất. Chọn một số trong các biến hồi quy x1,..,xk để 𝑅𝑎𝑑𝑗
Kiểm định một tham số triệt tiêu (kiểm định T).
Xét bài toán kiểm định một tham số đơn lẻ nào đó triệt tiêu:
(j = 0,1,...,k). H0 : j = 0/ H1 : j 0
Nếu giả thuyết không bị bác bỏ thì có nghĩa rằng biến hồi quy tương ứng không
̂
𝑗
bị loại khỏi mô hình. Thống kê kiểm định là
̂ 𝑗 𝑠𝑒(𝛽̂𝑗)
√𝜎̂2𝐶𝑗𝑗
= (2.2.14) 𝑇𝑗 =
trong đó Cjj là phần tử thứ j của đường chéo chính của ma trận C = (X’X )-1 ứng
𝑗 .
với ̂
Vì TjT(n - p) nên giả thuyết bị bác bỏ nếu |Tj| >t/2(n - p).
36
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2.2.4 Ước lượng và dự đoán
a. Khoảng tin cậy cho tham số đơn lẻ
Khoảng tin cậy 100(1-)% cho tham số j cho bởi
𝑗) = √𝜎̂ 2𝐶𝑗𝑗)
𝑗) , (𝑠𝑒(𝛽̂ b. Khoảng tin cậy cho đáp ứng trung bình.
(𝑛 − 𝑝)𝑠𝑒 (̂ (2.2.15) ̂ 𝑗 ± 𝑡𝛼 20⁄
𝑇=0 + 1x01 +
Giả sử quan sát tương lai thực hiện tại mức x01,...,x0k của các biến hồi quy x1,...,xk.
𝑇 ̂ = ̂
1𝑥01 + ⋯ + 𝛽̂
𝑘𝑥0𝑘
Đặt x0 = (1,x01, ...,x0k )T . Đáp ứng trung bình tại điểm này là E[Y|x0] = 𝑥0
𝑦̂0 = 𝑥0 ...+ kx0k , ước lượng điểm của nó là 0 + 𝛽̂
Đối với mô hình hồi quy tuyến tính bội, khoảng tin cậy 100(1-)% cho đáp ứng
trung bình tại điểm x01,...,x0k là
𝑇𝑥)−1𝑥0
𝑇(𝑥0
(2.2.16) 𝑦̂0 ± 𝑡𝛼 2⁄ (𝑛 − 𝑝)√𝜎̂ 2𝑥0
c. Dự đoán cho quan sát mới.
Ước lượng điểm của dự đoán cho quan sát tương lai tại mức x01,...,x0k của các
𝑇𝛽 = 𝛽0 + 𝛽1𝑥01 + ⋯ + 𝛽𝑘𝑥0𝑘
biến độc lập là
𝑦̂0 = 𝑥0
Khoảng dự đoán 100(1- )% cho quan sát tương lai này là
𝑇(𝑥𝑇𝑥)−1𝑥0)
(2.2.17) 𝑦̂0 ± 𝑡𝛼 2⁄ (𝑛 − 𝑝)√𝜎̂ 2(1 + 𝑥0
d. Vấn đề ngoại suy với mô hình hồi quy bội
Vẫn có những chú ý tương tự như với hồi quy đơn, song vấn đề cần thận trọng
hơn. Chẳng hạn, với mô hình có hai biến hồi quy x, y miền biến thiên của các biến hồi
quy ở Hình 1.7 phải hiểu là elip chứ không phải hình chữ nhật ABCD. Tình hình sẽ khó
khăn hơn khi số biến hồi quy tăng lên.
37
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
A B C D
Hình 2.7. Miền biến thiên của các biến hồi quy
2.2.5 Phân tích phần dư
Với mô hình bội, người ta cũng tiến hành lập đồ thị phần dư chuẩn hóa di = ei/𝜎̂
như với mô hình đơn. Nếu có không quá 95% các giá trị di nằm trong dải (-2; 2) và phần
dư có dáng điệu tương đối đều đặn quanh trục hoành như ở Hình 1.5a thì chấp nhận mô
hình. Trái lại, phải tiến hành phân tích lại. Người ta cũng kiểm tra tính chuẩn của phần
dư bằng tổ chức đồ hay đồ thị P-P chuẩn.
Tuy nhiên, có hai điểm khác biệt. Thứ nhất, ngoài lập đồ thị phần dư chuẩn hóa
theo thời gian (theo chỉ số i), theo chiều tăng của một vài biến hồi quy xi nào đó, theo
chiều tăng của dự báo 𝑦̂𝑖, khi xét mô hình với một nhóm con các biến hồi quy, người ta
còn lập đồ thị phần dư theo biến hồi quy chưa tham gia vào mô hình. Nếu phát hiện ra
đồ thị phần dư chuẩn hóa theo biến này không đạt yêu cầu thì có nhiều khả năng biến
hồi quy đó cần phải tham gia vào mô hình.
Thứ hai, thay cho đồ thị phần dư chuẩn hóa di , người ta thấy rằng đồ thị phần dư
điều chỉnh ri (còn gọi là phần dư student hóa
(studentized residual)) ưu việt hơn, trong đó
𝑒𝑖 √𝜎̂2(1−ℎ𝑖𝑖)
(2.2.18) 𝑟𝑖 =
với hii là phần tử chéo thứ i của ma trận
H = X(XTX)-1XT .
(Lưu ý rằng 0 < hii 1 di < ri ).
2.2.6 Sử dụng phần mềm
Các phần mềm thống kê ngày nay cho phép phân tích mô hình với số biến hồi
quy lên đến hàng ngàn và số quan sát lên đến hàng chục vạn. Chúng ta cần có những
38
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
kiến thức cơ bản để tận dụng những lợi thế của các phần mềm này. Mỗi phần mềm có
những thế mạnh của nó, song chúng đều có phần phân tích hệ số và phân tích phương
sai. Chúng ta tìm hiểu sơ bộ qua một vài ví dụ.
Ví dụ 1.3 ( Phân tích số liệu lực kéo). Chúng ta lấy lại ví dụ lực kéo ở Ví dụ 2.2.
Giả sử chúng ta đã nhập số liệu vào cửa sổ biên tập dữ liệu. Sau đây là một số thao tác
cơ bản.
Bảng 2.5. Kết quả xử lý với số liệu lực kéo dây dẫn
TT Lực kéo yi Độ dài x1 Độ cao x2 Dự báo 𝑦̂𝑖 Phần dư ei Phần dư chuẩn hóa di
50 9.95 2 8.38 1.57 .687 1
110 24.45 8 25.60 -1.15 -.501 2
120 31.75 11 33.95 -2.20 -.963 3
550 35.00 10 36.60 -1.60 -.698 4
295 25.02 8 27.91 -2.89 -1.265 5
200 16.86 4 15.75 1.11 .487 6
375 14.38 2 12.45 1.93 .843 7
52 9.60 2 8.40 1.20 .523 8
100 24.35 9 28.21 -3.86 -1.689 9
300 27.50 8 27.98 -.48 -.208 10
412 17.08 4 18.40 -1.32 -.578 11
400 37.00 11 37.46 -.46 -.202 12
500 41.95 12 41.46 .49 .215 13
360 11.66 2 12.26 -.60 -.263 14
205 21.65 4 15.81 5.84 2.553 15
400 17.89 4 18.25 -.36 -.158 16
600 69.00 20 64.67 4.33 1.894 17
585 10.30 1 12.34 -2.04 -.890 18
540 34.93 10 36.47 -1.54 -.674 19
250 46.59 15 46.56 .03 .013 20
290 44.88 15 47.06 -2.18 -.953 21
510 54.12 16 52.56 1.56 .681 22
590 56.63 17 56.31 .32 .141 23
39
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
22.13 6 100 19.98 2.15 .939
24
21.15 5 400 21.00 .15 .067 25
Chọn chương trình phân tích
Phương pháp lọc mô hình
Tìm ước lượng cho tham số và khoảng tin cậy của chúng
Lập đồ thị phần dư chuẩn theo yi
Lưu dự báo 𝑦̂𝑖 , phần dư ei , phần dư chuẩn hóa di vào danh sách các biến
Bảng 2.6. Tóm tắt, phân tích phương sai và phân tích hệ số cho Ví dụ 2.3
R R Square Adjusted R Square Std. Error of the Estimate
.991 .981 .979 2.28805
df Mean Square F Sig. Sum of Squares
Regression 5990.771 2995.386 572.167 .000 2
Residual 115.173 5.235 22
Total 6105.945 24
Unstandardized Coefficients 95% Confidence Interval for B t Sig.
B Std. Error Lower Bound Upper Bound
Constant 2.264 1.060 2.136 .044 .065 4.462
X1 2.744 .094 29.343 .000 2.550 2.938
X2 .013 .003 4.477 .000 .007 .018
Ta thấy hệ số xác định R2 = 0,981, vậy có 98,1% số liệu được giải thích bởi mô
hình; đây là một tỷ lệ khá lớn. Ước lượng cho phương sai chung của mô hình là 𝜎̂ 2 =
2,28812 . Mức ý nghĩa của thống kê F là 0,000, rất nhỏ so với 0,01: Mô hình có tác dụng
tốt để giải thích số liệu. Tất cả các mức ý nghĩa của thổng kê T của các tham số đều nhỏ
hơn 0,05 ( giá trị cực đại 0,044 ứng với biến hằng số). Hậu quả là khoảng tin cậy của tất
40
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
cả các hệ số đều không chứa gốc tọa độ. Như vậy, các kiểm định T không bác bỏ mô
hình. Mô hình dự tuyển là
3
1.00
2
1
.50
0
0
15
3 0
45
60
75
-1
0.00
-2
Y =2,264 + 2,744x1 +0,013x2 + (*)
0.0 0.50 1.00
Hình 2.8. Đồ thị xác suất chuẩn và phần dư chuẩn hóa của số liệu lực kéo
Đồ thị xác suất chuẩn và đồ thị phần dư chuẩn thể hiện ở Hình 2.8. Mặc dầu
không phải rất sát, song sai lệch của đồ thị xác suất chuẩn với đường thẳng y = x là có
thể chấp nhận được. Đồ thị phần dư chuẩn hóa bố trí khá đều dặn, đối xứng trong dài [-
2; 2]. Tuy nhiên 1 quan sát (thứ 15) có trị tuyệt đối phần dư chuẩn vượt quá 2. Dù sao,
tỷ lệ 1/ 25 là nhỏ hơn 5% và có thể chấp nhận được. Tóm lại, các kiểm định đều không
bác bỏ mô hình (*).
Như vậy, với số liệu lực kéo ta có tới 2 mô hình được chấp nhận: mô hình
(1.1.32) ở Ví dụ 2.2 và mô hình (*) vừa nêu. Do sử dụng nhiều biến hơn, hệ số xác định
của mô hình (*) lớn hơn. Vả lại, mô hình (*) không phải là quá phức tạp, chúng ta chọn
nó làm mô hình cuối cùng.
2.2.7 Lựa chọn biến và xây dựng mô hình
a. Lựa chọn biến
Vấn đề quan trọng trong ứng dụng của phân tích hồi quy là lựa chọn tập hợp các
biến hồi quy để xây dựng mô hình. Đôi khi những kinh nghiệm hay những hiểu biết về
mặt lý thuyết có thể giúp nhà phân tích định ra được tập các biến hồi quy sử dụng trong
những tình huống cụ thể. Nhiều khi vấn đề lại ở chỗ, người ta biết rất rõ các biến quan
41
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
trọng, nhưng lại không chắc rằng có phải tất cả các biến dự tuyển đều là cần thiết cho
một mô hình thỏa đáng hay không.
Như vậy xuất hiện vấn đề lựa chọn biến hồi quy: Lựa chọn ra trong các biến dự
tuyển một tập con các biến “tốt nhất” theo các nghĩa sau đây.
+ Khả năng ứng dụng: Chọn đủ biến hồi quy để việc sử dụng đa dạng của mô
hình (dự đoán, ước lượng…) cho kết quả thỏa đáng.
+ Tính kiệm: Để mô hình với giá thấp chấp nhận được và dễ sử dụng, người ta
muốn mô hình ít biến hồi quy nhất có thể.
Tuy nhiên, hầu như chẳng có mô hình nào “tốt nhất” theo nghĩa đáp ứng đồng
thời nhiều tiêu chuẩn như trên. Những đánh giá, những kinh nghiệm từ xử lý hệ thống
đang xem xét thường là trợ lực cần thiết cho việc lựa chọn tập biến hồi quy.
Không có thuật toán nào luôn luôn đưa ra lời giải tốt cho vấn đề lựa chọn biến.
Mặc dầu người ta đã đưa ra rất nhiều thuật toán lựa chọn, song chúng chỉ để ý đến khía
cạnh kỹ thuật, cần có sự liên kết chặt chẽ với nhà phân tích. Chúng ta sẽ mô tả ngắn gọn
một số kỹ thuật thông dụng nhất với vấn đề chọn biến.
Giả sử có K biến dự tuyển x1,...,xK và một biến phản hồi y. Tất cả các mô hình
đều có hệ số chặn H0 , vậy mô hình có cả thảy K +1 số hạng. Chúng ta cũng giả sử dạng
hàm của các biến dự tuyển (chẳng hạn x1 =1/x, x2 = ln x...) là đúng.
Thủ tục cân nhắc tất cả.
Toàn bộ các mô hình có thể đều được xem xét. Ta sẽ cần so sánh 2K mô hình hồi
quy. Mặc dầu việc phân tích 1 mô hình không là vấn đề với các phần mềm ngày nay,
song khi K tương đối lớn, số phương trình cần cân nhắc sẽ tăng lên nhanh chóng (với K
2 .
=10, 2 K =1024 ).
Dựa vào R2 hoặc Radj
Người ta xuất phát từ mô hình có ít biến đến mô hình có nhiều biến hơn. Nếu sự
2
2
gia tăng R2 không đáng kể thì dừng lại và lựa chọn mô hình tương ứng.
cực đại hoặc Tiêu chuẩn dựa vào 𝑅𝑎𝑑𝑗 thường tốt hơn. Chọn mô hình có 𝑅𝑎𝑑𝑗
gần cực đại (nếu muốn số biến hồi quy nhỏ).
Tiêu chuẩn PRESS.
42
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Gọi 𝑦̂(i) là dự đoán tại quan sát thứ i dựa vào mô hình chỉ có n - 1 quan sát còn
2
2
lại. Đặt
𝑛 𝑃𝑅𝐸𝑆𝑆 = ∑ (𝑦𝑖 − 𝑦̂(𝑖)) 𝑖=1
) = ∑ ( 𝑒𝑖 𝑛 𝑖=1 1−ℎ𝑖𝑖
trong đó ei = yi - 𝑦̂𝑖 là phần dư thông thường.
Mô hình có PRESS nhỏ là mô hình được đề nghị.
Thủ tục cân nhắc từng bước (stepwise procedure)
Sau đây chúng ta dùng ký hiệu fin (tương ứng faut) để chỉ giá trị cụ thể của thống
kê f riêng phần sau khi bỏ đi (tương ứng thêm vào) một biến hồi quy khỏi mô hình.
Đầu tiên chọn mô hình một biến hồi quy mà có hệ số tương quan cao nhất với
biến phản hồi Y. Đây cũng là biến có thống kê f lớn nhất. Chẳng hạn chọn được biến x1
ở bước thứ nhất.
Giả sử ở bước nào đó đã lựa chọn được m biến, chẳng hạn x1,...,xm. Ở bước tiếp
theo, xét các mô hình với m biến đã lựa chọn x1,...,xm và 1 biến trong các biến còn lại.
Nếu thống kê f riêng phần tăng lên, quay lại xét xem nếu bỏ một trong m biến x1,...,xm
thì thống kê f riêng phần có tiếp tục được tăng lên hay không. Như vậy ta tăng thêm
hoặc tăng thêm và bỏ đi biến nếu fin > faut. Thủ tục dừng lại đến khi không có biến nào
được thêm vào hoặc bỏ đi.
Thủ tục tiến (forward procedure).
Tại một bước nào đó đưa thêm vào tập biến lựa chọn trong các biến còn lại một
biến làm tăng thống kê F riêng phần nhiều nhất. Nếu không có biến nào như vậy thì
dừng quá trình lựa chọn biến.
Như vậy, khác với thủ tục cân nhắc từng bước, thủ tục tiến mặc nhiên công nhận
các biến lựa chọn ở các bước trước là “tốt”. Thực ra, khi có biến mới thêm vào tập chọn,
các biến cũ có thể trở nên tồi và cần phải loại bỏ như ở thủ tục cân nhắc từng bước; thủ
tục cân nhắc từng bước là ưu việt hơn. Tuy nhiên, nhiều ví dụ chỉ ra rằng, hai thủ tục
vừa nêu cho ra cùng một tập chọn các biến hồi quy.
Thủ tục lùi (backward procedure).
43
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Thủ tục bắt đầu với toàn bộ K biến hồi quy. Biến hồi quy với thống kê f riêng
phần nhỏ nhất sẽ bị loại bỏ nếu thống kê f riêng phần này có ý nghĩa, tức là f < faut ().
Tiếp tục đến khi không có biến hồi quy nào bị loại.
Vài nhận xét về lựa chọn mô hình cuối cùng.
Tiêu chuẩn chủ yếu để lựa chọn biến là cân nhắc từng bước. Có thể có một vài
mô hình tốt như nhau. Khi đó ta có thể cân nhắc thêm các tiêu chuẩn khác. Nếu số biến
hồi quy không lớn, có thể dùng thủ tục cân nhắc tất cả.
Sau khi lựa chọn được biến hồi quy, vẫn phải tiến hành các kiểm tra thông
thường: phân tích phần dư, kiểm tra sự phù hợp …, xem xét về mặt lý thuyết như có
nhất thiết phải chứa tích chéo, nhất thiết phải chứa biến hồi quy nào đó, dấu của biến
nào đó nhất thiết phải dương (hay âm) … hay không.
Những khía cạnh khác của kiểm định mô hình.
Đa cộng tuyến.
Chúng ta nhớ rằng giả thiết (2.2.8) rằng hạng của ma trận kế hoạch X phải bằng
số tham số p. Điều này tương đương với det(XTX) 0 . Tuy nhiên điều gì xảy ra nếu
det(XTX) 0 .
Nếu xảy ra det(XTX) 0 thì có quan hệ tuyến tính mạnh giữa các cột của ma trận
X, tức là có sự phụ thuộc tuyến tính mạnh giữa các biến hồi quy 1,x1,...,xk . Ta nói đã
xảy ra hiện tượng đa cộng tuyến (multicollinearity). Đa cộng tuyến có thể gây ra những
hậu quả tai hại về ước lượng các hệ số hồi quy như phương sai, hiệp phương sai của các
ước lượng tham số trở nên lớn, tỷ số T mất ý nghĩa trong khi R2 có thể cao, dấu của hệ
số hồi quy có thể sai… cũng như sai lầm trong sử dụng mô hình nói chung.
Phương sai của sai số thay đổi
Cho đến giờ, trừ trường hợp tìm ước lượng cho các tham số, tất cả các thủ tục
phân tích đều dựa vào giả thiết (2.2.11). Tuy nhiên, nếu giả thiết này không thỏa mãn;
đặc biệt, giả thiết cùng phương sai R2 của các sai số bị vi phạm, ta nói đã xảy ra trường
hợp phương sai của sai số thay đổi. Nếu ta vẫn sử dụng các phương pháp xử lý thông
thường thì có thể chứng minh được ước lượng thu được là chệch và không hiệu quả.
44
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Có thể phát hiện phương sai sai số thay đổi bằng đồ thị: Đồ thị phần dư chuẩn
hóa theo một biến nào đó (theo chỉ số i, theo biến hồi quy xi nào đó hoặc theo 𝑦̂𝑖 ) có
dạng (b) (c) hay (d) ở Hình 1.5.
Cũng có thể dụng một số tiêu chuẩn về lượng như tiêu chuẩn tương quan hạng
Spearman, kiểm định Gleiser … Khắc phục hiện tượng phương sai thay đổi chủ yếu
dùng phương pháp bình phương tối thiểu trọng lượng, dùng phép biến đổi loga.
Ví dụ 1.4. Một bài báo trên Tạp chí Dược học (Journal of Pharmaceuticals
Sciences - 1991) đưa ra dữ liệu về độ hòa tan tỷ số mol quan sát của một chất tan tại
nhiệt độ không đổi với các tham số tan riêng phần phân tán, lưỡng cực và liên kết hydro
Hansen. Số liệu ở Bảng 1.7, trong đó Y là logarit âm của độ hòa tan tỷ số mol, x1 là độ
hòa tan riêng phần khuyếch tán, x2 là độ hòa tan riêng phần lưỡng cực, x3 là độ hòa tan
riêng phần liên kết hydro.
Trước hết chúng ta lọc mô hình đa thức bậc hai đầy đủ
2 2 + 𝑏22𝑥2
2 +
Y = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏3𝑥3 + 𝑏12𝑥1𝑥2 + 𝑏13𝑥1𝑥3 + 𝑏23𝑥2𝑥3 + 𝑏11𝑥1
+ 𝑏33𝑥3
Các kết quả phân tích sau dựa vào phần mềm SPSS. Hệ số xác định R 2 =0.917
Adj = 0,870 khá lớn, sai số chung của mô hình 2 =
và hệ số xác định hiệu chỉnh R2
0,069232 khá nhỏ.
Bảng 2.7. Số liệu độ tan
TT Y x1 x2 x3
1 0.222 7.3 0 0
2 0.395 8.7 0 0.3
3 0.422 8.8 0.7 1
4 0.437 8.1 4 0.2
5 0.428 9 0.5 1
6 0.467 8.7 1.5 2.8
7 0.444 9.3 2.1 1
8 0.378 7.6 5.1 3.4
9 0.494 10 0 0.3
10 0.456 8.4 3.7 4.1
45
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
11 0.452 9.3 3.6 2
12 0.112 7.7 2.8 7.1
13 0.432 9.8 4.2 2
14 0.101 7.3 2.5 6.8
15 0.232 8.5 2 6.6
16 0.306 9.5 2.5 5
17 0.0923 7.4 2.8 7.8
18 0.116 7.8 2.8 7.7
19 0.0764 7.7 3 8
20 1.7 4.2 0.439 10.3
21 0.0944 7.8 3.3 8.5
22 0.117 7.1 3.9 6.6
23 0.0726 7.7 4.3 9.5
24 0.0412 7.4 6 10.9
25 0.251 7.3 2 5.2
26 0.00002 7.6 7.8 20.7
Thống kê f là 0,000. Vậy mô hình giải thích tốt dữ liệu. Tuy nhiên, tất cả mức ý
nghĩa (P-giá trị) của các hệ số đều lớn hơn 0,05 (giá trị nhỏ nhất là 0,087 ứng với biến
x3, giá trị lớn nhất là 0,719 ứng với biến x2x3). Hậu quả là, tất cả các khoảng tin cậy 95%
của các hệ số đều chứa gốc tọa độ.
Bây giờ chúng ta dùng thủ tục cân nhắc từng bước (stepwise prosedure) để lựa
2 (tất nhiên có biến hằng
chọn biến. Phần mềm dừng lại 3 biến lựa chọn, đó là x3, x1 và x2
số). Bảng 1.9 sau đây chỉ ra tóm tắt bết quả, phân tích phương sai, phân tích hệ số của
mô hình lựa chọn.
Nhận thấy rằng hệ số xác định R2 = 0,886 tuy thua kém trường hợp có đầy đủ các
Adj= 0,870 lại không
biến là 0,917, song hệ số xác định hiệu chỉnh (quan trọng hơn) là R2
thua kém trường hợp có đầy đủ các biến. Sai số chuẩn hóa (- 0,0609 ) cũng như mức ý
nghĩa của thống kê F (-0,000) xem là như nhau với 2 mô hình. Tuy nhiên, đối với mô
hình sau, tất cả các mức ý nghĩa của thống kê T ứng với các biến lựa chọn đều nhỏ hơn
0,05 (cực đại bằng 0,0320, tất cả các khoảng tin cậy 95% đều không chứa gốc tọa độ.
46
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Bảng 2.8. Tóm tắt, phân tích phương sai và phân tích các hệ số cho mô hình đầy đủ
của số liệu độ tan
R Std. Error of the Estimate
0.958 R Square .917 Adjusted R Square .870 .060923263
df Mean Square F Sig. Sum of Squares
Regression .656 9 .073 19.628 .000
Residual .059 16 .004
Total .715 25
Unstandardized Coefficients 95% Confidence Interval for B t Sig.
B Std. Error Lower Bound Upper Bound
Constant -1.769 1.287 -1.375 .188 -4.498 .959
X1 .421 .294 1.430 .172 1.044 -.203
X2 .222 .131 1.701 .108 -.055 .500
X3 -.128 .070 -1.822 .087 -.277 .021
X1X2 -.020 .012 -1.651 .118 -.045 .006
X1X3 .009 .008 1.201 .247 -.007 .025
X2X3 .003 .007 .366 .719 -.012 .017
X1B -.019 .017 -1.150 .267 -.055 .016
X2B -.007 .012 -.618 .545 -.033 .018
X3B .001 .001 .572 .575 -.002 .004
Lưu ý. Dùng thủ tục tiến (forward prosedure) cho kết quả trùng với kết quả từ thủ
tục cân nhắc từng bước. Nếu dùng thủ tục lùi (backward prosedure), khoảng tin cậy của
hệ số của mô hình cuối cùng có chứa gốc tọa độ. Nếu dùng thủ tục loại biến từng bước
(remove prosedure) mô hình cuối cùng chỉ chứa biến hằng số, không thể dùng để dự báo
được.
Như vậy, qua khâu lựa chọn biến chúng ta được
47
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2 + (*)
𝑌 = −0,304 + 0,083 𝑥1 − 0,031𝑥3 + 0,004𝑥2
Bảng 2.9. Tóm tắt, phân tích phương sai, phân tích hệ số của mô hình cuối cùng
theo phương pháp cân nhắc từng bước của số liệu độ tan
R R Square Adjusted R Square Std. Error of the Estimate
0.941 .886 .870 .060973528
df F Sig. Sum of Squares Mean Square
3 .633 .211 56.778 .000 Regression
22 .082 .004 Residual
25 .715 Total
95% Confidence Interval for B B Std. Error t Sig. Lower Bound Lower Bound
Constant -.304 .132 -2.292 .032 -.578 -.029
X3 -.031 .004 -7.156 .000 -.041 -.022
X1 .083 .015 5.564 .000 .052 .113
3 2 1 0 -1 -2
X2B .004 .001 3.205 .004 .002 .007
Hình 2.9. Phần dư chuẩn hóa theo quan sát của số liệu độ tan
Kiểm tra phần dư của mô hình này. Chẳng hạn theo chỉ số i ta thấy có 2 giá trị
phần dư chuẩn hóa (ứng với quan sát thứ 6 và thứ 10) vượt quá 2; vi phạm thứ hai là di
khá nhỏ tại các quan sát 11 - 24. Dù sao 2 vi phạm này cũng không đến nỗi nào. Phần
dư chuẩn hoá xếp theo x1, x2 hay 𝑦̂ đều không có vi phạm đáng kể. Chúng ta lựa chọn
(*) làm mô hình cuối cùng.
48
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2.3. PHÂN TÍCH HỒI QUY LOGISTIC
Trong các chương trước về phân tích hồi quy tuyến tính và phân tích phương sai
chúng ta tìm mô hình và mối liên hệ giữa một biến phụ thuộc liên tục và một hay nhiều
biến độc lập hoặc là liên tục hoặc là không liên tục. Nhưng trong nhiều trường hợp, biến
phụ thuộc không phải là biến liên tục mà là biến mang tính đo lường nhị phân: có/không,
mắc bệnh/không mắc bệnh, chết sống, xảy ra/không xảy ra, v.v…, còn các biến độc lập
có thể là liên tục hay không liên tục. Chúng ta cũng muốn tìm hiểu mối liên hệ giữa các
biến độc lập và biến phụ thuộc.
2.3.1 Mô hình hồi quy logistic
Cho một tần số biến cố x ghi nhận từ n đối tượng, cúng ta có thể tính xác suất
𝑥
của biến cố đó là:
𝑛
𝑝 =
p có thể xem là một chỉ số đo lường nguy cơ của một biến cố. Một cách thể hiện
nguy cơ khác là odds (khả năng). Khả năng của một biến cố được định nghĩa đơn giản
𝑝
bằng tỉ số xác suất biến cố xảy ra trên xác suất biến cố không xảy ra:
1−𝑝
𝑜𝑑𝑑𝑠 = (2.4.1)
Hàm logit của odds được định nghĩa như sau:
) (2.4.2) 𝑙𝑜𝑔𝑖𝑡(𝑝) = 𝑙𝑜𝑔 ( 𝑝 1−𝑝
Mối liên hệ giữa p và logit(p) là một mối liên hệ liên tục (dĩ nhiên!) và theo dạng
như sau:
Hình 2.10. Mối liên hệ giữa logit(p) và p, cho 1
49
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Cho một biến độc lập x (x có thể là liên tục hay không liên tục), mô hình hồi quy
logistic phát biểu rằng:
𝑙𝑜𝑔𝑖𝑡(𝑝) = 𝛼 + 𝛽𝑥 (2.4.3)
Tương tự như mô hình hồi quy tuyến tính, và là hai thông số tuyến tính cần
phải ước tính từ dữ liệu nghiên cứu. Nhưng ý nghĩa của thông số này, đặc biệt là thông
số , rất khác với ý nghĩa mà ta đã quen với mô hình hồi quy tuyến tính.
Gọi bmd là x, vấn đề mà chúng ta cần biết có thể viết bằng ngôn ngữ mô hình
như sau:
) 𝛼 + 𝛽𝑥 (2.4.4) 𝑙𝑜𝑔𝑖𝑡(𝑝) = 𝑙𝑜𝑔 ( 𝑝 1−𝑝
𝑝
Nói cách khác:
𝑜𝑑𝑑𝑠(𝑝) =
= 𝑒𝛼+𝛽𝑥
1−𝑝
Mô hình trên còn cho thấy xác suất p, tùy thuộc vào giá trị của x.
Phân tích hồi quy logistic bội và chọn mô hình
Một trong những vấn đề khó khăn và có khi khá nan giải trong việc phân tích hồi
quy logistic bội là chọn một mô hình để có thể mô tả đầy đủ dữ liệu. Một nghiên cứu
với một biến phụ thuộc y và 3 biến độc lập 𝑥1, 𝑥2 và 𝑥3, chúng ta có thể có những mô hình sau đây để tiên đoán 𝑦: 𝑦 = 𝑓(𝑥1), 𝑦 = 𝑓(𝑥2), 𝑦 = 𝑓(𝑥3), 𝑦 = 𝑓(𝑥1, 𝑥2), 𝑦 = 𝑓(𝑥1, 𝑥3), 𝑦 = 𝑓(𝑥2, 𝑥3) 𝑣à 𝑦 = 𝑓(𝑥1, 𝑥2, 𝑥3) trong đó 𝑓 là hàm số. Nói chung với k biến độc lập 𝑥1, 𝑥2, , …, 𝑥𝑘, chúng ta có rất nhiều mô hình (2k) để tiên đoán y. Trong điều kiện có nhiều mô hình khả dĩ như thế, vấn đề đặt ra là mô hình nào được xem là tối
ưu?
Câu hỏi trên đặt ra một câu hỏi cơ bản khác: thế nào là tối ưu? Nói một cách ngắn
gọn một mô hình tối ưu phải đáp ứng ba tiêu chuẩn sau đây:
- Đơn giản
- Đầy đủ
- Có ý nghĩa thực tế
Tiêu chuẩn đơn giản đòi hỏi mô hình có ít biến độc lập, vì nếu quá nhiều biến số
thì vấn đề diễn dịch sẽ trở nên khó khăn, và có khi thiếu thực tế. Nói cách đơn giản là:
50
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
nếu chúng ta bỏ ra 50.000 đồng để mua 500 trang sách tốt hơn là bỏ ra 60.000 ngàn mua
cùng số trang sách. Tương tự, một mô hình với 3 biến độc lập mà có khả năng mô tả dữ
liệu tương đương với mô hình với 5 biến độc lập, thì mô hình đầu được chọn. Một mô
hình đơn giản là một mô hình … tiết kiệm.
Tiêu chuẩn đầy đủ ở đây có nghĩa là mô hình đó phải mô tả dữ liệu một chách
thỏa đáng, tức phải tiên đoán gần (hay gần càng tốt) với giá trị thực tế quan sát của biến
phụ thuộc y. Nếu giá trị quan sát của y là 10 và nếu có một mô hình tiên đoán là 9 và
một mô hình tiên đoán là 6 thì mô hình đầu phải được xem là đầy đủ hơn.
Tiêu chuẩn có ý nghĩa thực tế, như cách gọi, có ý nghĩa là mô hình đó phải được
yểm trợ bằng lý thuyết hay có ý nghĩa dự báo (nếu là nghiên cứu dự báo), … Có thể số
điện thoại một cách nào đó có liên quan đến tỉ lệ dự báo, nhưng tất nhiên một mô hình
như thế hoàn toàn vô nghĩa. Đây là một tiêu chuẩn quan trọng, bởi vì nếu một phân tích
thống kê dẫn đến một mô hình dù rất có ý nghĩa toán học mà không có ý nghĩa thực tế
thì mô hình đó cũng chỉ là một trò chơi con số, trò chơi toán học không hơn không kém,
chứ không có giá trị khoa học thật sự.
Tiêu chuẩn thứ ba (có ý nghĩa thực tế) thuộc về lĩnh vực lý thuyết, và tôi sẽ không
bàn ở đây. Tôi sẽ bàn qua tiêu chuẩn đơn giản và đầy đủ. Một thước đo quan trọng và
có ích để chúng ta quyết định một mô hình đơn giản và đầy đủ là AIC Akaike
Information Criterion
2.3.2 Phân tích hồi quy logistic đa thức
Mô hình hồi quy logistic nhị thức (binary logistic) để xem xét mối quan hệ giữa
biến phụ thuộc là biến nhị phân (ví dụ: sống/chết) và biến độc lập có thể là biến số (định
lượng) hoặc biến định tính và phương trình liên hệ có dạng:
𝑝
) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ (trong đó 𝑥1, 𝑥2, … là các biến độc lập). log ( 𝑝 1−𝑝
1−𝑝
(p là xác suất tử vong, 1-p là xác suất còn sống) 𝑂𝑑𝑑𝑠 =
Mô hình hồi quy logistic đa thức
Mô hình hồi quy logistich đa thức (Multinomial logistic regression) tương tự như
mô hình hồi quy logistic nhị thức nhưng biến phụ thuộc là biến định tính có nhiều hơn
51
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2 trạng thái (hoặc mức). Ví dụ (khỏi bệnh, khỏi với dư chứng, tử vong) hoặc (tốt, trung
bình, xấu).
Mô hình hồi quy logistic đa thức phát biểu:
𝑙𝑜𝑔 ( ) = 𝛼𝑖𝑗 + 𝛽𝑖𝑗𝑥1 + 𝛽𝑖𝑗𝑥2 + ⋯ + 𝜀𝑖𝑗 𝑝𝑖 𝑝𝑗
Gọi p0 là xác suất khỏi bệnh
p1 là xác suất khỏi với dư chứng
p2 xác suất tử vong
𝐿𝑜𝑔 ( ) = 𝛼10 + 𝛽10𝑥1 + 𝛽10𝑥2 + ⋯ (1)
𝐿𝑜𝑔 ( ) = 𝛼20 + 𝛽20𝑥1 + 𝛽20𝑥2 + ⋯ (2)
𝐿𝑜𝑔 ( ) = 𝛼21 + 𝛽21𝑥1 + 𝛽21𝑥2 + ⋯ (3) Ta có 3 phương trình sau: 𝑝1 𝑝0 𝑝2 𝑝0 𝑝2 𝑝1
52
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 3. BÀI TOÁN TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC
VỤ THANH TRA, KIỂM TRA THUẾ
Trong phần này, luận văn trình bày tính cấp thiết của việc xây dựng hệ thống tính
điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế. Trên cơ sở đó, luận văn
trình bày bài toán tính điểm rủi ro của doanh nghiệp và mô hình giải quyết bài toán sử
dụng phương pháp hồi quy tuyến tính bội như trình bày ở trên. Cuối cùng, luận văn trình
bày kết quả thử nghiệm mô hình trên dữ liệu lịch sử thu nộp thuế của một số doanh
nghiệp thuộc Cục thuế Hà Nội quản lý, trên cơ sở đó đánh giá mô hình xây dựng và triển
vọng triển khai mô hình trong thực tế.
3.1. TÍNH CẤP THIẾT XÂY DỰNG HỆ THỐNG TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ THANH TRA, KIỂM TRA THUẾ
Thanh tra, kiểm tra là một trong bốn chức năng cơ bản của công tác quản lý thuế,
đặc biệt trong việc giám sát chặt chẽ, kịp thời phát hiện, ngăn chặn và xử lý các trường
hợp không tự nguyện tuân thủ pháp luật thuế, đảm bảo công bằng giữa những người nộp
thuế. Thực hiện tốt chức năng thanh tra, kiểm tra không những làm tăng thu cho ngân
sách nhà nước mà còn là biện pháp răn đe nhằm duy trì mức độ tuân thủ dài hạn của
NNT. Thông qua đó, nâng cao chất lượng, hiệu quả của công tác quản lý thuế.
Trong thời gian qua, cùng với công cuộc cải cách - hiện đại hoá Ngành thuế, bằng
những cố gắng và nỗ lực của toàn ngành, công tác thanh tra, kiểm tra thuế đã đạt được
những thành quả nhất định. Nhiều trường hợp sai phạm có tính chất phức tạp cao, số
tiền vi phạm về thuế lớn đã được phát hiện và xử lý kịp thời. Tuy nhiên, công tác thanh
tra, kiểm tra còn bộc lộ những mặt hạn chế sau:
- Phần lớn công tác thanh tra, kiểm tra thực hiện thủ công chưa có sự hỗ trợ
nhiều của ứng dụng tin học;
- Việc lựa chọn trường hợp thanh tra, kiểm tra chủ yếu dựa trên kinh nghiệm
cán bộ;
- Thiếu một cơ chế đánh giá có hiệu quả để có thể lựa chọn được người nộp
thuế có rủi ro về thuế đưa vào kế hoạch thanh tra, kiểm tra;
53
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- Khả năng phân tích thông tin, sử dụng ứng dụng tin học của cán bộ thanh tra,
kiểm tra còn hạn chế.
Cùng với sự phát triển và hội nhập ngày càng sâu rộng của nền kinh tế nước ta
với nền kinh tế thế giới, đã đặt công tác quản lý thuế nói chung và công tác thanh kiểm
tra thuế nói riêng đứng trước những khó khăn thách thức, đó là:
- Sự phát triển nhanh chóng của người nộp thuế cả về số lượng, quy mô và lĩnh
vực hoạt động. Chỉ tính riêng từ năm 2000 đến nay số lượng người nộp thuế
đã tăng lên 2 lần trong đó khối doanh nghiệp tăng lên 2,5 lần, quy mô hoạt
động ngày càng lớn mạnh chuyển dần từ kinh doanh nhỏ lẻ, đơn ngành sang
quy mô lớn, đa ngành, đa lĩnh vực, cùng với đó là những giao dịch lớn, phức
tạp xuất hiện ngày càng nhiều và dần trở nên phổ biến.
- Một bộ phận không nhỏ người nộp thuế thiếu ý thức tôn trọng pháp luật, lợi
dụng những kẽ hở của chính sách thuế để trốn thuế, tránh thuế. Tình trạng
gian lận thuế ngày càng diễn biến phức tạp gây thất thu cho ngân sách nhà
nước nhưng chậm được phát hiện và xử lý.
- Nguồn nhân lực của cơ quan thuế có hạn và đang bị quá tải, ngành thuế đã
đổi mới phương thức quản lý tuy nhiên vẫn chưa đáp ứng đầy đủ yêu cầu công
tác quản lý trong thời kỳ mới.
Xuất phát từ nhu cầu thực tế trên, hệ thống được xây dựng nhằm mục tiêu tính
điểm rủi ro của doanh nghiệp dựa vào số liệu thu, nộp thuế của doanh nghiệp nhằm hỗ
trợ cơ quan thuế trong việc lập kế hoạch thanh tra, kiểm tra thuế. Doanh nghiệp có điểm
rủi ro càng cao thì khả năng đưa vào thanh tra, kiểm tra càng cao và ngược lại.
3.2. BÀI TOÁN TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP
Như đã trình bày ở phần 3.1, mục tiêu của hệ thống là tính điểm rủi ro của doanh
nghiệp dựa vào số liệu nộp thuế của doanh nghiệp được kết xuất từ kho dữ liệu tập trung
của ngành thuế. Do đó, dữ liệu đầu vào của hệ thống là kết quả nộp thuế của doanh
nghiệp, đầu ra của hệ thống là điểm rủi ro của doanh nghiệp. Điểm rủi ro càng cao thì
nguy cơ vi phạm thuế càng cao và khả năng đưa vào thanh tra, kiểm tra càng cao.
1) Số liệu đầu vào:
54
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tệp dữ liệu tác nghiệp về tình hình nộp thuế của các doanh nghiệp trên địa bàn
Hà Nội do Cục thuế Hà Nội quản lý được kết xuất từ cơ sở dữ liệu tập trung tại Tổng
cục thuế (ứng dụng tập trung dữ liệu của người nộp thuế TPH). Tệp dữ liệu với khuôn
dạng Excel bao gồm các thông tin về tình hình nộp thuế như sau:
STT Tên cột Mô tả
1 Mã người nộp thuế Mã số thuế của doanh nghiệp
2 Tên người nộp thuế Tên doanh nghiệp
3 Địa chỉ Địa chỉ trụ sở doanh nghiệp
Chậm nộp hồ sơ khai thuế so với thời Số ngày chậm nộp hồ sơ khai thuế 4 hạn quy định
Phân loại doanh nghiệp theo loại Phân loại theo loại hình kinh tế. 5 hình kinh tế.
So sánh biến động của tỷ lệ “Thuế Biến động của tỷ lệ “Thuế TNDN phát
6 TNDN phát sinh/ doanh thu” giữa sinh/doanh thu” so với năm trước để đánh
các năm giá về biến động kê khai giữa các năm.
So sánh biến động của tỷ lệ “Thuế Biến động của tỷ lệ “Thuế GTGT phát
GTGT phát sinh/ doanh thu hàng hoá sinh/doanh thu hàng hoá dịch vụ bán ra” 7 dịch vụ bán ra” giữa các năm so với năm trước để đánh giá về biến động
kê khai giữa các năm.
Tỷ lệ lợi nhuận từ hoạt động kinh Tỷ lệ lợi nhuận từ hoạt động kinh doanh/
8 doanh/ doanh thu thuần doanh thu thuần lấy từ báo cáo tài chính
doanh nghiệp.
Tỷ lệ (lợi nhuận trước thuế + chi phí Tỷ lệ (lợi nhuận trước thuế + chi phí lãi
9 lãi vay)/ doanh thu thuần vay)/doanh thu thuần lấy từ báo cáo tài
chính doanh nghiệp.
Tỷ lệ lợi nhuận sau thuế/doanh thu Tỷ lệ lợi nhuận sau thuế/doanh thu thuần 10 thuần lấy từ báo cáo tài chính doanh nghiệp.
Tỷ lệ lợi nhuận/vốn chủ sở hữu Tỷ lệ lợi nhuận/vốn chủ sở hữu lấy từ báo 11 cáo tài chính doanh nghiệp
55
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tỷ lệ giá vốn hàng bán/doanh thu Tỷ lệ giá vốn hàng bán/doanh thu thuần 12 lấy từ báo cáo tài chính doanh nghiệp thuần
Tỷ lệ chi phí bán hàng/doanh thu Tỷ lệ chi phí bán hàng/doanh thu thuần 13 lấy từ báo cáo tài chính doanh nghiệp thuần
Tỷ lệ chi phí quản lý/doanh thu thuần Tỷ lệ chi phí quản lý/doanh thu thuần lấy 14 từ báo cáo tài chính doanh nghiệp
Hệ số khả năng thanh toán tổng quát Hệ số khả năng thanh toán tổng quát lấy 15 từ báo cáo tài chính doanh nghiệp
Hệ số khả năng thanh toán nợ ngắn Hệ số khả năng thanh toán nợ ngắn hạn 16 lấy từ báo cáo tài chính doanh nghiệp hạn
Hệ số khả năng thanh toán nhanh Hệ số khả năng thanh toán nhanh lấy từ 17 báo cáo tài chính doanh nghiệp
Kỳ đã được thanh tra, kiểm tra gần Kỳ đã được thanh tra, kiểm tra gần nhất 18 nhất
Số thuế truy thu tuyệt đối của kỳ Số thuế truy thu tuyệt đối của kỳ thanh tra, 19 thanh tra, kiểm tra gần nhất kiểm tra gần nhất
20 Tổng thuế TNDN phát sinh Tổng thuế TNDN phát sinh
Bảng 3.1. Bảng dữ liệu đầu vào của hệ thống
2) Đầu ra của hệ thống:
Đầu tra của hệ thống là điểm rủi ro của doanh nghiệp được tính với ngưỡng từ 0
đến 100. Điểm 0 là rủi ro thấp nhất và điểm 100 là rủi ro cao nhất.
3.3. CÁC BƯỚC XÂY DỰNG MÔ HÌNH GIẢI QUYẾT BÀI TOÁN
Để xây dựng mô hình tính điểm rủi ro cho doanh nghiệp dựa vào các số liệu đầu
vào nêu trên, ta cần thực hiện các công việc như sau:
- Xây dựng và kiểm tra mô hình hồi quy tuyến tính bội từ bộ dữ liệu huấn luyện
và dữ liệu kiểm tra được xây dựng từ số liệu tác nghiệp lịch sử về tình hình
nộp thuế và kết quả thanh tra của các doanh nghiệp.
- Thực thi mô hình tính điểm rủi ro cho doanh nghiệp dựa vào nguồn số liệu
56
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đầu vào của doanh nghiệp.
3.3.1 Xây dựng mô hình hồi quy tuyến tính bội
1) Xây dựng tập dữ liệu mẫu để huấn luyện và kiểm tra mô hình hồi quy từ dữ liệu
tác nghiệp đầu vào.
Bộ số liệu huấn luyện được xây dựng từ số liệu tác nghiệp lịch sử về tình hình
nộp thuế và kết quả thanh tra thuế (Bảng 3.1), bao gồm 16 thuộc tính điều kiện (lấy từ
cột 4 đến cột 19 trong Bảng 3.1 và thuộc tính nhãn lấy từ lich sử kết quả thanh tra thuế
(dựa vào cột 19 và cột 20). Chi tiết như sau:
- Các thuộc tính điều kiện: bao gồm 16 cột lấy từ cột 4 đến cột 19 trong
bảng dữ liệu đầu vào (Bảng 3.1). Giá trị các thuộc tính điều kiện là điểm rủi ro được
tính theo Bộ tiêu chí rủi ro do Tổng cục thuế bản hành theo Quyết định số 1733/QĐ-
TCT ngày 1 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế (Xem phần phụ
lục). Như vậy, mỗi thuộc tính của bảng dữ liệu huấn luyện và dữ liệu kiểm tra sẽ tương
ứng với mỗi tiêu chí rủi ro trong Bộ tiêu chí (phần phụ lục) và giá trị của các thuộc tính
này là 1, 2, 3, 4 tương ứng với bốn mức rủi ro theo quy định. Tóm lại, miền giá trị của
các thuộc tính đầu vào là bốn giá trị rời rạc 1, 2, 3, 4. Từ bảng dữ liệu đầu vào, áp dụng
công thức tính điểm rủi ro trong bộ tiêu chí (phần phụ lục) ta có thể tính được giá trị các
thuộc tính điều kiện của bộ dữ liệu huấn luyện và kiểm tra.
- Thuộc tính nhãn: chính điểm rủi ro của doanh nghiệp được tính dựa vào
lịch sử kết quả thanh tra thuế (số thuế truy thu thu được), cụ thể như sau:
1) Nếu Số thuế truy thu tuyệt đối bằng 0 thì điểm rủi ro = 0 (trường hợp
không có vi phạm)
2) Nếu tỷ lệ: (Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra (cột 19) /
Tổng thuế TNDN phát sinh (cột 20) )*100 >= 100% thì điểm rủi ro = 100. (Có
vi phạm lớn)
3) Trong các trường hợp còn lại, điểm rủi ro = (Số thuế truy thu tuyệt đối của
kỳ thanh tra, kiểm tra /Tổng thuế TNDN phát sinh (chỉ tiêu 2) )*100
Như vậy, điểm rủi ro được xác định bởi tỷ lệ giữa Số thuế truy thu tuyệt đối của
kỳ thanh tra, kiểm tra/Tổng thuế TNDN phát sinh. Ví dụ: Số thuế truy thu tuyệt đối của
57
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
kỳ thanh tra, kiểm tra/Tổng thuế TNDN phát sinh = 80% thì điểm rủi ro là 80. Như vậy,
miền giá trị của điểm rủi ro là từ 0 (tương ứng với không vi phạm) đến 100 (vi phạm
lớn). Như vậy, dữ liệu mẫu sau khi xác định điểm rủi ro (nhãn) được mô tả như sau:
Chỉ tiêu 1 Chỉ tiêu 2 Chỉ tiêu 16 Điểm rủi ro (nhãn)
3 1 2 1,2 ....
2 2 4 12,3
1 2 3 87,5
4 4 1 45
Miền giá trị các thuộc tính điều kiện (bộ chỉ tiêu) là các giá trị rời rạc 1, 2, 3,4.
Miền giá trị của điểm rủi ro (nhãn) là giá trị liên tục từ 1 đến 100.
2) Xây dựng mô hình hồi quy tuyến tính bội
- Trên tập dữ liệu mẫu thu được, sử dụng 80% tập dữ liệu mẫu làm tập dữ
liệu huấn luyện mô hình (training data) và 20% còn lại làm tập dữ liệu kiểm tra (test
data) theo phương pháp Cross-Validation.
- Xây dựng mô hình hồi quy tuyến tính bội từ tập dữ liệu huấn luyện trích
chọn từ bảng dữ liệu mẫu.
Đầu vào: Các thuộc tính của tập huấn luyện
Đầu ra: Giá trị điểm rủi ro.
Phương trình hồi quy:
Điểm rủi ro = 1 *TC1 + 2 *TC2+...+n *TCn + θ
Ở đây TC1, TC2, ...TCn là các thuộc tính của bộ dữ liệu huấn luyện, 1, 2, ..., n
là các trọng số của các thuộc tính, θ là tham số ngưỡng do NSD đưa vào để tăng độ
chính xác của mô hình hồi quy.
Kết quả thu được của phương pháp phân tích hồi quy bội là các hệ số 1, 2, ...,
n , giá trị ngưỡng θ do người sử dụng đưa vào.
3) Kiểm tra mô hình hồi quy tuyến tính bội từ tập dữ liệu kiểm tra trích chọn từ bảng
dữ liệu mẫu.
58
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- Sử dụng hàm hồi quy (các hệ số 1, 2, ..., n và θ) để tính điểm rủi ro
của các doanh nghiệp trên tập dữ liệu kiểm tra.
- So sánh điểm rủi ro tính bởi mô hình (hàm hồi quy) với điểm rủi ro thực
tế (giá trị thuộc tính nhãn) trên tập dữ liệu kiểm tra.
- Đánh giá độ chính xác của mô hình, nếu độ chính xác lớn hơn giá trị
ngưỡng cho trước thì tiếp tục huấn luyện mô hình. Quá trình huấn luyện kết thúc ghi độ
chính xác nhỏ hơn giá trị ngưỡng.
3.3.2 Mô hình tổng thể của bài toán tính điểm rủi ro cho doanh nghiệp
Hình 3.1 Mô hình tổng thể bài toán
Kết quả tổng điểm thể hiện được thông tin rủi ro tại từng doanh nghiệp đánh giá
đồng thời thể hiện bức tranh tổng thể đối với phạm vi dữ liệu được lựa chọn.
59
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
3.3.3 Thực thi mô hình để tính điểm rủi ro cho doanh nghiệp
Sau khi kết thúc quá trình huấn luyện và kiểm tra mô hình, ta thu được mô hình
tính điểm rủi ro, chính là hàm hồi quy mô tả mối quan hệ giữa đầu ra (điểm rủi ro) với
các bộ tiêu chí rút gọn đầu vào.
Điểm rủi ro = 1 *TC1 + 2 *TC2+...+n *TCn + θ
Như vậy, bản chất của mô hình tính điểm rủi ro là hàm hồi quy với:
- Các thuộc tính đầu vào tương ứng với các tiêu chí phân tích rủi ro do Tổng
cục thuế quy định. Giá trị của các thuộc tính đầu vào chính là giá trị điểm rủi ro được
tính theo công thức trong bộ tiêu chí phân tích rủi ro.
- Các giá trị trọng số 1, 2, ..., n của các thuộc tính đầu vào (được học từ
dữ liệu lịch sử)
- Giá trị ngưỡng θ do người sử dụng đưa vào.
Quá trình tính điểm rủi ro của doanh nghiệp phục vụ lập kế hoạch thanh tra, kiểm
tra được thực hiện như sau:
1) Từ tệp dữ liệu đầu vào được trích xuất từ hệ thống cơ sở dữ liệu tập trung tại
Tổng cục thuế (TPH), thực hiện tính giá trị điểm rủi ro cho các thuộc tính đầu
vào theo công thức quy định trong bộ chỉ tiêu phân tích rủi ro do Tổng cục
thuế quy định (Xem phần phụ lục)
2) Sử dụng hàm hồi quy thu được (mô hình tính điểm rủi ro) để tính điểm rủi ro
cho các doanh nghiệp.
Kết quả điểm rủi ro của doanh nghiệp được tính bằng mô hình hồi quy được ghi
lại và sử dụng để lập kế hoạch thanh tra, kiểm tra thuế và in hồ sơ phân tích rủi ro cho
doanh nghiệp.
Sau khi có kết quả thanh tra, kiểm tra cho các đối tượng này, dữ liệu thanh tra,
kiểm tra tiếp tục được sử dụng để huấn luyện mô hình và sử dụng mô hình tính điểm rủi
ro cho năm tiếp theo.
Như vậy, quá trình huấn luyện liên tục được thực hiên qua các năm, do đó độ
chính xác của mô hình hồi quy sẽ ngày càng tăng lên và nó phản ánh quy luật của dữ
60
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
liệu. Do đó, độ chính xác của mô hình dự báo điểm rủi ro được đảm bảo về mặt khoa
học.
3.3.4 Tiền xử lý dữ liệu
Với dữ liệu của ngành thuế được cung cấp dưới khuôn dạng Excel như trong
bảng 3.1.a tiến hành tiền xử lý dữ liệu theo phương thức như sau:
Bảng 3.1.a. Dữ liệu thô do ngành thuế cung cấp
Thực hiện xử lý dữ liệu thô.
- Xử lý dữ liệu bị thiếu (missing data)
+ Định nghĩa của dữ liệu bị thiếu
‡ Dữ liệu không có sẵn khi cần được sử dụng
+ Nguyên nhân gây ra dữ liệu bị thiếu
‡ Khách quan (không tồn tại lúc được nhập liệu, sự cố, …)
‡ Chủ quan (tác nhân con người)
+ Giải pháp cho dữ liệu bị thiếu
61
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
‡ Bỏ qua
‡ Xử lý tay (không tự động, bán tự động)
‡ Dùng giá trị thay thế (tự động): hằng số toàn cục, trị phổ biến nhất,
trung bình toàn cục, trung bình cục bộ, trị dự đoán, …
‡ Ngăn chặn dữ liệu bị thiếu: thiết kế tốt CSDL và các thủ tục nhập
liệu (các ràng buộc dữ liệu)
- Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data)
+ Định nghĩa
‡ Outliers: những dữ liệu (đối tượng) không tuân theo đặc tính/hành
vi chung của tập dữ liệu (đối tượng).
‡ Noisy data: outliers bị loại bỏ (rejected/discarded outliers) như là
những trường hợp ngoại lệ (exceptions).
+ Nguyên nhân
‡ Khách quan (công cụ thu thập dữ liệu, lỗi trên đường truyền, giới
hạn công nghệ, …)
‡ Chủ quan (tác nhân con người)
+ Giải pháp nhận diện phần tử biên
‡ Dựa trên phân bố thống kê (statistical distribution-based)
‡ Dựa trên khoảng cách (distance-based)
‡ Dựa trên mật độ (density-based)
‡ Dựa trên độ lệch (deviation-based)
+ Giải pháp giảm thiểu nhiễu
‡ Binning
‡ Hồi quy (regression)
‡ Phân tích cụm (cluster analysis)
- Xử lý dữ liệu không nhất quán (inconsistent data)
+ Định nghĩa của dữ liệu không nhất quán
62
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
‡ Dữ liệu được ghi nhận khác nhau cho cùng một đối tượng/thực thể
‡ Dữ liệu được ghi nhận không phản ánh đúng ngữ nghĩa cho các
đối tượng/thực thể
+ Nguyên nhân
‡ Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu
‡ Định dạng không nhất quán của các vùng nhập liệu
‡ Thiết bị ghi nhận dữ liệu, …
+ Giải pháp
+ Tận dụng siêu dữ liệu, ràng buộc dữ liệu, sự kiểm tra của nhà phân tích
dữ liệu cho việc nhận diện
+ Điều chỉnh dữ liệu không nhất quán bằng tay
+ Các giải pháp biến đổi/chuẩn hóa dữ liệu tự động
Kết thúc quá trình tiền xử lý dữ liệu Áp dụng công thức tính điểm rủi ro cho các
cột dữ liệu đầu vào (xem phụ lục) và tính toán điểm rủi ro cho thuộc tính nhãn, ta thu
được bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra sử dụng để xây dựng và kiểm tra mô
hình.
3.4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.4.1 Mục tiêu thử nghiệm
Mục tiêu của thử nghiệm là thử nghiệm mô hình tính điểm rủi ro của doanh
nghiệp được xây dựng trên bộ số liệu thử nghiệm là số liệu lịch sử về tình hình nộp thuế
và kết quả thanh tra của các doanh nghiệp thuộc Cục thuế Hà Nội quản lý được kết xuất
từ hệ thống tập trung dữ liệu tại Tổng cục thuế (TPH)
3.4.2 Công cụ thử nghiệm và môi trường thử nghiệm
Để tiến hành thử nghiệm, học viên thực hiện lập trình bằng ngôn ngữ C# trên môi
trường Visual Studio. NET, sử dụng ngôn ngữ phân tích dữ liệu R tích hợp vào bộ Visual
Studio. NET để thực hiện xây dựng mô hình hồi quy tuyến tính bội.
63
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Môi trường tiến hành thử nghiệm là máy tính cá nhân cài đặt hệ điều hành
Windows 7 PCs có cấu hình bộ xử lý Intel(R) Core (TM) i3, CPU (2.66 GHz), 4.00GB
of RAM.
3.4.3 Quy trình thử nghiệm
1) Chuẩn bị dữ liệu huấn luyện và dữ liệu kiểm tra
Số liệu sử dụng để xây dựng tập dữ liệu huấn luyện là 1000 doanh nghiệp do Cục
thuế Hà Nội quản lý, số liệu sử dụng để kiểm tra mô hình là 200 doanh nghiệp Cục thuế
Hà Nội quản lý. Các số liệu này được kết xuất từ hệ thống tập trung dữ liệu (TPH) từ
Tổng cục thuế theo khôn dạng Excel (bao gồm 20 trường dữ liệu như mô tả ở Bảng 3.1),
dữ liệu được kết xuất là dữ liệu về tình hình nộp thuế và kết quả thanh tra năm 2014 của
Cục thuế Hà nội.
Áp dụng công thức tính điểm rủi ro cho các cột dữ liệu đầu vào (xem phụ lục) và
tính toán điểm rủi ro cho thuộc tính nhãn, ta thu được bộ dữ liệu huấn luyện và bộ dữ
liệu kiểm tra sử dụng để xây dựng và kiểm tra mô hình.
Dữ liệu huấn luyện được nạp vào trong hệ thống như hình sau:
Hình 3.2. Tập dữ liệu huấn luyện
64
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 3.3. Mô tả tập dữ liệu huấn luyện
Xây dựng mô hình hồi quy tuyến tính bội từ tập dữ liệu huấn luyện
65
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 3.4. Kết quả xây dựng mô hình
Kết quả thực hiện ta thu được 16 hệ số 1, 2, ..., 16 tương ứng với 16 thuộc tính
đầu vào. Cột Beta trên Hình 3.3 là các hệ số 1, 2, ..., 16 tương ứng với các chỉ tiêu từ
chỉ tiêu 1 đến chỉ tiêu 16 đối với tập dữ liệu huấn luyện được chọn. Giá trị hệ số hồi quy
θ được chọn là 0.2.
Ta có phương trình tính điểm rủi ro của doanh nghiệp như sau:
Điểm rủi ro = 0.217226 *TC1 + 0.01800982 *TC2+ 0.4741908 *TC3 -0.5741891
TC4 + 0.5178324 TC5 – 1.093184 *TC6 – 1.396769 * TC7 – 0.9367253* TC8 -
0.2573483 * TC9 – 0.4399146 * TC10 – 0.6433808 * TC11 + 0.3320229 * TC12 –
0.001286944 * TC13 – 0.05785978 * TC14 + 0.01048144 * TC15 - 0.4559843 * TCn +
0.2
2) Kiểm tra độ chính xác của mô hình
Như đã trình bày ở trên, tập dữ liệu kiểm tra là 200 doanh nghiệp thuộc Cục thuế
Hà Nội quản lý năm 2014. Để thực hiện kiểm tra độ chính xác của mô hình, tác giả thực
hiện như sau:
- Sử dụng hàm hồi quy thu được (các hệ số 1, 2, ..., n và θ) để tính điểm
rủi ro của các doanh nghiệp của 200 doanh nghiệp trên dữ liệu kiểm tra.
66
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
- So sánh điểm rủi ro tính bởi mô hình (hàm hồi quy) với điểm rủi ro thực
tế (giá trị thuộc tính nhãn) trên tập dữ liệu kiểm tra.
- Tính sai số và độ chính xác của mô hình.
Hình 3.5. Kết quả tính điểm rủi ro của các doanh nghiệp trên tập dữ liệu kiểm tra.
Với dữ liệu kiểm tra thử trên 200 doanh nghiệp đầu vào hệ thống tính toán điểm
rủi ro doanh nghiệp theo phương trình đề xuất được kết quả thể hiện trong hình 3.5 với
dữ liệu được thể hiện như sau:
Dữ liệu đầu ra bao gồm 17 cột trong đó từ cột x1 đến cột x16 là tập dữ liệu huấn
luyện được tính dựa trên công thức tính điểm rủi ro của dữ liệu đầu vào (phụ lục), cột
pre là điểm rủi ro của doanh nghiệp theo mô hình hồi quy bội với công thức xây dựng.
Kết quả thử nghiệm như sau:
67
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Bảng 3.2 so sánh kết quả thử nghiệm và kết quả thực tế
Với thử nghiệm 200 doanh nghiệp giá trị trung bình theo mô hình xây dựng là
50.92615. Giá trị tính toán trên thực tế là 56.21.
Nhận xét kết quả thử nghiệm:
- Trên tập dữ liệu kiểm tra, độ chính xác của mô hình hồi quy đạt được là 90.59%.
- Mô hình được xây dựng có thể sử dụng để tính điểm rủi ro cho các doanh nghiệp
phục vụ lập hồ sơ phân tích rủi ro của doanh nghiệp phục vụ công tác lập kế hoạch thanh
tra, kiểm tra thuế.
68
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
KẾT LUẬN
Luận văn đã sử dụng một số phương pháp phân tích hồi quy ứng dụng phân tích
dữ liệu trong việc xây dựng mô hình dự báo từ dữ liệu ngành thuế bằng việc sử dụng
phương pháp phân tích hồi quy bội, xây dựng hàm hồi quy để tính điểm rủi ro chi doanh
nghiệp dựa vào số liệu nộp thuế của doanh nghiệp nhằm hỗ trợ cơ quan thuế trong công
tác thanh tra, kiểm tra. Mô hình triển khai trong thực tế sẽ trợ giúp hiệu quả bộ phận
thanh tra thuế trong công tác lập kế hoạch thanh tra, chống thất thu ngân sách và đem
lại hiệu quả kinh tế, xã hội to lớn.
Trong quá trình thực hiện luận văn, em đã tìm hiểu các khái niệm về phân tích
hồi quy để ứng dụng vào bài toán phân tích dữ liệu kê khai nộp thuế phục vụ kế hoạch
thanh tra, kiểm tra thuế, lựa chọn phương pháp phân tích hồi quy bội ứng dụng vào bài
toán phân tích rủi ro khai phá dữ liệu xây dựng nên các bước tính toán để xây dựng mô
hình.
Tìm hiểu và thu thập nguồn dữ liệu nộp thuế do cục thuế Hà Nội cung cấp, dữ
liệu thống kê để làm cơ sở cho phân tích rủi ro. Tuy nhiên, với thời gian và trình độ có
hạn nên không tránh khỏi những hạn chế và thiếu sót. Em rất mong được sự nhận xét và
góp ý của các thầy cô giáo và bạn bè, đồng nghiệp và những người cùng quan tâm để
hoàn thiện hơn các kết quả nghiên cứu của mình.
69
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH MỤC TÀI LIỆU THAM KHẢO
Tiếng Việt [1] Bộ tiêu chí phân tích thông tin rủi ro người nộp thuế phục vụ công tác lập kế
hoạch thanh tra, kiểm tra thuế (Ban hành kèm theo Quyết định số 1733/QĐ-TCT
ngày 1 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế)
[2 Lê Đình Thúy, Toán cao cấp cho các nhà kinh tế. NXB Thống kê, Hà Nội 2004.
[3] Nguyễn Nhật Lệ, Các bài toán cơ bản của tối ưu hóa và điều khiển tối ưu, Nhà
xuất bản khoa học và Kỹ thuật, Hà Nôi 2009
[4] Quy trình phân tích thông tin rủi ro người nộp thuế phục vụ công tác lập kế
hoạch thanh tra, kiểm tra thuế (Ban hành kèm theo Quyết định số 1733/QĐ-TCT
ngày 1 tháng10 năm 2013 của Tổng cục trưởng Tổng cục Thuế)
[5] Quy trình thanh tra thuế ban hành kèm Quyết định 460/QĐ-TCT.
[6] http://tailieu.tv/tai-lieu/
Tiếng Anh
[7] An Introduction to Statistical Methods and Data Analysis, R. Lyman Ott and
Micheal T. Longnecker, Duxbury Press 2008; 1296 pages.
[8] Bruno Chiarini, Elisabetta Marzano, Friedrich Schneider, Tax rates and tax
evasion: an empirical analysis of the long-run aspects in Italy, Eur J Law Econ,
2013.
70
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
PHỤ LỤC [1,5]
1.1 Bộ tiêu chí đánh giá rủi ro:
Bộ tiêu chí đánh giá đánh giá rủi ro được xây dựng gồm 21 tiêu chí,
chia thành 6 nhóm:
Tiêu chí đánh giá rủi ro
STT
Nhóm I: Đánh giá về tuân thủ khai thuế, tính thuế
I
Tiêu chí 1: Chậm nộp hồ sơ khai thuế so với thời hạn quy định
(bao gồm tháng, quý, năm)
II
Nhóm II: Phân loại doanh nghiệp theo loại hình kinh tế
Tiêu chí 2: Phân loại doanh nghiệp theo loại hình kinh tế
III
Nhóm III: Đánh giá sự biến động về kê khai giữa các năm
Tiêu chí 3: So sánh biến động của tỷ lệ “Thuế TNDN phát sinh/
doanh thu” giữa các năm
Tiêu chí 4: So sánh biến động của tỷ lệ “Thuế GTGT phát sinh/
doanh thu hàng hoá dịch vụ bán ra” giữa các năm
IV
Nhóm IV: Đánh giá về tình hình tài chính
Tiêu chí 5: Tỷ lệ lợi nhuận từ hoạt động kinh doanh/ doanh thu
thuần
Tiêu chí 6: Tỷ lệ (lợi nhuận trước thuế + chi phí lãi vay)/ doanh
thu thuần
Tiêu chí 7: Tỷ lệ lợi nhuận sau thuế/ doanh thu thuần
Tiêu chí 8: Tỷ lệ lợi nhuận/ vốn chủ sở hữu
Tiêu chí 9: Tỷ lệ giá vốn hàng bán/ doanh thu thuần
71
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tiêu chí 10: Tỷ lệ chi phí bán hàng/ doanh thu thuần
Tiêu chí 11: Tỷ lệ chi phí quản lý/ doanh thu thuần
Tiêu chí 12: Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất
kinh doanh
Tiêu chí 13: Tỷ lệ Doanh thu thuần về bán hàng và cung cấp
dịch vụ so với vốn chủ sở hữu
Tiêu chí 14: Tỷ lệ Tổng doanh thu GTGT hàng hoá dịch vụ bán
ra so với Tổng doanh thu thuần bán hàng hóa và cung cấp dịch vụ
và Thu nhập khác
Tiêu chí 15: Tỷ lệ hàng tồn kho so với doanh thu thuần
Tiêu chí 16: Hệ số khả năng thanh toán tổng quát
Tiêu chí 17: Hệ số khả năng thanh toán nợ ngắn hạn
Tiêu chí 18: Hệ số khả năng thanh toán nhanh
V
Nhóm V: Lịch sử thanh tra của NNT
Tiêu chí 19: Kỳ đã được thanh tra, kiểm tra gần nhất
Tiêu chí 20: Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm
tra gần nhất
VI
Nhóm VI. Các tiêu chí về nhân thân doanh nghiệp
Tiêu chí 21: Vốn chủ sở hữu nhỏ hơn 20 tỷ đồng thời kinh
doanh đa ngành nghề
1.2
Nội dung các tiêu chí đánh giá rủi ro:
1.2.1. Nhóm tiêu chí I: Nhóm tiêu chí đánh giá về tuân thủ khai thuế,
tính thuế
Tiêu chí 1: Chậm nộp hồ sơ khai thuế so với thời hạn quy định
(bao gồm tháng, quý, năm):
72
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Mô tả tiêu chí
Tiêu chí chậm nộp hồ sơ khai thuế so với thời hạn quy định đánh giá trên cơ sở đếm số lần nộp hồ sơ khai thuế so với thời hạn quy định trong vòng một năm (bao gồm tất cả các tờ khai tháng, quý, năm).
Ý nghĩa tiêu chí
Đánh giá ý thức tuân thủ kê khai nộp thuế của NNT, nhiều lần nộp chậm tờ khai thì khả năng nộp chậm, thiếu thuế lớn.
Phương pháp phân ngưỡng, tính điểm rủi ro
− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,
được gán điểm số lần lượt là 4,3,2,1.
− Phương pháp tính điểm như sau: Tổng hợp đưa ra danh sách số lần chậm nộp hồ sơ khai thuế của từng NNT so với thời hạn quy định trong năm đánh giá. Trên bảng tổng hợp sẽ tiến hành phân ngưỡng từ cao đến thấp với 4 miền giá trị:
Bước 1: Tính bình quân tất cả các giá trị trong danh sách (chỉ tính đối với những NNT có số lần chậm nộp hồ sơ khai thuế >0): Được giá trị "Trung bình".
Bước 2: Xác định danh sách NNT có giá trị "Trên trung bình" và
"Dưới trung bình".
Bước 3: Tính bình quân của danh sách "Trên trung bình": Được
giá trị "Trung bình cao".
Bước 4: Tính bình quân của danh sách "Dưới trung bình" (chỉ tính đối với những NNT có số lần chậm nộp hồ sơ khai thuế >0): Được giá trị "Trung bình thấp".
Bước 5: Phân ngưỡng và gán điểm rủi ro:
STT
So sánh
Điểm
Số lần chậm nộp >= Trung bình cao
1
4
Trung bình cao > Số lần chậm nộp > =
2
3
Trung bình
Trung bình > Số lần chậm nộp >= Trung
3
2
bình thấp
4
Số lần chậm nộp < Trung bình thấp
1
1.2.2. Nhóm tiêu chí II: Nhóm tiêu chí phân loại doanh nghiệp theo
73
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
loại hình kinh tế:
Tiêu chí 2: Phân loại doanh nghiệp theo loại hình kinh tế
Mô tả tiêu chí
Tiêu chí phân loại doanh nghiệp theo loại hình kinh tế đánh giá trên cơ sở hình thức sở hữu về vốn của doanh nghiệp.
Ý nghĩa tiêu chí
Hình thức sở hữu phản ánh mức độ rủi ro về thuế của doanh nghiệp là cao, trung bình hay thấp. Các doanh nghịêp sở hữu tư nhân thì rủi ro hơn các doanh nghiệp cổ phần, doanh nghiệp nước ngoài, doanh nghiệp nhà nước.
Phương pháp phân ngưỡng, tính điểm rủi ro
− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,
được gán điểm số lần lượt là 4,3,2,1.
− Phương pháp tính điểm như sau: Căn cứ vào loại hình kinh tế của doanh nghiệp trên tờ khai Đăng ký thuế, phân loại doanh nghiệp và tính điểm theo quy tắc:
Tên loại hình kinh tế
Điểm
Mã loại hình kinh tế
07
Tổ chức k.tế của các tổ chức chính trị
1
08
Đơn vị sự nghiệp, đơn vị vũ trang
1
01
Nhà nước
1
Công ty nuớc ngoài không theo luật đầu
06
tư nước ngoài
2
02
Đầu tư nước ngoài
2
Doanh nghiệp liên doanh với nước
12
ngoài
2
04
Cổ phần
3
11
Công ty hợp danh
3
05
Doanh nghiệp tư nhân
4
03
Trách nhiệm hữu hạn
4
(Mã loại hình kinh tế được xác định theo hệ thống CSDL Đăng ký thuế hiện đang lưu trữ).
74
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
1.2.3. Nhóm tiêu chí III: Nhóm tiêu chí đánh giá sự biến động về kê
khai giữa các năm:
− Các tiêu chí trong nhóm tiêu chí đánh giá sự biến động về kê khai được đánh giá căn cứ vào sự biến động về số thuế phát sinh so với doanh thu kê khai giữa các năm.
− Phương pháp phân ngưỡng, tính điểm rủi ro cho từng tiêu chí:
Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,
được gán điểm số lần lượt là 4,3,2,1.
Phương pháp tính điểm như sau:
Bước 1: Tổng hợp đưa ra danh sách Kết quả phân tích của NNT trong năm đánh giá và năm trước đó (nếu có).
Bước 2: Tính biến động của Kết quả phân tích của năm đánh giá với năm trước đó (nếu có).
Bước 3: Tiến hành phân ngưỡng rủi ro từ cao đến thấp với các miền giá trị:
STT
Ý nghĩa
Điểm
Tỷ lệ biến động giữa năm N/năm N-1
Không biến động qua các
1
= 1
2
năm, rủi ro thấp
Biến động tăng qua các
2
>1
1
năm, rủi ro rất thấp
hợp
3
2
Trường mẫu số = 0
Kết quả phân tích năm trước năm đánh giá = 0 hoặc NNT chưa hoạt động sản xuất kinh doanh, rủi ro thấp
<1, mức biến
4
3
động <10%
Biến động giảm qua các năm và mức độ giảm nhỏ hơn 10%, rủi ro vừa
<1, mức biến
5
4
động > 10%
Biến động giảm qua các năm và mức độ giảm lớn hơn 10%, rủi ro cao
75
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Ý nghĩa
Điểm
STT
Tỷ lệ biến động giữa năm N/năm N-1
4
6
= 0
Kết quả phân tích năm đánh giá = 0 và tỷ lệ năm trước # 0, tỷ lệ rủi ro cao
Tiêu chí 3: So sánh biến động của tỷ lệ “Thuế TNDN phát sinh/
doanh thu” giữa các năm
Mô tả tiêu chí
Tiêu chí dùng để đánh giá rủi ro bằng cách So sánh sự biến động của
tỷ lệ Thuế TNDN phát sinh so với Doanh thu thuần của Doanh nghiệp
giữa các năm.
Ý nghĩa tiêu chí
Đánh giá sự biến động của thuế TNDN qua các năm và xác định các mức độ rủi ro về thuế thông qua đánh giá sự biến động.
Tiêu chí 4: So sánh biến động của tỷ lệ “Thuế GTGT phát sinh/ doanh
thu hàng hoá dịch vụ bán ra” giữa các năm
Mô tả tiêu chí
− Tiêu chí dùng để đánh giá rủi ro bằng cách So sánh sự biến động về tỷ lệ Thuế GTGT phát sinh với Doanh thu hàng hoá dịch vụ bán ra của Doanh nghiệp giữa các năm.
Ý nghĩa tiêu chí
Đánh giá sự biến động về thuế GTGT trên doanh thu giữa các năm.
1.2.4. Nhóm tiêu chí IV: Nhóm tiêu chí đánh giá về tình hình tài
chính:
− Các tiêu chí trong nhóm tiêu chí đánh giá về tình hình tài chính của doanh nghiệp được đánh giá căn cứ trên Bảng cân đối kế toán và Bảng báo cáo kết quả hoạt động sản xuất kinh doanh của doanh nghiệp.
Theo quy định hiện hành các doanh nghiệp nhỏ và vừa lập BCTC
theo mẫu ban hành trên Quyết định 48/2006/QĐ-BTC, các doanh nghiệp
còn lại lập BCTC theo mẫu ban hành trên Quyết định 15/2006/QĐ-BTC,
76
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
do vậy cùng công thức tính tỷ lệ nhưng mã số của các chỉ tiêu trên từng bộ
mẫu biểu BCTC là khác nhau. Công thức tính các chỉ tiêu được thiết kế lấy
dữ liệu theo cả 2 mẫu biểu BCTC.
Đối với Ngân hàng thương mại và các tổ chức tín dụng sử dụng các
chỉ tiêu theo mẫu BCTC ban hành kèm theo Quyết định số 16/2007/QĐ-
NHNN.
− Các tiêu chí trong nhóm tiêu chí đánh giá về tình hình tài chính của doanh nghiệp được so sánh với tỷ lệ bình quân ngành của từng tiêu chí. Về danh mục ngành, tiến hành phân loại NNT theo danh mục ngành cấp 1 của Tổng cục thống kê được NNT kê khai trên tờ khai Đăng ký thuế, bao gồm các ngành sau:
STT
Tên ngành nghề
Mã ngành nghề
A
Nông nghiệp, lâm nghiệp và thuỷ sản
1
B
Khai khoáng
2
C
Công nghiệp chế biến, chế tạo
3
D
Sản xuất và phân phối điện, khí đốt, nớc
4
nóng, hơi nước và điều hoà không khí
E
Cung cấp nước; hoạt động quản lý và xử lý
5
rác thải, nước thải
F
Xây dựng
6
G
Bán buôn và bán lẻ; sửa chữa ô tô, mô tô, xe
7
máy và xe có động cơ khác
H
Vận tải kho bãi
8
I
Dịch vụ lu trú và ăn uống
9
J
Thông tin và truyền thông
10
K
Hoạt động tài chính, ngân hàng và bảo hiểm
11
77
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
STT
Tên ngành nghề
Mã ngành nghề
L
Hoạt động kinh doanh bất động sản
12
M
Hoạt động chuyên môn, khoa học và công
13
nghệ
N
Hoạt động hành chính và dịch vụ hỗ trợ
14
O
15
Hoạt động của đảng cộng sản, tổ chức chính trị - xã hội, quản lý nhà nớc, an ninh quốc phòng; bảo đảm xã hội bắt buộc
P
Giáo dục và đào tạo
16
Q
Y tế và hoạt động trợ giúp xã hội
17
R
Nghệ thuật, vui chơi và giải trí
18
S
Hoạt động dịch vụ khác
19
T
20
Hoạt động làm thuê các công việc trong các hộ gia đình, sản xuất sản phẩm vật chất và dịch vụ tự tiêu dùng của hộ gia đình
U
Hoạt động của các tổ chức và cơ quan quốc
21
tế
V
Hoạt động của các tổ chức và đoàn thể quốc
22
tế
− Phương pháp phân ngưỡng, tính điểm rủi ro cho từng tiêu chí:
Bước 1: Tổng hợp đưa ra danh sách kết quả phân tích các tiêu chí trong năm đánh giá của từng NNT. Trường hợp doanh nghiệp sản xuất, kinh doanh lỗ (thu nhập thuần <0) sẽ gán kết quả phân tích =0,
Bước 2: Xác định ngưỡng điểm tính theo bình quân ngành. Áp dụng cách tính điểm bình quân theo từng ngành gồm 4 mức: Cao, vừa, thấp, rất thấp. Đối với từng ngành, thực hiện cách phân ngưỡng và tính điểm như sau:
Bước 2.1: Tính bình quân tất cả các giá trị trong danh sách thuộc từng ngành (chỉ tính đối với các giá trị >0): Được giá trị "Trung bình ngành".
78
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Bước 2.2: Xác định danh sách NNT có giá trị "Trên trung bình" và "Dưới trung bình".
Bước 2.3: Tính bình quân của danh sách "Trên trung bình": Được giá trị "Trung bình cao".
Bước 2.4: Tính bình quân của danh sách "Dưới trung bình" (chỉ tính đối với các giá trị >0): Được giá trị "Trung bình thấp".
Bước 2.5: Phân ngưỡng và gán điểm rủi ro:
Tiêu chí
So sánh
Điểm
Kết quả phân tích >= Trung bình
4
cao
Trung bình cao > Kết quả phân
3
Đối với những tiêu chí Kết quả tích càng phân cao, rủi ro càng
tích > = Trung bình ngành
79
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tiêu chí
So sánh
Điểm
Trung bình ngành > Kết quả
2
cao
phân tích >= Trung bình thấp
Kết quả phân tích < Trung bình
1
thấp
Kết quả phân tích >= Trung bình
1
cao
Trung bình cao > Kết quả phân
2
tích > = Trung bình ngành
Trung bình ngành > Kết quả
3
Đối với những tiêu chí Kết quả tích càng phân cao, rủi ro càng thấp
phân tích >= Trung bình thấp
Kết quả phân tích < Trung bình
4
thấp
Nhóm tiêu chí phản ánh hiệu quả sinh lời
Tiêu chí 5: Tỷ lệ lợi nhuận từ hoạt động kinh doanh/doanh thu thuần
Mô tả tiêu chí
− Phản ánh hiệu quả sản xuất kinh doanh của doanh nghiệp trong kỳ. Các doanh nghiệp cùng ngành nghề có tỷ lệ càng cao thì hiệu quả sản xuất kinh doanh càng cao, rủi ro càng thấp.
Ý nghĩa tiêu chí
− Thể hiện khả năng sinh lời của doanh nghiệp, cho biết với một đồng doanh thu thuần từ bán hàng và cung cấp dịch vụ sẽ tạo ra bao nhiêu đồng lợi nhuận. Tỷ lệ này càng lớn thì hiệu quả hoạt động sản xuất, kinh doanh của doanh nghiệp càng tốt.
− Chỉ tiêu này dùng để so sánh giữa các doanh nghiệp cùng ngành nghề. Tuy nhiên chỉ tiêu này chưa đánh giá được chính xác khả năng sinh lời của từng doanh nghiệp vì chưa loại trừ được khác biệt giữa các doanh nghiệp có nguồn vốn hình thành khác nhau.
Tiêu chí 6: Tỷ lệ (lợi nhuận trước thuế + chi phí lãi vay)/ doanh thu thuần
Mô tả tiêu chí
− Phản ánh hiệu quả sản xuất kinh doanh của doanh nghiệp trong kỳ. Các doanh nghiệp cùng ngành nghề có tỷ lệ càng cao thì hiệu quả sản xuất
80
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
kinh doanh càng cao, rủi ro càng thấp.
Ý nghĩa tiêu chí
− Thể hiện khả năng sinh lời của doanh nghiệp, là tỷ lệ của tổng số lợi nhuận trước thuế thu được từ các hoạt động sản xuất kinh doanh phát sinh trong năm cộng với chi phí lãi vay chia cho doanh thu thuần. Cho biết với một đồng doanh thu thuần từ bán hàng và cung cấp dịch vụ sẽ thu được bao nhiêu đồng lợi nhuận. Tỷ lệ này càng lớn thì hiệu quả hoạt động sản xuất, kinh doanh của doanh nghiệp càng tốt.
− Chỉ tiêu này dùng để so sánh giữa các doanh nghiệp cùng ngành nghề. Chỉ tiêu này phản ánh chính xác khả năng sinh lời của doanh nghiệp.
Tiêu chí 7: Tỷ lệ lợi nhuận sau thuế/ doanh thu thuần
Mô tả tiêu chí
− Phản ánh hiệu quả sản xuất kinh doanh của doanh nghiệp trong kỳ. Trong thực tế tiêu chí này bị ảnh hưởng bởi chính sách miễn, giảm thuế. Khi phân tích nếu tỷ lệ này thấp trong khi tỷ lệ lợi nhuận trước thuế/doanh thu thuần cao thể hiện doanh nghiệp đang kê khai miễn, giảm thuế và khả năng rủi ro trong việc miễn, giảm thuế cao.
Ý nghĩa tiêu chí
− Thể hiện hiệu quả của doanh nghiệp. Đánh giá rủi ro về miễn, giảm
thuế TNDN.
− Chỉ tiêu này dùng để so sánh giữa các doanh nghiệp cùng ngành
nghề.
Tiêu chí 8: Tỷ lệ lợi nhuận/ vốn chủ sở hữu
Mô tả tiêu chí
− Phản ánh hiệu quả sản xuất kinh doanh của doanh nghiệp trong kỳ. Các doanh nghiệp cùng ngành nghề có tỷ lệ càng cao thì hiệu quả sản xuất kinh doanh càng cao, rủi ro càng thấp.
Ý nghĩa tiêu chí
− Phản ánh hiệu quả sử dụng vốn, ảnh hưởng đến rủi ro về thuế. Cho biết với một đồng vốn chủ sở hữu doanh nghiệp sử dụng tạo ra được bao nhiêu đồng lợi nhuận. Tỷ lệ này càng cao thì phản ánh trình độ sử dụng vốn chủ sở hữu của doanh nghiệp càng cao.
Nhóm tiêu chí phản ánh mức độ sử dụng chi phí
Tiêu chí 9: Tỷ lệ giá vốn hàng bán/ doanh thu thuần
Mô tả tiêu chí
81
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
− Phản ánh trình độ kiểm soát chi phí của doanh nghiệp. Trình độ
quản lý càng cao tức tỷ lệ càng thấp thì rủi ro càng thấp.
Ý nghĩa tiêu chí
So sánh chi phí giá vốn giữa các doanh nghiệp cùng ngành nghề. Phản ánh trình độ quản lý giá vốn hàng bán của doanh nghiệp. Tỷ lệ càng cao thì trình độ quản lý của doanh nghiệp càng kém và tiềm ẩn những rủi ro về thuế, đặc biệt là thuế TNDN.
Tiêu chí 10: Tỷ lệ chi phí bán hàng/ doanh thu thuần
Mô tả tiêu chí
− Phản ánh trình độ kiểm soát chi phí của doanh nghiệp. Trình độ quản
lý càng cao tức tỷ lệ càng thấp thì rủi ro càng thấp.
Ý nghĩa tiêu chí
So sánh chi phí bán hàng giữa các doanh nghiệp cùng ngành nghề. Phản ánh trình độ quản lý chi phí bán hàng của doanh nghiệp. Tỷ lệ càng cao thì trình độ quản lý càng kém và tiềm ẩn những rủi ro về thuế TNDN.
Tiêu chí 11: Tỷ lệ chi phí quản lý/ doanh thu thuần
Mô tả tiêu chí
− Phản ánh trình độ kiểm soát chi phí của DN. Trình độ quản lý càng
cao tức tỷ lệ càng thấp thì rủi ro càng thấp.
Ý nghĩa tiêu chí
So sánh chi phí quản lý giữa các doanh nghiệp cùng ngành nghề. Phản ánh trình độ quản lý của doanh nghiệp. Tỷ lệ càng cao thì trình độ quản lý càng kém và tiềm ẩn những rủi ro về thuế TNDN.
Nguồn dữ liệu
Tiêu chí 12: Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất
kinh doanh
Mô tả tiêu chí
− Phản ánh tỷ lệ các khoản dự phòng được trích lập đưa vào chi phí
sản xuất kinh doanh trong kỳ. Tỷ lệ càng cao rủi ro càng cao.
Ý nghĩa tiêu chí
− Thể hiện rủi ro trong việc kê khai chi phí sản xuất kinh doanh từ nguồn trích lập dự phòng. Tỷ lệ này cao cho thấy việc sản xuất kinh doanh đang gặp khó khăn.
Phương pháp so sánh và tính điểm rủi ro:
82
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
− Mức độ rủi ro được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,
được gán điểm số lần lượt là 4,3,2,1
− Phương pháp tính điểm như sau: Gán điểm rủi ro theo quy tắc:
So sánh
Điểm
STT
Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất kinh
4
1
doanh >10%
5% <=Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất
2
kinh doanh <10%
3
1%<=Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất
3
kinh doanh <5%
2
Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất kinh
4
doanh <1%
1
Tiêu chí 13: Tỷ lệ Doanh thu thuần về bán hàng và cung cấp
dịch vụ so với vốn chủ sở hữu
Mô tả tiêu chí
− Phản ánh hiệu quả sử dụng vốn thông qua chỉ tiêu số vòng quay vốn. Nếu số lần quay vòng vốn quá thấp hoặc số lần quay vòng vốn quá cao đều thể hiện sự bất hợp lý, khả năng rủi ro cao.
Ý nghĩa tiêu chí
− Thể hiện số vòng quay vốn của doanh nghiệp. Nếu số lần quay vòng vốn quá thấp phản ánh hoạt động không hiệu quả, nếu số lần quay vòng vốn quá cao thể hiện sự bất hợp lý. Đối với doanh nghiệp nhỏ có số vòng quay lớn, đột biến trong năm có thể phát sinh việc bán hoá đơn bất hợp pháp.
Phương pháp tính điểm rủi ro
Tỷ lệ
Doanh thu thuần Vốn chủ sở hữu >=10 điểm rủi ro là 4
Doanh thu thuần Vốn chủ sở hữu <=1 hoặc Các trường hợp khác điểm rủi ro là 1
− Hệ thống lưu trữ: Hệ thống Báo cáo tài chính cấp Tổng cục (BCTC)
Tiêu chí 14: Tỷ lệ Tổng doanh thu GTGT hàng hoá dịch vụ bán ra so với Tổng doanh thu thuần bán hàng hóa và cung cấp dịch vụ và Thu nhập khác
Mô tả tiêu chí
83
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
− Phản ánh mối quan hệ giữa doanh thu GTGT của hàng hoá dịch vụ bán ra với Doanh thu tính thuế TNDN. Tỷ lệ này biến động càng lớn thì rủi ro càng cao
Ý nghĩa tiêu chí
− So sánh Tổng doanh thu GTGT hàng hóa dịch vụ bán ra so với Tổng doanh thu thuần bán hàng hóa và cung cấp dịch vụ và Thu nhập khác. Thể hiện rủi ro trong việc kê khai thiếu doanh thu chịu thuế GTGT hoặc doanh thu tính thuế TNDN.
− Đối với các doanh nghiệp kinh doanh xây dựng, kinh doanh bất động sản có thể rủi ro trong việc kê khai thuế vãng lai hoặc doanh thu thu tiền trước.
Phương pháp tính điểm rủi ro
− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,
được gán điểm số lần lượt là 4,3,2,1
− Phương pháp tính điểm như sau: Gán điểm rủi ro theo quy tắc:
So sánh
S TT
Đi ểm
1 Tỷ lệ biến động > 10%
4
2 5% < Tỷ lệ biến động <= 10%
3
1% < Tỷ lệ biến động < = 5%. Riêng ngân hàng và các tổ chức
3
tín dụng mặc định rủi ro thấp.
2
Tỷ lệ biến động <= 1%.
4
1
− Hệ thống lưu trữ: Hệ thống Báo cáo tài chính cấp Tổng cục (BCTC),
dữ liệu từ các tờ khai 01/GTGT trên hệ thống TPH
Tiêu chí 15: Tỷ lệ hàng tồn kho so với doanh thu thuần
Mô tả tiêu chí
Phản ánh tỷ lệ hàng tồn kho cuối kỳ so với doanh thu bán hàng và
cung cấp dịch vụ. Tiêu chí này dùng để so sánh giữa các doanh nghiệp
cùng ngành nghề. Tỷ lệ càng cao rủi ro càng cao.
Phương pháp phân ngưỡng, tính điểm rủi ro
− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,
84
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
được gán điểm số lần lượt là 4,3,2,1. Riêng ngân hàng và các tổ chức tín dụng mặc định rủi ro thấp.
Nhóm tiêu chí phản ánh khả năng thanh toán doanh nghiệp
Tiêu chí 16: Hệ số khả năng thanh toán tổng quát
Mô tả tiêu chí
− Phản ánh khả năng thanh toán công nợ của Doanh nghiệp. So sánh
với bình quân ngành. Khả năng thanh toán càng cao rủi ro càng thấp.
Ý nghĩa tiêu chí
Đo lường khả năng thanh toán một cách tổng quát các khoản nợ của doanh
nghiệp. Chỉ tiêu này phản ánh rủi ro về thanh toán nợ thuế của doanh nghiệp.
Tiêu chí 17: Hệ số khả năng thanh toán nợ ngắn hạn
Mô tả tiêu chí
− Phản ánh khả năng thanh toán nợ ngắn hạn của Doanh nghiệp. So sánh với bình quân ngành. Khả năng thanh toán càng cao tức tỷ lệ càng cao thì rủi ro càng thấp.
Ý nghĩa tiêu chí
Hệ số này là thước đo khả năng thanh toán của doanh nghiệp, cho biết tỷ lệ các khoản nợ ngắn hạn của doanh nghiệp được trả bằng các tài sản tương đương với thời hạn của các khoản nợ đó. Chỉ tiêu này lớn hơn 1 chứng tỏ doanh nghiệp có khả năng thanh toán các khoản nợ ngắn hạn.
Tiêu chí 18: Hệ số khả năng thanh toán nhanh
Mô tả tiêu chí
− Phản ánh khả năng thanh toán công nợ của Doanh nghiệp. So sánh với bình quân ngành. Khả năng thanh toán càng tốt tức tỷ lệ càng cao rủi ro càng thấp.
Ý nghĩa tiêu chí
Hệ số này phản ánh doanh nghiệp có nhiều khả năng đáp ứng việc thanh toán nợ ngắn hạn vì dễ dàng chuyển từ tài sản lưu động khác về tiền mặt. Hệ số này càng cao, khả năng thanh toán của doanh nghiệp càng được đánh giá là an toàn vì doanh nghiệp có thể trang trải các khoản nợ ngắn hạn mà không cần đến các nguồn thu hay doanh số bán.
1.2.5. Nhóm tiêu chí V: Lịch sử thanh tra, kiểm tra của NNT
Tiêu chí 19: Kỳ đã được thanh tra, kiểm tra tại trụ sở gần nhất
85
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Mô tả tiêu chí
− Đánh giá dựa trên kỳ đã được thanh tra, kiểm tra tại trụ sở doanh nghiệp gần nhất. Kỳ được thanh tra, kiểm tra gần nhất là kỳ nộp thuế thu nhập doanh nghiệp cuối cùng cơ quan thuế thực hiện thanh tra, kiểm tra việc chấp hành nghĩa vụ kê khai nộp thuế của NNT (kể cả thanh tra, kiểm tra theo chuyên đề).
− Ví dụ: Trong năm 2009, Cơ quan thuế tiến hành thanh tra doanh nghiệp thời kỳ từ 2006 đến 2007, như vậy kỳ được thanh tra gần nhất là năm 2007. Thời gian kể từ lần thanh tra trước càng xa rủi ro càng cao.
Ý nghĩa tiêu chí
Doanh nghiệp mới được thanh tra, kểm tra mức độ tuân thủ tốt hơn. Thời gian kể từ lần thanh tra, kiểm tra gần nhất càng dài thì rủi ro càng cao.
Phương pháp phân ngưỡng, tính điểm rủi ro
− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,
được gán điểm số lần lượt là 4,3,2,1.
− Phương pháp tính điểm như sau: Tổng hợp đưa ra danh sách lần thanh tra, kiểm tra gần nhất đối với từng NNT nếu có. Trên bảng tổng hợp sẽ tiến hành phân ngưỡng từ cao đến thấp với 4 miền giá trị:
Kỳ được thanh tra, kiểm tra gần nhất là 0 năm, thời gian tính từ khi doanh nghiệp bắt đầu hoạt động đến thời gian lập kế hoạch thanh tra dưới 3 năm: Rủi ro rất thấp.
Kỳ được thanh tra, kiểm tra gần nhất là 1 năm: Rủi ro thấp.
Kỳ được thanh tra, kiểm tra gần nhất từ 2 đến 3 năm: Rủi ro vừa.
Kỳ được thanh tra, kiểm tra gần nhất trên 3 năm: Rủi ro cao.
Tiêu chí 20: Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra
gần nhất
Mô tả tiêu chí
− Đánh giá dựa trên cơ sở so sánh số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra gần nhất. Số thuế truy thu càng lớn rủi ro càng cao.
Ý nghĩa tiêu chí
− Xác định lịch sử vi phạm của NNT trước đây. Đánh giá mức độ vi phạm trong việc kê khai thuế.
Phương pháp phân ngưỡng, tính điểm rủi ro
86
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,
được gán điểm số lần lượt là 4,3,2,1.
− Phương pháp tính điểm như sau: Tổng hợp đưa ra danh sách số thuế truy thu trong lần thanh tra, kiểm tra gần nhất đối với từng NNT nếu có. Trên bảng tổng hợp sẽ tiến hành phân ngưỡng từ cao đến thấp với 4 miền giá trị:
Bước 1: Tính bình quân tất cả các giá trị trong danh sách (chỉ tính đối với những NNT có số thuế truy thu): Được giá trị "Trung bình".
Bước 2: Xác định danh sách NNT có giá trị "Trên trung bình" và
"Dưới trung bình".
Bước 3: Tính bình quân của danh sách "Trên trung bình": Được
giá trị "Trung bình cao".
Bước 4: Tính bình quân của danh sách "Dưới trung bình" : Được
giá trị "Trung bình thấp".
Bước 5: Phân ngưỡng và gán điểm rủi ro:
STT
So sánh
Điểm
Số thuế truy thu >= Trung bình cao
1
4
Trung bình cao > Số thuế truy thu > =
2
3
Trung bình
Trung bình > Số thuế truy thu >= Trung
3
2
bình thấp
4
Số thuế truy thu < Trung bình thấp
1
2.1. Nhóm tiêu chí VI
Tiêu chí 21: Vốn chủ sở hữu nhỏ hơn 20 tỷ đồng thời kinh
doanh đa ngành nghề
Mô tả tiêu chí
− Đánh giá dựa trên vốn chủ sở hữu và số ngành nghề kinh doanh của doanh nghiệp. Doanh nghiệp có vốn chủ sở hữu nhỏ đồng thời kinh doanh nhiều ngành nghề sẽ có mức độ rủi ro cao.
Ý nghĩa tiêu chí
− Thể hiện mức độ rủi ro của những doanh nghiệp có vốn chủ sở hữu
87
Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
nhỏ nhưng kinh doanh đa ngành nghề.
− Một số doanh nghiệp thành lập với mục đích in và bán hóa đơn cho các doanh nghiệp khác sử dụng để kê khai khấu trừ thuế GTGT và kê khai chi phí tính thuế TNDN.
Phương pháp tính điểm rủi ro