ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

--------------- o0o ---------------

VŨ THỊ LAN ANH NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU KÊ KHAI NỘP

THUẾ PHỤC VỤ THANH TRA

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

THÁI NGUYÊN - 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ĐẠI HỌC THÁI NGUYÊN

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN VÀ TRUYỀN THÔNG

--------------- o0o ---------------

VŨ THỊ LAN ANH

NGHIÊN CỨU PHƯƠNG PHÁP PHÂN TÍCH HỒI QUY

ỨNG DỤNG TRONG PHÂN TÍCH DỮ LIỆU KÊ KHAI NỘP

THUẾ PHỤC VỤ THANH TRA

Chuyên ngành: Khoa học máy tính

Mã số: 60480101

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học

GS.TS.Vũ Đức Thi

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

THÁI NGUYÊN - 2016

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

LỜI CẢM ƠN

Trong thời gian hai năm của chương trình đào tạo thạc sỹ, trong đó gần một nửa thời

gian dành cho các môn học, thời gian còn lại dành cho việc lựa chọn đề tài, giáo viên hướng

dẫn, tập trung vào nghiên cứu, viết, chỉnh sửa và hoàn thiện đề tài. Với quỹ thời gian như vậy

và với vị trí công việc đang phải đảm nhận, không riêng bản thân em mà hầu hết các sinh

viên cao học muốn hoàn thành tốt luận văn của mình trước hết đều phải có sự sắp xếp thời

gian hợp lý, có sự tập trung học tập và nghiên cứu với tinh thần nghiêm túc, nỗ lực hết mình;

tiếp đến cần có sự ủng hộ về tinh thần, sự giúp đỡ về chuyên môn một trong những điều kiện

không thể thiếu quyết định đến việc thành công của đề tài.

Để hoàn thành được đề tài này trước tiên em xin gửi lời cảm ơn đến thầy giáo

hướng dẫn GS.TS Vũ Đức Thi, thầy đã có những định hướng cho em về nội dung và

hướng phát triển, đã có những đóng góp quý báu cho em về những vấn đề chuyên môn

của đề tài, giúp em tháo gỡ kịp thời những vướng mắc trong quá trình làm luận văn.

Em xin gửi lời cảm ơn tới Tập thể cán bộ nghiên cứu nhóm thực hiện đề tài do

TS Nguyễn Long Giang Viện Công nghệ Thông tin, Viện Hàn lâm Khoa học và Công

nghệ Việt Nam làm chủ nhiệm đã cung cấp đầy đủ các số liệu thu được từ Chi cục thuế

Hà Nội hỗ trợ và giúp đỡ Em tiến hành các thử nghiệm thành công.

Em cũng xin cám ơn các thầy cô giáo Trường Đại học Công nghệ thông tin và

Truyền thông Thái Nguyên, cũng như bạn bè cùng lớp đã có những ý kiến đóng góp bổ

sung cho đề tài luận văn của em. Xin cảm ơn gia đình, người thân cũng như đồng nghiệp

luôn quan tâm, ủng hộ hỗ trợ về mặt tinh thần trong suốt thời gian từ khi nhận đề tài đến

khi hoàn thiện đề tài này.

Trong nội dung của luận văn chắc chắn còn nhiều thiếu sót. Em rất mong các

Thầy cô cùng bạn bè đó góp để bản luận văn của Em được hoàn thiện hơn.

Em xin trân trọng cảm ơn.

Thái Nguyên, ngày 20 tháng 08 năm 2016

Sinh viên

Vũ Thị Lan Anh

i

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

LỜI CAM ĐOAN

Em xin cam đoan đây là công trình nghiên cứu của riêng em.

Các số liệu, trong luận văn được sử dụng từ nguồn số liệu được cung cấp bởi

chi cục thuế Hà Nội thực hiện năm 2014. Kết quả nghiên cứu này chưa được sử

dụng trong bất kể nghiên cứu nào khác.

Thái Nguyên, ngày 20 tháng 8 năm 2016

TÁC GIẢ

Vũ Thị Lan Anh

ii

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

MỤC LỤC

MỞ ĐẦU Chương 1. 1.1.

1.2.

2.3.

Chương 3.

..................................................................................................................... 1 Tổng quan hồi quy, bài toán tính điểm rủi ro thuế ...................................... 3 Kiến thức cơ bản về phân tích hồi quy ............................................................. 3 1.1.1 Khái niệm cơ bản về hàm nội suy ................................................................. 3 1.1.2 Bài toán hồi quy ............................................................................................ 8 Phát biểu bài toán phân tích điểm rủi ro ......................................................... 13 1.2.1 Mục tiêu của bài toán .................................................................................. 13 1.2.2 Yêu cầu của bài toán phân tích tính điểm rủi ro ......................................... 13 Chương 2. Mô hình hồi quy tuyến tính........................................................................ 16 2.1. Mô hình hồi quy tuyến tính đơn ..................................................................... 16 2.1.1 Vấn đề mô hình hồi quy ............................................................................... 16 2.1.2 Ước lượng hệ số hồi quy ............................................................................. 18 2.1.3 Tính chất của ước lượng của các hệ số hồi quy .......................................... 19 2.1.4 Kiểm định giả thuyết ................................................................................... 20 2.1.5 Khoảng tin cậy ............................................................................................ 23 2.1.6 Tính phù hợp của mô hình........................................................................... 27 2.1.7 Tuyến tính hóa một số mô hình ................................................................... 31 2.2. Mô hình hồi quy tuyến tính bội ...................................................................... 32 2.2.1 Phương trình hồi quy .................................................................................. 32 2.2.2 Ước lượng hệ số hồi quy và tính chất của ước lượng ................................. 34 2.2.3 Kiểm định giả thuyết ................................................................................... 35 2.2.4 Ước lượng và dự đoán ................................................................................ 37 2.2.5 Phân tích phần dư ....................................................................................... 38 2.2.6 Sử dụng phần mềm ...................................................................................... 38 2.2.7 Lựa chọn biến và xây dựng mô hình ........................................................... 41 Phân tích hồi quy logistic ................................................................................ 49 2.3.1 Mô hình hồi quy logistic ............................................................................. 49 2.3.2 Phân tích hồi quy logistic đa thức ............................................................... 51 Bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế 53

3.1. Tính cấp thiết xây dựng hệ thống tính điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế ................................................................................................. 53 Bài toán tính điểm rủi ro của doanh nghiệp .................................................... 54 3.2. Các bước xây dựng mô hình giải quyết bài toán ............................................ 56 3.3.

iii

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

3.4.

3.3.1 Xây dựng mô hình hồi quy tuyến tính bội ................................................... 57 3.3.2 Mô hình tổng thể bài toán tính điểm rủi ro cho doanh nghiệp ................... 59 3.3.3 Thực thi mô hình để tính điểm rủi ro cho doanh nghiệp ............................. 60 3.3.4 Tiền xử lý dữ liệu ......................................................................................... 61 Thử nghiệm và đánh giá kết quả ..................................................................... 63 3.4.1 Mục tiêu thử nghiệm .................................................................................... 63 3.4.2 Công cụ thử nghiệm và môi trường thử nghiệm ......................................... 63 3.4.3 Quy trình thử nghiệm .................................................................................. 64 DANH MỤC TÀI LIỆU THAM KHẢO .......................................................................... 70 ................................................................................................................... 71 PHỤ LỤC

iv

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Danh mục hình vẽ

Hình 2.1. Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy ................ 17

Hình 2.2. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm ......................... 18

Hình 2.3. Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2 đường

hyperbol ngoài) cho mức tiêu thụ nhiên liệu ........................................................ 26

Hình 2.4. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm ......................... 27

Hình 2.5. Dáng điệu phần dư ................................................................................ 28

Hình 2.6. Đồ thị phần dư chuẩn hóa cho số liệu độ kéo ....................................... 31

Hình 2.7. Miền biến thiên của các biến hồi quy ................................................... 38

Hình 2.8. Đồ thị xác suất chuẩn và phần dư chuẩn hóa của số liệu lực kéo ......... 41

Hình 2.9. Phần dư chuẩn hóa theo quan sát của số liệu độ tan ............................. 48

Hình 2.10. Mối liên hệ giữa logit(p) và p, cho 1

v

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Danh mục bảng

Bảng 1.1. Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon ........................... 16

Bảng 2.1. Phân tích phương sai để kiểm định tính hiệu quả của hồi quy ................ 23

Bảng 2.2. Phân tích hệ số và phân tích phương sai cho Ví dụ 2.2 ........................... 30

Bảng 2.4. Số liệu cho mô hình hồi quy bội .............................................................. 32

Bảng 2.5. Kết quả xử lý với số liệu lực kéo dây dẫn .............................................. 39

Bảng 2.6. Tóm tắt, phân tích phương sai và phân tích hệ số cho Ví dụ 2.3 ............ 40

Bảng 2.7. Số liệu độ tan ........................................................................................... 45

Bảng 2.8. Tóm tắt, phân tích phương sai và phân tích các hệ số cho mô hình đầy đủ

của số liệu độ tan ...................................................................................................... 47

Bảng 2.9. Tóm tắt, phân tích phương sai, phân tích hệ số của mô hình cuối cùng

theo phương pháp cân nhắc từng bước của số liệu độ tan ....................................... 48

vi

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

MỞ ĐẦU

Dữ liệu thống kê rất đa dạng và phong phú, khai thác được dữ liệu này góp phần

đưa ra được những ý kiến tốt cho kết luận đối với hoạt động của các công ty, doanh

nghiệp. Dựa trên các phương pháp phân tích dữ liệu hồi quy trên cơ sở đề xuất phương

pháp hiệu quả.

Vấn đề gian lận trong thuế có ảnh hưởng lớn trong nguồn thu ngân sách của các

quốc gia. Dựa trên phân tích dữ liệu hồi quy phân tích rủi ro nhằm phát hiện các gian

lận của người nộp thuế và các doanh nghiệp tham gia đóng thuế để đưa ra quyết định

thanh tra trường hợp có biểu hiện gian lận thuế. Kết quả phân tích này nhằm phát hiện

trường hợp gian lận đem lại lợi ích tăng nguồn thu ngân sách, thúc đẩy sự phát triển kinh

tế, xã hội của đất nước. Phân tích rủi ro là một phương pháp quản lý khoa học và hiệu

quả để giải quyết bài toán quản lý thuế trong điều kiện số lượng người nộp thuế ngày

càng tăng lên nhanh chóng, mức độ quản lý ngày càng phức tạp do trình độ của người

nộp thuế ngày càng cao, các hoạt động kinh tế phát sinh ngày càng đa dạng và phong

phú dẫn đến khối lượng công việc của công tác quản lý thuế tăng lên vượt quá khả năng

tăng nguồn lực bị hạn chế nhất định của các cơ quan thuế.

Từ các nội dung được nêu trên tôi lựa chọn đề tài “Nghiên cứu phương pháp

phân tích hồi quy ứng dụng trong phân tích dữ liệu kê khai nộp thuế phục vụ thanh

tra” làm luận văn tốt nghiệp thạc sỹ của mình.

Nội dung chính của luận văn gồm 3 chương bao gồm

Chương 1: Luận văn trình bày cơ sở toán học trong việc xác định công thức hàm

nội suy và hàm hồi quy cùng các thuật toán tương ứng, đây là một lĩnh vực quan trong

của toán học đối với lớp các bài toán thực nghiệm nhằm xây dựng các công thức gần

đúng miêu tả mối ràng buộc giữa các số liệu xuất hiện trong các thí nghiệm tại các phòng

thí nghiệm. các kiến tức này là rất cần thiết làm cơ sở để nghiên cứu các nội dung trong

luận văn.

1

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Chương 2: Luận văn trình bày các kiến thức cơ bản về Mô hình hồi quy tuyến

tính, một trong những mô hình đã và đang được phát triển trong công nghệ thông tin

giải quyết các bài toán tối ưu hóa theo tư tưởng quần thể ngẫu nhiên. Mô hình hồi quy

bội chính là cơ sở để xây dựng thuật toán giải bài toán thực tế được đưa ra trong chương

3.

Chương 3: Nội dung chính của chương 3 trình bày mô hình bài toán tính điểm

rủi ro của doanh nghiệp phục vụ thanh tra kiểm tra thuế, một bài toán quan trọng

trong ngành thuế. Trên cơ sở mô hình bài toán, luận văn đã xây dựng phương tình tính

điểm rủi ro giải quyết bài toán, tiến hành thực nghiệm với số liệu được cung cấp của chi

cục thuế Hà Nội. Tiến hành đánh giá và kết luận về mối ràng buộc giữa các số liệu thực

nghiệm.

2

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Chương 1. TỔNG QUAN HỒI QUY, BÀI TOÁN TÍNH ĐIỂM RỦI RO THUẾ

1.1. KIẾN THỨC CƠ BẢN VỀ PHÂN TÍCH HỒI QUY 1.1.1 Khái niệm cơ bản về hàm nội suy

Chúng ta xét một dạng bài toán xuất phát từ các số liệu thực nghiệm sau đây

Cho trước (n+1) cặp các giá trị thực nghiệm

…..

…..

Các giá trị được gọi là các mốc nội suy. Cần xác định một

hàm số 𝑓(𝑥) để sao cho thỏa mãn các điều kiện

𝑓(𝑥𝑖) = 𝑦𝑖 𝑖 = 0,1, … , 𝑛

Tức là đồ thị của hàm cần đi qua tất cả các mốc nội suy.

Nếu hàm tồ n ta ̣i thì hàm số đó đươ ̣c go ̣i là hàm hồi quy và bài toán xác đi ̣nh

𝑓(𝑥) đươ ̣c go ̣i là bài toán nô ̣i suy.

Bài toán này rất có ý nghĩa trong thực tế vì nếu xác định đươ ̣c hàm 𝑓(𝑥) thì ta có thể xác đi ̣nh đươ ̣c mo ̣i giá tri ̣ củ a y ứ ng vớ i mo ̣i 𝑥 = {𝑥0, 𝑥𝑛} - các giá tri ̣ đó đươ ̣c go ̣i là

các giá tri ̣ nô ̣i suy.

Trong toán ho ̣c, ngườ i ta thườ ng xác đi ̣nh da ̣ng hàm 𝑓(𝑥) bở i mô ̣t trong các da ̣ng

công thức hàm số sau đây:

+ Đa thứ c đa ̣i số

+ Phân thứ c đa ̣i số

+ Đa thứ c lươ ̣ng giác

+ Hàm ghép trơn (Spline)

+ Hàm mũ

Sau đây chúng ta sẽ xét cơ sở toán học của các phương pháp xác định hàm hồi

quy trong từng trường hợp cụ thể

1.1.1.1. Đa thứ c nội suy

Ta sẽ xác đi ̣nh

3

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

(1.1)

Xuất phát từ điều kiện hàm cần phải đi qua tất cả các mốc nội suy, dễ thấy

rằng các hệ số sẽ đươ ̣c xác đi ̣nh thông qua hệ phương trình đa ̣i số

tuyến tính sau đây:

𝑛 + 𝑎1𝑥0 𝑛 + 𝑎1𝑥1

𝑎0𝑥0 𝑎0𝑥1 (1.2)

𝑛 + 𝑎1𝑥𝑛

𝑛−1 + ⋯ + 𝑎𝑛 = 𝑦0 𝑛−1 + ⋯ + 𝑎𝑛 = 𝑦1 … … … 𝑛−1 + ⋯ + 𝑎𝑛 = 𝑦𝑛

{ 𝑎0𝑥𝑛

Có thể thấy rằng định thứ c củ a hê ̣ đại số tuyến tính (1.2) thỏa mãn

(1.3) | | | =0 |

𝑛 𝑥1 𝑥0

1 1. … .1 𝑥0 𝑥1.. . . 𝑥𝑛 2.. . . 𝑥𝑛 2 𝑥1 2 𝑥0 … . . 𝑛.. . . 𝑥𝑛 𝑛

Do đó hê ̣ phương trình đa ̣i số trên có nghiê ̣m duy nhất, tức là đa thứ c nội suy

luôn luôn tồ n tại và duy nhất.

Nhâ ̣n xét:

Để xác đi ̣nh đa thứ c nô ̣i suy theo phương pháp đa ̣i số , ta cần phải giải hê ̣ phương

. Khi đó về mặt toán học, chú ng ta trình đại số tuyến tính vớ i (n+1) ẩn

cần phải sử dụng các phương pháp giải các hệ phương trình đại số tuyến tính như phương pháp Krame, phương pháp khử Gauss, … với đô ̣ phứ c ta ̣p tính toán rất cao. Điều này sẽ bất lợi trong việc xác định đa thức nội suy với số mốc nôi suy là rất lớn.

Sau đây chúng ta sẽ tìm hiểu các phương pháp xác đi ̣nh đa thứ c nội suy tránh

đươ ̣c viê ̣c giải hê ̣ đại số tuyến tính.

1.1.1.2. Đa thứ c nội suy Lagrange

𝐿𝑘(𝑥) = { Đi ̣nh nghi ̃a 1.1: Đa thứ c bâ ̣c n thỏ a mãn tính chất 1, 𝑥 = 𝑥𝑘 0, 𝑥 ≠ 𝑥𝑘

Đươ ̣c gọi là nhân tử Lagrange

Dễ thấy rằng

4

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

(1.4) Hay 𝐿𝑘(𝑥𝑖) = { 0 𝑘ℎ𝑖 𝑘 ≠ 𝑖 1 𝑘ℎ𝑖 𝑘 = 𝑖

Khi đó ta thấy rằng

(1.5)

Như vậy khác với phương pháp đại số, để xác định đa thức nội suy, ta chỉ cần

xác định các giá trị của nhân tử .

Xuất phát từ khái niệm về nhân tử Lagrange, chúng ta có thể xây dựng thuật toán

xác định đa thức nội suy theo phương pháp nhân tử như sau:

Thuật toán:

; giá trị mốc cần xác định . Input:

Output: Giá trị đa thức

Pn = 0

For k = 0 to n do

Begin

+ Xác định nhân tử

+

End;

Trong đó giá trị của nhân tử được xác định bởi công thức (1.4).

Dễ thấy rằng đối với thuật toán trên thì độ phức tạp của thuật toán là O(n2)

Nếu kí hiệu là hàm nghiệm đúng thì bằng cơ sở của toán học giải tích,

chúng ta có thể chứng minh rằng sai số của phép nội suy được đánh giá bằng công thức

Trong đó

5

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

(1.6)

Như vậy nếu với số mốc nội suy là lớn thì việc xấp xỉ bằng đa thức nội suy sẽ đạt

độ chính xác rất cao.

Ngoài phương pháp nhân tử lagrange, người ta có thể sử dụng các phương pháp

khác như phương pháp Newton để xác định đa thức nội suy trong trường hợp các mốc

nội suy là cách đều. Điều này sẽ giảm đáng kể khối lượng tính toán trong thuật toán

1.1.1.3. Hà m ghé p trơn (Spline)

Khi sử du ̣ng đa thứ c nô ̣i suy, khi số mớ i nô ̣i suy là lớ n thì dẫn tớ i bâ ̣c củ a đa thứ c là rất lớ n, điều này không thuâ ̣n tiê ̣n cho quá trình tính toán và sai số có thể là tăng lên. Để khắc phu ̣c nhươ ̣c điểm này, ngườ i ta có thể sử du ̣ng phương pháp ghép các đa thứ c bâ ̣c thấp la ̣i vớ i nhau để thu đươ ̣c mô ̣t đườ ng cong trơn. Hàm trơn trên toàn đoa ̣n {𝑥0, 𝑥𝑛}

đươ ̣c go ̣i là hàm ghép trơn (Spline).

Sau đây chú ng ta sẽ trình bày phương pháp hàm ghép trơn bằng việc sử du ̣ng các

đa thứ c bâ ̣c ba S3(x) để xây dựng hàm ghép trơn bâ ̣c 3

Xét đoa ̣n 𝐷𝑖 = {𝑥𝑖−1, 𝑥𝑖}, chúng ta xét các đa thức bậc 3 được biểu diễn dưới dạng

(1.7)

Trong đó các hệ số ai, bi, ci, di cần phải thỏa mãn các điều kiện sau đây:

+ Điều kiện ghép trơn tại các mốc nội suy

(1.8)

+ Điều kiện nội suy

Si(xi) = fi (i = 0,…,n) (1.9)

Xuất phát từ công thức (1.7) ta sẽ thu được

6

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

(1.10)

Trong đó kí hiệu

Từ điều kiện liên tục, ta có

(1.11)

Xuất phát từ điều kiện (1.8), ta thu được các hệ thức sau

(1.12)

Như vậy các hệ thức (1.10) - (1.12) lập thành hệ 4n-2 phương trình với 4n ẩn số.

Để thêm vào 2 phương trình nữa, người ta đặt thêm điều kiện đạo hàm của tại 2

mút biên .

Chẳng hạn xét điều kiện S”(x1) = S”(xn) = 0 được gọi là điều kiện biên tự nhiên,

khi đó ta có

c1 = 0, cn + 3dnhn = 0 (1.13)

Như vậy ta có đủ 4n phương trình để xác định 4n ẩn.

Do các hệ số ai đã được xác định bởi phương trình (1.10) nên ta chỉ cần xác định

các ẩn bi, ci, di qua hệ 3n phương trình. Qua các phép biến đổi ta có hệ sau đây:

ℎ𝑖 3

𝑐𝑖+1−𝑐𝑖 3ℎ𝑖 𝑓𝑖−𝑓𝑖−1 ℎ𝑖

(𝑖 = 1,2, … , 𝑛) 𝑑𝑖 = { (1.14) − 𝑏𝑖 = (𝑐𝑖+1 − 2𝑐𝑖) (𝑖 = 1,2, … , 𝑛)

𝑓𝑖−𝑓𝑖−1 ℎ𝑖

𝑐1 = 𝑐𝑛+1 = 0 { (1.15) ] − ℎ𝑖𝑐𝑖 + 2(ℎ𝑖 + ℎ𝑖+1)𝑐𝑖+1 + ℎ𝑖+1𝑐𝑖+2 = 3 [𝑓𝑖+1−𝑓𝑖 ℎ𝑖+1

Hệ (1.15) là hệ phương trình với ma trận 3 đường chéo trội, do đó dễ dàng giải

được hệ bằng thuật toán truy đuổi với độ phức tạp tính toán là O(n). Sau khi giải được

các ẩn ci, qua (1.14) ta sẽ xác định được bi và di.

Đánh giá sai số: Nếu kí hiện là hàm nghiệm đúng là hàm ghép trơn

thì có thể chứng minh rằng sai số được đánh giá qua công thức

7

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

5

3|

2

|𝑓(𝑥) − 𝑆(𝑥)| ≤ |𝑓𝑥 𝑀ℎ3 trong đó 𝑀 = max 𝑥0≤𝑥≤𝑥𝑛

Nhận xét: Việc xác định hàm hồi quy bằng phương pháp hàm ghép trơn có ưu

điểm là việc tính toán được chuyển về việc giải hệ đại số bằng thuật toán truy đuổi 3

đường chéo. Tuy nhiên độ chính xác của phương pháp chỉ tương đương với

1.1.1.4. Nội suy bằng hàm hữu tỉ

Ta xác định hàm (1.16) với bn = 1

Tại các điểm sao cho thỏa mãn hàm đi qua tất cả các

mốc nội suy, tức là

(1.17)

Hệ phương trình đại số trên là hệ phương trình đối với các ẩn a0,a1, …,

am,b0,b1,…,bn-2. Như vậy, để xác định hàm nội suy hữu tỉ thì ta phải giải hệ phương trình

đại số tuyến tính với (n+m+1) ẩn.

1.1.2 Bài toán hồi quy

Đặt vấn đề:

Khi xét bài toán nội suy, ta đã giả thiết rằng mối quan hệ giữa đại lượng

𝑥(𝑥0, 𝑥1, … , 𝑥𝑛) và 𝑦(𝑦0, 𝑦1, … , 𝑦𝑛) là tồn tại với quan hệ 𝑦 = 𝑓(𝑥). Việc xác định đa

thức nội suy chẳng hạn còn thỏa mãn điều kiện Tuy nhiên

trong trường hợp khi 𝑥 và 𝑦 là các đại lượng ngẫu nhiên, chẳng hạn là các kết quả của

các phương pháp đo đạc trọng địa chất hay các số liệu quan trắc môi trường hoặc số liệu

của các thí nghiệm hóa sinh, mối quan hệ giữa và 𝑦 (Hay còn gọi là mối tương quan)

là chưa đánh giá được thì việc xác định đa thức nội suy là không thực tế và khó thực

hiện. Trong những trường hợp như vậy, người ta thường sử dụng phương pháp dự đoán

8

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

tức là mong muốn xác định một hàm gần đúng với quy luật của các số liệu thực nghiệm

tức là giá trị của hàm cần đảm bảo lệch ít nhất so với các số liệu thực nghiệm, các hàm

như vậy được gọi là các hàm hồi quy.

Sau đây chúng ta đưa ra một số kết quả về mặt toán học thực nghiệm đối với lớp

các hàm hồi quy.

1.1.2.1. Phương pháp bình phương cực tiểu

Giả sử chúng ta có cặp các giá trị thực nghiệm đối với các

đối tượng ngẫu nhiên và 𝑦

…..

…..

Ta cần xác định mối tương quan giữa 2 đại lượng và 𝑦 theo công thức

y =F(x, a0, a1, … , am)

sao cho

trong đó a0, a1, …, am là các tham số cần xác định.

Để xác định các tham số a0, a1, …, am, ta đưa ra điều kiện là tổng bình phương

độ lệch giữa giá trị thực nghiệm và giá trị hàm tại các điểm

là nhỏ nhất, tức là:

(1.18)

Để hàm đạt cực trị thì theo lý thuyết về hàm số nhiều biến số, điều kiện cần là:

(1.19)

Hệ thức (1.19) chính là các hệ phương trình để giải ra các ẩn số

9

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Tùy thuộc vào công thức của hàm , chúng ta sẽ thu được

các dạng hàm hồi quy khác nhau. Sau đây chúng ta sẽ nghiên cứu một số dạng hàm hồi

quy cụ thể.

1.1.2.2. Hàm hồi quy tuyến tính

Chúng ta tìm hàm hồi quy dưới dạng tuyến tính bậc nhất

Khi đó các hệ số cần xác định từ điều kiện cực trị hàm số

Điều kiện cần

Hay (1.20)

Hệ (1.20) là hệ phương trình với a,b. Giải hệ trên ta xác định được a và b

(1.21)

10

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

1.1.2.3.

Hàm hồi quy bậc 2

Chúng ta tìm hàm hồi quy dưới dạng tuyến tính bậc hai

Khi đó các hệ số cần xác định từ điều kiện cực trị hàm số

Điều kiện cần

Hay

(1.22)

Hệ (1.22) chính là hệ phương trình đại số cho phép xác định ra các hệ số a, b, c.

Hoàn toàn tương tự, chúng ta có thể xác định được các hàm hồi quy bậc 3, bậc 4, bậc 5

1.1.2.4. Các phương pháp đưa về dạng tuyến tính

1/ Dạng hàm mũ

Lấy logarit 2 vế, ta có:

khi đó đặt ta thu được

2/ Dạng hàm lũy thừa

11

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Lấy logarit hai vế ta có:

Đặt

Ta thu được

Như vậy, bằng phép lấy logarit ta có thể đưa các dạng hàm mũ, hàm lũy thừa về

dạng hàm hồi quy tuyến tính

1.1.2.5. Hồi quy nhiều chiều (hồi quy bội)

Đặt bài toán

Xét các biến ngẫu nhiên – biến phụ thuộc

– biến độc lập

Giả sử qua thí nghiệm, ta thu được bảng số liệu sau đây:

….

….

….

…. … …. …. ….

….

Ta cần xác định hàm hồi quy bội dạng:

Y = a0 + a1x1 + a2x2 + …. + anxn

Trong đó Y = (y1, y2, …, ym)T

Các hệ số cũng được xác định từ điều kiện bình phương cực tiểu

2/ Một số dạng đưa về tuyến tính

a/ Hàm phi tuyến dạng tích

Logarit hóa 2 vế ta có

12

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

b/ Hàm dạng mũ

Logarit 2 vế ta có

Như vậy bằng lý thuyết các hàm hồi quy, qua các bộ số liệu thực nghiệm chúng

ta có thể xác định được mối quan hệ giữa các đại lượng ngẫu nhiên một cách gần đúng

thông qua các công thức của các hàm hồi quy khác nhau. Các công thức này sẽ làm công

cụ để đưa ra các quy luật tự nhiên thông qua các thí nghiệm. Việc xác định các công

thức hàm hồi quy có thể thực hiện được bằng phương pháp bình phương cực tiểu việc

tính toán có thể thực hiện được thông qua một số phần mềm.

1.2. PHÁT BIỂU BÀI TOÁN PHÂN TÍCH ĐIỂM RỦI RO 1.2.1 Mục tiêu của bài toán

Xuất phát từ nhu cầu thực tế Tổng cục Thuế để đánh giá xếp loại rủi ro doanh

nghiệp phục vụ công tác quản lý thuế của cơ quan thuế.

- Tính điểm rủ ro doanh nghiệp hỗ trợ công tác lập kế hoạch thanh tra, kiểm tra.

Lựa chọn trường hợp thanh tra, kiểm tra dựa trên cơ sở điểm rủi ro đã tính.

1.2.2 Yêu cầu của bài toán phân tích tính điểm rủi ro

1.2.2.1. Yêu cầu chung:

Việc triển khai thực hiện các công việc nhằm đáp ứng các công việc sau đây:

 Xử dụng bộ tiêu chí đánh giá xác định độ mức độ rủi ro đối với NNT do Tổng

cục thuế cung cấp.

 Thử nghiệm bộ tiêu chí với dữ liệu lịch sử 01 Cục Thuế.

 Xây dựng bài toán tính điểm rủi ro dựa trên bộ tiêu chí phân tích đánh giá rủi ro

nhằm hỗ trợ cơ quan thuế lập kế hoạch thanh tra, kiểm tra thuế.

13

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

1.2.2.2.

Yêu cầu cụ thể

Tính điểm rủi ro của doanh nghiệp được tính với ngưỡng từ 0 đến 100. Điểm 0

là rủi ro thấp nhất và điểm 100 là rủi ro cao nhất.

a). Nguồn thông tin phân tích, đánh giá tính điểm rủi ro được dựa trên cơ sở dữ

liệu thông tin ngành thuế hiện có, cụ thể:

+ Thông tin đăng ký thuế

+ Thông tin từ các tờ khai thuế (GTGT, TNDN, TTĐB...)

+ Thông tin từ Báo cáo tài chính DN

+ Thông tin thu nộp NSNN

+ Thông tin về kết quả thanh tra, kiểm tra

+ Thông tin từ các quyết định của cơ quan thuế

+ Thông tin nợ thuế

+ Thông tin về tình hình thực hiện tuân thủ nghĩa vụ thuế của NNT.

Đầu ra

Đầu vào (thuộc tính)

Các quy tắc nghiệp vụ

Lịch sử về tính tuân thủ của NNT

Lịch sử về tính tuân thủ của NNT

Tính điểm rủi ro NNT

Các mẫu thử

b). Quy trình thực hiện việc phân loại, đánh giá rủi ro NNT:

Mô hình toán học

Bộ lọc

Phương pháp tính toán

Lựa chọn các trường hợp thanh, kiểm tra

14

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 1: Sơ đồ quy trình phân loại, đánh giá rủi ro NNT

Giải thích sơ đồ:

 Dữ liệu đầu vào bao gồm 16 chỉ tiêu các thông tin về người nộp thuế, lịch sử về

tính tuân thủ của NNT, các quy tắc đánh giá về nghiệp vụ,...

 Sau khi thực hiện qua các hàm tính toán tự động các dữ liệu đầu vào, kết quả đầu

ra là danh sách NNT được đánh trọng số tương ứng với NNT. Từ danh sách này

cơ quan thuế sẽ lựa chọn các trường hợp thanh tra, kiểm tra.

Kết luận

Nội dung chính của chương 1 luận văn trình bày cơ sở lý thuyết về bài toán nội

suy, các phương pháp xây dựng các hàm nội suy cơ bản như hàm nội suy Lagrange, nội

suy bằng hàm ghép trơn cũng như phân tích độ phức tạp tính toán trong việc xây dựng

các hàm nội suy. Luận văn cũng đưa ra khái niệm về hàm hồi quy thực nghiệm cũng

như cơ sở toán học của phương pháp bình phương cực tiểu trong việc xác định hàm hồi

quy. Đây là các kiến thức quan trọng làm cơ sở cho việc nghiên cứu các kết quả trong

chương 2 và chương 3 của luận văn.

Để tìm hiểu được mối liên quan giữa bài toán tính điểm rủi ro của ngành thuế

phục vụ công tác thanh tra, kiểm tra. Với dữ liệu ngành thuế cung cấp bài toán tính điểm

rủi ro của ngành thuế với 16 chỉ tiêu được cung cấp đều có ảnh hưởng trực tiếp đến việc

tính toán điểm rủi ro cho từng doanh nghiệp, vậy mô hình dự báo đối với ngành thuế

phù hợp với mô hình hồi quy tuyến tính bội vì mỗi một chỉ tiêu là một thông số cần quan

tâm.

15

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Chương 2. MÔ HÌNH HỒI QUY TUYẾN TÍNH

2.1. MÔ HÌNH HỒI QUY TUYẾN TÍNH ĐƠN 2.1.1 Vấn đề mô hình hồi quy

Nhiều bài toán trong khoa học kỹ thuật đòi hỏi khảo sát quan hệ giữa hai hoặc

nhiều biến. Lấy làm ví dụ, chúng ta xét số liệu ở Bảng 1.1, ở đó y chỉ thị độ sạch của

oxy sinh ra trong quá trình chưng cất hóa học, còn x là nồng độ phần trăm của

hydrocarbon có mặt ở bình ngưng bộ phận chưng cất.

Bảng 1.1. Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon

TT y(%) TT x(%) x(%) y(%) TT x(%) y(%)

0.99 90.01 8 1.23 91.77 15 1.11 89.85 1

1.02 89.05 9 1.55 99.42 16 1.2 90.39 2

1.15 91.43 10 1.4 93.65 17 1.26 93.25 3

1.29 93.74 11 1.19 93.54 18 1.32 93.41 4

1.46 96.73 12 1.15 92.52 19 1.43 94.98 5

1.36 94.45 13 0.98 90.56 20 0.95 87.33 6

0.87 87.59 14 1.01 89.54 21 1.32 94.01 7

Khi thể hiện các điểm (xi, yi) lên đồ thị, ta nhận được đồ thị rải điểm như ở Hình

2.1. Ta nhận thấy, mặc dầu không có đường cong đơn giản nào đi qua các điểm này,

song có thể khẳng định rằng, các điểm ấy dường như nằm phân tán quanh một đường

cong với phương trình y = f(x) nào đó. Vậy có thể giả thiết rằng giá trị trung bình của Y

– biến chỉ thị độ sạch khi nồng độ phần trăm X của hydrocarbon tại mức x thỏa mãn

quan hệ

E(Y|x) = f(x) (2.1.1)

Để tổng quát hóa, chúng ta nên dùng mô hình xác suất bằng cách coi Y là biến

ngẫu nhiên mà ứng với giá trị x của biến X thì

Y = f(x) +  (2.1.2)

với  là sai số ngẫu nhiên.

Trước hết chúng ta xét trường hợp đơn giản nhất, cũng rất hay xảy ra trong thực

16

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

tế, khi f(x)=ax+b. Khi đó (2.1.2) trở thành

100

95

90

85 .8

1.0

1.2

1.4

1.6

Y= ax+b+  (2.1.3)

Hình 2.1. Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy

Mô hình (2.1.3) được gọi là mô hình hồi quy tuyến tính đơn; x được gọi là biến

hồi quy (hay biến độc lập, biến giải thích), Y được gọi là biến phản hồi (hay biến phụ

thuộc, biến được giải thích); a, b được gọi là các tham số hồi quy, a: hệ số chặn, b: hệ

số góc; đường thẳng y= ax + b được gọi là đường hồi quy (lý thuyết).

Mô hình được gọi là tuyến tính vì nó tuyến tính với các tham số a, b (a, b có lũy

thừa 1); được gọi là đơn vì có một biến hồi quy.

Giả sử ở quan sát thứ i biến X nhận giá trị xi , biến Y nhận giá trị yi và sai lầm

ngẫu nhiên là i . Như vậy, dưới dạng quan sát, mô hình (2.1.3) trở thành

{ (2.1.4)

𝑦1 = 𝑎 + 𝑏𝑥1 + 𝜀1 … … … … … … … . 𝑦𝑛 = 𝑎 + 𝑏𝑥𝑛 + 𝜀𝑛

Lưu ý rằng yi là các biến ngẫu nhiên.

Để khảo sát mô hình chúng ta phải tiến hành các thí nghiệm, các phép đo đạc hay

các phép quan sát, gọi chung là quan sát, để có bộ số liệu {(xi, yi)}. Thông qua bộ số

liệu này, người ta đưa ra các xấp xỉ (ước lượng) tốt cho các tham số. Mô hình với các

hệ số đã ước lượng được gọi là mô hình thực nghiệm (empirical model) hay mô hình lọc

(filted model). Dùng mô hình thực nghiệm chúng ta có thể tiến hành một số dự đoán,

tính các giá trị cực trị cũng như các khía cạnh của vấn đề điều khiển.

17

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.1.2 Ước lượng hệ số hồi quy

Bây giờ giả sử các biến y1,..., yn nhận các giá trị cụ thể nào đó, vẫn ký hiệu là

y1,..., yn . Khi đó

i = yi - (axi + b) (2.1.5)

thể hiện độ lệch của quan sát thứ i so với đường hồi quy lý thuyết (xem Hình

2 = ∑ (𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖))2

𝑛 ∑ 𝑒𝑖 𝑖=1

𝑛 𝑖=1

2.2). Tổng bình phương các độ lệch

thể hiện “chất lượng” của việc xấp xỉ số liệu bởi đường hồi quy lý thuyết. Ta

2

không thể biết đường hồi quy lý thuyết, việc ta có thể làm là tìm các hệ số a, b để

𝑛 𝑖=1

→ 𝑚𝑖𝑛 (2.16) ℓ(a, b) = ∑ ((𝑦𝑖 − (𝑎 + 𝑏𝑥𝑖))

𝜕ℓ

𝜕ℓ

Vì ℓ(a,b) là đa thức bậc 2 của 2 ẩn a, b; điều kiện cần để nó đạt cực tiểu là

𝜕𝑎

𝜕𝑏

Đ ộ lệch

Đư ờng hồi quy th ực nghiệm

Đư ờng hồi quy lý thuy ết

= = 0 (2.1.7)

Hình 2.2. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm

Thực ra chứng minh được đây cũng là điều kiện đủ. Đây là hệ 2 phương trình

𝑥𝑦̅̅̅̅−𝑥̅.𝑦̅

tuyến tính bậc nhất của a, b. không khó khăn gì ta tính được nghiệm của hệ này là:

𝑆𝑥𝑥/𝑛 𝑎̂ = 𝑦̅ − 𝑏̂𝑥̅

𝑏̂ = { (2.1.8)

1

1

1

trong đó

𝑛 ∑ 𝑥𝑖 𝑖=1

𝑛 ∑ 𝑦𝑖 𝑖=1

𝑛 ∑ 𝑥𝑖𝑦𝑖 𝑖=1

𝑛 ; 𝑆𝑥𝑥 = ∑ (𝑥𝑖 − 𝑥̅)2 𝑖=1

𝑛

𝑛

𝑛

𝑥̅ = ; 𝑦̅ = ; 𝑥𝑦̅̅̅ = (2.1.10)

18

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Với các ước lượng này ta được phương trình hồi quy thực nghiệm

(2.1.10) 𝑦 = 𝑎̂𝑥𝑖 + 𝑏̂

Phương pháp tìm các ước lượng của hệ số như trên gọi là phương pháp bình

phương cực tiểu.

Các phương trình (2.1.5) - (2.1.10) áp dụng với mọi giá trị cụ thể của các biến

ngẫu nhiên y1,..., yn nên chúng cũng đúng cho các biến ngẫu nhiên này.

Dưới đây, khi áp dụng các phương trình này và khi không sợ lầm lẫn, ta không

phân biệt các biến ngẫu nhiên y1,..., yn với các giá trị cụ thể của chúng.

2.1.3 Tính chất của ước lượng của các hệ số hồi quy

Từ (1.8) ta có ngay 𝑦̅ = 𝑎̂ + 𝑏̂𝑥̅. Như vậy, đường hồi quy đi qua điểm “trung

tâm” (x, y) của số liệu.

Lưu ý rằng, ước lượng hệ số (2.1.8) hoàn toàn không cần các giả thiết về các

thành phần ngẫu nhiên i . Để có các tính chất tốt của ước lượng, cần có những giả thiết

đặt lên các thành phần ngẫu nhiên này. Giả thiết dễ chấp nhận là chúng có kỳ vọng

không, cùng phương sai 2, độc lập; giả thiết tiếp sau là chúng có phân bố chuẩn:

1,...,n độc lập, cùng phân bố chuẩn N(0;2). (2.1.11)

Khi đó ước lượng hệ số có những tính chất thống kê tốt thể hiện ở định lý sau.

Định lý 1.1. Khi điều kiện (1.1.11) thỏa mãn thì:

a. 𝑎̂ và 𝑏̂ lần lượt là ước lượng không chệch của tham số a và b:

E[𝑎̂] = a; E[𝑏]̂ =b (2.1.12)

Phương sai của các ước lượng 𝑎̂ và 𝑏̂ được tính như sau

2 = 𝑉[𝑎̂] = 𝜎2 (1 𝜎𝑎 𝑛

(𝑥̅)2 𝑆𝑥𝑥

2 = V[𝑏̂] =

+ ),

𝜎2 𝑆𝑥𝑥

1

1

(2.1.13) 𝜎𝑏

2 𝑛 ∑ 𝑒𝑖 𝑖=1 =

𝑛−2

𝑛−2

𝜎̂ 2 = ∑ (𝑦𝑖 − 𝑦̂𝑖)2 Uớc lượng không chệch của phương sai chung 2 của mô hình cho bởi 𝑛 𝑖=1

với: 𝑦̂𝑖 = 𝑎̂ + 𝑏̂𝑥𝑖: dự báo của quan sát thứ i 𝑒𝑖 = 𝑦𝑖 − 𝑦̂𝑖: phần dư thứ i. Ý tưởng chứng minh phần i) dựa vào chỗ 𝑎̂ và 𝑏̂ là tổ hợp tuyến tính của các biến

ngẫu nhiên chuẩn nên chúng là các biến ngẫu nhiên chuẩn, rồi thực hiện phép lấy kỳ

19

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

vọng.

Vì 2 trong công thức (2.1.13) chưa biết, ta phải dùng xấp xỉ của nó là 𝜎̂ 2. Chúng

ta đưa ra định nghĩa.

Định nghĩa 2.2: Đối với mô hình HQTT đơn, sai số chuẩn hóa (thực nghiệm) của hệ số

góc và hệ số chặn lần lượt được xác định bởi

𝑎̂2 𝑆𝑥𝑥

𝑥̅2 𝑆𝑥𝑥

+ ] (2.1.15) 𝑠𝑒(𝑏̂) = √ ; 𝑠𝑒(𝑎̂) = √𝜎̂ 2 [1 𝑛

trong đó, 𝜎̂ 2 được tính theo (2.1.14).

2.1.4 Kiểm định giả thuyết

Một khâu quan trọng để kiểm tra tính phù hợp của mô hình hồi quy là kiểm định

giả thuyết. Các hệ số 𝑎̂, 𝑏̂, và 𝜎̂ 2 là những biến ngẫu nhiên nên có thể làm một số kiểm

định về chúng. Ta luôn nhớ rằng điều kiện (2.1.11) phải được thỏa mãn. Các đối thuyết

đưa ra dưới đây đều là 2 phía. Độc giả có thể đưa ra đối thuyết 1 phía với điều chỉnh

thích hợp các ngưỡng phê phán.

a. Sử dụng kiểm định T

Hệ số góc là tham số quan trọng nhất của mô hình hồi quy tuyến tính đơn. Xét

bài toán kiểm định giả thuyết hai phía:

𝑏0 𝐻1

(2.1.16) 𝐻0: 𝑏 = : 𝑏 ≠ 𝑏0

Ở đây, b0 là giá trị cho trước. Từ giả thiết (2.1.11), yi là các biến ngẫu nhiên độc lập và 𝑦𝑖~𝑁(𝑎 + 𝑏𝑥𝑖: 𝜎2). 𝑏̂ là tổ hợp tuyến tính của các biến ngẫu nhiên yi nên nó cũng có phân bố chuẩn. Theo Định lý 1.1, 𝑏̂ có phân bố chuẩn N(b;2 /SXX) . Ngoài ra,

như trong chứng minh của Định lý trên, (n - 2)̂2/2 có phân bố khi bình phương với n

- 2 bậc tự do và độc lập với 𝑏̂ . Theo Định lý 3.21, dưới giả thuyết H0 thì

𝑏̂−𝑏0 √̂2 ⁄

𝑆𝑥𝑥

~𝑇(𝑛 − 2) (2.1.17) 𝑇𝑏 =

Như vậy, chúng ta sẽ bác bỏ H0 (ở mức ý nghĩa ) nếu

|𝑏̂− 𝑏0| 𝑠𝑒(𝑏̂)

|𝑏̂−𝑏0| √̂2 ⁄

𝑆𝑥𝑥

| = (𝑛 − 2) (2.1.18) |𝑇𝑏 = > 𝑡 2

Trường hợp đặc biệt quan trọng là khi b0 = 0:

20

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

H0: b = 0 / H1: b  0. (2.1.19)

Điều này liên quan đến ý nghĩa (hay tác dụng) của hồi quy (significance of

regression): Nếu không bác bỏ H0 (coi b = 0) thì có nghĩa rằng không có một quan hệ

tuyến tính nào giữa X và Y (có thể là quan hệ thực sự của X và Y là quan hệ phi tuyến),

sự thay đổi của biến X không kéo theo sự thay đổi dự đoán biến Y, X không có (hoặc

rất ít) tác dụng để dự đoán Y; dự đoán cho Y tốt nhất nên dùng Y.

Tương tự, giả thuyết liên quan đến hệ số chặn là

H0 : a = a0 / H1 : a  a0 . (2.1.20)

Bởi vì

+

]

𝑎̂−𝑎0 1 √̂2[ 𝑛

𝑥̅ 𝑆𝑥𝑥

~𝑇(𝑛 − 2) (2.1.21) 𝑇𝑎 =

Nên giả thuyết bị bác bỏ ở mức  nếu

|𝑎̂−𝑎0| 𝑠𝑒(𝑎̂)

+

]

√̂2[

|𝑎̂− 𝑎0| 𝑥̅2 1 𝑆𝑥𝑥 𝑛

= (𝑛 − 2). (2.1.22) |𝑇𝑎| = > 𝑡 2

Phân tích phương sai

Phương pháp phân tích phương sai được dùng để kiểm định tính hiệu quả của

việc lập mô hình. Trước hết, từ chỗ 𝑦𝑖 − 𝑦̅ = (𝑦̂𝑖 − 𝑦̅) + (𝑦𝑖 − 𝑦̂𝑖), bình phương hai vế

rồi lấy tổng ta được:

𝑛 𝑖=1

𝑛 𝑖=1

𝑛 𝑖=1

𝑛 𝑖=1

(2.1.23) ∑ (𝑦𝑖 − 𝑦̅)2 = ∑ (𝑦̂𝑖 − 𝑦̅)2 + ∑ (𝑦𝑖 − 𝑦̂𝑖)2

𝑛 𝑖=1

,

Chúng ta xác định các đại lượng sau đây: Tổng bình phương đầy đủ:𝑆𝑆𝑇 = 𝑆𝑌𝑌 = ∑ (𝑦𝑖 − 𝑦̅)2, Tổng bình phương hồi quy: 𝑆𝑆𝑅 = ∑ (𝑦̂𝑖 − 𝑦̅)2 Tổng bình phương các phần dư (các sai số):

𝑛 𝑆𝑆𝐸 = ∑ (𝑦𝑖 − 𝑦̂𝑖)2 𝑖=1

(2.1.24)

Biểu thức (1.1.23) được viết lại dưới dạng:

SST = SSR + SSE (2.1.23’)

Có thể chứng minh rằng, SSR/[2 + b2Sxx] và SSE/2 là những biến ngẫu nhiên

độc lập, có phân bố khi bình phương với 1 và n - 2 bậc tự do tương ứng. Như vậy, nếu

giả thuyết H0 : b=0 là đúng thì

21

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

𝑆𝑆𝑅

1⁄

𝑀𝑆𝑅 𝑀𝑆𝐸

𝑆𝑆𝐸 ⁄ (𝑛−2)

(2.1.25) = 𝐹0 =

có phân bố F(1,n-2).

Các đại lượng MSR,MSE gọi chung là bình phương trung bình.

Nói chung, bình phương trung bình được tính bằng cách lấy tổng bình phương

chia cho bậc tự do của nó.

Chúng ta sẽ bác bỏ H0 nếu F0 > f(1;n-2).

Trong các phần mềm thống kê, thủ tục kiểm định được trình bày ở bảng phân

tích phương sai giống như Bảng 2.1.

22

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Bảng 2.1. Phân tích phương sai để kiểm định tính hiệu quả của hồi quy

Nguồn Bậc tự do P- giá trị F0 Tổng các bình phương Bình phương trung bình

P

𝑀𝑆𝑅 𝑀𝑆𝐸 1 n-2 n-1 Hồi quy Sai số MSR MSE

Đầy đủ SSR SSE SST

Nếu P-giá trị lớn hơn mức ý nghĩa chọn trước, chúng ta phải chấp nhận giả thuyết

b=0 , tức là việc xây dựng mô hình không có tác dụng. Cần phải tìm mô hình khác, lấy

thêm số liệu…

Lưu ý. Chứng minh được, thủ tục phân tích phương sai và thủ tục kiểm định T

cho bài toán kiểm định giả thuyết 2 phía (2.1.16) là tương đương theo nghĩa chấp nhận

giả thuyết hay bác bỏ giả thuyết là đồng thời với 2 thủ tục này. Tuy nhiên, kiểm định T

linh động hơn, có thể xét kiểm định 1 phía, trong khi phân tích phương sai chỉ có thể xét

1 phía

2.1.5 Khoảng tin cậy

a. Khoảng tin cậy của các tham số

Bởi vì các thống kê Ta, Tb ở (2.1.22), (2.1.17) có phân bố T(n –2) nên dễ dàng

xây dựng khoảng tin cậy cho chúng.

Với giả thiết chuẩn (2.1.11), khoảng tin cậy 100(1-)% cho hệ số chặn a và hệ

số góc b lần lượt là

2⁄ (𝑛 − 2)√̂2 [1

𝑛

𝑥̅2 𝑆𝑋𝑋

(𝑎̂ ± 𝑡 + ]),

2⁄ (𝑛 − 2)√ ̂2

𝑆𝑋𝑋

(𝑏̂ ± 𝑡 ) (2.1.26)

Khoảng tin cậy cho đáp ứng trung bình

(𝑥0−𝑥̅)2 𝑆𝑋𝑋

]. Tuy nhiên, vì nhói chung chúng ta không biết 2 mà phải dùng ước + Vì y0 = E[Y|x0] = a + bx0 nên một ước lượng điểm cho giá trị này là 𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0 . Đây là ước lượng không chệch của a và b. Phương sai của 𝑎̂ + 𝑏̂𝑥0 là 2 [1 𝑛

23

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

+

]

√̂2[

𝑦̂0− 𝑦0 1 𝑛

𝑥̅2 𝑆𝑥𝑥

lượng ̂2 của nó. Dễ thấy rằng ~ 𝑇(𝑛 − 2). Từ đó ta có:

Khoảng tin cậy 100(1-)% cho đáp ứng trung bình khi x= x0 là (𝑦̂0 ± ), trong

đó

(𝑥0−𝑥̅)2 𝑆𝑋𝑋

] + . (2.1.27)

 = 𝑡 2⁄ (𝑛 − 2)√̂2 [1 { 𝑛 𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0

Dự đoán quan sát tương lai

Một ứng dụng quan trọng của phân tích hồi quy là dự đoán quan sát (cá biệt) của

biến Y trong tương lai tại mức x0 cho trước của biến hồi quy, ký hiệu là Y|x0 hay đơn

giản là Y0 .

Ước lượng điểm cho giá trị quan sát tương lai của biến ngẫu nhiên là giá trị trung

bình của nó, ở đây là y0 = a + bx0. Các tham số a, b lại chưa biết, ta phải dùng ước lượng

của chúng. Vậy, ước lượng điểm cho y0 là:

(2.1.28) 𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0

Chú ý rằng biến ngẫu nhiên Y0 là quan sát tương lai, nó độc lập với các quan sát

quá khứ y1,...,yn. Cùng với các giả thiết độc lập, cùng phân bố chuẩn của các sai số, sai

1

số dự đoán 𝑒0 = 𝑌0 − 𝑦̂0 có phân bố chuẩn quy tâm, phương sai

𝑛

(𝑥0−𝑥0)2 𝑆𝑋𝑋

+ ]. 𝑉[𝑒0] = 𝑉[𝑌0] + 𝑉[𝑦̂0] = 2 [1 +

Giống như trên, ta tìm được khoảng tin cậy (còn gọi là khoảng dự đoán) 100(1-

1

)% cho quan sát tương lại Y0 tại x0 là (𝑦̂0 ± ∗) với

𝑛

(𝑥0−𝑥̅)2 𝑆𝑋𝑋

+ ] , (2.1.29)

∗ = 𝑡 2⁄ (𝑛 − 2)√̂2 [1 + { 𝑦̂0 = 𝑎̂ + 𝑏̂𝑥0

Nhận xét. Cả hai khoảng (1.1.27) và (1.1.29) đều đạt cực tiểu tại x0 = 𝑥̅ và rộng

dần khi x0 đi ra xa x. Mặt khác, với cùng mức ý nghĩa, cùng xét tại điểm x0 , khoảng dự

đoán luôn luôn rộng hơn khoảng tin cậy. Chúng ta sẽ thấy rõ hơn hiện tượng này ở ví

dụ sau.

Ví dụ 1.1. Thông thường, người ta vẫn nghĩ mức tiêu thụ nhiên liệu không phụ

thuộc vào việc lái xe nhanh hay chậm. Để kiểm tra người ta cho chạy thử một chiếc xe

24

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

con ở nhiều vận tốc khác nhau từ 45 đến 70 dặm/giờ. Kết quả ghi thành bảng

Vận tốc 45 50 55 60 65 70 75

Liệu có thể thay đổi cách nghĩ rằng mức tiêu thụ nhiên liệu không phụ thuộc vào

Mức tiêu thụ 24,2 25,0 23,3 22,0 21,5 20,6 19,8 (ml/gal)

vận tốc xe? Tìm các khoảng tin cậy 95% cho giá trị trung bình và của quan sát tương lai

của mức tiêu thụ nhiên liệu khi xe ở vận tốc 50 ml/h .

Chúng ta xét mô hình hồi quy tuyến tính đơn Y = a + bx +  , trong đó Y là mức

tiêu thụ nhiên liệu, x là vận tốc xe. Cần phải xét xem hệ số b có bằng không hay không.

Muốn thế ta xét bài toán kiểm định:

H0 : b = 0/H1 : b  0 .

Tính toán các thống kê liên quan ta được

𝑥̅ = 60; 𝑆𝑥𝑥 = 700; 𝑦̅ = 22,757; 𝑆𝑌𝑌 = 21,757; 𝑆𝑌𝑌 = −119 𝑎̂ = 32,543; 𝑏̂ = -0.17; SSR = 1.527

Mô hình thực nghiệm: y = 32,54- 0,17x.

Tra bảng ta thấy t0.025(5) = 2,571. Theo (1.1.26), khoảng tin cậy 95% của b là (-

) = (-0,224;- 0,116). Khoảng này không chứa điểm 0, vậy ta bác bỏ 0,170 2.571√1.527 3500

giả thuyết b = 0 với mức ý nghĩa 5%; coi b  0, tức là mức tiêu thụ nhiên liệu phụ thuộc

vào vận tốc xe. Cũng có thể tính trực tiếp để bác bỏ b = 0:

= 𝑇𝑏 = = 8,13 > 2,571 = 𝑡0.025 |𝑏̂ − 𝑏0| √𝜎̂ 2/𝑆𝑋𝑋 |−0.17| √0,305426 700

Dùng (2.1.27) và (2.1.29), khoảng tin cậy và khoảng dự đoán 95% tại vận tốc

50ml/h là:

(50−60)2 700

+ ]) = (24,04 ± 1,37) = (22,67; 24,41) (24,04 ± 2,571 [√1 7

25

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

1

7

(50−60)2 700

(24,04 ± 2,571 [√1 + + ]) = (24,04 ± 2,92) = (21,12; 26,96)

Khi x0 thay đổi, mút trên và mút dưới của khoảng tin cậy tạo thành 2 đường

hyperbol giữa, của khoảng dự báo tạo thành 2 đường hyperbol ngoài ở Hình 2.3. Một

lần nữa ta thấy khoảng tin cậy cho giá trị trung bình của quan sát là hẹp hơn.

Hình 2.3. Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2 đường

hyperbol ngoài) cho mức tiêu thụ nhiên liệu

Lưu ý khi sử dụng mô hình hồi quy

Trường hợp nội suy. Nói chung, sau những kiểm định cần thiết, chúng ta có thể

sử dụng mô hình hồi quy thực nghiệm (2.1.10) để làm một số dự đoán “nội suy”. Cụ thể

là, khi X nhận giá trị x0 nằm trong dải biến thiên [a;b] của số liệu, giá trị dự đoán của trung bình, cũng như giá trị quan sát tương lai của biến đầu ra sẽ là 𝑎̂ + 𝑏̂𝑥0… Sự chính xác của các công thức này đã chỉ ra ở phần b) và c).

Trường hợp ngoại suy. Sử dụng phương trình hồi quy để dự đoán giá trị của biến

Y ứng với những giá trị của biến đầu vào X nằm ngoài dải biến thiên của số liệu gọi là

dự đoán ngoại suy. Tuy nhiên, ở ngoài dải biến thiên của số liệu, các giả thiết về mô

hình, thậm chí là quan hệ E[Y|X = x] = ax + b có thể không còn đúng. Vì thế, dự đoán

với sai lầm đáng kể có thể gây ra từ ngoại suy.

26

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 2.4. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm

Một cách khắc phục là lấy thêm quan sát (làm thêm thí nghiệm) để dải biến thiên

rộng ra, chứa điểm ta quan tâm. Tuy nhiên trong kỹ thuật, nhiều khi ngoại suy là cách

duy nhất mà ta có thể tiệm cận vấn đề. Cần lưu ý rằng ta nên áp dụng nó một cách mềm

mỏng, với x0 không xa dải biến thiên [a; b], ta vẫn có thể có kết quả khả dĩ. Tóm lại, ta

chỉ áp dụng ngoại suy một cách hãn hữu khi rất cần thiết, chưa thể có đủ số liệu và không

còn cách nào khác.

2.1.6 Tính phù hợp của mô hình

a. Phân tích phần dư

Bước khởi đầu của phân tích hồi quy là dựng đồ thị rải điểm của quan sát. Nếu

dáng điệu đồ thị tập trung quanh 1 đường thẳng nào đó, chúng ta sẽ đi tìm các hệ số a,

b. Tuy nhiên, việc lập mô hình phải dựa vào các giả thiết chuẩn (2.1.11). Vì các phần

dư ei = yi - 𝑦̂i đại diện tốt cho các sai số i , người ta thường dùng phân tích phần dư để

kiểm tra xem mô hình có phù hợp hay không.

Các phần dư phải tuân theo phân bố chuẩn. Một phương pháp kiểm tra xấp xỉ

tính chuẩn là lập tổ chức đồ khi số quan sát n lớn, hoặc lập đồ thị P - P chuẩn khi n nhỏ.

⁄ , i = 1, ..n. Nếu các Người ta cũng hay dùng các phần dư chuẩn hóa 𝑑𝑖 = 𝑒𝑖 √̂2

sai số có phân bố chuẩn, có khoảng 95% các phần dư chuẩn hóa rơi vào khoảng (-2; 2)

(nếu Z N(0;1) thì P{-2 < Z < 2} = 0,95). Hơn nữa, đồ thị di phải có dạng bình thường,

tập trung “đều đặn” trong dải (-2; 2) quanh trục hoành như dạng (a) ở Hình 2.5. Vi phạm

điều đó, chẳng hạn nếu nó có dạng (b), (c), (d) thì phải sửa chữa mô hình, hay tìm mô

hình khác và phân tích lại.

Bởi vì {i,i =1,...,n} là dãy các biến ngẫu nhiên độc lập thì khi sắp xếp chúng theo 27

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

thứ tự bất kỳ vẫn được dãy các biến ngẫu nhiên độc lập. Chúng ta vừa nói đến dãy phần

dư di theo chiều tăng của chỉ số thời gian i. Người ta cũng lập dãy phần dư theo chiều

tăng của xi hay của 𝑦̂𝑖.

Nếu một trong các đồ thị đó có dạng (b) thì phương sai của sai số tăng lên theo

thời gian (theo chiều tăng của xi hay của 𝑦̂𝑖 ), xảy ra (c) thì phương sai của sai số thay

đổi, xảy ra (d) thì cần thêm một số hạng bậc cao hơn vào mô hình đa thức hay phải tìm

mô hình khác.

Hình 2.5. Dáng điệu phần dư

Hệ số xác định (coefficient of determination)

Hệ số xác định ký hiệu bởi R 2 được tính theo công thức sau:

𝑆𝑆𝑅 𝑆𝑆𝑇

𝑆𝑆𝐸 𝑆𝑆𝑇

𝑅2 = = 1 − (2.1.30)

Theo (2.1.23’), tính chất của hệ số xác định là: 0  R2  1.

Ta thường coi R2 như là độ biến động trong biến đầu ra được giải thích bởi các

giá trị đầu vào khác nhau. Khi R2 lớn, gần bằng 1, thì có nghĩa rằng hầu như độ biến

động của các biến đầu ra được giải thích bởi sự khác biệt của các biến đầu vào. Chẳng

hạn, với số liệu mức tiêu thụ xăng, vì R2 = 0,9298 nên ta nói mô hình chứa đựng 92,98

% độ biến động trong số liệu.

Gọi rXY là hệ số tương quan mẫu của các cặp điểm (xi,yi) thì ta có thể thấy

R2 = rXY2 (2.1.30’)

Như vậy, nếu coi X là biến ngẫu nhiên thì hệ số xác định R2 chính bằng bình

28

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2 vì X không là biến ngẫu nhiên.

phương của hệ số tương quan mẫu giữa X và Y. Tuy nhiên chúng ta vẫn viết hệ số xác

định là R2 mà không phải rXY

Giá trị R2 thường được xem như một chỉ thị cho tính “tốt” của mô hình: Khi giá

trị này gần bằng 1, mô hình phù hợp tốt; khi giá trị này nhỏ, gần bằng 0, mô hình không

phù hợp với số liệu, cần tìm mô hình khác. Tuy nhiên, cần thận trọng, ngưỡng nào cho

một mô hình cụ thể lại là điều ta chưa biết, ít ra là đến thời điểm này.

Ví dụ 2.2. Trong nhà máy sản xuất các linh kiện bán dẫn, linh kiện hoàn chỉnh là

dây được bó xếp lại thành một cái khung. Người ta quan tâm đến 3 biến: lực kéo (số đo

của lực làm cho khung bị hỏng), độ dài của dây, và chiều cao của khuôn đúc. Số liệu có

25 quan sát thể hiện ở 4 cột đầu Bảng 2.5.

Trước hết ta quan tâm đến mối quan hệ giữa lực kéo y và độ dài x1 của dây, ở

đây để tiện ta vẫn ký hiệu là x. Thể hiện số liệu lên đồ thị, dường như đây là quan hệ

1

tuyến tính. Chúng ta dùng mô hình Y = ax +b +  để lọc số liệu. Ta tính được:

𝑛 𝑖=1 = 8,24; 𝑆𝑋𝑋 = ∑ (𝑥𝑖 − 𝑥̅)2 = 698,56 ∑ 𝑥𝑖

𝑛 𝑖=1

𝑛

1

1

𝑥̅ =

𝑛 ∑ 𝑦𝑖 𝑖=1 = 29,0328; 𝑥𝑦̅̅̅ =

𝑛 𝑖=1

𝑛

𝑛

1

𝑦̅ = 320,3388; ∑ 𝑥𝑖𝑦𝑖 =

𝑛 𝑖=1

𝑛

(𝜎𝑦𝑛)2 = = 224,237 ∑ (𝑦𝑖 − 𝑦̅)2

𝑥𝑦̅̅̅̅−𝑥̅𝑦̅

Từ đó ước lượng của các hệ số là:

𝑆𝑋𝑋/𝑛

𝑏̂ = = 2,9027; 𝑎̂ = 𝑦̅ − 𝑏̂𝑥̅ = 5,115

Ta thu được phương trình:

1

𝑌 = 5,115 + 2,9027𝑥 (2.1.32)

𝑛 𝑖=1

𝑛−2

. Tuy nhiên trước hết Ước lượng của 2 có thể tính theo ̂2 = ∑ (𝑦𝑖 − 𝑦̂𝑖)2

(∑

)

ta tìm hệ số xác định:

(∑

)

𝑆𝑆𝑅 𝑆𝑆𝑇

(𝑦̂𝑖−𝑦̅)2 (𝑦𝑖−𝑦̅)2

𝑛 𝑖=1 𝑛 𝑖=1

𝑅2 = = = 0.964

Đây là giá trị khá lớn. Ta nói có 96,4% số liệu được giải thích bởi mô hình.

Theo (2.1.31) thì

𝑛 ∑(𝑦𝑖 − 𝑦̂𝑖)2 = 𝑖=1

𝜎̂ 2 = (1 − 𝑅2)(𝑦𝜎𝑛)2 = 9,5696 = 3,09342 1 𝑛 − 2 𝑛 𝑛 − 2

29

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Bây giờ ta kiểm định hệ số b = 0. Theo (2.1.15),

𝑠𝑒(𝑏̂) = √ = = 24,80 = 0.1179 ⇒ 𝑇𝑏 2,9027 0,1179 |𝑏̂ − 0| 𝑠𝑒(𝑏̂) 𝜎̂ 2 𝑆𝑋𝑋

P – giá trị của phân bố Student 23 bậc tự do ứng với giá trị 24,80 là 0,000. Vậy

ta chấp nhận giả thuyết b  0.

Bây giờ ta xét phân tích phương sai.

𝑛 𝑖=1

𝑆𝑆𝑅 1

= 5885,9 𝑆𝑆𝑅 = ∑ (𝑦̂𝑖 − 𝑦̅)2 = 5885,9 ⇒

𝑛 𝑖=1

𝑆𝑆𝐸 𝑛−2

220,1 ⇒ 𝜎̂ 2 = = 9,569 𝑆𝑆𝐸 = ∑ (𝑦𝑖 − 𝑦̂𝑖)2 =

𝑛 𝑖=1

6105,9

⇒ 𝐹 = = 615,08 𝑆𝑆𝑇 = ∑ (𝑦𝑖 − 𝑦̅)2 = 𝑆𝑆𝑅 1⁄ ⁄ 𝑆𝑆𝐸 (𝑛−2)

P - giá trị của phân bố F(1,23) ứng với giá trị 615,08 bằng 0,000 nên ta cũng kết

luận b0.

Các kết quả tính toán trên được cô đọng lại vào trong bảng phân tích hệ số và

phân tích phương sai. Thông thường các phần mềm thống kê đều đưa ra các bảng này

(xem Bảng 2.2).

Bảng 2.2. Phân tích hệ số và phân tích phương sai cho Ví dụ 2.2

R R Square Std. Error of the Estimate Adjusted R Square

.982 .964 .962 3.0934

df Mean Square F Sig. Sum of Squares

Regression 5885.852 5885.852 615.080 .000 1

Residual 220.093 9.569 23

Total 6105.945 24

95% Confidence Interval for B

t Sig. B Lower Bound Upper Bound Unstandardized Coefficients Std. Error

30

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Constant 5.115

1.146 4.464 .000 2.744 7.485

X1 2.903 .117 24.801 .000 2.661 3.145

Ta lập đồ thị rải điểm của các phần dư chuẩn hóa di =ei /̂ theo 𝑦̂𝑖 như Hình 2.6. Nhìn vào đồ thị ta thấy có 1 số liệu nằm ngoài dải [-2; 2]. Phần dư chuẩn hóa phân bố khá đều đặn trong dải [-2; 2], duy chỉ có 1 giá trị nằm ngoài dải này (tỷ lệ vi

phạm là 1/25, nhỏ hơn 5% nên chấp nhận được).

Tóm lại, chúng ta chấp nhận mô hình (2.1.32).

Bây giờ một dây có độ dài 8 sẽ có sức kéo trung bình là: 𝑦̂(8) = 5,115+ 2,9027.8

= 28,336.

Theo (2.1.27), khoảng tin cậy 90% của ước lượng này là (28,336 1.062) =

(27,274; 29,398). Theo (2.1.29), khoảng tin cậy 90% cho quan sát tương lai khi dây có

3

2

1

0

0

20

40

60

80

-1

-2

-3

độ dài 8 là (28,336  5,407) = (22.929; 33.743) .

Hình 2.6. Đồ thị phần dư chuẩn hóa cho số liệu độ kéo

2.1.7 Tuyến tính hóa một số mô hình

Dùng phép biến đổi loga với biến hồi quy hay biến phản hồi, hoặc với cả hai,

dùng phép nghịch đảo với biến hồi quy ..., ta có thể đưa một số mô hình về dạng tuyến

tính.

Hồi quy logarith y = a + b.ln x

Hồi quy mũ y = a.eb.x ( ln y = lna + bln x)

Hồi quy lũy thừa y = a.xb ( ln y = lna + bln x)

Hồi quy nghịch đảo y = a + b.(1/ x)

31

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hồi quy tam thức y = a + bx +cx2

2.2. MÔ HÌNH HỒI QUY TUYẾN TÍNH BỘI

Mô hình hồi quy tuyến tính bội là sự mở rộng tự nhiên của mô hình hồi quy

tuyến tính đơn. Chúng ta ghi ra dưới đây những kết quả tóm tắt.

2.2.1 Phương trình hồi quy

a. Dạng quan sát và dạng ma trận

Giả sử mối quan hệ giữa biến phụ thuộc (biến phản hồi) Y và k biến độc lập (biến

hồi quy) x1,...,xk cho bởi mô hình

(2.2.1) 𝑌 = 0 + 1𝑥1 + ⋯ + 𝑘𝑥𝑘 + 

trong đó 0, 1,..., k là các tham số chưa biết, gọi là các hệ số hồi quy, 0 gọi là hệ số

chặn, 1,..., k là các hệ số góc;  là sai số ngẫu nhiên có kỳ vọng 0 và phương sai 2 .

Khi không sợ nhầm lẫn, ta viết ngắn gọn (2.2.1) dưới dạng

E[Y | x1,..., xk ] = 0 + 1x1 + ...+ kxk (2.2.2)

hay đơn giản hơn nữa

E[Y] = 0 + 1x 1 + ... + kxk (2.2.3)

Để tìm hiểu mô hình (2.2.1) chúng ta tiến hành n quan sát và ghi lại kết quả dưới

dạng bảng như Bảng 2.4.

Bảng 2.4. Số liệu cho mô hình hồi quy bội

y x1 x2 . x k

x1k

y1 x11 x12 .

. . . .

xnk

yn xn1 xn2 .

Như vậy, dưới dạng quan sát, mô hình (2.2.1) viết lại dưới dạng:

{ (2.2.4)

𝑌1 = 𝛽0 + 𝛽1𝑥11+ . . +𝛽𝑘𝑥1𝑘 + 𝜀1 … … … … … … … … … … … … … . . 𝑌𝑛 = 𝛽0 + 𝛽1𝑥𝑛1+ . . +𝛽𝑘𝑥𝑛𝑘 + 𝜀𝑛

Để thuận lợi cho ký hiệu và các phân tích tiếp theo, chúng ta sử dụng các ký hiệu 32

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

ma trận sau đây.

𝑦 = [ ] ; 𝑥 = [ ] 𝑦1 . 𝑦𝑛 1 𝑥11 𝑥12 . . . 𝑥1𝑘 . . . . . . . . . . . 1 𝑥𝑛1 𝑥𝑛2 . . . 𝑥𝑛𝑘

𝛽 = [ ] ; 𝜀 = [ ] 𝜀1 . 𝜀𝑛 𝛽0 . 𝛽𝑘

Khi đó, phương trình (2.2.4) được viết lại dưới dạng ma trận

y = Xβ + ε, (2.2.5)

Trong đó y là n - véc tơ quan sát, X là ma trận cấp np của các biến độc lập (p =

k + 1) - còn gọi là ma trận kế hoạch - β là p - véc tơ các hệ số hồi quy, ε là n - véc tơ sai

số ngẫu nhiên.

Tuyến tính hóa một số mô hình

Mô hình (2.2.3) là tuyến tính vì nó tuyến tính với các tham số i .

Trong ứng dụng chúng ta thường gặp mô hình dạng:

(2.2.6) 𝐸[𝑌] = 𝛽1𝑔1(𝑥1, … , 𝑥𝑙) + ⋯ 𝛽𝑝𝑔𝑝(𝑥1, … , 𝑥𝑙)

trong đó g1,...,gp là các hàm nào đó của các biến hồi quy x1,...,𝑥ℓ.

Đây là mô hình tuyến tính với các tham số i , phi tuyến với các biến x1,..., 𝑥ℓ.

Xét phép đổi biến

𝑧1 = 𝑔1(𝑥1, … , 𝑥ℓ); … ; 𝑧𝑝 = 𝑔𝑝(𝑥1, … , 𝑥ℓ)

Ta có thể đưa (2.2.5) về dạng thông thường

(2.2.7) 𝐸[𝑌] = 𝛽1𝑧1 + ⋯ + 𝛽𝑝𝑧𝑝

là mô hình tuyến tính với cả tham số lẫn các biến hồi quy. Như vậy từ nay ta vẫn

gọi mô hình (2.2.6) là tuyến tính. Xét một số trường hợp đặc biệt.

b1. Hồi quy đa thức. Xét mô hình

E[Y] = a0 + a1x + … + akxk .

Đặt z1= x; ...; zk = xk , ta đưa mô hình này về dạng

E[Y] =a 0 +a1z1 +... +a kzk .

Đặc biệt, người ta hay xét mô hình tam thức và đa thức bậc ba:

E[Y] = a + cx + cx2,

33

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

E[Y] = a + cx + cx2+ dx3.

b2. Mô hình đa thức bậc 2 của hai biến. Đó là mô hình

E[Z] =a +bx +cy +dx2 + exy + fy2

Đây là mô hình tuyến tính với 6 tham số a, b, c, d, e, f. Trường hợp giả thuyết e

= 0 bị bác bỏ, ta nói hai biến hồi quy x và y là tương tác với nhau, mô hình có chứa số

hạng tích chéo xy. Trái lại, nếu e = 0, ta nói mô hình không chứa số hạng tích chéo xy,

2 biến x và y là không tương tác với nhau.

b3. Dùng phép biến đổi loga với biến phản hồi

Giả sử biến phản hồi Y biểu diễn dưới dạng hồi quy mũ:

𝑌 = 𝐴𝑒1𝑥1+..+ 𝑘𝑥𝑘. 

trong đó A, 1, ..., k là các tham số,  là sai số ngẫu nhiên dạng nhân.

Logarit hóa ta được

𝑍 = 𝐿𝑛𝑌 = 𝑙𝑛𝐴 + 1𝑥1 + ⋯ + 𝑘𝑥𝑘 + 

là mô hình tuyến tính thông thường.

Người ta cũng dùng phép biến đổi loga với các biến hồi quy, hoặc với cả biến

phản hồi lẫn các biến hồi quy để được các mô hình tuyến tính hóa.

b4. Hồi quy có chứa sin, cos.

Giả sử biến phụ thuộc có dạng

Y(t) =a + bt + csint +dcost +  .

Bằng cách đặt x1 = t; x2 = sin t; x3 = cos t , ta đưa mô hình về dạng tuyến tính

thông thường.

2.2.2 Ước lượng hệ số hồi quy và tính chất của ước lượng

Giả thiết đầu tiên cần có là ma trận X có số hàng ít nhất bằng số cột, p = k +1 

n, và hạng của nó bằng số cột:

Rank(X) = p. (2.2.8)

Khi đó, ước lượng làm cực tiểu tổng bình phương các sai số

gọi là ước lượng bình phương cực tiểu, ký biệu là ̂, cho bởi:

𝛽̂ = (𝑋𝑇𝑋)−1𝑋𝑇𝑦 (2.2.9)

34

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

1

1

Giống như (1.1.14), ước lượng cho sai số chung của mô hình là

2 𝑛 ∑ 𝑒𝑖 𝑖=1 =

𝑛 𝑖=1

𝑛−𝑝

𝜎̂ 2 = (2.2.10) ∑ (𝑦𝑖 − 𝑦̂𝑖)2

1𝑥𝑖1 + ⋯ + ̂

0 + ̂

𝑘𝑥𝑖𝑘: dự báo của quan sát thứ i

𝑛−𝑝 𝑦̂𝑖 = ̂ ei = yi - 𝑦̂𝑖 : phần dư thứ i.

với

Nhận thấy vế phải của (2.2.10) có chứa mẫu số n -p. Vậy, khi số biến hồi quy p

tăng lên, (chẳng hạn với hồi quy đa thức, khi số bậc của đa thức tăng) có thể sai số mô

hình tăng lên. Ta sẽ có mô hình cực tồi nếu p  n.

Để nghiên cứu các tính chất của ước lượng tham số, giống với trường hợp có 1

biến hồi quy, cần có giả thiết:

1,..., n độc lập, cùng phân bố chuẩn N(0;2). (2.2.11)

Định lý 2.2. Với các giả thiết (2.2.8), (2.2.11) thì:

a. 𝛽̂ là ƯL không chệch của véc tơ tham số  : E[𝛽̂ ˆ] = .

Ma trận covarian của 𝛽̂ cho bởi:

Cov(𝛽̂) = (XT X)-12

2 theo (2.2.10) là ước lượng không chệch của 2 :

E[𝜎̂ 2] = 2

2.2.3 Kiểm định giả thuyết

a. Kiểm định ý nghĩa của hồi quy.

Đó là kiểm tra xem có một quan hệ tuyến tính nào đó giữa biến phản hồi Y với

một tập con nào đó của các biến hồi quy x1,...,xk hay không. Cụ thể là xét bài toán kiểm

định:

H0 : 1 = 2 = ... = n = 0 / H1 : j  0 với ít nhất một j{1,..., k}.

Nếu H 0 bị bác bỏ thì có nghĩa là ít ra một trong các biến hồi quy x1,...,xk có ý

nghĩa đối với mô hình.

Dưới giả thuyết H0 có thể chứng minh tổng bình phương hồi quy và tổng bình

phương các sai số theo (1.1.24) là những biến ngẫu nhiên độc lập và có bậc tự do tương

ứng là k và n-p.

𝑆𝑆𝑅 𝑘⁄ ⁄ 𝑆𝑆𝐸 (𝑛−𝑝)

𝑀𝑆𝑅 𝑀𝑆𝐸

= ~𝐹(𝑘; 𝑛 − 𝑝) (2.2.12) 𝐹0 =

35

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Từ đó giả thuyết bị bác bỏ ở mức  nếu F0  f(k;n-p).

Các phần mềm thường dùng P–giá trị và đưa ra bảng phân tích phương sai cho

thủ tục vừa nêu.

2

Người ta cũng xét kiểm định cho một tập con của các hệ số 0, 1,..., k bằng 0.

Hệ số xác định bội R2 và hệ số xác định hiệu chỉnh 𝑅𝑎𝑑𝑗

Với mô hình hồi quy nhiều biến định nghĩa hệ số xác định bội R 2 và các tính

chất của nó như với trường hợp hồi quy đơn:

𝑆𝑆𝑅 𝑆𝑆𝑇

𝑆𝑆𝐸 𝑆𝑆𝑇

𝑅2 = = 1 −

Tính chất đặc biệt của hệ số xác định là nó không giảm khi tăng số biến hồi quy.

Từ đó, hệ số xác định khó nói cho ta biết việc tăng biến có lợi gì hay không, nhất là khi

sự gia tăng hệ số xác định là nhỏ. Vì thế nhiều nhà phân tích lại thích dùng hệ số xác

2 = 1 −

định hiệu chỉnh (adjusted R2):

⁄ 𝑆𝑆𝐸 (𝑛−𝑝) ⁄ 𝑆𝑆𝑇 (𝑛−1)

(2.2.13) 𝑅𝑎𝑑𝑗

Mẫu ở vế phải là hằng số, còn tử là ước lượng của sai số; nó bé nhất khi và chỉ

adj lớn nhất. Từ đó, một quy tắc lựa chọn biến hồi quy

khi hệ số xác định hiệu chỉnh R2

2

là:

lớn nhất. Chọn một số trong các biến hồi quy x1,..,xk để 𝑅𝑎𝑑𝑗

Kiểm định một tham số triệt tiêu (kiểm định T).

Xét bài toán kiểm định một tham số đơn lẻ nào đó triệt tiêu:

(j = 0,1,...,k). H0 : j = 0/ H1 : j  0

Nếu giả thuyết không bị bác bỏ thì có nghĩa rằng biến hồi quy tương ứng không

̂

𝑗

bị loại khỏi mô hình. Thống kê kiểm định là

̂ 𝑗 𝑠𝑒(𝛽̂𝑗)

√𝜎̂2𝐶𝑗𝑗

= (2.2.14) 𝑇𝑗 =

trong đó Cjj là phần tử thứ j của đường chéo chính của ma trận C = (X’X )-1 ứng

𝑗 .

với ̂

Vì TjT(n - p) nên giả thuyết bị bác bỏ nếu |Tj| >t/2(n - p).

36

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.2.4 Ước lượng và dự đoán

a. Khoảng tin cậy cho tham số đơn lẻ

Khoảng tin cậy 100(1-)% cho tham số j cho bởi

𝑗) = √𝜎̂ 2𝐶𝑗𝑗)

𝑗) , (𝑠𝑒(𝛽̂ b. Khoảng tin cậy cho đáp ứng trung bình.

(𝑛 − 𝑝)𝑠𝑒 (̂ (2.2.15) ̂ 𝑗 ± 𝑡𝛼 20⁄

𝑇=0 + 1x01 +

Giả sử quan sát tương lai thực hiện tại mức x01,...,x0k của các biến hồi quy x1,...,xk.

𝑇 ̂ = ̂

1𝑥01 + ⋯ + 𝛽̂

𝑘𝑥0𝑘

Đặt x0 = (1,x01, ...,x0k )T . Đáp ứng trung bình tại điểm này là E[Y|x0] = 𝑥0

𝑦̂0 = 𝑥0 ...+ kx0k , ước lượng điểm của nó là 0 + 𝛽̂

Đối với mô hình hồi quy tuyến tính bội, khoảng tin cậy 100(1-)% cho đáp ứng

trung bình tại điểm x01,...,x0k là

𝑇𝑥)−1𝑥0

𝑇(𝑥0

(2.2.16) 𝑦̂0 ± 𝑡𝛼 2⁄ (𝑛 − 𝑝)√𝜎̂ 2𝑥0

c. Dự đoán cho quan sát mới.

Ước lượng điểm của dự đoán cho quan sát tương lai tại mức x01,...,x0k của các

𝑇𝛽 = 𝛽0 + 𝛽1𝑥01 + ⋯ + 𝛽𝑘𝑥0𝑘

biến độc lập là

𝑦̂0 = 𝑥0

Khoảng dự đoán 100(1- )% cho quan sát tương lai này là

𝑇(𝑥𝑇𝑥)−1𝑥0)

(2.2.17) 𝑦̂0 ± 𝑡𝛼 2⁄ (𝑛 − 𝑝)√𝜎̂ 2(1 + 𝑥0

d. Vấn đề ngoại suy với mô hình hồi quy bội

Vẫn có những chú ý tương tự như với hồi quy đơn, song vấn đề cần thận trọng

hơn. Chẳng hạn, với mô hình có hai biến hồi quy x, y miền biến thiên của các biến hồi

quy ở Hình 1.7 phải hiểu là elip chứ không phải hình chữ nhật ABCD. Tình hình sẽ khó

khăn hơn khi số biến hồi quy tăng lên.

37

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

A B C D

Hình 2.7. Miền biến thiên của các biến hồi quy

2.2.5 Phân tích phần dư

Với mô hình bội, người ta cũng tiến hành lập đồ thị phần dư chuẩn hóa di = ei/𝜎̂

như với mô hình đơn. Nếu có không quá 95% các giá trị di nằm trong dải (-2; 2) và phần

dư có dáng điệu tương đối đều đặn quanh trục hoành như ở Hình 1.5a thì chấp nhận mô

hình. Trái lại, phải tiến hành phân tích lại. Người ta cũng kiểm tra tính chuẩn của phần

dư bằng tổ chức đồ hay đồ thị P-P chuẩn.

Tuy nhiên, có hai điểm khác biệt. Thứ nhất, ngoài lập đồ thị phần dư chuẩn hóa

theo thời gian (theo chỉ số i), theo chiều tăng của một vài biến hồi quy xi nào đó, theo

chiều tăng của dự báo 𝑦̂𝑖, khi xét mô hình với một nhóm con các biến hồi quy, người ta

còn lập đồ thị phần dư theo biến hồi quy chưa tham gia vào mô hình. Nếu phát hiện ra

đồ thị phần dư chuẩn hóa theo biến này không đạt yêu cầu thì có nhiều khả năng biến

hồi quy đó cần phải tham gia vào mô hình.

Thứ hai, thay cho đồ thị phần dư chuẩn hóa di , người ta thấy rằng đồ thị phần dư

điều chỉnh ri (còn gọi là phần dư student hóa

(studentized residual)) ưu việt hơn, trong đó

𝑒𝑖 √𝜎̂2(1−ℎ𝑖𝑖)

(2.2.18) 𝑟𝑖 =

với hii là phần tử chéo thứ i của ma trận

H = X(XTX)-1XT .

(Lưu ý rằng 0 < hii 1 di < ri ).

2.2.6 Sử dụng phần mềm

Các phần mềm thống kê ngày nay cho phép phân tích mô hình với số biến hồi

quy lên đến hàng ngàn và số quan sát lên đến hàng chục vạn. Chúng ta cần có những

38

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

kiến thức cơ bản để tận dụng những lợi thế của các phần mềm này. Mỗi phần mềm có

những thế mạnh của nó, song chúng đều có phần phân tích hệ số và phân tích phương

sai. Chúng ta tìm hiểu sơ bộ qua một vài ví dụ.

Ví dụ 1.3 ( Phân tích số liệu lực kéo). Chúng ta lấy lại ví dụ lực kéo ở Ví dụ 2.2.

Giả sử chúng ta đã nhập số liệu vào cửa sổ biên tập dữ liệu. Sau đây là một số thao tác

cơ bản.

Bảng 2.5. Kết quả xử lý với số liệu lực kéo dây dẫn

TT Lực kéo yi Độ dài x1 Độ cao x2 Dự báo 𝑦̂𝑖 Phần dư ei Phần dư chuẩn hóa di

50 9.95 2 8.38 1.57 .687 1

110 24.45 8 25.60 -1.15 -.501 2

120 31.75 11 33.95 -2.20 -.963 3

550 35.00 10 36.60 -1.60 -.698 4

295 25.02 8 27.91 -2.89 -1.265 5

200 16.86 4 15.75 1.11 .487 6

375 14.38 2 12.45 1.93 .843 7

52 9.60 2 8.40 1.20 .523 8

100 24.35 9 28.21 -3.86 -1.689 9

300 27.50 8 27.98 -.48 -.208 10

412 17.08 4 18.40 -1.32 -.578 11

400 37.00 11 37.46 -.46 -.202 12

500 41.95 12 41.46 .49 .215 13

360 11.66 2 12.26 -.60 -.263 14

205 21.65 4 15.81 5.84 2.553 15

400 17.89 4 18.25 -.36 -.158 16

600 69.00 20 64.67 4.33 1.894 17

585 10.30 1 12.34 -2.04 -.890 18

540 34.93 10 36.47 -1.54 -.674 19

250 46.59 15 46.56 .03 .013 20

290 44.88 15 47.06 -2.18 -.953 21

510 54.12 16 52.56 1.56 .681 22

590 56.63 17 56.31 .32 .141 23

39

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

22.13 6 100 19.98 2.15 .939

24

21.15 5 400 21.00 .15 .067 25

Chọn chương trình phân tích

Phương pháp lọc mô hình

Tìm ước lượng cho tham số và khoảng tin cậy của chúng

Lập đồ thị phần dư chuẩn theo yi

Lưu dự báo 𝑦̂𝑖 , phần dư ei , phần dư chuẩn hóa di vào danh sách các biến

Bảng 2.6. Tóm tắt, phân tích phương sai và phân tích hệ số cho Ví dụ 2.3

R R Square Adjusted R Square Std. Error of the Estimate

.991 .981 .979 2.28805

df Mean Square F Sig. Sum of Squares

Regression 5990.771 2995.386 572.167 .000 2

Residual 115.173 5.235 22

Total 6105.945 24

Unstandardized Coefficients 95% Confidence Interval for B t Sig.

B Std. Error Lower Bound Upper Bound

Constant 2.264 1.060 2.136 .044 .065 4.462

X1 2.744 .094 29.343 .000 2.550 2.938

X2 .013 .003 4.477 .000 .007 .018

Ta thấy hệ số xác định R2 = 0,981, vậy có 98,1% số liệu được giải thích bởi mô

hình; đây là một tỷ lệ khá lớn. Ước lượng cho phương sai chung của mô hình là 𝜎̂ 2 =

2,28812 . Mức ý nghĩa của thống kê F là 0,000, rất nhỏ so với 0,01: Mô hình có tác dụng

tốt để giải thích số liệu. Tất cả các mức ý nghĩa của thổng kê T của các tham số đều nhỏ

hơn 0,05 ( giá trị cực đại 0,044 ứng với biến hằng số). Hậu quả là khoảng tin cậy của tất

40

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

cả các hệ số đều không chứa gốc tọa độ. Như vậy, các kiểm định T không bác bỏ mô

hình. Mô hình dự tuyển là

3

1.00

2

1

.50

0

0

15

3 0

45

60

75

-1

0.00

-2

Y =2,264 + 2,744x1 +0,013x2 +  (*)

0.0 0.50 1.00

Hình 2.8. Đồ thị xác suất chuẩn và phần dư chuẩn hóa của số liệu lực kéo

Đồ thị xác suất chuẩn và đồ thị phần dư chuẩn thể hiện ở Hình 2.8. Mặc dầu

không phải rất sát, song sai lệch của đồ thị xác suất chuẩn với đường thẳng y = x là có

thể chấp nhận được. Đồ thị phần dư chuẩn hóa bố trí khá đều dặn, đối xứng trong dài [-

2; 2]. Tuy nhiên 1 quan sát (thứ 15) có trị tuyệt đối phần dư chuẩn vượt quá 2. Dù sao,

tỷ lệ 1/ 25 là nhỏ hơn 5% và có thể chấp nhận được. Tóm lại, các kiểm định đều không

bác bỏ mô hình (*).

Như vậy, với số liệu lực kéo ta có tới 2 mô hình được chấp nhận: mô hình

(1.1.32) ở Ví dụ 2.2 và mô hình (*) vừa nêu. Do sử dụng nhiều biến hơn, hệ số xác định

của mô hình (*) lớn hơn. Vả lại, mô hình (*) không phải là quá phức tạp, chúng ta chọn

nó làm mô hình cuối cùng.

2.2.7 Lựa chọn biến và xây dựng mô hình

a. Lựa chọn biến

Vấn đề quan trọng trong ứng dụng của phân tích hồi quy là lựa chọn tập hợp các

biến hồi quy để xây dựng mô hình. Đôi khi những kinh nghiệm hay những hiểu biết về

mặt lý thuyết có thể giúp nhà phân tích định ra được tập các biến hồi quy sử dụng trong

những tình huống cụ thể. Nhiều khi vấn đề lại ở chỗ, người ta biết rất rõ các biến quan

41

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

trọng, nhưng lại không chắc rằng có phải tất cả các biến dự tuyển đều là cần thiết cho

một mô hình thỏa đáng hay không.

Như vậy xuất hiện vấn đề lựa chọn biến hồi quy: Lựa chọn ra trong các biến dự

tuyển một tập con các biến “tốt nhất” theo các nghĩa sau đây.

+ Khả năng ứng dụng: Chọn đủ biến hồi quy để việc sử dụng đa dạng của mô

hình (dự đoán, ước lượng…) cho kết quả thỏa đáng.

+ Tính kiệm: Để mô hình với giá thấp chấp nhận được và dễ sử dụng, người ta

muốn mô hình ít biến hồi quy nhất có thể.

Tuy nhiên, hầu như chẳng có mô hình nào “tốt nhất” theo nghĩa đáp ứng đồng

thời nhiều tiêu chuẩn như trên. Những đánh giá, những kinh nghiệm từ xử lý hệ thống

đang xem xét thường là trợ lực cần thiết cho việc lựa chọn tập biến hồi quy.

Không có thuật toán nào luôn luôn đưa ra lời giải tốt cho vấn đề lựa chọn biến.

Mặc dầu người ta đã đưa ra rất nhiều thuật toán lựa chọn, song chúng chỉ để ý đến khía

cạnh kỹ thuật, cần có sự liên kết chặt chẽ với nhà phân tích. Chúng ta sẽ mô tả ngắn gọn

một số kỹ thuật thông dụng nhất với vấn đề chọn biến.

Giả sử có K biến dự tuyển x1,...,xK và một biến phản hồi y. Tất cả các mô hình

đều có hệ số chặn H0 , vậy mô hình có cả thảy K +1 số hạng. Chúng ta cũng giả sử dạng

hàm của các biến dự tuyển (chẳng hạn x1 =1/x, x2 = ln x...) là đúng.

Thủ tục cân nhắc tất cả.

Toàn bộ các mô hình có thể đều được xem xét. Ta sẽ cần so sánh 2K mô hình hồi

quy. Mặc dầu việc phân tích 1 mô hình không là vấn đề với các phần mềm ngày nay,

song khi K tương đối lớn, số phương trình cần cân nhắc sẽ tăng lên nhanh chóng (với K

2 .

=10, 2 K =1024 ).

Dựa vào R2 hoặc Radj

Người ta xuất phát từ mô hình có ít biến đến mô hình có nhiều biến hơn. Nếu sự

2

2

gia tăng R2 không đáng kể thì dừng lại và lựa chọn mô hình tương ứng.

cực đại hoặc Tiêu chuẩn dựa vào 𝑅𝑎𝑑𝑗 thường tốt hơn. Chọn mô hình có 𝑅𝑎𝑑𝑗

gần cực đại (nếu muốn số biến hồi quy nhỏ).

Tiêu chuẩn PRESS.

42

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Gọi 𝑦̂(i) là dự đoán tại quan sát thứ i dựa vào mô hình chỉ có n - 1 quan sát còn

2

2

lại. Đặt

𝑛 𝑃𝑅𝐸𝑆𝑆 = ∑ (𝑦𝑖 − 𝑦̂(𝑖)) 𝑖=1

) = ∑ ( 𝑒𝑖 𝑛 𝑖=1 1−ℎ𝑖𝑖

trong đó ei = yi - 𝑦̂𝑖 là phần dư thông thường.

Mô hình có PRESS nhỏ là mô hình được đề nghị.

Thủ tục cân nhắc từng bước (stepwise procedure)

Sau đây chúng ta dùng ký hiệu fin (tương ứng faut) để chỉ giá trị cụ thể của thống

kê f riêng phần sau khi bỏ đi (tương ứng thêm vào) một biến hồi quy khỏi mô hình.

Đầu tiên chọn mô hình một biến hồi quy mà có hệ số tương quan cao nhất với

biến phản hồi Y. Đây cũng là biến có thống kê f lớn nhất. Chẳng hạn chọn được biến x1

ở bước thứ nhất.

Giả sử ở bước nào đó đã lựa chọn được m biến, chẳng hạn x1,...,xm. Ở bước tiếp

theo, xét các mô hình với m biến đã lựa chọn x1,...,xm và 1 biến trong các biến còn lại.

Nếu thống kê f riêng phần tăng lên, quay lại xét xem nếu bỏ một trong m biến x1,...,xm

thì thống kê f riêng phần có tiếp tục được tăng lên hay không. Như vậy ta tăng thêm

hoặc tăng thêm và bỏ đi biến nếu fin > faut. Thủ tục dừng lại đến khi không có biến nào

được thêm vào hoặc bỏ đi.

Thủ tục tiến (forward procedure).

Tại một bước nào đó đưa thêm vào tập biến lựa chọn trong các biến còn lại một

biến làm tăng thống kê F riêng phần nhiều nhất. Nếu không có biến nào như vậy thì

dừng quá trình lựa chọn biến.

Như vậy, khác với thủ tục cân nhắc từng bước, thủ tục tiến mặc nhiên công nhận

các biến lựa chọn ở các bước trước là “tốt”. Thực ra, khi có biến mới thêm vào tập chọn,

các biến cũ có thể trở nên tồi và cần phải loại bỏ như ở thủ tục cân nhắc từng bước; thủ

tục cân nhắc từng bước là ưu việt hơn. Tuy nhiên, nhiều ví dụ chỉ ra rằng, hai thủ tục

vừa nêu cho ra cùng một tập chọn các biến hồi quy.

Thủ tục lùi (backward procedure).

43

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Thủ tục bắt đầu với toàn bộ K biến hồi quy. Biến hồi quy với thống kê f riêng

phần nhỏ nhất sẽ bị loại bỏ nếu thống kê f riêng phần này có ý nghĩa, tức là f < faut ().

Tiếp tục đến khi không có biến hồi quy nào bị loại.

Vài nhận xét về lựa chọn mô hình cuối cùng.

Tiêu chuẩn chủ yếu để lựa chọn biến là cân nhắc từng bước. Có thể có một vài

mô hình tốt như nhau. Khi đó ta có thể cân nhắc thêm các tiêu chuẩn khác. Nếu số biến

hồi quy không lớn, có thể dùng thủ tục cân nhắc tất cả.

Sau khi lựa chọn được biến hồi quy, vẫn phải tiến hành các kiểm tra thông

thường: phân tích phần dư, kiểm tra sự phù hợp …, xem xét về mặt lý thuyết như có

nhất thiết phải chứa tích chéo, nhất thiết phải chứa biến hồi quy nào đó, dấu của biến

nào đó nhất thiết phải dương (hay âm) … hay không.

Những khía cạnh khác của kiểm định mô hình.

Đa cộng tuyến.

Chúng ta nhớ rằng giả thiết (2.2.8) rằng hạng của ma trận kế hoạch X phải bằng

số tham số p. Điều này tương đương với det(XTX)  0 . Tuy nhiên điều gì xảy ra nếu

det(XTX)  0 .

Nếu xảy ra det(XTX)  0 thì có quan hệ tuyến tính mạnh giữa các cột của ma trận

X, tức là có sự phụ thuộc tuyến tính mạnh giữa các biến hồi quy 1,x1,...,xk . Ta nói đã

xảy ra hiện tượng đa cộng tuyến (multicollinearity). Đa cộng tuyến có thể gây ra những

hậu quả tai hại về ước lượng các hệ số hồi quy như phương sai, hiệp phương sai của các

ước lượng tham số trở nên lớn, tỷ số T mất ý nghĩa trong khi R2 có thể cao, dấu của hệ

số hồi quy có thể sai… cũng như sai lầm trong sử dụng mô hình nói chung.

Phương sai của sai số thay đổi

Cho đến giờ, trừ trường hợp tìm ước lượng cho các tham số, tất cả các thủ tục

phân tích đều dựa vào giả thiết (2.2.11). Tuy nhiên, nếu giả thiết này không thỏa mãn;

đặc biệt, giả thiết cùng phương sai R2 của các sai số bị vi phạm, ta nói đã xảy ra trường

hợp phương sai của sai số thay đổi. Nếu ta vẫn sử dụng các phương pháp xử lý thông

thường thì có thể chứng minh được ước lượng thu được là chệch và không hiệu quả.

44

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Có thể phát hiện phương sai sai số thay đổi bằng đồ thị: Đồ thị phần dư chuẩn

hóa theo một biến nào đó (theo chỉ số i, theo biến hồi quy xi nào đó hoặc theo 𝑦̂𝑖 ) có

dạng (b) (c) hay (d) ở Hình 1.5.

Cũng có thể dụng một số tiêu chuẩn về lượng như tiêu chuẩn tương quan hạng

Spearman, kiểm định Gleiser … Khắc phục hiện tượng phương sai thay đổi chủ yếu

dùng phương pháp bình phương tối thiểu trọng lượng, dùng phép biến đổi loga.

Ví dụ 1.4. Một bài báo trên Tạp chí Dược học (Journal of Pharmaceuticals

Sciences - 1991) đưa ra dữ liệu về độ hòa tan tỷ số mol quan sát của một chất tan tại

nhiệt độ không đổi với các tham số tan riêng phần phân tán, lưỡng cực và liên kết hydro

Hansen. Số liệu ở Bảng 1.7, trong đó Y là logarit âm của độ hòa tan tỷ số mol, x1 là độ

hòa tan riêng phần khuyếch tán, x2 là độ hòa tan riêng phần lưỡng cực, x3 là độ hòa tan

riêng phần liên kết hydro.

Trước hết chúng ta lọc mô hình đa thức bậc hai đầy đủ

2 2 + 𝑏22𝑥2

2 + 

Y = 𝑏0 + 𝑏1𝑥1 + 𝑏2𝑥2 + 𝑏3𝑥3 + 𝑏12𝑥1𝑥2 + 𝑏13𝑥1𝑥3 + 𝑏23𝑥2𝑥3 + 𝑏11𝑥1

+ 𝑏33𝑥3

Các kết quả phân tích sau dựa vào phần mềm SPSS. Hệ số xác định R 2 =0.917

Adj = 0,870 khá lớn, sai số chung của mô hình 2 =

và hệ số xác định hiệu chỉnh R2

0,069232 khá nhỏ.

Bảng 2.7. Số liệu độ tan

TT Y x1 x2 x3

1 0.222 7.3 0 0

2 0.395 8.7 0 0.3

3 0.422 8.8 0.7 1

4 0.437 8.1 4 0.2

5 0.428 9 0.5 1

6 0.467 8.7 1.5 2.8

7 0.444 9.3 2.1 1

8 0.378 7.6 5.1 3.4

9 0.494 10 0 0.3

10 0.456 8.4 3.7 4.1

45

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

11 0.452 9.3 3.6 2

12 0.112 7.7 2.8 7.1

13 0.432 9.8 4.2 2

14 0.101 7.3 2.5 6.8

15 0.232 8.5 2 6.6

16 0.306 9.5 2.5 5

17 0.0923 7.4 2.8 7.8

18 0.116 7.8 2.8 7.7

19 0.0764 7.7 3 8

20 1.7 4.2 0.439 10.3

21 0.0944 7.8 3.3 8.5

22 0.117 7.1 3.9 6.6

23 0.0726 7.7 4.3 9.5

24 0.0412 7.4 6 10.9

25 0.251 7.3 2 5.2

26 0.00002 7.6 7.8 20.7

Thống kê f là 0,000. Vậy mô hình giải thích tốt dữ liệu. Tuy nhiên, tất cả mức ý

nghĩa (P-giá trị) của các hệ số đều lớn hơn 0,05 (giá trị nhỏ nhất là 0,087 ứng với biến

x3, giá trị lớn nhất là 0,719 ứng với biến x2x3). Hậu quả là, tất cả các khoảng tin cậy 95%

của các hệ số đều chứa gốc tọa độ.

Bây giờ chúng ta dùng thủ tục cân nhắc từng bước (stepwise prosedure) để lựa

2 (tất nhiên có biến hằng

chọn biến. Phần mềm dừng lại 3 biến lựa chọn, đó là x3, x1 và x2

số). Bảng 1.9 sau đây chỉ ra tóm tắt bết quả, phân tích phương sai, phân tích hệ số của

mô hình lựa chọn.

Nhận thấy rằng hệ số xác định R2 = 0,886 tuy thua kém trường hợp có đầy đủ các

Adj= 0,870 lại không

biến là 0,917, song hệ số xác định hiệu chỉnh (quan trọng hơn) là R2

thua kém trường hợp có đầy đủ các biến. Sai số chuẩn hóa (- 0,0609 ) cũng như mức ý

nghĩa của thống kê F (-0,000) xem là như nhau với 2 mô hình. Tuy nhiên, đối với mô

hình sau, tất cả các mức ý nghĩa của thống kê T ứng với các biến lựa chọn đều nhỏ hơn

0,05 (cực đại bằng 0,0320, tất cả các khoảng tin cậy 95% đều không chứa gốc tọa độ.

46

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Bảng 2.8. Tóm tắt, phân tích phương sai và phân tích các hệ số cho mô hình đầy đủ

của số liệu độ tan

R Std. Error of the Estimate

0.958 R Square .917 Adjusted R Square .870 .060923263

df Mean Square F Sig. Sum of Squares

Regression .656 9 .073 19.628 .000

Residual .059 16 .004

Total .715 25

Unstandardized Coefficients 95% Confidence Interval for B t Sig.

B Std. Error Lower Bound Upper Bound

Constant -1.769 1.287 -1.375 .188 -4.498 .959

X1 .421 .294 1.430 .172 1.044 -.203

X2 .222 .131 1.701 .108 -.055 .500

X3 -.128 .070 -1.822 .087 -.277 .021

X1X2 -.020 .012 -1.651 .118 -.045 .006

X1X3 .009 .008 1.201 .247 -.007 .025

X2X3 .003 .007 .366 .719 -.012 .017

X1B -.019 .017 -1.150 .267 -.055 .016

X2B -.007 .012 -.618 .545 -.033 .018

X3B .001 .001 .572 .575 -.002 .004

Lưu ý. Dùng thủ tục tiến (forward prosedure) cho kết quả trùng với kết quả từ thủ

tục cân nhắc từng bước. Nếu dùng thủ tục lùi (backward prosedure), khoảng tin cậy của

hệ số của mô hình cuối cùng có chứa gốc tọa độ. Nếu dùng thủ tục loại biến từng bước

(remove prosedure) mô hình cuối cùng chỉ chứa biến hằng số, không thể dùng để dự báo

được.

Như vậy, qua khâu lựa chọn biến chúng ta được

47

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2 +  (*)

𝑌 = −0,304 + 0,083 𝑥1 − 0,031𝑥3 + 0,004𝑥2

Bảng 2.9. Tóm tắt, phân tích phương sai, phân tích hệ số của mô hình cuối cùng

theo phương pháp cân nhắc từng bước của số liệu độ tan

R R Square Adjusted R Square Std. Error of the Estimate

0.941 .886 .870 .060973528

df F Sig. Sum of Squares Mean Square

3 .633 .211 56.778 .000 Regression

22 .082 .004 Residual

25 .715 Total

95% Confidence Interval for B B Std. Error t Sig. Lower Bound Lower Bound

Constant -.304 .132 -2.292 .032 -.578 -.029

X3 -.031 .004 -7.156 .000 -.041 -.022

X1 .083 .015 5.564 .000 .052 .113

3 2 1 0 -1 -2

X2B .004 .001 3.205 .004 .002 .007

Hình 2.9. Phần dư chuẩn hóa theo quan sát của số liệu độ tan

Kiểm tra phần dư của mô hình này. Chẳng hạn theo chỉ số i ta thấy có 2 giá trị

phần dư chuẩn hóa (ứng với quan sát thứ 6 và thứ 10) vượt quá 2; vi phạm thứ hai là di

khá nhỏ tại các quan sát 11 - 24. Dù sao 2 vi phạm này cũng không đến nỗi nào. Phần

dư chuẩn hoá xếp theo x1, x2 hay 𝑦̂ đều không có vi phạm đáng kể. Chúng ta lựa chọn

(*) làm mô hình cuối cùng.

48

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2.3. PHÂN TÍCH HỒI QUY LOGISTIC

Trong các chương trước về phân tích hồi quy tuyến tính và phân tích phương sai

chúng ta tìm mô hình và mối liên hệ giữa một biến phụ thuộc liên tục và một hay nhiều

biến độc lập hoặc là liên tục hoặc là không liên tục. Nhưng trong nhiều trường hợp, biến

phụ thuộc không phải là biến liên tục mà là biến mang tính đo lường nhị phân: có/không,

mắc bệnh/không mắc bệnh, chết sống, xảy ra/không xảy ra, v.v…, còn các biến độc lập

có thể là liên tục hay không liên tục. Chúng ta cũng muốn tìm hiểu mối liên hệ giữa các

biến độc lập và biến phụ thuộc.

2.3.1 Mô hình hồi quy logistic

Cho một tần số biến cố x ghi nhận từ n đối tượng, cúng ta có thể tính xác suất

𝑥

của biến cố đó là:

𝑛

𝑝 =

p có thể xem là một chỉ số đo lường nguy cơ của một biến cố. Một cách thể hiện

nguy cơ khác là odds (khả năng). Khả năng của một biến cố được định nghĩa đơn giản

𝑝

bằng tỉ số xác suất biến cố xảy ra trên xác suất biến cố không xảy ra:

1−𝑝

𝑜𝑑𝑑𝑠 = (2.4.1)

Hàm logit của odds được định nghĩa như sau:

) (2.4.2) 𝑙𝑜𝑔𝑖𝑡(𝑝) = 𝑙𝑜𝑔 ( 𝑝 1−𝑝

Mối liên hệ giữa p và logit(p) là một mối liên hệ liên tục (dĩ nhiên!) và theo dạng

như sau:

Hình 2.10. Mối liên hệ giữa logit(p) và p, cho 1

49

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Cho một biến độc lập x (x có thể là liên tục hay không liên tục), mô hình hồi quy

logistic phát biểu rằng:

𝑙𝑜𝑔𝑖𝑡(𝑝) = 𝛼 + 𝛽𝑥 (2.4.3)

Tương tự như mô hình hồi quy tuyến tính,  và  là hai thông số tuyến tính cần

phải ước tính từ dữ liệu nghiên cứu. Nhưng ý nghĩa của thông số này, đặc biệt là thông

số , rất khác với ý nghĩa mà ta đã quen với mô hình hồi quy tuyến tính.

Gọi bmd là x, vấn đề mà chúng ta cần biết có thể viết bằng ngôn ngữ mô hình

như sau:

) 𝛼 + 𝛽𝑥 (2.4.4) 𝑙𝑜𝑔𝑖𝑡(𝑝) = 𝑙𝑜𝑔 ( 𝑝 1−𝑝

𝑝

Nói cách khác:

𝑜𝑑𝑑𝑠(𝑝) =

= 𝑒𝛼+𝛽𝑥

1−𝑝

Mô hình trên còn cho thấy xác suất p, tùy thuộc vào giá trị của x.

Phân tích hồi quy logistic bội và chọn mô hình

Một trong những vấn đề khó khăn và có khi khá nan giải trong việc phân tích hồi

quy logistic bội là chọn một mô hình để có thể mô tả đầy đủ dữ liệu. Một nghiên cứu

với một biến phụ thuộc y và 3 biến độc lập 𝑥1, 𝑥2 và 𝑥3, chúng ta có thể có những mô hình sau đây để tiên đoán 𝑦: 𝑦 = 𝑓(𝑥1), 𝑦 = 𝑓(𝑥2), 𝑦 = 𝑓(𝑥3), 𝑦 = 𝑓(𝑥1, 𝑥2), 𝑦 = 𝑓(𝑥1, 𝑥3), 𝑦 = 𝑓(𝑥2, 𝑥3) 𝑣à 𝑦 = 𝑓(𝑥1, 𝑥2, 𝑥3) trong đó 𝑓 là hàm số. Nói chung với k biến độc lập 𝑥1, 𝑥2, , …, 𝑥𝑘, chúng ta có rất nhiều mô hình (2k) để tiên đoán y. Trong điều kiện có nhiều mô hình khả dĩ như thế, vấn đề đặt ra là mô hình nào được xem là tối

ưu?

Câu hỏi trên đặt ra một câu hỏi cơ bản khác: thế nào là tối ưu? Nói một cách ngắn

gọn một mô hình tối ưu phải đáp ứng ba tiêu chuẩn sau đây:

- Đơn giản

- Đầy đủ

- Có ý nghĩa thực tế

Tiêu chuẩn đơn giản đòi hỏi mô hình có ít biến độc lập, vì nếu quá nhiều biến số

thì vấn đề diễn dịch sẽ trở nên khó khăn, và có khi thiếu thực tế. Nói cách đơn giản là:

50

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

nếu chúng ta bỏ ra 50.000 đồng để mua 500 trang sách tốt hơn là bỏ ra 60.000 ngàn mua

cùng số trang sách. Tương tự, một mô hình với 3 biến độc lập mà có khả năng mô tả dữ

liệu tương đương với mô hình với 5 biến độc lập, thì mô hình đầu được chọn. Một mô

hình đơn giản là một mô hình … tiết kiệm.

Tiêu chuẩn đầy đủ ở đây có nghĩa là mô hình đó phải mô tả dữ liệu một chách

thỏa đáng, tức phải tiên đoán gần (hay gần càng tốt) với giá trị thực tế quan sát của biến

phụ thuộc y. Nếu giá trị quan sát của y là 10 và nếu có một mô hình tiên đoán là 9 và

một mô hình tiên đoán là 6 thì mô hình đầu phải được xem là đầy đủ hơn.

Tiêu chuẩn có ý nghĩa thực tế, như cách gọi, có ý nghĩa là mô hình đó phải được

yểm trợ bằng lý thuyết hay có ý nghĩa dự báo (nếu là nghiên cứu dự báo), … Có thể số

điện thoại một cách nào đó có liên quan đến tỉ lệ dự báo, nhưng tất nhiên một mô hình

như thế hoàn toàn vô nghĩa. Đây là một tiêu chuẩn quan trọng, bởi vì nếu một phân tích

thống kê dẫn đến một mô hình dù rất có ý nghĩa toán học mà không có ý nghĩa thực tế

thì mô hình đó cũng chỉ là một trò chơi con số, trò chơi toán học không hơn không kém,

chứ không có giá trị khoa học thật sự.

Tiêu chuẩn thứ ba (có ý nghĩa thực tế) thuộc về lĩnh vực lý thuyết, và tôi sẽ không

bàn ở đây. Tôi sẽ bàn qua tiêu chuẩn đơn giản và đầy đủ. Một thước đo quan trọng và

có ích để chúng ta quyết định một mô hình đơn giản và đầy đủ là AIC Akaike

Information Criterion

2.3.2 Phân tích hồi quy logistic đa thức

Mô hình hồi quy logistic nhị thức (binary logistic) để xem xét mối quan hệ giữa

biến phụ thuộc là biến nhị phân (ví dụ: sống/chết) và biến độc lập có thể là biến số (định

lượng) hoặc biến định tính và phương trình liên hệ có dạng:

𝑝

) = 𝛼 + 𝛽1𝑥1 + 𝛽2𝑥2 + ⋯ (trong đó 𝑥1, 𝑥2, … là các biến độc lập). log ( 𝑝 1−𝑝

1−𝑝

(p là xác suất tử vong, 1-p là xác suất còn sống) 𝑂𝑑𝑑𝑠 =

Mô hình hồi quy logistic đa thức

Mô hình hồi quy logistich đa thức (Multinomial logistic regression) tương tự như

mô hình hồi quy logistic nhị thức nhưng biến phụ thuộc là biến định tính có nhiều hơn

51

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

2 trạng thái (hoặc mức). Ví dụ (khỏi bệnh, khỏi với dư chứng, tử vong) hoặc (tốt, trung

bình, xấu).

Mô hình hồi quy logistic đa thức phát biểu:

𝑙𝑜𝑔 ( ) = 𝛼𝑖𝑗 + 𝛽𝑖𝑗𝑥1 + 𝛽𝑖𝑗𝑥2 + ⋯ + 𝜀𝑖𝑗 𝑝𝑖 𝑝𝑗

Gọi p0 là xác suất khỏi bệnh

p1 là xác suất khỏi với dư chứng

p2 xác suất tử vong

𝐿𝑜𝑔 ( ) = 𝛼10 + 𝛽10𝑥1 + 𝛽10𝑥2 + ⋯ (1)

𝐿𝑜𝑔 ( ) = 𝛼20 + 𝛽20𝑥1 + 𝛽20𝑥2 + ⋯ (2)

𝐿𝑜𝑔 ( ) = 𝛼21 + 𝛽21𝑥1 + 𝛽21𝑥2 + ⋯ (3) Ta có 3 phương trình sau: 𝑝1 𝑝0 𝑝2 𝑝0 𝑝2 𝑝1

52

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Chương 3. BÀI TOÁN TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC

VỤ THANH TRA, KIỂM TRA THUẾ

Trong phần này, luận văn trình bày tính cấp thiết của việc xây dựng hệ thống tính

điểm rủi ro của doanh nghiệp phục vụ thanh tra, kiểm tra thuế. Trên cơ sở đó, luận văn

trình bày bài toán tính điểm rủi ro của doanh nghiệp và mô hình giải quyết bài toán sử

dụng phương pháp hồi quy tuyến tính bội như trình bày ở trên. Cuối cùng, luận văn trình

bày kết quả thử nghiệm mô hình trên dữ liệu lịch sử thu nộp thuế của một số doanh

nghiệp thuộc Cục thuế Hà Nội quản lý, trên cơ sở đó đánh giá mô hình xây dựng và triển

vọng triển khai mô hình trong thực tế.

3.1. TÍNH CẤP THIẾT XÂY DỰNG HỆ THỐNG TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ THANH TRA, KIỂM TRA THUẾ

Thanh tra, kiểm tra là một trong bốn chức năng cơ bản của công tác quản lý thuế,

đặc biệt trong việc giám sát chặt chẽ, kịp thời phát hiện, ngăn chặn và xử lý các trường

hợp không tự nguyện tuân thủ pháp luật thuế, đảm bảo công bằng giữa những người nộp

thuế. Thực hiện tốt chức năng thanh tra, kiểm tra không những làm tăng thu cho ngân

sách nhà nước mà còn là biện pháp răn đe nhằm duy trì mức độ tuân thủ dài hạn của

NNT. Thông qua đó, nâng cao chất lượng, hiệu quả của công tác quản lý thuế.

Trong thời gian qua, cùng với công cuộc cải cách - hiện đại hoá Ngành thuế, bằng

những cố gắng và nỗ lực của toàn ngành, công tác thanh tra, kiểm tra thuế đã đạt được

những thành quả nhất định. Nhiều trường hợp sai phạm có tính chất phức tạp cao, số

tiền vi phạm về thuế lớn đã được phát hiện và xử lý kịp thời. Tuy nhiên, công tác thanh

tra, kiểm tra còn bộc lộ những mặt hạn chế sau:

- Phần lớn công tác thanh tra, kiểm tra thực hiện thủ công chưa có sự hỗ trợ

nhiều của ứng dụng tin học;

- Việc lựa chọn trường hợp thanh tra, kiểm tra chủ yếu dựa trên kinh nghiệm

cán bộ;

- Thiếu một cơ chế đánh giá có hiệu quả để có thể lựa chọn được người nộp

thuế có rủi ro về thuế đưa vào kế hoạch thanh tra, kiểm tra;

53

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

- Khả năng phân tích thông tin, sử dụng ứng dụng tin học của cán bộ thanh tra,

kiểm tra còn hạn chế.

Cùng với sự phát triển và hội nhập ngày càng sâu rộng của nền kinh tế nước ta

với nền kinh tế thế giới, đã đặt công tác quản lý thuế nói chung và công tác thanh kiểm

tra thuế nói riêng đứng trước những khó khăn thách thức, đó là:

- Sự phát triển nhanh chóng của người nộp thuế cả về số lượng, quy mô và lĩnh

vực hoạt động. Chỉ tính riêng từ năm 2000 đến nay số lượng người nộp thuế

đã tăng lên 2 lần trong đó khối doanh nghiệp tăng lên 2,5 lần, quy mô hoạt

động ngày càng lớn mạnh chuyển dần từ kinh doanh nhỏ lẻ, đơn ngành sang

quy mô lớn, đa ngành, đa lĩnh vực, cùng với đó là những giao dịch lớn, phức

tạp xuất hiện ngày càng nhiều và dần trở nên phổ biến.

- Một bộ phận không nhỏ người nộp thuế thiếu ý thức tôn trọng pháp luật, lợi

dụng những kẽ hở của chính sách thuế để trốn thuế, tránh thuế. Tình trạng

gian lận thuế ngày càng diễn biến phức tạp gây thất thu cho ngân sách nhà

nước nhưng chậm được phát hiện và xử lý.

- Nguồn nhân lực của cơ quan thuế có hạn và đang bị quá tải, ngành thuế đã

đổi mới phương thức quản lý tuy nhiên vẫn chưa đáp ứng đầy đủ yêu cầu công

tác quản lý trong thời kỳ mới.

Xuất phát từ nhu cầu thực tế trên, hệ thống được xây dựng nhằm mục tiêu tính

điểm rủi ro của doanh nghiệp dựa vào số liệu thu, nộp thuế của doanh nghiệp nhằm hỗ

trợ cơ quan thuế trong việc lập kế hoạch thanh tra, kiểm tra thuế. Doanh nghiệp có điểm

rủi ro càng cao thì khả năng đưa vào thanh tra, kiểm tra càng cao và ngược lại.

3.2. BÀI TOÁN TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP

Như đã trình bày ở phần 3.1, mục tiêu của hệ thống là tính điểm rủi ro của doanh

nghiệp dựa vào số liệu nộp thuế của doanh nghiệp được kết xuất từ kho dữ liệu tập trung

của ngành thuế. Do đó, dữ liệu đầu vào của hệ thống là kết quả nộp thuế của doanh

nghiệp, đầu ra của hệ thống là điểm rủi ro của doanh nghiệp. Điểm rủi ro càng cao thì

nguy cơ vi phạm thuế càng cao và khả năng đưa vào thanh tra, kiểm tra càng cao.

1) Số liệu đầu vào:

54

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Tệp dữ liệu tác nghiệp về tình hình nộp thuế của các doanh nghiệp trên địa bàn

Hà Nội do Cục thuế Hà Nội quản lý được kết xuất từ cơ sở dữ liệu tập trung tại Tổng

cục thuế (ứng dụng tập trung dữ liệu của người nộp thuế TPH). Tệp dữ liệu với khuôn

dạng Excel bao gồm các thông tin về tình hình nộp thuế như sau:

STT Tên cột Mô tả

1 Mã người nộp thuế Mã số thuế của doanh nghiệp

2 Tên người nộp thuế Tên doanh nghiệp

3 Địa chỉ Địa chỉ trụ sở doanh nghiệp

Chậm nộp hồ sơ khai thuế so với thời Số ngày chậm nộp hồ sơ khai thuế 4 hạn quy định

Phân loại doanh nghiệp theo loại Phân loại theo loại hình kinh tế. 5 hình kinh tế.

So sánh biến động của tỷ lệ “Thuế Biến động của tỷ lệ “Thuế TNDN phát

6 TNDN phát sinh/ doanh thu” giữa sinh/doanh thu” so với năm trước để đánh

các năm giá về biến động kê khai giữa các năm.

So sánh biến động của tỷ lệ “Thuế Biến động của tỷ lệ “Thuế GTGT phát

GTGT phát sinh/ doanh thu hàng hoá sinh/doanh thu hàng hoá dịch vụ bán ra” 7 dịch vụ bán ra” giữa các năm so với năm trước để đánh giá về biến động

kê khai giữa các năm.

Tỷ lệ lợi nhuận từ hoạt động kinh Tỷ lệ lợi nhuận từ hoạt động kinh doanh/

8 doanh/ doanh thu thuần doanh thu thuần lấy từ báo cáo tài chính

doanh nghiệp.

Tỷ lệ (lợi nhuận trước thuế + chi phí Tỷ lệ (lợi nhuận trước thuế + chi phí lãi

9 lãi vay)/ doanh thu thuần vay)/doanh thu thuần lấy từ báo cáo tài

chính doanh nghiệp.

Tỷ lệ lợi nhuận sau thuế/doanh thu Tỷ lệ lợi nhuận sau thuế/doanh thu thuần 10 thuần lấy từ báo cáo tài chính doanh nghiệp.

Tỷ lệ lợi nhuận/vốn chủ sở hữu Tỷ lệ lợi nhuận/vốn chủ sở hữu lấy từ báo 11 cáo tài chính doanh nghiệp

55

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Tỷ lệ giá vốn hàng bán/doanh thu Tỷ lệ giá vốn hàng bán/doanh thu thuần 12 lấy từ báo cáo tài chính doanh nghiệp thuần

Tỷ lệ chi phí bán hàng/doanh thu Tỷ lệ chi phí bán hàng/doanh thu thuần 13 lấy từ báo cáo tài chính doanh nghiệp thuần

Tỷ lệ chi phí quản lý/doanh thu thuần Tỷ lệ chi phí quản lý/doanh thu thuần lấy 14 từ báo cáo tài chính doanh nghiệp

Hệ số khả năng thanh toán tổng quát Hệ số khả năng thanh toán tổng quát lấy 15 từ báo cáo tài chính doanh nghiệp

Hệ số khả năng thanh toán nợ ngắn Hệ số khả năng thanh toán nợ ngắn hạn 16 lấy từ báo cáo tài chính doanh nghiệp hạn

Hệ số khả năng thanh toán nhanh Hệ số khả năng thanh toán nhanh lấy từ 17 báo cáo tài chính doanh nghiệp

Kỳ đã được thanh tra, kiểm tra gần Kỳ đã được thanh tra, kiểm tra gần nhất 18 nhất

Số thuế truy thu tuyệt đối của kỳ Số thuế truy thu tuyệt đối của kỳ thanh tra, 19 thanh tra, kiểm tra gần nhất kiểm tra gần nhất

20 Tổng thuế TNDN phát sinh Tổng thuế TNDN phát sinh

Bảng 3.1. Bảng dữ liệu đầu vào của hệ thống

2) Đầu ra của hệ thống:

Đầu tra của hệ thống là điểm rủi ro của doanh nghiệp được tính với ngưỡng từ 0

đến 100. Điểm 0 là rủi ro thấp nhất và điểm 100 là rủi ro cao nhất.

3.3. CÁC BƯỚC XÂY DỰNG MÔ HÌNH GIẢI QUYẾT BÀI TOÁN

Để xây dựng mô hình tính điểm rủi ro cho doanh nghiệp dựa vào các số liệu đầu

vào nêu trên, ta cần thực hiện các công việc như sau:

- Xây dựng và kiểm tra mô hình hồi quy tuyến tính bội từ bộ dữ liệu huấn luyện

và dữ liệu kiểm tra được xây dựng từ số liệu tác nghiệp lịch sử về tình hình

nộp thuế và kết quả thanh tra của các doanh nghiệp.

- Thực thi mô hình tính điểm rủi ro cho doanh nghiệp dựa vào nguồn số liệu

56

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

đầu vào của doanh nghiệp.

3.3.1 Xây dựng mô hình hồi quy tuyến tính bội

1) Xây dựng tập dữ liệu mẫu để huấn luyện và kiểm tra mô hình hồi quy từ dữ liệu

tác nghiệp đầu vào.

Bộ số liệu huấn luyện được xây dựng từ số liệu tác nghiệp lịch sử về tình hình

nộp thuế và kết quả thanh tra thuế (Bảng 3.1), bao gồm 16 thuộc tính điều kiện (lấy từ

cột 4 đến cột 19 trong Bảng 3.1 và thuộc tính nhãn lấy từ lich sử kết quả thanh tra thuế

(dựa vào cột 19 và cột 20). Chi tiết như sau:

- Các thuộc tính điều kiện: bao gồm 16 cột lấy từ cột 4 đến cột 19 trong

bảng dữ liệu đầu vào (Bảng 3.1). Giá trị các thuộc tính điều kiện là điểm rủi ro được

tính theo Bộ tiêu chí rủi ro do Tổng cục thuế bản hành theo Quyết định số 1733/QĐ-

TCT ngày 1 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế (Xem phần phụ

lục). Như vậy, mỗi thuộc tính của bảng dữ liệu huấn luyện và dữ liệu kiểm tra sẽ tương

ứng với mỗi tiêu chí rủi ro trong Bộ tiêu chí (phần phụ lục) và giá trị của các thuộc tính

này là 1, 2, 3, 4 tương ứng với bốn mức rủi ro theo quy định. Tóm lại, miền giá trị của

các thuộc tính đầu vào là bốn giá trị rời rạc 1, 2, 3, 4. Từ bảng dữ liệu đầu vào, áp dụng

công thức tính điểm rủi ro trong bộ tiêu chí (phần phụ lục) ta có thể tính được giá trị các

thuộc tính điều kiện của bộ dữ liệu huấn luyện và kiểm tra.

- Thuộc tính nhãn: chính điểm rủi ro của doanh nghiệp được tính dựa vào

lịch sử kết quả thanh tra thuế (số thuế truy thu thu được), cụ thể như sau:

1) Nếu Số thuế truy thu tuyệt đối bằng 0 thì điểm rủi ro = 0 (trường hợp

không có vi phạm)

2) Nếu tỷ lệ: (Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra (cột 19) /

Tổng thuế TNDN phát sinh (cột 20) )*100 >= 100% thì điểm rủi ro = 100. (Có

vi phạm lớn)

3) Trong các trường hợp còn lại, điểm rủi ro = (Số thuế truy thu tuyệt đối của

kỳ thanh tra, kiểm tra /Tổng thuế TNDN phát sinh (chỉ tiêu 2) )*100

Như vậy, điểm rủi ro được xác định bởi tỷ lệ giữa Số thuế truy thu tuyệt đối của

kỳ thanh tra, kiểm tra/Tổng thuế TNDN phát sinh. Ví dụ: Số thuế truy thu tuyệt đối của

57

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

kỳ thanh tra, kiểm tra/Tổng thuế TNDN phát sinh = 80% thì điểm rủi ro là 80. Như vậy,

miền giá trị của điểm rủi ro là từ 0 (tương ứng với không vi phạm) đến 100 (vi phạm

lớn). Như vậy, dữ liệu mẫu sau khi xác định điểm rủi ro (nhãn) được mô tả như sau:

Chỉ tiêu 1 Chỉ tiêu 2 Chỉ tiêu 16 Điểm rủi ro (nhãn)

3 1 2 1,2 ....

2 2 4 12,3

1 2 3 87,5

4 4 1 45

Miền giá trị các thuộc tính điều kiện (bộ chỉ tiêu) là các giá trị rời rạc 1, 2, 3,4.

Miền giá trị của điểm rủi ro (nhãn) là giá trị liên tục từ 1 đến 100.

2) Xây dựng mô hình hồi quy tuyến tính bội

- Trên tập dữ liệu mẫu thu được, sử dụng 80% tập dữ liệu mẫu làm tập dữ

liệu huấn luyện mô hình (training data) và 20% còn lại làm tập dữ liệu kiểm tra (test

data) theo phương pháp Cross-Validation.

- Xây dựng mô hình hồi quy tuyến tính bội từ tập dữ liệu huấn luyện trích

chọn từ bảng dữ liệu mẫu.

Đầu vào: Các thuộc tính của tập huấn luyện

Đầu ra: Giá trị điểm rủi ro.

Phương trình hồi quy:

Điểm rủi ro = 1 *TC1 + 2 *TC2+...+n *TCn + θ

Ở đây TC1, TC2, ...TCn là các thuộc tính của bộ dữ liệu huấn luyện, 1, 2, ..., n

là các trọng số của các thuộc tính, θ là tham số ngưỡng do NSD đưa vào để tăng độ

chính xác của mô hình hồi quy.

Kết quả thu được của phương pháp phân tích hồi quy bội là các hệ số 1, 2, ...,

n , giá trị ngưỡng θ do người sử dụng đưa vào.

3) Kiểm tra mô hình hồi quy tuyến tính bội từ tập dữ liệu kiểm tra trích chọn từ bảng

dữ liệu mẫu.

58

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

- Sử dụng hàm hồi quy (các hệ số 1, 2, ..., n và θ) để tính điểm rủi ro

của các doanh nghiệp trên tập dữ liệu kiểm tra.

- So sánh điểm rủi ro tính bởi mô hình (hàm hồi quy) với điểm rủi ro thực

tế (giá trị thuộc tính nhãn) trên tập dữ liệu kiểm tra.

- Đánh giá độ chính xác của mô hình, nếu độ chính xác lớn hơn giá trị

ngưỡng cho trước thì tiếp tục huấn luyện mô hình. Quá trình huấn luyện kết thúc ghi độ

chính xác nhỏ hơn giá trị ngưỡng.

3.3.2 Mô hình tổng thể của bài toán tính điểm rủi ro cho doanh nghiệp

Hình 3.1 Mô hình tổng thể bài toán

Kết quả tổng điểm thể hiện được thông tin rủi ro tại từng doanh nghiệp đánh giá

đồng thời thể hiện bức tranh tổng thể đối với phạm vi dữ liệu được lựa chọn.

59

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

3.3.3 Thực thi mô hình để tính điểm rủi ro cho doanh nghiệp

Sau khi kết thúc quá trình huấn luyện và kiểm tra mô hình, ta thu được mô hình

tính điểm rủi ro, chính là hàm hồi quy mô tả mối quan hệ giữa đầu ra (điểm rủi ro) với

các bộ tiêu chí rút gọn đầu vào.

Điểm rủi ro = 1 *TC1 + 2 *TC2+...+n *TCn + θ

Như vậy, bản chất của mô hình tính điểm rủi ro là hàm hồi quy với:

- Các thuộc tính đầu vào tương ứng với các tiêu chí phân tích rủi ro do Tổng

cục thuế quy định. Giá trị của các thuộc tính đầu vào chính là giá trị điểm rủi ro được

tính theo công thức trong bộ tiêu chí phân tích rủi ro.

- Các giá trị trọng số 1, 2, ..., n của các thuộc tính đầu vào (được học từ

dữ liệu lịch sử)

- Giá trị ngưỡng θ do người sử dụng đưa vào.

Quá trình tính điểm rủi ro của doanh nghiệp phục vụ lập kế hoạch thanh tra, kiểm

tra được thực hiện như sau:

1) Từ tệp dữ liệu đầu vào được trích xuất từ hệ thống cơ sở dữ liệu tập trung tại

Tổng cục thuế (TPH), thực hiện tính giá trị điểm rủi ro cho các thuộc tính đầu

vào theo công thức quy định trong bộ chỉ tiêu phân tích rủi ro do Tổng cục

thuế quy định (Xem phần phụ lục)

2) Sử dụng hàm hồi quy thu được (mô hình tính điểm rủi ro) để tính điểm rủi ro

cho các doanh nghiệp.

Kết quả điểm rủi ro của doanh nghiệp được tính bằng mô hình hồi quy được ghi

lại và sử dụng để lập kế hoạch thanh tra, kiểm tra thuế và in hồ sơ phân tích rủi ro cho

doanh nghiệp.

Sau khi có kết quả thanh tra, kiểm tra cho các đối tượng này, dữ liệu thanh tra,

kiểm tra tiếp tục được sử dụng để huấn luyện mô hình và sử dụng mô hình tính điểm rủi

ro cho năm tiếp theo.

Như vậy, quá trình huấn luyện liên tục được thực hiên qua các năm, do đó độ

chính xác của mô hình hồi quy sẽ ngày càng tăng lên và nó phản ánh quy luật của dữ

60

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

liệu. Do đó, độ chính xác của mô hình dự báo điểm rủi ro được đảm bảo về mặt khoa

học.

3.3.4 Tiền xử lý dữ liệu

Với dữ liệu của ngành thuế được cung cấp dưới khuôn dạng Excel như trong

bảng 3.1.a tiến hành tiền xử lý dữ liệu theo phương thức như sau:

Bảng 3.1.a. Dữ liệu thô do ngành thuế cung cấp

Thực hiện xử lý dữ liệu thô.

- Xử lý dữ liệu bị thiếu (missing data)

+ Định nghĩa của dữ liệu bị thiếu

‡ Dữ liệu không có sẵn khi cần được sử dụng

+ Nguyên nhân gây ra dữ liệu bị thiếu

‡ Khách quan (không tồn tại lúc được nhập liệu, sự cố, …)

‡ Chủ quan (tác nhân con người)

+ Giải pháp cho dữ liệu bị thiếu

61

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

‡ Bỏ qua

‡ Xử lý tay (không tự động, bán tự động)

‡ Dùng giá trị thay thế (tự động): hằng số toàn cục, trị phổ biến nhất,

trung bình toàn cục, trung bình cục bộ, trị dự đoán, …

‡ Ngăn chặn dữ liệu bị thiếu: thiết kế tốt CSDL và các thủ tục nhập

liệu (các ràng buộc dữ liệu)

- Nhận diện phần tử biên (outliers) và giảm thiểu nhiễu (noisy data)

+ Định nghĩa

‡ Outliers: những dữ liệu (đối tượng) không tuân theo đặc tính/hành

vi chung của tập dữ liệu (đối tượng).

‡ Noisy data: outliers bị loại bỏ (rejected/discarded outliers) như là

những trường hợp ngoại lệ (exceptions).

+ Nguyên nhân

‡ Khách quan (công cụ thu thập dữ liệu, lỗi trên đường truyền, giới

hạn công nghệ, …)

‡ Chủ quan (tác nhân con người)

+ Giải pháp nhận diện phần tử biên

‡ Dựa trên phân bố thống kê (statistical distribution-based)

‡ Dựa trên khoảng cách (distance-based)

‡ Dựa trên mật độ (density-based)

‡ Dựa trên độ lệch (deviation-based)

+ Giải pháp giảm thiểu nhiễu

‡ Binning

‡ Hồi quy (regression)

‡ Phân tích cụm (cluster analysis)

- Xử lý dữ liệu không nhất quán (inconsistent data)

+ Định nghĩa của dữ liệu không nhất quán

62

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

‡ Dữ liệu được ghi nhận khác nhau cho cùng một đối tượng/thực thể

‡ Dữ liệu được ghi nhận không phản ánh đúng ngữ nghĩa cho các

đối tượng/thực thể

+ Nguyên nhân

‡ Sự không nhất quán trong các qui ước đặt tên hay mã dữ liệu

‡ Định dạng không nhất quán của các vùng nhập liệu

‡ Thiết bị ghi nhận dữ liệu, …

+ Giải pháp

+ Tận dụng siêu dữ liệu, ràng buộc dữ liệu, sự kiểm tra của nhà phân tích

dữ liệu cho việc nhận diện

+ Điều chỉnh dữ liệu không nhất quán bằng tay

+ Các giải pháp biến đổi/chuẩn hóa dữ liệu tự động

Kết thúc quá trình tiền xử lý dữ liệu Áp dụng công thức tính điểm rủi ro cho các

cột dữ liệu đầu vào (xem phụ lục) và tính toán điểm rủi ro cho thuộc tính nhãn, ta thu

được bộ dữ liệu huấn luyện và bộ dữ liệu kiểm tra sử dụng để xây dựng và kiểm tra mô

hình.

3.4. THỬ NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ 3.4.1 Mục tiêu thử nghiệm

Mục tiêu của thử nghiệm là thử nghiệm mô hình tính điểm rủi ro của doanh

nghiệp được xây dựng trên bộ số liệu thử nghiệm là số liệu lịch sử về tình hình nộp thuế

và kết quả thanh tra của các doanh nghiệp thuộc Cục thuế Hà Nội quản lý được kết xuất

từ hệ thống tập trung dữ liệu tại Tổng cục thuế (TPH)

3.4.2 Công cụ thử nghiệm và môi trường thử nghiệm

Để tiến hành thử nghiệm, học viên thực hiện lập trình bằng ngôn ngữ C# trên môi

trường Visual Studio. NET, sử dụng ngôn ngữ phân tích dữ liệu R tích hợp vào bộ Visual

Studio. NET để thực hiện xây dựng mô hình hồi quy tuyến tính bội.

63

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Môi trường tiến hành thử nghiệm là máy tính cá nhân cài đặt hệ điều hành

Windows 7 PCs có cấu hình bộ xử lý Intel(R) Core (TM) i3, CPU (2.66 GHz), 4.00GB

of RAM.

3.4.3 Quy trình thử nghiệm

1) Chuẩn bị dữ liệu huấn luyện và dữ liệu kiểm tra

Số liệu sử dụng để xây dựng tập dữ liệu huấn luyện là 1000 doanh nghiệp do Cục

thuế Hà Nội quản lý, số liệu sử dụng để kiểm tra mô hình là 200 doanh nghiệp Cục thuế

Hà Nội quản lý. Các số liệu này được kết xuất từ hệ thống tập trung dữ liệu (TPH) từ

Tổng cục thuế theo khôn dạng Excel (bao gồm 20 trường dữ liệu như mô tả ở Bảng 3.1),

dữ liệu được kết xuất là dữ liệu về tình hình nộp thuế và kết quả thanh tra năm 2014 của

Cục thuế Hà nội.

Áp dụng công thức tính điểm rủi ro cho các cột dữ liệu đầu vào (xem phụ lục) và

tính toán điểm rủi ro cho thuộc tính nhãn, ta thu được bộ dữ liệu huấn luyện và bộ dữ

liệu kiểm tra sử dụng để xây dựng và kiểm tra mô hình.

Dữ liệu huấn luyện được nạp vào trong hệ thống như hình sau:

Hình 3.2. Tập dữ liệu huấn luyện

64

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 3.3. Mô tả tập dữ liệu huấn luyện

Xây dựng mô hình hồi quy tuyến tính bội từ tập dữ liệu huấn luyện

65

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Hình 3.4. Kết quả xây dựng mô hình

Kết quả thực hiện ta thu được 16 hệ số 1, 2, ..., 16 tương ứng với 16 thuộc tính

đầu vào. Cột Beta trên Hình 3.3 là các hệ số 1, 2, ..., 16 tương ứng với các chỉ tiêu từ

chỉ tiêu 1 đến chỉ tiêu 16 đối với tập dữ liệu huấn luyện được chọn. Giá trị hệ số hồi quy

θ được chọn là 0.2.

Ta có phương trình tính điểm rủi ro của doanh nghiệp như sau:

Điểm rủi ro = 0.217226 *TC1 + 0.01800982 *TC2+ 0.4741908 *TC3 -0.5741891

TC4 + 0.5178324 TC5 – 1.093184 *TC6 – 1.396769 * TC7 – 0.9367253* TC8 -

0.2573483 * TC9 – 0.4399146 * TC10 – 0.6433808 * TC11 + 0.3320229 * TC12 –

0.001286944 * TC13 – 0.05785978 * TC14 + 0.01048144 * TC15 - 0.4559843 * TCn +

0.2

2) Kiểm tra độ chính xác của mô hình

Như đã trình bày ở trên, tập dữ liệu kiểm tra là 200 doanh nghiệp thuộc Cục thuế

Hà Nội quản lý năm 2014. Để thực hiện kiểm tra độ chính xác của mô hình, tác giả thực

hiện như sau:

- Sử dụng hàm hồi quy thu được (các hệ số 1, 2, ..., n và θ) để tính điểm

rủi ro của các doanh nghiệp của 200 doanh nghiệp trên dữ liệu kiểm tra.

66

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

- So sánh điểm rủi ro tính bởi mô hình (hàm hồi quy) với điểm rủi ro thực

tế (giá trị thuộc tính nhãn) trên tập dữ liệu kiểm tra.

- Tính sai số và độ chính xác của mô hình.

Hình 3.5. Kết quả tính điểm rủi ro của các doanh nghiệp trên tập dữ liệu kiểm tra.

Với dữ liệu kiểm tra thử trên 200 doanh nghiệp đầu vào hệ thống tính toán điểm

rủi ro doanh nghiệp theo phương trình đề xuất được kết quả thể hiện trong hình 3.5 với

dữ liệu được thể hiện như sau:

Dữ liệu đầu ra bao gồm 17 cột trong đó từ cột x1 đến cột x16 là tập dữ liệu huấn

luyện được tính dựa trên công thức tính điểm rủi ro của dữ liệu đầu vào (phụ lục), cột

pre là điểm rủi ro của doanh nghiệp theo mô hình hồi quy bội với công thức xây dựng.

Kết quả thử nghiệm như sau:

67

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Bảng 3.2 so sánh kết quả thử nghiệm và kết quả thực tế

Với thử nghiệm 200 doanh nghiệp giá trị trung bình theo mô hình xây dựng là

50.92615. Giá trị tính toán trên thực tế là 56.21.

Nhận xét kết quả thử nghiệm:

- Trên tập dữ liệu kiểm tra, độ chính xác của mô hình hồi quy đạt được là 90.59%.

- Mô hình được xây dựng có thể sử dụng để tính điểm rủi ro cho các doanh nghiệp

phục vụ lập hồ sơ phân tích rủi ro của doanh nghiệp phục vụ công tác lập kế hoạch thanh

tra, kiểm tra thuế.

68

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

KẾT LUẬN

Luận văn đã sử dụng một số phương pháp phân tích hồi quy ứng dụng phân tích

dữ liệu trong việc xây dựng mô hình dự báo từ dữ liệu ngành thuế bằng việc sử dụng

phương pháp phân tích hồi quy bội, xây dựng hàm hồi quy để tính điểm rủi ro chi doanh

nghiệp dựa vào số liệu nộp thuế của doanh nghiệp nhằm hỗ trợ cơ quan thuế trong công

tác thanh tra, kiểm tra. Mô hình triển khai trong thực tế sẽ trợ giúp hiệu quả bộ phận

thanh tra thuế trong công tác lập kế hoạch thanh tra, chống thất thu ngân sách và đem

lại hiệu quả kinh tế, xã hội to lớn.

Trong quá trình thực hiện luận văn, em đã tìm hiểu các khái niệm về phân tích

hồi quy để ứng dụng vào bài toán phân tích dữ liệu kê khai nộp thuế phục vụ kế hoạch

thanh tra, kiểm tra thuế, lựa chọn phương pháp phân tích hồi quy bội ứng dụng vào bài

toán phân tích rủi ro khai phá dữ liệu xây dựng nên các bước tính toán để xây dựng mô

hình.

Tìm hiểu và thu thập nguồn dữ liệu nộp thuế do cục thuế Hà Nội cung cấp, dữ

liệu thống kê để làm cơ sở cho phân tích rủi ro. Tuy nhiên, với thời gian và trình độ có

hạn nên không tránh khỏi những hạn chế và thiếu sót. Em rất mong được sự nhận xét và

góp ý của các thầy cô giáo và bạn bè, đồng nghiệp và những người cùng quan tâm để

hoàn thiện hơn các kết quả nghiên cứu của mình.

69

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

DANH MỤC TÀI LIỆU THAM KHẢO

Tiếng Việt [1] Bộ tiêu chí phân tích thông tin rủi ro người nộp thuế phục vụ công tác lập kế

hoạch thanh tra, kiểm tra thuế (Ban hành kèm theo Quyết định số 1733/QĐ-TCT

ngày 1 tháng 10 năm 2013 của Tổng cục trưởng Tổng cục Thuế)

[2 Lê Đình Thúy, Toán cao cấp cho các nhà kinh tế. NXB Thống kê, Hà Nội 2004.

[3] Nguyễn Nhật Lệ, Các bài toán cơ bản của tối ưu hóa và điều khiển tối ưu, Nhà

xuất bản khoa học và Kỹ thuật, Hà Nôi 2009

[4] Quy trình phân tích thông tin rủi ro người nộp thuế phục vụ công tác lập kế

hoạch thanh tra, kiểm tra thuế (Ban hành kèm theo Quyết định số 1733/QĐ-TCT

ngày 1 tháng10 năm 2013 của Tổng cục trưởng Tổng cục Thuế)

[5] Quy trình thanh tra thuế ban hành kèm Quyết định 460/QĐ-TCT.

[6] http://tailieu.tv/tai-lieu/

Tiếng Anh

[7] An Introduction to Statistical Methods and Data Analysis, R. Lyman Ott and

Micheal T. Longnecker, Duxbury Press 2008; 1296 pages.

[8] Bruno Chiarini, Elisabetta Marzano, Friedrich Schneider, Tax rates and tax

evasion: an empirical analysis of the long-run aspects in Italy, Eur J Law Econ,

2013.

70

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

PHỤ LỤC [1,5]

1.1 Bộ tiêu chí đánh giá rủi ro:

Bộ tiêu chí đánh giá đánh giá rủi ro được xây dựng gồm 21 tiêu chí,

chia thành 6 nhóm:

Tiêu chí đánh giá rủi ro

STT

Nhóm I: Đánh giá về tuân thủ khai thuế, tính thuế

I

Tiêu chí 1: Chậm nộp hồ sơ khai thuế so với thời hạn quy định

(bao gồm tháng, quý, năm)

II

Nhóm II: Phân loại doanh nghiệp theo loại hình kinh tế

Tiêu chí 2: Phân loại doanh nghiệp theo loại hình kinh tế

III

Nhóm III: Đánh giá sự biến động về kê khai giữa các năm

Tiêu chí 3: So sánh biến động của tỷ lệ “Thuế TNDN phát sinh/

doanh thu” giữa các năm

Tiêu chí 4: So sánh biến động của tỷ lệ “Thuế GTGT phát sinh/

doanh thu hàng hoá dịch vụ bán ra” giữa các năm

IV

Nhóm IV: Đánh giá về tình hình tài chính

Tiêu chí 5: Tỷ lệ lợi nhuận từ hoạt động kinh doanh/ doanh thu

thuần

Tiêu chí 6: Tỷ lệ (lợi nhuận trước thuế + chi phí lãi vay)/ doanh

thu thuần

Tiêu chí 7: Tỷ lệ lợi nhuận sau thuế/ doanh thu thuần

Tiêu chí 8: Tỷ lệ lợi nhuận/ vốn chủ sở hữu

Tiêu chí 9: Tỷ lệ giá vốn hàng bán/ doanh thu thuần

71

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Tiêu chí 10: Tỷ lệ chi phí bán hàng/ doanh thu thuần

Tiêu chí 11: Tỷ lệ chi phí quản lý/ doanh thu thuần

Tiêu chí 12: Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất

kinh doanh

Tiêu chí 13: Tỷ lệ Doanh thu thuần về bán hàng và cung cấp

dịch vụ so với vốn chủ sở hữu

Tiêu chí 14: Tỷ lệ Tổng doanh thu GTGT hàng hoá dịch vụ bán

ra so với Tổng doanh thu thuần bán hàng hóa và cung cấp dịch vụ

và Thu nhập khác

Tiêu chí 15: Tỷ lệ hàng tồn kho so với doanh thu thuần

Tiêu chí 16: Hệ số khả năng thanh toán tổng quát

Tiêu chí 17: Hệ số khả năng thanh toán nợ ngắn hạn

Tiêu chí 18: Hệ số khả năng thanh toán nhanh

V

Nhóm V: Lịch sử thanh tra của NNT

Tiêu chí 19: Kỳ đã được thanh tra, kiểm tra gần nhất

Tiêu chí 20: Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm

tra gần nhất

VI

Nhóm VI. Các tiêu chí về nhân thân doanh nghiệp

Tiêu chí 21: Vốn chủ sở hữu nhỏ hơn 20 tỷ đồng thời kinh

doanh đa ngành nghề

1.2

Nội dung các tiêu chí đánh giá rủi ro:

1.2.1. Nhóm tiêu chí I: Nhóm tiêu chí đánh giá về tuân thủ khai thuế,

tính thuế

Tiêu chí 1: Chậm nộp hồ sơ khai thuế so với thời hạn quy định

(bao gồm tháng, quý, năm):

72

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Mô tả tiêu chí

Tiêu chí chậm nộp hồ sơ khai thuế so với thời hạn quy định đánh giá trên cơ sở đếm số lần nộp hồ sơ khai thuế so với thời hạn quy định trong vòng một năm (bao gồm tất cả các tờ khai tháng, quý, năm).

Ý nghĩa tiêu chí

Đánh giá ý thức tuân thủ kê khai nộp thuế của NNT, nhiều lần nộp chậm tờ khai thì khả năng nộp chậm, thiếu thuế lớn.

Phương pháp phân ngưỡng, tính điểm rủi ro

− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,

được gán điểm số lần lượt là 4,3,2,1.

− Phương pháp tính điểm như sau: Tổng hợp đưa ra danh sách số lần chậm nộp hồ sơ khai thuế của từng NNT so với thời hạn quy định trong năm đánh giá. Trên bảng tổng hợp sẽ tiến hành phân ngưỡng từ cao đến thấp với 4 miền giá trị:

 Bước 1: Tính bình quân tất cả các giá trị trong danh sách (chỉ tính đối với những NNT có số lần chậm nộp hồ sơ khai thuế >0): Được giá trị "Trung bình".

 Bước 2: Xác định danh sách NNT có giá trị "Trên trung bình" và

"Dưới trung bình".

 Bước 3: Tính bình quân của danh sách "Trên trung bình": Được

giá trị "Trung bình cao".

 Bước 4: Tính bình quân của danh sách "Dưới trung bình" (chỉ tính đối với những NNT có số lần chậm nộp hồ sơ khai thuế >0): Được giá trị "Trung bình thấp".

 Bước 5: Phân ngưỡng và gán điểm rủi ro:

STT

So sánh

Điểm

Số lần chậm nộp >= Trung bình cao

1

4

Trung bình cao > Số lần chậm nộp > =

2

3

Trung bình

Trung bình > Số lần chậm nộp >= Trung

3

2

bình thấp

4

Số lần chậm nộp < Trung bình thấp

1

1.2.2. Nhóm tiêu chí II: Nhóm tiêu chí phân loại doanh nghiệp theo

73

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

loại hình kinh tế:

Tiêu chí 2: Phân loại doanh nghiệp theo loại hình kinh tế

Mô tả tiêu chí

Tiêu chí phân loại doanh nghiệp theo loại hình kinh tế đánh giá trên cơ sở hình thức sở hữu về vốn của doanh nghiệp.

Ý nghĩa tiêu chí

Hình thức sở hữu phản ánh mức độ rủi ro về thuế của doanh nghiệp là cao, trung bình hay thấp. Các doanh nghịêp sở hữu tư nhân thì rủi ro hơn các doanh nghiệp cổ phần, doanh nghiệp nước ngoài, doanh nghiệp nhà nước.

Phương pháp phân ngưỡng, tính điểm rủi ro

− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,

được gán điểm số lần lượt là 4,3,2,1.

− Phương pháp tính điểm như sau: Căn cứ vào loại hình kinh tế của doanh nghiệp trên tờ khai Đăng ký thuế, phân loại doanh nghiệp và tính điểm theo quy tắc:

Tên loại hình kinh tế

Điểm

Mã loại hình kinh tế

07

Tổ chức k.tế của các tổ chức chính trị

1

08

Đơn vị sự nghiệp, đơn vị vũ trang

1

01

Nhà nước

1

Công ty nuớc ngoài không theo luật đầu

06

tư nước ngoài

2

02

Đầu tư nước ngoài

2

Doanh nghiệp liên doanh với nước

12

ngoài

2

04

Cổ phần

3

11

Công ty hợp danh

3

05

Doanh nghiệp tư nhân

4

03

Trách nhiệm hữu hạn

4

(Mã loại hình kinh tế được xác định theo hệ thống CSDL Đăng ký thuế hiện đang lưu trữ).

74

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

1.2.3. Nhóm tiêu chí III: Nhóm tiêu chí đánh giá sự biến động về kê

khai giữa các năm:

− Các tiêu chí trong nhóm tiêu chí đánh giá sự biến động về kê khai được đánh giá căn cứ vào sự biến động về số thuế phát sinh so với doanh thu kê khai giữa các năm.

− Phương pháp phân ngưỡng, tính điểm rủi ro cho từng tiêu chí:

 Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,

được gán điểm số lần lượt là 4,3,2,1.

 Phương pháp tính điểm như sau:

Bước 1: Tổng hợp đưa ra danh sách Kết quả phân tích của NNT trong năm đánh giá và năm trước đó (nếu có).

Bước 2: Tính biến động của Kết quả phân tích của năm đánh giá với năm trước đó (nếu có).

Bước 3: Tiến hành phân ngưỡng rủi ro từ cao đến thấp với các miền giá trị:

STT

Ý nghĩa

Điểm

Tỷ lệ biến động giữa năm N/năm N-1

Không biến động qua các

1

= 1

2

năm, rủi ro thấp

Biến động tăng qua các

2

>1

1

năm, rủi ro rất thấp

hợp

3

2

Trường mẫu số = 0

Kết quả phân tích năm trước năm đánh giá = 0 hoặc NNT chưa hoạt động sản xuất kinh doanh, rủi ro thấp

<1, mức biến

4

3

động <10%

Biến động giảm qua các năm và mức độ giảm nhỏ hơn 10%, rủi ro vừa

<1, mức biến

5

4

động > 10%

Biến động giảm qua các năm và mức độ giảm lớn hơn 10%, rủi ro cao

75

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Ý nghĩa

Điểm

STT

Tỷ lệ biến động giữa năm N/năm N-1

4

6

= 0

Kết quả phân tích năm đánh giá = 0 và tỷ lệ năm trước # 0, tỷ lệ rủi ro cao

Tiêu chí 3: So sánh biến động của tỷ lệ “Thuế TNDN phát sinh/

doanh thu” giữa các năm

Mô tả tiêu chí

Tiêu chí dùng để đánh giá rủi ro bằng cách So sánh sự biến động của

tỷ lệ Thuế TNDN phát sinh so với Doanh thu thuần của Doanh nghiệp

giữa các năm.

Ý nghĩa tiêu chí

Đánh giá sự biến động của thuế TNDN qua các năm và xác định các mức độ rủi ro về thuế thông qua đánh giá sự biến động.

Tiêu chí 4: So sánh biến động của tỷ lệ “Thuế GTGT phát sinh/ doanh

thu hàng hoá dịch vụ bán ra” giữa các năm

Mô tả tiêu chí

− Tiêu chí dùng để đánh giá rủi ro bằng cách So sánh sự biến động về tỷ lệ Thuế GTGT phát sinh với Doanh thu hàng hoá dịch vụ bán ra của Doanh nghiệp giữa các năm.

Ý nghĩa tiêu chí

Đánh giá sự biến động về thuế GTGT trên doanh thu giữa các năm.

1.2.4. Nhóm tiêu chí IV: Nhóm tiêu chí đánh giá về tình hình tài

chính:

− Các tiêu chí trong nhóm tiêu chí đánh giá về tình hình tài chính của doanh nghiệp được đánh giá căn cứ trên Bảng cân đối kế toán và Bảng báo cáo kết quả hoạt động sản xuất kinh doanh của doanh nghiệp.

Theo quy định hiện hành các doanh nghiệp nhỏ và vừa lập BCTC

theo mẫu ban hành trên Quyết định 48/2006/QĐ-BTC, các doanh nghiệp

còn lại lập BCTC theo mẫu ban hành trên Quyết định 15/2006/QĐ-BTC,

76

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

do vậy cùng công thức tính tỷ lệ nhưng mã số của các chỉ tiêu trên từng bộ

mẫu biểu BCTC là khác nhau. Công thức tính các chỉ tiêu được thiết kế lấy

dữ liệu theo cả 2 mẫu biểu BCTC.

Đối với Ngân hàng thương mại và các tổ chức tín dụng sử dụng các

chỉ tiêu theo mẫu BCTC ban hành kèm theo Quyết định số 16/2007/QĐ-

NHNN.

− Các tiêu chí trong nhóm tiêu chí đánh giá về tình hình tài chính của doanh nghiệp được so sánh với tỷ lệ bình quân ngành của từng tiêu chí. Về danh mục ngành, tiến hành phân loại NNT theo danh mục ngành cấp 1 của Tổng cục thống kê được NNT kê khai trên tờ khai Đăng ký thuế, bao gồm các ngành sau:

STT

Tên ngành nghề

Mã ngành nghề

A

Nông nghiệp, lâm nghiệp và thuỷ sản

1

B

Khai khoáng

2

C

Công nghiệp chế biến, chế tạo

3

D

Sản xuất và phân phối điện, khí đốt, nớc

4

nóng, hơi nước và điều hoà không khí

E

Cung cấp nước; hoạt động quản lý và xử lý

5

rác thải, nước thải

F

Xây dựng

6

G

Bán buôn và bán lẻ; sửa chữa ô tô, mô tô, xe

7

máy và xe có động cơ khác

H

Vận tải kho bãi

8

I

Dịch vụ lu trú và ăn uống

9

J

Thông tin và truyền thông

10

K

Hoạt động tài chính, ngân hàng và bảo hiểm

11

77

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

STT

Tên ngành nghề

Mã ngành nghề

L

Hoạt động kinh doanh bất động sản

12

M

Hoạt động chuyên môn, khoa học và công

13

nghệ

N

Hoạt động hành chính và dịch vụ hỗ trợ

14

O

15

Hoạt động của đảng cộng sản, tổ chức chính trị - xã hội, quản lý nhà nớc, an ninh quốc phòng; bảo đảm xã hội bắt buộc

P

Giáo dục và đào tạo

16

Q

Y tế và hoạt động trợ giúp xã hội

17

R

Nghệ thuật, vui chơi và giải trí

18

S

Hoạt động dịch vụ khác

19

T

20

Hoạt động làm thuê các công việc trong các hộ gia đình, sản xuất sản phẩm vật chất và dịch vụ tự tiêu dùng của hộ gia đình

U

Hoạt động của các tổ chức và cơ quan quốc

21

tế

V

Hoạt động của các tổ chức và đoàn thể quốc

22

tế

− Phương pháp phân ngưỡng, tính điểm rủi ro cho từng tiêu chí:

 Bước 1: Tổng hợp đưa ra danh sách kết quả phân tích các tiêu chí trong năm đánh giá của từng NNT. Trường hợp doanh nghiệp sản xuất, kinh doanh lỗ (thu nhập thuần <0) sẽ gán kết quả phân tích =0,

 Bước 2: Xác định ngưỡng điểm tính theo bình quân ngành. Áp dụng cách tính điểm bình quân theo từng ngành gồm 4 mức: Cao, vừa, thấp, rất thấp. Đối với từng ngành, thực hiện cách phân ngưỡng và tính điểm như sau:

Bước 2.1: Tính bình quân tất cả các giá trị trong danh sách thuộc từng ngành (chỉ tính đối với các giá trị >0): Được giá trị "Trung bình ngành".

78

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Bước 2.2: Xác định danh sách NNT có giá trị "Trên trung bình" và "Dưới trung bình".

Bước 2.3: Tính bình quân của danh sách "Trên trung bình": Được giá trị "Trung bình cao".

Bước 2.4: Tính bình quân của danh sách "Dưới trung bình" (chỉ tính đối với các giá trị >0): Được giá trị "Trung bình thấp".

Bước 2.5: Phân ngưỡng và gán điểm rủi ro:

Tiêu chí

So sánh

Điểm

Kết quả phân tích >= Trung bình

4

cao

Trung bình cao > Kết quả phân

3

Đối với những tiêu chí Kết quả tích càng phân cao, rủi ro càng

tích > = Trung bình ngành

79

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Tiêu chí

So sánh

Điểm

Trung bình ngành > Kết quả

2

cao

phân tích >= Trung bình thấp

Kết quả phân tích < Trung bình

1

thấp

Kết quả phân tích >= Trung bình

1

cao

Trung bình cao > Kết quả phân

2

tích > = Trung bình ngành

Trung bình ngành > Kết quả

3

Đối với những tiêu chí Kết quả tích càng phân cao, rủi ro càng thấp

phân tích >= Trung bình thấp

Kết quả phân tích < Trung bình

4

thấp

Nhóm tiêu chí phản ánh hiệu quả sinh lời

Tiêu chí 5: Tỷ lệ lợi nhuận từ hoạt động kinh doanh/doanh thu thuần

Mô tả tiêu chí

− Phản ánh hiệu quả sản xuất kinh doanh của doanh nghiệp trong kỳ. Các doanh nghiệp cùng ngành nghề có tỷ lệ càng cao thì hiệu quả sản xuất kinh doanh càng cao, rủi ro càng thấp.

Ý nghĩa tiêu chí

− Thể hiện khả năng sinh lời của doanh nghiệp, cho biết với một đồng doanh thu thuần từ bán hàng và cung cấp dịch vụ sẽ tạo ra bao nhiêu đồng lợi nhuận. Tỷ lệ này càng lớn thì hiệu quả hoạt động sản xuất, kinh doanh của doanh nghiệp càng tốt.

− Chỉ tiêu này dùng để so sánh giữa các doanh nghiệp cùng ngành nghề. Tuy nhiên chỉ tiêu này chưa đánh giá được chính xác khả năng sinh lời của từng doanh nghiệp vì chưa loại trừ được khác biệt giữa các doanh nghiệp có nguồn vốn hình thành khác nhau.

Tiêu chí 6: Tỷ lệ (lợi nhuận trước thuế + chi phí lãi vay)/ doanh thu thuần

Mô tả tiêu chí

− Phản ánh hiệu quả sản xuất kinh doanh của doanh nghiệp trong kỳ. Các doanh nghiệp cùng ngành nghề có tỷ lệ càng cao thì hiệu quả sản xuất

80

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

kinh doanh càng cao, rủi ro càng thấp.

Ý nghĩa tiêu chí

− Thể hiện khả năng sinh lời của doanh nghiệp, là tỷ lệ của tổng số lợi nhuận trước thuế thu được từ các hoạt động sản xuất kinh doanh phát sinh trong năm cộng với chi phí lãi vay chia cho doanh thu thuần. Cho biết với một đồng doanh thu thuần từ bán hàng và cung cấp dịch vụ sẽ thu được bao nhiêu đồng lợi nhuận. Tỷ lệ này càng lớn thì hiệu quả hoạt động sản xuất, kinh doanh của doanh nghiệp càng tốt.

− Chỉ tiêu này dùng để so sánh giữa các doanh nghiệp cùng ngành nghề. Chỉ tiêu này phản ánh chính xác khả năng sinh lời của doanh nghiệp.

Tiêu chí 7: Tỷ lệ lợi nhuận sau thuế/ doanh thu thuần

Mô tả tiêu chí

− Phản ánh hiệu quả sản xuất kinh doanh của doanh nghiệp trong kỳ. Trong thực tế tiêu chí này bị ảnh hưởng bởi chính sách miễn, giảm thuế. Khi phân tích nếu tỷ lệ này thấp trong khi tỷ lệ lợi nhuận trước thuế/doanh thu thuần cao thể hiện doanh nghiệp đang kê khai miễn, giảm thuế và khả năng rủi ro trong việc miễn, giảm thuế cao.

Ý nghĩa tiêu chí

− Thể hiện hiệu quả của doanh nghiệp. Đánh giá rủi ro về miễn, giảm

thuế TNDN.

− Chỉ tiêu này dùng để so sánh giữa các doanh nghiệp cùng ngành

nghề.

Tiêu chí 8: Tỷ lệ lợi nhuận/ vốn chủ sở hữu

Mô tả tiêu chí

− Phản ánh hiệu quả sản xuất kinh doanh của doanh nghiệp trong kỳ. Các doanh nghiệp cùng ngành nghề có tỷ lệ càng cao thì hiệu quả sản xuất kinh doanh càng cao, rủi ro càng thấp.

Ý nghĩa tiêu chí

− Phản ánh hiệu quả sử dụng vốn, ảnh hưởng đến rủi ro về thuế. Cho biết với một đồng vốn chủ sở hữu doanh nghiệp sử dụng tạo ra được bao nhiêu đồng lợi nhuận. Tỷ lệ này càng cao thì phản ánh trình độ sử dụng vốn chủ sở hữu của doanh nghiệp càng cao.

Nhóm tiêu chí phản ánh mức độ sử dụng chi phí

Tiêu chí 9: Tỷ lệ giá vốn hàng bán/ doanh thu thuần

Mô tả tiêu chí

81

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

− Phản ánh trình độ kiểm soát chi phí của doanh nghiệp. Trình độ

quản lý càng cao tức tỷ lệ càng thấp thì rủi ro càng thấp.

Ý nghĩa tiêu chí

So sánh chi phí giá vốn giữa các doanh nghiệp cùng ngành nghề. Phản ánh trình độ quản lý giá vốn hàng bán của doanh nghiệp. Tỷ lệ càng cao thì trình độ quản lý của doanh nghiệp càng kém và tiềm ẩn những rủi ro về thuế, đặc biệt là thuế TNDN.

Tiêu chí 10: Tỷ lệ chi phí bán hàng/ doanh thu thuần

Mô tả tiêu chí

− Phản ánh trình độ kiểm soát chi phí của doanh nghiệp. Trình độ quản

lý càng cao tức tỷ lệ càng thấp thì rủi ro càng thấp.

Ý nghĩa tiêu chí

So sánh chi phí bán hàng giữa các doanh nghiệp cùng ngành nghề. Phản ánh trình độ quản lý chi phí bán hàng của doanh nghiệp. Tỷ lệ càng cao thì trình độ quản lý càng kém và tiềm ẩn những rủi ro về thuế TNDN.

Tiêu chí 11: Tỷ lệ chi phí quản lý/ doanh thu thuần

Mô tả tiêu chí

− Phản ánh trình độ kiểm soát chi phí của DN. Trình độ quản lý càng

cao tức tỷ lệ càng thấp thì rủi ro càng thấp.

Ý nghĩa tiêu chí

So sánh chi phí quản lý giữa các doanh nghiệp cùng ngành nghề. Phản ánh trình độ quản lý của doanh nghiệp. Tỷ lệ càng cao thì trình độ quản lý càng kém và tiềm ẩn những rủi ro về thuế TNDN.

Nguồn dữ liệu

Tiêu chí 12: Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất

kinh doanh

Mô tả tiêu chí

− Phản ánh tỷ lệ các khoản dự phòng được trích lập đưa vào chi phí

sản xuất kinh doanh trong kỳ. Tỷ lệ càng cao rủi ro càng cao.

Ý nghĩa tiêu chí

− Thể hiện rủi ro trong việc kê khai chi phí sản xuất kinh doanh từ nguồn trích lập dự phòng. Tỷ lệ này cao cho thấy việc sản xuất kinh doanh đang gặp khó khăn.

Phương pháp so sánh và tính điểm rủi ro:

82

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

− Mức độ rủi ro được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,

được gán điểm số lần lượt là 4,3,2,1

− Phương pháp tính điểm như sau: Gán điểm rủi ro theo quy tắc:

So sánh

Điểm

STT

Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất kinh

4

1

doanh >10%

5% <=Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất

2

kinh doanh <10%

3

1%<=Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất

3

kinh doanh <5%

2

Tỷ lệ Tổng dự phòng so với tổng chi phí sản xuất kinh

4

doanh <1%

1

Tiêu chí 13: Tỷ lệ Doanh thu thuần về bán hàng và cung cấp

dịch vụ so với vốn chủ sở hữu

Mô tả tiêu chí

− Phản ánh hiệu quả sử dụng vốn thông qua chỉ tiêu số vòng quay vốn. Nếu số lần quay vòng vốn quá thấp hoặc số lần quay vòng vốn quá cao đều thể hiện sự bất hợp lý, khả năng rủi ro cao.

Ý nghĩa tiêu chí

− Thể hiện số vòng quay vốn của doanh nghiệp. Nếu số lần quay vòng vốn quá thấp phản ánh hoạt động không hiệu quả, nếu số lần quay vòng vốn quá cao thể hiện sự bất hợp lý. Đối với doanh nghiệp nhỏ có số vòng quay lớn, đột biến trong năm có thể phát sinh việc bán hoá đơn bất hợp pháp.

Phương pháp tính điểm rủi ro

Tỷ lệ

Doanh thu thuần Vốn chủ sở hữu >=10 điểm rủi ro là 4

Doanh thu thuần Vốn chủ sở hữu <=1 hoặc Các trường hợp khác điểm rủi ro là 1

− Hệ thống lưu trữ: Hệ thống Báo cáo tài chính cấp Tổng cục (BCTC)

Tiêu chí 14: Tỷ lệ Tổng doanh thu GTGT hàng hoá dịch vụ bán ra so với Tổng doanh thu thuần bán hàng hóa và cung cấp dịch vụ và Thu nhập khác

Mô tả tiêu chí

83

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

− Phản ánh mối quan hệ giữa doanh thu GTGT của hàng hoá dịch vụ bán ra với Doanh thu tính thuế TNDN. Tỷ lệ này biến động càng lớn thì rủi ro càng cao

Ý nghĩa tiêu chí

− So sánh Tổng doanh thu GTGT hàng hóa dịch vụ bán ra so với Tổng doanh thu thuần bán hàng hóa và cung cấp dịch vụ và Thu nhập khác. Thể hiện rủi ro trong việc kê khai thiếu doanh thu chịu thuế GTGT hoặc doanh thu tính thuế TNDN.

− Đối với các doanh nghiệp kinh doanh xây dựng, kinh doanh bất động sản có thể rủi ro trong việc kê khai thuế vãng lai hoặc doanh thu thu tiền trước.

Phương pháp tính điểm rủi ro

− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,

được gán điểm số lần lượt là 4,3,2,1

− Phương pháp tính điểm như sau: Gán điểm rủi ro theo quy tắc:

So sánh

S TT

Đi ểm

1 Tỷ lệ biến động > 10%

4

2 5% < Tỷ lệ biến động <= 10%

3

1% < Tỷ lệ biến động < = 5%. Riêng ngân hàng và các tổ chức

3

tín dụng mặc định rủi ro thấp.

2

Tỷ lệ biến động <= 1%.

4

1

− Hệ thống lưu trữ: Hệ thống Báo cáo tài chính cấp Tổng cục (BCTC),

dữ liệu từ các tờ khai 01/GTGT trên hệ thống TPH

Tiêu chí 15: Tỷ lệ hàng tồn kho so với doanh thu thuần

Mô tả tiêu chí

Phản ánh tỷ lệ hàng tồn kho cuối kỳ so với doanh thu bán hàng và

cung cấp dịch vụ. Tiêu chí này dùng để so sánh giữa các doanh nghiệp

cùng ngành nghề. Tỷ lệ càng cao rủi ro càng cao.

Phương pháp phân ngưỡng, tính điểm rủi ro

− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,

84

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

được gán điểm số lần lượt là 4,3,2,1. Riêng ngân hàng và các tổ chức tín dụng mặc định rủi ro thấp.

Nhóm tiêu chí phản ánh khả năng thanh toán doanh nghiệp

Tiêu chí 16: Hệ số khả năng thanh toán tổng quát

Mô tả tiêu chí

− Phản ánh khả năng thanh toán công nợ của Doanh nghiệp. So sánh

với bình quân ngành. Khả năng thanh toán càng cao rủi ro càng thấp.

Ý nghĩa tiêu chí

Đo lường khả năng thanh toán một cách tổng quát các khoản nợ của doanh

nghiệp. Chỉ tiêu này phản ánh rủi ro về thanh toán nợ thuế của doanh nghiệp.

Tiêu chí 17: Hệ số khả năng thanh toán nợ ngắn hạn

Mô tả tiêu chí

− Phản ánh khả năng thanh toán nợ ngắn hạn của Doanh nghiệp. So sánh với bình quân ngành. Khả năng thanh toán càng cao tức tỷ lệ càng cao thì rủi ro càng thấp.

Ý nghĩa tiêu chí

Hệ số này là thước đo khả năng thanh toán của doanh nghiệp, cho biết tỷ lệ các khoản nợ ngắn hạn của doanh nghiệp được trả bằng các tài sản tương đương với thời hạn của các khoản nợ đó. Chỉ tiêu này lớn hơn 1 chứng tỏ doanh nghiệp có khả năng thanh toán các khoản nợ ngắn hạn.

Tiêu chí 18: Hệ số khả năng thanh toán nhanh

Mô tả tiêu chí

− Phản ánh khả năng thanh toán công nợ của Doanh nghiệp. So sánh với bình quân ngành. Khả năng thanh toán càng tốt tức tỷ lệ càng cao rủi ro càng thấp.

Ý nghĩa tiêu chí

Hệ số này phản ánh doanh nghiệp có nhiều khả năng đáp ứng việc thanh toán nợ ngắn hạn vì dễ dàng chuyển từ tài sản lưu động khác về tiền mặt. Hệ số này càng cao, khả năng thanh toán của doanh nghiệp càng được đánh giá là an toàn vì doanh nghiệp có thể trang trải các khoản nợ ngắn hạn mà không cần đến các nguồn thu hay doanh số bán.

1.2.5. Nhóm tiêu chí V: Lịch sử thanh tra, kiểm tra của NNT

Tiêu chí 19: Kỳ đã được thanh tra, kiểm tra tại trụ sở gần nhất

85

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

Mô tả tiêu chí

− Đánh giá dựa trên kỳ đã được thanh tra, kiểm tra tại trụ sở doanh nghiệp gần nhất. Kỳ được thanh tra, kiểm tra gần nhất là kỳ nộp thuế thu nhập doanh nghiệp cuối cùng cơ quan thuế thực hiện thanh tra, kiểm tra việc chấp hành nghĩa vụ kê khai nộp thuế của NNT (kể cả thanh tra, kiểm tra theo chuyên đề).

− Ví dụ: Trong năm 2009, Cơ quan thuế tiến hành thanh tra doanh nghiệp thời kỳ từ 2006 đến 2007, như vậy kỳ được thanh tra gần nhất là năm 2007. Thời gian kể từ lần thanh tra trước càng xa rủi ro càng cao.

Ý nghĩa tiêu chí

Doanh nghiệp mới được thanh tra, kểm tra mức độ tuân thủ tốt hơn. Thời gian kể từ lần thanh tra, kiểm tra gần nhất càng dài thì rủi ro càng cao.

Phương pháp phân ngưỡng, tính điểm rủi ro

− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,

được gán điểm số lần lượt là 4,3,2,1.

− Phương pháp tính điểm như sau: Tổng hợp đưa ra danh sách lần thanh tra, kiểm tra gần nhất đối với từng NNT nếu có. Trên bảng tổng hợp sẽ tiến hành phân ngưỡng từ cao đến thấp với 4 miền giá trị:

 Kỳ được thanh tra, kiểm tra gần nhất là 0 năm, thời gian tính từ khi doanh nghiệp bắt đầu hoạt động đến thời gian lập kế hoạch thanh tra dưới 3 năm: Rủi ro rất thấp.

 Kỳ được thanh tra, kiểm tra gần nhất là 1 năm: Rủi ro thấp.

 Kỳ được thanh tra, kiểm tra gần nhất từ 2 đến 3 năm: Rủi ro vừa.

 Kỳ được thanh tra, kiểm tra gần nhất trên 3 năm: Rủi ro cao.

Tiêu chí 20: Số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra

gần nhất

Mô tả tiêu chí

− Đánh giá dựa trên cơ sở so sánh số thuế truy thu tuyệt đối của kỳ thanh tra, kiểm tra gần nhất. Số thuế truy thu càng lớn rủi ro càng cao.

Ý nghĩa tiêu chí

− Xác định lịch sử vi phạm của NNT trước đây. Đánh giá mức độ vi phạm trong việc kê khai thuế.

Phương pháp phân ngưỡng, tính điểm rủi ro

86

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

− Mức độ rủi được phân thành 4 mức: Cao, Vừa, Thấp và Rất thấp,

được gán điểm số lần lượt là 4,3,2,1.

− Phương pháp tính điểm như sau: Tổng hợp đưa ra danh sách số thuế truy thu trong lần thanh tra, kiểm tra gần nhất đối với từng NNT nếu có. Trên bảng tổng hợp sẽ tiến hành phân ngưỡng từ cao đến thấp với 4 miền giá trị:

 Bước 1: Tính bình quân tất cả các giá trị trong danh sách (chỉ tính đối với những NNT có số thuế truy thu): Được giá trị "Trung bình".

 Bước 2: Xác định danh sách NNT có giá trị "Trên trung bình" và

"Dưới trung bình".

 Bước 3: Tính bình quân của danh sách "Trên trung bình": Được

giá trị "Trung bình cao".

 Bước 4: Tính bình quân của danh sách "Dưới trung bình" : Được

giá trị "Trung bình thấp".

 Bước 5: Phân ngưỡng và gán điểm rủi ro:

STT

So sánh

Điểm

Số thuế truy thu >= Trung bình cao

1

4

Trung bình cao > Số thuế truy thu > =

2

3

Trung bình

Trung bình > Số thuế truy thu >= Trung

3

2

bình thấp

4

Số thuế truy thu < Trung bình thấp

1

2.1. Nhóm tiêu chí VI

Tiêu chí 21: Vốn chủ sở hữu nhỏ hơn 20 tỷ đồng thời kinh

doanh đa ngành nghề

Mô tả tiêu chí

− Đánh giá dựa trên vốn chủ sở hữu và số ngành nghề kinh doanh của doanh nghiệp. Doanh nghiệp có vốn chủ sở hữu nhỏ đồng thời kinh doanh nhiều ngành nghề sẽ có mức độ rủi ro cao.

Ý nghĩa tiêu chí

− Thể hiện mức độ rủi ro của những doanh nghiệp có vốn chủ sở hữu

87

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn

nhỏ nhưng kinh doanh đa ngành nghề.

− Một số doanh nghiệp thành lập với mục đích in và bán hóa đơn cho các doanh nghiệp khác sử dụng để kê khai khấu trừ thuế GTGT và kê khai chi phí tính thuế TNDN.

Phương pháp tính điểm rủi ro

Nếu Vốn chủ sở hữu <20 tỷ và số ngành nghề >=5: Điểm rủi ro là 4 Các trường hợp còn lại điểm rủi ro là 1

88

Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn