TẠP CHÍ KHOA HỌC<br />
Khoa học Tự nhiên và Công nghệ, Số 6 (9/2016) tr 67 - 72<br />
<br />
Đặng Kim Phương<br />
Khoa Toán - Lý - Tin, Trường Đại học Tây Bắc<br />
<br />
PHÂN TÍCH MỐI LIÊN HỆ TUYẾN TÍNH CỦA<br />
HAI ĐẠI LƯỢNG NGẪU NHIÊN<br />
<br />
Tóm tắt: Một trong những nhiệm vụ trọng tâm của người làm công tác thống kê khi phân tích mối liên hệ<br />
giữa các đại lượng ngẫu nhiên là xác định mức độ liên hệ giữa chúng và lập phương trình hồi qui biểu diễn mối liên<br />
hệ đó. Trong khuôn khổ của bài viết này chúng tôi sẽ giới thiệu cách sử dụng hệ số tương quan mẫu và phương trình<br />
hồi qui tuyến tính mẫu để xác định mức độ liên hệ tuyến tính và biểu diễn mối liên hệ tuyến tính dạng Y A X B<br />
của hai đại lượng ngẫu nhiên X và Y.<br />
Từ khóa: Hệ số tương quan, Hàm hồi qui tuyến tính, Đại lượng ngẫu nhiên, Kiểm định giả thiết thống kê,<br />
Phân phối Student.<br />
1. Mở đầu<br />
Trong học phần Xác suất thống kê đã giới thiệu công thức, cách tính hệ số tương quan mẫu<br />
và cách xác định phương trình hồi qui tuyến tính mẫu dạng Y A X B của hai đại lượng ngẫu<br />
nhiên X và Y. Vậy trong thống kê các ngành như Kinh tế, Nông học, Tài nguyên và Môi<br />
trường,... đã sử dụng hệ số tương quan mẫu và phương trình hồi qui tuyến tính mẫu để phân tích<br />
mối liên hệ tuyến tính dạng Y A X B của hai đại lượng ngẫu nhiên X và Y như thế nào? Thông<br />
qua cơ sở lý luận và ví dụ thực tiễn bài viết sẽ làm sáng tỏ về vấn đề này.<br />
<br />
2. Phân tích mối liên hệ tuyến tính dạng Y A X B của hai đại lượng ngẫu nhiên X và Y<br />
2.1. Hệ số tương quan<br />
Nghiên cứu về cơ sở xác suất ta đã biết hệ số tương quan đặc trưng cho mức độ liên hệ của<br />
hai đại lượng ngẫu nhiên X và Y và được xác định bởi công thức:<br />
E ( X .Y ) E ( X ). E ( Y )<br />
<br />
D X .D Y<br />
( 1 1).<br />
<br />
Nếu 0 thì X và Y không tương quan.<br />
Nếu 0 thì X và Y có tương quan.<br />
Nếu 1 thì X và Y có tương quan tuyến tính.<br />
Nếu càng gần 1 thì mức độ liên hệ giữa X và Y càng chặt chẽ.<br />
<br />
Ngày nhận bài: 23/5/2016. Ngày nhận đăng: 25/9/2016<br />
Liên lạc: Đặng Kim Phương, e - mail: dangkimphuongtbu@gmail.com<br />
<br />
<br />
<br />
<br />
67<br />
Nhưng nếu chưa biết phân phối của đại lượng ngẫu nhiên ( X .Y ) thì hệ số tương quan lý<br />
thuyết của hai đại lượng ngẫu nhiên X và Y cũng chưa tìm được. Do đó trong thống kê khi<br />
phân tích tìm hiểu mức độ liên hệ của hai đại lượng ngẫu nhiên ta phải tìm cách ước lượng <br />
thông qua hệ số tương quan mẫu của hai đại lượng ngẫu nhiên X và Y như sau: Lấy một mẫu<br />
ngẫu nhiên kích thước n của cặp đại lượng ngẫu nhiên X và Y: ( X 1 , Y1 ) , ( X 2 , Y 2 ) , ..., ( X n , Y n ) . Khi đó<br />
hệ số tương quan mẫu của hai đại lượng ngẫu nhiên X và Y được xác định bởi công thức:<br />
n n n<br />
<br />
n X i Yi ( X i ) ( Yi )<br />
i1 i1 i1<br />
r .<br />
2 2 <br />
n n n n<br />
<br />
<br />
n X ( X i ) n Yi ( Yi ) <br />
2 2<br />
i<br />
i1 i1 i1 i1 <br />
Nếu r 0 thì X và Y không có mối liên hệ tuyến tính.<br />
Nếu r 0 thì X và Y có mối liên hệ tuyến tính.<br />
Nếu r càng gần 1 thì mức độ liên hệ giữa X và Y càng chặt chẽ.<br />
Do những dao động ngẫu nhiên về mặt thống kê mà có thể xảy ra trường hợp: Hệ số<br />
tương quan mẫu r 0 nhưng trong tổng thể hệ số tương quan 0 , trường hợp thực tế này rất<br />
hay xảy ra khi mẫu nhỏ. Vậy nên trong thực tiễn khi 0 r 0 , 3 và mẫu nhỏ cần kiểm tra sự tồn<br />
tại của hệ số tương quan như sau:<br />
Thiết lập bài toán kiểm định giả thiết thống kê:<br />
H0 : 0<br />
<br />
H1 : 0<br />
với mức ý nghĩa 0 , 0 5 (Mức ý nghĩa có thể là 0,1; 0,01; 0,05;...để thuận tiện cho việc trình<br />
bày, trong bài viết này luôn thiết lập các bài toán kiểm định giả thiết với mức ý nghĩa 0 , 0 5 ).<br />
r<br />
Tính giá trị kiểm định T . n 2 và tra giá trị t(n 2; 0, 05) trong bảng phân phối<br />
1 r<br />
2<br />
<br />
<br />
<br />
Student. Nếu T t(n 2; 0, 05) thì bác bỏ giả thiết H 0 : 0, tức là thực sự tồn tại mối liên hệ<br />
tuyến tính giữa hai tổng thể X và Y. Khi đó sẽ xác định phương trình hồi qui tuyến tính biểu diễn<br />
mối liên hệ tuyến tính giữa hai tổng thể X và Y. Nếu T t ( n 2 ; 0 , 0 5 ) thì chấp nhận giả thiết<br />
H0 : 0 tức là hai tổng thể X và Y không tương quan và công việc phân tích mối liên hệ tuyến<br />
tính giữa hai tổng thể X và Y dừng lại ở đây.<br />
<br />
2.2. Phương trình hồi qui tuyến tính dạng Y A X B<br />
Phương trình hồi qui tuyến tính đơn giản của hai đại lượng ngẫu nhiên X và Y có dạng:<br />
Y AX B trong đó A , B là các hằng số.<br />
A : Thể hiện mức tăng (giảm) của Y khi X tăng (giảm) một đơn vị<br />
<br />
B : Thể hiện giá trị của Y khi giá trị của X 0<br />
Trong thực tế không thể xác định được các hệ số A , B trong phương trình hồi qui tuyến<br />
tính của tổng thể Y A X B mà chỉ có thể ước lượng các hệ số A , B qua các hệ số a , b trong<br />
phương trình hồi qui tuyến tính mẫu của hai tổng thể X và Y là y a x b . Muốn ước lượng các<br />
hệ số A , B trong phương trình hồi qui tuyến tính của tổng thể Y A X B phải xác định phương<br />
trình hồi qui tuyến tính mẫu y a x b . Để xác định được các hệ số a , b ta lấy một mẫu ngẫu<br />
68<br />
nhiên kích thước n của cặp đại lượng ngẫu nhiên X và Y: ( X 1 , Y1 ) , ( X 2 , Y 2 ) , ..., ( X n , Y n ) . Khi đó các<br />
hệ số a , b được xác định như sau:<br />
n n n<br />
<br />
n X i Yi ( X i ) ( Yi )<br />
i 1 i 1 i 1<br />
a n n<br />
<br />
n X ( X i )<br />
2 2<br />
i<br />
i1 i1<br />
<br />
<br />
b Y aX,<br />
n n<br />
1 1<br />
trong đó: X X i<br />
; Y Yi .<br />
n i1 n i1<br />
<br />
<br />
Do những dao động ngẫu nhiên về mặt thống kê mà có thể xảy ra trường hợp các tham số<br />
a, b khác không nhưng các tham số A , B trong tổng thể lại bằng không. Bởi vậy sau khi xác định<br />
được các tham số a , b trong phương trình hồi qui tuyến tính mẫu y a x b cần phải kiểm tra<br />
các tham số A , B có thực sự tồn tại trong tổng thể hay không.<br />
Kiểm tra sự tồn tại của tham số A:<br />
Ta đặt giả thiết:<br />
H0 : A 0<br />
<br />
H1 : A 0<br />
với mức ý nghĩa 0, 05.<br />
a<br />
Tính giá trị kiểm định: Ta trong đó:<br />
Sa<br />
<br />
QY a Q X<br />
2<br />
1<br />
S a Sˆ . ; Sˆ <br />
QX n 2<br />
n n<br />
<br />
( X i ) ( Yi )<br />
2 2<br />
n n<br />
<br />
<br />
i1 i1<br />
QX ; QY Yi <br />
2 2<br />
X i<br />
.<br />
i 1 n i 1 n<br />
Nếu Ta t ( n 2 ; 0 , 0 5 ) thì bác bỏ giả thiết H0 : A 0 tức là tồn tại tham số A trong tổng thể và ta<br />
đi ước lượng tham số A .<br />
Kiểm tra sự tồn tại của tham số B:<br />
Ta đặt giả thiết:<br />
H0 : B 0<br />
<br />
H1 : B 0<br />
với mức ý nghĩa 0, 05.<br />
n<br />
<br />
<br />
2<br />
X i<br />
b<br />
Tính giá trị kiểm định: Tb trong đó S b Sˆ<br />
i 1<br />
.<br />
Sb nQX<br />
<br />
<br />
Nếu Tb t ( n 2 ; 0 , 0 5 ) thì bác bỏ giả thiết H0 : B 0 tức là tồn tại tham số B trong tổng thể và ta<br />
đi ước lượng tham số B .<br />
<br />
<br />
69<br />
2.3. Ước lượng khoảng các tham số A, B trong phương trình hồi qui tuyến tính<br />
Y AX B<br />
<br />
<br />
Nếu các tham số A , B thực sự tồn tại thì ước lượng tham số A,B.<br />
Ước lượng khoảng của tham số A với độ tin cậy 0,95 là:<br />
a t(n 2; 0, 025)Sa A a t(n 2; 0, 025)Sa<br />
<br />
Ước lượng khoảng của tham số B với độ tin cậy 0,95 là:<br />
b t(n 2; 0, 025)Sb B b t(n 2; 0, 025)Sb .<br />
<br />
3. Ví dụ<br />
Biết rằng giữa năng suất lao động và tuổi nghề của công nhân có mối liên hệ tuyến tính<br />
dạng Y A X B . Hãy phân tích mối liên hệ tuyến tính giữa năng suất lao động và tuổi nghề của<br />
công nhân trong một doanh nghiệp qua số liệu điều tra sau:<br />
<br />
Tên công nhân A B C D Đ E G H I K<br />
Tuổi nghề ( X - năm) 1 3 4 5 7 8 9 10 11 12<br />
Năng suất lao động ( Y - kg) 3 12 9 16 12 21 21 24 19 27<br />
<br />
Dựa vào số liệu điều tra ta lập bảng số liệu sau:<br />
<br />
Tên X Y X<br />
2<br />
Y<br />
2<br />
X .Y<br />
A 1 3 1 9 3<br />
B 3 12 9 144 36<br />
C 4 9 16 81 36<br />
D 5 16 25 256 80<br />
Đ 7 12 49 144 84<br />
E 8 21 64 441 168<br />
G 9 21 81 441 189<br />
H 10 24 100 576 240<br />
I 11 19 121 361 209<br />
K 12 27 144 729 324<br />
Tổng 70 164 610 3182 1369<br />
<br />
*Xác định hệ số tương quan mẫu:<br />
<br />
Hệ số tương quan mẫu của X và Y được tính bởi công thức:<br />
n n n<br />
<br />
n X i Yi ( X i ) ( Yi )<br />
1 0 .1 3 6 9 7 0 .1 6 4<br />
r i 1 i 1 i 1<br />
0, 91.<br />
2 2<br />
2 2 <br />
n n n n<br />
(1 0 .6 1 0 7 0 ) (1 0 .3 1 8 2 1 6 4 )<br />
n X ( n Yi ( Yi ) <br />
2 2<br />
i<br />
X i) <br />
i 1 i 1 i 1 i 1 <br />
Vì r 0 , 9 1 nên quan hệ giữa X và Y là rất chặt chẽ, hơn nữa vì hệ số tương quan mẫu cao nên<br />
không cần kiểm tra sự tồn tại của hệ số tương quan trong tổng thể.<br />
*Xác định các hệ số a , b trong phương trình hồi qui tuyến tính mẫu y a x b<br />
n n<br />
1 70 1 164<br />
Tính: X <br />
n<br />
X i<br />
<br />
10<br />
7 ; Y <br />
n<br />
Yi <br />
10<br />
16, 4. Ta có:<br />
i1 i1<br />
<br />
<br />
<br />
70<br />
n n n<br />
<br />
n X i Y i ( X i )( Y i )<br />
1 0 .1 3 6 9 7 0 .1 6 4<br />
a i 1 i 1 i 1<br />
1, 8 4<br />
1 0 .6 1 0 7 0<br />
n n 2<br />
<br />
n X ( X i )<br />
2 2<br />
i<br />
i1 i1<br />
<br />
<br />
b Y a X 1 6 , 4 1, 8 4 .7 3 , 5 2 .<br />
Vậy phương trình hồi qui tuyến tính mẫu là y 1, 8 4 x 3, 5 2 .<br />
*Kiểm tra sự tồn tại của các tham số A , B trong phương trình hồi qui tuyến tính của tổng<br />
thể Y A X B<br />
- Kiểm định sự tồn tại của tham số A :<br />
H0 : A 0<br />
Đặt giả thiết <br />
H1 : A 0<br />
với mức ý nghĩa 0, 05.<br />
a<br />
Tính giá trị kiểm định: T a ta có:<br />
Sa<br />
<br />
QY a Q X<br />
2<br />
1<br />
S a Sˆ ; Sˆ <br />
QX n 2<br />
n<br />
<br />
( X i )<br />
2<br />
n 2<br />
70<br />
<br />
i 1<br />
QX 610 120<br />
2<br />
X i<br />
i1 n 10<br />
n<br />
<br />
( Yi )<br />
2<br />
n 2<br />
164<br />
<br />
i 1<br />
QY Yi 3182 492<br />
2<br />
<br />
<br />
i 1 n 10<br />
<br />
4 9 2 , 4 1, 8 4 .1 2 0<br />
2<br />
<br />
Sˆ 3, 2 8<br />
8<br />
<br />
1<br />
S a 3, 2 8 0, 3<br />
120<br />
1, 8 4<br />
Ta 6,1.<br />
0, 3<br />
- Kiểm định sự tồn tại của tham số B :<br />
H0 : B 0<br />
Đặt giả thiết: <br />
H1 : B 0<br />
với mức ý nghĩa 0, 05.<br />
<br />
<br />
b<br />
Tính giá trị kiểm định: Tb ta có:<br />
Sb<br />
n<br />
<br />
<br />
2<br />
X i<br />
i1<br />
610<br />
S b Sˆ 3, 2 8 2, 34<br />
n .Q X 1 0 .1 2 0<br />
<br />
<br />
<br />
<br />
71<br />
b 3, 5 2<br />
Tb 1, 5 .<br />
Sb 2, 34<br />
Tra bảng phân phối Student ta có t ( n 2 ; 0 , 0 5 ) t (8; 0 , 0 5 ) 2 , 3 1 .<br />
Vì Ta 2 , 3 1 nên bác bỏ giả thiết H 0 : A 0 tức là tồn tại tham số A trong tổng thể.<br />
Vì Tb 2 , 3 1 nên ta chấp nhận giả thiết H0 : B 0 tức là không tồn tại tham số B trong tổng thể.<br />
*Ước lượng khoảng tham số A<br />
Ước lượng khoảng của tham số A với độ tin cậy 0,95 là:<br />
a t(n 2; 0, 0 2 5)Sa A a t(n 2; 0, 0 2 5)Sa<br />
1, 8 4 2 , 3 .0 , 3 A 1, 8 4 2 , 3 .0 , 3<br />
<br />
1, 1 5 A 2 , 5 3 .<br />
Chúng ta tin tới mức 95% rằng tham số A trong tổng thể nằm trong khoảng từ 1,15 kg đến 2,53<br />
kg.<br />
3. Kết luận<br />
- Năng suất lao động của công nhân trong doanh nghiệp phụ thuộc rất nhiều vào tuổi nghề<br />
của công nhân. Nếu công nhân không được đào taọ nghề thì không thể tham gia vào hoạt động<br />
kinh doanh của doanh nghiệp.<br />
- Nếu tuổi nghề của mỗi công nhân tăng lên một đơn vị thì năng suất lao đông của công<br />
nhân đó sẽ tăng từ 1,15 kg đến 2,53 kg.<br />
<br />
<br />
TÀI LIỆU THAM KHẢO<br />
<br />
[1] Ngô Kim Khôi (1998), Thống kê toán học trong lâm nghiệp, Nxb Nông nghiệp.<br />
[2] Phạm Văn Kiều (2004), Xác suất và thống kê, Nxb Giáo dục.<br />
[3] Hà Văn Sơn (2004), Lý thuyết thống kê, Nxb Thống kê.<br />
<br />
ANALYSIS OF LINEAR RELATIONSHIP<br />
OF TWO RANDOM VARIABLES<br />
<br />
Dang Kim Phuong<br />
Faculty of Mathematics - Physics - Informatics, Tay Bac University<br />
<br />
Abstract: One of the key tasks when analyzing statistical relationship between random variables is<br />
identifying the level of relationship between them and making up the regression represented such a relationship.<br />
Within the scope of an article, we will show how to use the sample correlation coefficient and linear regression to<br />
determine relationship and performing linear relationship between two random variables X and Y.<br />
Keywords: Correlation coefficient, Linear regression function, Radom variable, Statistical hypothesis<br />
testing, Student's t-distribution.<br />
<br />
<br />
<br />
<br />
72<br />