BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
BÀI GIẢNG 3 MỘT SỐ VẤN ĐỀ CƠ BẢN VỀ XÁC SUẤT THỐNG KÊ
TRONG KINH TẾ LƯỢNG
MỤC TIÊU BÀI GIẢNG:
1. Ký hiệu tổng
2. Phép thử, không gian mẫu và biến cố
3. Biến ngẫu nhiên
4. Xác suất
5. Biến ngẫu nhiên và hàm phân phối xác suất
6. Hàm mật độ xác suất đa biến
7. Đặc điểm của các phân phối xác suất
8. Một số phân phối xác suất quan trọng
9. Một số phép toán ma trận
10. Suy diễn thống kê
ĐỐI TƯỢNG BÀI GIẢNG:
1. Tài liệu bài giảng cho sinh viên đại học
2. Tài liệu tham khảo ôn tập cho học viên cao học
KÝ HIỆU TỔNG
Ký hiệu tổng
Ký tự (sigma) được thống nhất sử dụng để chỉ tổng:
(3.1)
Thao tác với Eviews
1
Trên cửa sổ lệnh của Eviews ta nhập: scalar sumX=@sum(x)
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Tính chất của phép toán tổng
1. Khi k là một hằng số
(3.2)
2. Khi k là một hằng số
(3.3)
3. Tổng của tổng hai biến Xi và Yi
(3.4)
4. Tổng của một hàm tuyến tính
(3.5)
PHÉP THỬ, KHÔNG GIAN MẪU, VÀ BIẾN CỐ
Phép thử
Một phép thử có hai đặc tính:
1) Không biết chắc kết quả nào xảy ra
2) Nhưng biết được các kết quả có thể xảy ra
Không gian mẫu hay tổng thể
Tập hợp tất cả các kết quả có thể xảy ra của một phép thử được gọi là tổng thể hay không gian mẫu.
Biến cố
Một biến cố là một nhóm các kết quả có thể xảy ra củ một phép thử. Nói cách khác, đó là một tập hợp con của không gian mẫu.
Các phép tính về biến cố:
Biến cố hội (AB): A xảy ra hay B xảy ra
Biến cố giao (AB): A xảy ra vả B xảy ra
Biến cố phụ ( ): xảy ra, A không xảy ra
2
Biến cố xung khắc: AB =
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
BIẾN NGẪU NHIÊN
Ví dụ, tung hai đồng xu, quan sát và lập thành bảng kết quả của các phép thử như sau:
BẢNG 3.1: Định nghĩa khái niệm biến ngẫu nhiên
Số mặt ngửa
Đồng xu thứ nhất T T T H H Đồng xu thứ hai T H H T H 0 1 1 1 2
Nguồn: Gujarati, 2006, trang 25
Ta gọi biến “số mặt ngửa” là một biến ngẫu nhiên. Nói một cách tổng quát, một biến mà giá trị (bằng số) của nó được xác định bởi kết quả của một phép thử được gọi là một biến ngẫu nhiên. Như vậy, biến ngẫu nhiên là biến mà giá trị của nó được xác định một cách ngẫu nhiên.
Một biến ngẫu nhiên có thể có giá trị rời rạc hoặc liên tục. Một biến ngẫu nhiên rời rạc chỉ có một số giá trị hữu hạn (hoặc vô hạn có thể đếm được). Một biến ngẫu nhiên liên tục là một biến ngẫu nhiên có bất kỳ giá trị nào trong một khoảng giá trị nào đó.
XÁC SUẤT
Xác suất của một biến cố: Định nghĩa cổ điển
Nếu một phép thử có thể có n kết quả loại trừ nhau và có khả năng xảy ra như nhau, và nếu m kết quả từ phép thử này hợp thành biến cố A, thì P(A), xác suất để A xảy ra, là tỷ số m/n.
(3.6)
Xác suất của một biến cố: Tần suất tương đối
3
Để giới thiệu khái niệm này, ta xem ví dụ sau đây. Dữ liệu trong bảng 3.1 là phân phối điểm điểm thi mô kinh tế vi mô của 200 sinh viên. Đây là một ví dụ về phân phối
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
tần suất cho biết các điểm ngẫu nhiên được phân phối như thế nào. Các con số trong cột 3 là các tần suất tuyệt đối, nghĩa là số lần xảy ra của một biến cố nhất định. Các con số trong cột 4 được gọi là các tần suất tương đối, nghĩa là số tần suất tuyệt đối chia tổng số lần xảy ra.
BẢNG 3.2: Phân phối điểm KTL của 200 sinh viên
Điểm
0-9 10-19 20-29 30-39 40-49 50-59 60-69 70-79 80-89 90-99 Điểm giữa của khoảng 5 15 25 35 45 55 65 75 85 95 Tần suất tuyệt đối 0 0 0 10 20 35 50 45 30 10 Tổng 200 Tần suất tương đối 0 0 0 0.050 0.100 0.175 0.250 0.225 0.150 0.050 1.000
Nguồn: Gujarati, 2006, trang 28
PHÂN PHỐI XÁC SUẤT
Phân phối xác suất của một biến ngẫu nhiên rời rạc
Giả sử X là một biến ngẫu nhiên rời rạc với các giá trị x1, x2, ... thì hàm f được xác định bởi
f(X=xi) = P(X=xi) i = 1, 2, … (3.7)
=0 nếu x ≠ xi
được gọi là hàm phân phối xác suất của biến ngẫu nhiên X, ký hiệu là PMF hay PF, trong đó, P(X=xi) là xác suất X có giá trị xi. Hàm PMF có các tính chất sau:
(3.8) 0 f(xi) 1
(3.9)
4
Ví dụ, biến X là số mặt ngửa khi tung hai đồng xu, ta xét bảng sau đây:
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
BẢNG 3.3: PMF của biến ngẫu nhiên rời rạc
Số mặt ngửa X 0
1
2
Tổng PMF f(X) ¼ ½ ¼ 1.00
Nguồn: Gujarati, 2006, trang 34
Phân phối xác suất của biến ngẫu nhiên liên tục
Xác suất để chiều cao trong khoảng 1.56 đến 1.8
Ví dụ, gọi X là biến chiều cao của một người, được đo bằng mét. Giả sử ta muốn tính xác suất để chiều cao của một người trong khoảng 1.56m đến 1.80m.
Xác suất để chiều cao của một cá nhân nằm trong khoảng từ 1.56m đến 1.80m là diện tích dưới dường phân phối giữa hai giá trị 1.56 và 1.80. Đối với một biến ngẫu nhiên liên tục X, thì hàm mật độ xác suất f(X) như sau:
(3.10) P(x1 X x2) =
5
Hàm mật độ xác suất của một biến ngẫu nhiên X có các tính chất sau đây:
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Tổng diện tích dưới đường f(x) bằng 1
P(x1 X x2) là diện tích dưới đường f(x) giữa x1 và x2, với x2 > x1.
Vì xác suất để một biến ngẫu nhiên nhận một giá trị nhất định bằng không, nên các công thức dưới đây là tương đương nhau:
(3.11) P(x1 X x2) = P(x1 X x2) = P(x1 X x2) = P(x1 X x2)
Hàm phân phối tích lũy của một biến ngẫu nhiên
Liên quan đến PMF hay PDF của một biến ngẫu nhiên X là hàm phân phối tích lũy của biến đó, được xác định như sau:
(3.12) F(X) = P(X x)
P(X x) nghĩa là xác suất để một biến ngẫu nhiên X có giá trị nhỏ thua hoặc bằng x, với x đã biết. CDF có các tính chất như sau:
F(-) = 0 và F(+) = 1
F(x) là một hàm không giảm, nghĩa là nếu x2 > x1, thì
F(x2) F(x1)
P(X k) = 1 – F(k)
P(x1 X x2) = F(x2) – F(x1)
BẢNG 3.4: Hàm phân phối xác suất tích lũy của một biến ngẫu nhiên
PDF CDF
Số mặt ngửa (X) 0 1 2 3 4 PDF 1/16 4/16 6/16 4/16 1/16 CDF 1/16 5/16 11/16 15/16 16/16 X 0 X < 1 1 X < 2 2 X < 3 3 X < 4 4 X X X 0 X 1 X 2 X 3 X 4
Nguồn: Gujarati, 2006, trang 37
Như vậy, CDF chỉ là tích lũy hay đơn giản là tổng của các PDF của các giá trị X nhỏ thua hoặc bằng x.
Các hàm mật độ xác suất đa biến
6
Ví dụ, một đại lý bán lẻ máy tính bán hai loại thiết bị là máy tính cá nhân và máy in. Số máy tính và máy in được
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
bán thay đổi giữa các ngày khác nhau, nhưng giám đốc đại lý đã thu thập doanh số của 200 ngày qua như trong bảng sau.
BẢNG 3.5: Phân phối tần suất của hai biến ngẫu nhiên X và Y
Tổng
Số máy in được bán (Y) 0 1 2 3 4 Tổng Số máy tính được bán (X) 2 4 12 20 10 2 48 3 4 4 10 20 10 48 1 6 10 4 2 2 24 4 2 2 10 20 30 64 0 6 4 2 2 2 16 22 32 40 54 46 200
Nguồn: Gujarati, 2006, trang 39
Bảng trên cho thấy trong 200 ngày có 30 ngày đại lý bán được 4 máy tính và 4 máy in, có 2 ngày bán được 4 máy tính nhưng không bán được máy in nào. Giải thích tương tự cho các con số còn lại. Đây là một ví dụ về phân phối tần suất kết hợp. Nếu chia từng con số trong bảng trên cho 200, ta sẽ có các tần suất tương đối.
BẢNG 3.6: Phân phối xác suất của hai biến ngẫu nhiên X và Y
Tổng 3 4 Số máy tính được bán (X) 2 1 0
Số máy in được bán (Y) 0 1 2 3 4 Tổng 0.03 0.03 0.02 0.02 0.01 0.11 0.02 0.05 0.06 0.02 0.01 0.16 0.01 0.02 0.01 0.05 0.05 0.23 0.01 0.01 0.05 0.10 0.10 0.27 0.01 0.01 0.01 0.05 0.05 0.23 0.08 0.12 0.24 0.24 0.32 1.00
Nguồn: Gujarati, 2006, trang 39
Do hai biến X và Y là các biến ngẫu nhiên rời rạc, nên bảng 3.6 được gọi là hàm phân phối xác suất kết hợp của hai biến ngẫu nhiên.
f(X,Y) = P(X = x và Y = y) (3.13)
= 0 khi X x và Y y
Hàm xác suất kết hợp có các tính chất sau:
f(X,Y) 0
7
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Hàm xác suất biên
Xác suất X nhận một giá trị nhất định bất kể Y nhận giá trị gì được gọi là xác suất biên của X, và phân phối của các xác suất này được gọi là hàm phân phối xác suất biên.
BẢNG 3.7: Phân phối xác suất biên của X và Y
X 0 1 2 3 4 Tổng f(X) 0.08 0.12 0.24 0.24 0.32 1.00. Y 0 1 2 3 4 f(Y) 0.11 0.16 0.23 0.27 0.23 1.00
Nguồn: Gujarati, 2006, trang 41
Từ bảng xác suất kết hợp giữa X và Y ta có thể tính các hàm xác suất biên như sau:
f(X) =
f(Y) =
Nếu hai biến X và Y là hai biến ngẫu nhiên liện tục thì ta sẽ thay ký hiệu tổng thành ký hiệu tích phân.
Hàm xác suất điều kiện
Giả sử ta muốn tìm xác suất có 4 máy in được bán nếu biết có 4 máy tính được bán trong này, và đó chính là xác suất có điều kiện. Hàm phân phối xác suất có điều kiện của một biến ngẫu nhiên có thể được định nghĩa như sau:
(3.14) F(YX) = P(Y=yX=x)
(3.15) F(XY) = P(X=xY=y)
Một công thức đơn giản để tính hàm phân phối xác suất có điều kiện sẽ như sau:
(3.16) F(YX) =
8
(3.17) F(XY) =
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
CÁC ĐẶC ĐIỂM CỦA PHÂN PHỐI XÁC SUẤT
Giá trị kỳ vọng: Thước đo định tâm
Giá trị kỳ vọng của một biến ngẫu nhiên rời rạc, ký hiệu là E(X), được định nghĩa như sau:
(3.18) E(X) = X =
Giá trị kỳ vọng của một biến ngẫu nhiên là trung bình có trọng số của các giá trị có thể có của biến đó, với xác suất của các giá trị này, f(X), đóng vai trò như các trọng số. Giá trị kỳ vọng của một biến ngẫu nhiên cũng được gọi là giá trị trung bình, mặc dù chính xác hơn là giá trị trung bình tổng thể.
Tính chất của giá trị kỳ vọng
(3.19) E(b) = b
(3.20) E(X+Y) = E(X) + E(Y)
(3.21) E(X/Y)
(3.22) E(XY) E(X)E(Y)
Nếu X và Y là hai biến ngẫu nhiên độc lập, thì
E(XY) = E(X)E(Y) (3.23)
(3.24) E(X2) [E(X)]2
(3.25) E(aX) = aE(X)
(3.26) E(aX+b) = aE(X) + b
Phương sai: Thước đo phân tán
Giá trị kỳ vọng của một biến ngẫu nhiên đơn giản chỉ cho biết trọng tâm của biến đó ở đâu chứ không cho biết các giá trị riêng lẻ của biến đó phân tán như thế nào xung quanh giá trị trung bình. Thước đo phổ biến nhất cho sự phân tán này là phương sai, và được định nghĩa như sau:
var(X) = (3.27) = E(X-x)2
9
var(X) = (3.28)
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Phương sai quá nhỏ
Phương sai quá lớn
X
Phương sai cho biết các giá trị X riêng lẻ được phân phối hay phân tán xung quanh giá trị trung bình như thế nào. Nếu các giá trị X phân tán rộng quanh giá trị trung bình thì phương sai sẽ tương đối lớn (xem Hình 3.3). Căn bậc hai của phương sai là độ lệch chuẩn, ký hiệu là x.
Tính chất của phương sai
Phương sai của một hằng số bằng không.
Nếu X và Y là hai biến ngẫu nhiên độc lập, thì
var(X+Y) = var(X) + var(Y) (3.29)
var(X-Y) = var(X) – var(Y)
Nếu b là hằng số, thì
var(aX) = a2var(X) (3.30)
Nếu a và b là hằng số, thì
var(aX+b) = a2var(X) (3.31)
Nếu X và Y là hai biến độc lập và a và b là hằng số, thì
10
var(aX+bY) = a2var(X) + b2var(Y) (3.32)
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Để tiện lợi cho việc tính toán, công thức phương sai cũng có thể được viết lại như sau:
var(X) = E(X2) – [E(X)]2 (3.33)
Hệ số biến thiên
Lưu ý rằng, vì độ lệch chuẩn (hay phương sai) phụ thuộc vào các đơn vị đo lường khác nhau, cho nên sẽ khó cho việc so sánh giữa các độ lệch chuẩn nếu chúng có các thước đo khác nhau. Để giải quyết vấn đề này, ta có thể sử dụng hệ số biến thiên (V) như sau:
V = (3.34)
Hiệp phương sai
Giả sử X và Y là hai biến ngẫu nhiên với E(X) = x và E(Y) = y, thì hiệp phương sai (cov) giữa hai biến sẽ như sau:
Cov(X,Y) = E[(X-x)(Y-y)]
(3.35) = E(XY) - xy
Hiệp phương sai giữa hai biến có thể dương, âm, hoặc bằng không. Nếu hai biến vận động theo cùng chiều, thì hiệp phương sai sẽ dương, nếu khác chiều, thì hiệp phương sai sẽ âm. Nếu hiệp phương sai giữa hai biến bằng không, thì có nghĩa là không có mối quan hệ tuyến tính nào giữa hai biến đó.
Ta có thể tính hiệp phương sai theo công thức sau đây:
cov(X,Y) =
= (3.36)
= E(XY) - xy
Tính chất của hiệp phương sai
Nếu X và Y là hai biến ngẫu nhiên độc lập, hiệp phương sai của chúng bằng không vì khi đó E(XY) = E(X)E(Y) = xy.
(3.37) cov(a+bX, c+dY) = bdcov(X,Y)
11
(3.38) cov(X,X) = var(X)
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Nếu X và Y là hai biến ngẫu nhiên nhưng không nhất thiết phải độc lập, thì công thức tính phương sai (3.29) được viết lại như sau:
var(X+Y) = var(X) + var(Y) + 2cov(X,Y) (3.39)
var(X-Y) = var(X) + var(Y) – 2cov(X,Y) (3.40)
Hệ số tương quan
Hệ số tương quan là thước đo mối quan hệ tuyến tính giữa hai biến ngẫu nhiên, nghĩa là nó cho biết hai đó có quan hệ với nhau như thế nào: mạnh hay yếu. Hệ số tương quan tổng thể (, rho) được xác định như sau:
(3.36) =
Tính chất của hệ số tương quan
Giống hiệp phương sai, hệ số tương quan có thể âm hoặc dương.
Hệ số tương quan là một thước đo mối quan hệ tuyến tính giữa hai biến.
(3.37) -1 1
Hệ số tương quan là một con số thuần túy không có đơn vị đo lường.
Nếu hai biến độc lập, hệ số tương quan bằng không.
Hệ số tương quan không hàm ý mối quan hệ nhân quả.
Kỳ vọng có điều kiện
Một khái niệm thống kê khác đặc biệt quan trọng trong phân tích hồi qui là khái niệm kỳ vọng có điều kiện.
(3.38) E(XY=y) =
Độ nghiêng và độ nhọn
Độ nghiêng và độ nhọn cho ta biết điều gì đó về hình dạng của phân phối xác suất. Độ nghiêng (S) là một thước đo sự mất cân xứng của đồ thị phân phối xác suất, và độ nhọn (K) là một thước đo độ cao hay thấp của đồ thị phân phối xác suất.
(3.39)
12
(3.40) Mô men thứ ba: E(X-x)3 Mô men thứ tư: E(X-x)4
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Đối xứng
Nghiêng trái
Nghiêng phải
X
S = (3.41)
Có ba khả năng xảy ra như sau:
Nếu S = 0, PDF đối xứng quanh giá trị trung bình
Nếu S > 0, PDF bị nghiêng phải
Nếu S < 0, PDF bị nghiêng trái
K = (3.42)
Có ba khả năng xảy ra như sau:
Nếu K = 3, PDF có độ nhọn chuẩn và được gọi là mesokurtic
Nếu K < 3, PDF có đuôi ngắn và được gọi là platykurtic
13
Nếu K > 3, PDF có đuôi dài và được gọi là leptokurtic
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Đuôi ngắn
Độ nhọn chuẩn
Đuôi dài
X
TỪ TỔNG THỂ ĐẾN MẪU
Trung bình mẫu
Trung bình mẫu của một biến ngẫu nhiên X có n quan sát được ký hiệu là (đọc là X ngang) và được định nghĩa như sau:
(3.43)
Trung bình mẫu được xem là một ước lượng của E(X), từ trung bình tổng thể. Một ước lượng đơn giản là một qui tắc, một công thức, hay một thống kê cho ta biết làm sao để ước lượng một đại lượng của tổng thể. Giả sử X có 7 quan sát với các giá trị như sau: 8, 9, 10, 11, 12, 13, 14. Vậy = 11, và con số 11 này được gọi là một giá trị ước lượng của trung bình tổng thể.
Thao tác với Eviews
14
Trên cửa sổ lệnh của Eviews ta nhập: scalar meanX=@mean(x)
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Phương sai mẫu
Phương sai mẫu được ký hiệu bằng , là ước lượng của
. Phương sai mẫu được định nghĩa
phương sai tổng thể như sau:
(3.44)
n-1 được gọi là số bậc tự do (d.f.). Bậc tự do là số nguồn thông tin (piece of information) về một biến ngẫu nhiên. Để hiểu khái niệm này, ta xét ví dụ sau đây.
BẢNG 3.8: Định nghĩa khái niệm bậc tự do
2
(X- (X-
Quan sát 1 2 3 4 5 6 7 X 8 9 10 11 12 13 14 Tổng -3 -2 -1 0 1 2 3 0 9 4 1 0 1 4 9 28
Nguồn: Tác giả Ta biết rằng tổng độ lệch luôn luôn bằng không1, nên để xem độ lệch của các giá trị X so với giá trị trung bình ta phải lấy độ lệch bình phương. Tổng của 7 độ lệch bình phương là 28, nhưng thực sự con số 28 này chỉ do 6 “nguồn” đóng góp, vì quan sát thứ tư trùng với giá trị trung bình. Như vậy, để xem độ lệch trung bình ta chỉ lấy 28 chia cho số nguồn thực sự tạo ra nó, tức 7-1 = 6. Vậy phương sai là 4.67 (là một giá trị ước lượng của phương sai tổng thể) và căn bậc hai của phương sai mẫu được gọi là độ lệch chuẩn mẫu (s.d.). Độ lệch chuẩn (2.16) được xem như một thước đo sấp xỉ cho trung bình của 6 độ lệch tuyệt đối ở trên. Mở rộng cho trường hợp một biến ngẫu nhiên liên tục.
Thao tác với Eviews
1 Chứng minh:
15
Trên cửa sổ lệnh của Eviews ta nhập: scalar varX=@var(x)
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Hiệp phương sai mẫu
Hiệp phương sai mẫu giữa hai biến ngẫu nhiên X và Y là ước lượng của hiệp phương sai tổng thể, và được định nghĩa như sau:
Cov(X,Y) = (3.45)
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập: scalar covXY=@cov(x,y)
Hệ số biến thiên mẫu
Hệ số biến thiên mẫu của X được xác định bằng công thức sau đây:
V =
(3.46)
Thao tác với Eviews
Trên cửa sổ lệnh của Eview ta nhập: scalar cvX=@stdev(x)/@mean(x)
Hệ số tương quan mẫu
Hệ số tương quan mẫu giữa hai biến ngẫu nhiên X và Y là ước lượng của hệ số tương quan tổng thể, và được định nghĩa như sau:
(3.47)
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập: scalar corXY=@cor(x,y)
Độ nghiêng và độ nhọn mẫu
Để tính độ nghiêng và độ nhọn mẫu, ta sử dụng các mô men mẫu thứ ba và thứ tư như sau:
Mô men thứ ba: (3.48)
16
Mô men thứ tư: (3.49)
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập:
scalar skewX=@skew (x)
scalar kurtX=@kurt(x)
MỘT SỐ PHÂN PHỐI XÁC SUẤT QUAN TRỌNG
Phân phối chuẩn
Kinh nghiệm cho thấy rằng phân phối chuẩn là một mô hình hợp lý cho một biến ngẫu nhiên liên tục với giá trị của nó phụ thuộc vào nhiều yếu tố, nhưng mỗi yếu tố chỉ có ảnh hưởng tương đối nhỏ lên giá trị của biến số đó. Phân phối chuẩn của một biến ngẫu nhiên X được thể hiện thông qua hai tham số cơ bản là giá trị trung bình và phương sai. Cụ thể như sau:
-3
-
3
-2
2
khoảng 68%
khoảng 95%
khoảng 99.7%
17
) (3.50) X ~ N(x,
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Tính chất của phân phối chuẩn
Đường phân phối chuẩn đối xứng quanh giá trị trung
bình x.
Hàm phân phối xác suất PDF của một biến ngẫu nhiên theo phân phối chuẩn cao nhất tại giá trị trung bình nhưng nhỏ dần về các cực trị của nó. Nghĩa là, xác suất để có một giá trị của một biến ngẫu nhiên theo phân phối chuẩn càng xa giá trị trung bình càng nhỏ.
Theo kinh nghiệm, khoảng 68% diện tích dưới đường phân phối chuẩn nằm giữa giá trị x±x, khoảng 95% diện tích nằm giữa x±2x, và khoảng 99.7% diện tích nằm giữa x±3x.
Một phân phối chuẩn được định nghĩa hoàn toàn bởi hai tham số x và . Một khi biết được hai tham số này thì ta có thể tính được xác suất của X nằm trong một khoảng nhất định theo công thức sau:
f(X) = (3.51)
Một kết hợp (hay một hàm) tuyến tính của hai hay nhiều biến ngẫu nhiên theo phân phối chuẩn sẽ theo phân phối chuẩn – đây là một tính chất đặc biệt quan trọng của phân phối chuẩn trong kinh tế lượng.
Đối với phân phối chuẩn, thì độ nghiêng S là 0 và độ nhọn K là 3.
Phân phối chuẩn hóa
18
Mặc dù một phân phối chuẩn hoàn toàn được xác định bằng hai tham số, giá trị trung bình và phương sai tổng thể, nhưng các phân phối chuẩn có thể khác nhau hoặc ở giá trị trung bình, hoặc phương sai, hoặc cả hai.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
1
2
Ta không thể so sánh các phân phối chuẩn có các tính chất khác nhau. Cho nên, người ta qui về cùng một biến chuẩn hóa Z như sau:
(3.52)
Theo tính chất của phân phối chuẩn, nếu X là một biến ngẫu nhiên có trung bình là x và phương sai là x, X ~ N(X, 2 X), thì Z là một kế hợp tuyến tính của X sẽ là một biến ngẫu nhiên có phân phối chuẩn với trung bình là không và phương sai là một, Z ~ N(0, 1)2.
2 Chứng minh: E(Z) = E
do E(X-x) = E(X) – E(x) = x - x = 0. Và Var(Z) =
E[Z-E(Z)]2 = E(Z2), do E(Z) = 0, vậy E(Z2) = E
19
Như vậy, bất kỳ một biến ngẫu nhiên theo phân phối chuẩn với một giá trị trung bình và phương sai nhất định đều có thể được chuyển đổi thành một biến chuẩn hóa, điều này giúp đơn giản hóa rất nhiều việc tính xác suất. Để hiểu vai trò của phân phối chuẩn hóa, ta xem xét ví dụ sau đây.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Giả sử X, số lượt khách du lịch quốc tế hàng ngày của một công ty du lịch, theo phân phối chuẩn với giá trị trung bình là 70 và phương sai là 9; nghĩa là, X ~ N(70,9). Hãy tính xác suất cho một ngày bất kỳ công ty có số khách du lịch quốc tế nhiều hơn 75 khách?
Ta thấy, do X theo phân phối chuẩn với giá trị trung bình và phương sai đã biết, nê ta có:
sẽ theo phân phối chuẩn hóa với trung bình bằng 0 và phương sai bằng 1. Thay vì tìm P(X > 75), ta có thể tìm P(Z > 1.67). Lưu ý, trong các sách thống kê và kinh tế lượng thường có kèm phụ lục bảng thống kê giá trị hàm phân phối xác suất tích lũy (CDF) hay giá trị xác suất tích lũy của phân phối chuẩn hóa giữa các giá trị Z = -3 và Z = 3 (tại sao?). Theo bảng thống kê này thì xác suất Z nằm từ -3 đến 1.67 là 0.95253. Cho nên,
P(Z > 1.67) = 1 – P(Z < 1.67) = 1 – 0.9525 = 0.0475
Vây xác suất để một ngày bất kỳ công ty có số lượt khách du lịch nhiều hơn 75 người là 4.75%.
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập:
Tóm lại, một biến ngẫu nhiên bất kỳ mà giá trị của nó phụ thuộc vào rất nhiều yếu tố, nhưng không có yếu tố nào có ảnh hưởng quyết định giá trị đó, thì biến ngẫu nhiên đó sẽ theo phân phối chuẩn4. Và bất kỳ một biến X có phân phối chuẩn với giá trị trung bình và phương sai đã biết thì đều có thể chuyển được sang biến chuẩn hóa Z có giá trị trung bình là 0 và phương sai là 1.
scalar probm167=1-@cnorm(1.67) = 0.0475
scalar probs167=@cnorm(1.67) = 0.9525
scalar probs_167=@cnorm(-1.67) = 0.0475
scalar Zval09525=@qnorm(0.9525) = 1.67
3 Nếu quí vị đang sử dụng máy vi tính mà lụi cụi tra bảng thống kê thì cô ấy nhà bên nhìn qua cười khúc khít đó. Hãy mở Excel ra là làm thế này: = NORMDIST(X, Mean, Standard_dev, Cumulative). Trong đó, “X” là giá trị cần tính xác suất tích lũy (1.67), “Mean” và “Standard_dev” ở đây lần lượt là trung bình (0) và độ lệch chuẩn (1) của biến X, và “Cumulative” có hai lựa chọn là “True” (đồng ý tính xác suất tích lũy) và “False” (không tính xác suất tích lũy). Ở trường hợp đang xét, ta chọn “True”. Ngược lại, nếu ta đã biết xác suất tích lũy, giá trị trung bình và phương sai thì ta dễ dàng tính giá trị của biến đó như sau: =NORMINV(0.9525,0,1) = 1.67. 4 Đây là cơ sở quan trọng cho việc giả định rằng hạn nhiễu ui có phân phối chuẩn (sẽ được nói đến ở bài giảng 6).
20
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Phân phối xác suất của trung bình mẫu
BẢNG 3.9: Định nghĩa biến trung bình mẫu và phương sai mẫu
Giả sử ta chọn ngẫu nhiên một mẫu với n quan sát gồm các giá trị X1, X2, …, Xn từ một tổng thể có cùng hàm phân phối xác suất. Nếu ta thực hiện m mẫu như thế thì giá trị trung bình mẫu sẽ là một biến ngẫu nhiên. Như vậy, vấn đề đặt ra là sẽ có phân phối như thế nào?
Giá trị trung bình mẫu Mẫu Giá trị của mẫu Phương sai mẫu
. . . 1 2 3 . . M X11 X12 . . . X1n X21 X22 . . . X2n X31 X32 . . . X3n . . Xm1 Xm2 . . . Xmn
Ví dụ, một tổng thể có phân phối chuẩn với giá trị trung bình là 10 và phương sai là 4, tức N(10,4). Từ tổng thể này ta thu thập 20 mẫu ngẫu nhiên với 20 quan sát/mẫu. Như vậy ta sẽ có các giá trị trung bình, như sau.
BẢNG 3.10: Phân phối xác suất của trung bình mẫu
Các trung bình Khoảng của trung bình mẫu Tần suất tuyệt đối Tần suất tương đối mẫu (
8.5 – 8.9 1 0.05
9.0 – 9.4 1 0.05
9.5 – 9.9 5 0.25
10.0 – 10.4 8 0.40
10.5 – 10.9 4 0.20
11.0 – 11.4 1 0.05
Tổng 20 1.00 9.641 10.040 9.174 10.840 10.480 11.386 9.740 9.937 10.250 10.334 ) 10.134 10.249 10.321 10.399 9.404 8.621 9.739 10.184 9.765 10.410
Nguồn: Gujarati, 2006, trang 86
Tổng của 20 giá trị trung bình là 201.05, ,
21
và var( ) = .
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
5.
, thì trung bình mẫu, ,cũng theo Lý thuyết thống kê cho rằng, nếu X1, X2, …, Xn là một mẫu ngẫu nhiên từ một tổng thể có phân phối chuẩn với trung bình x và phương sai
phân phối chuẩn với trung bình x nhưng phương sai
Nghĩa là,
) (3.53) ~ N(x,
Căn bậc hai của phương sai trung bình mẫu, , được gọi
5 Chứng minh: Do
nên ta có:
22
là sai số chuẩn (se) của , tương tự như khái niệm độ lệch chuẩn. Lưu ý, căn bậc hai của phương sai của một
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
biến ngẫu nhiên được gọi là độ lệch chuẩn (s.d.), và căn bậc hai của một ước lượng được gọi là sai số chuẩn (se).
Định lý giới hạn trung tâm
Như ta vừa phân tích, trung bình mẫu của một mẫu rút ra từ một tổng thể phân phối chuẩn cũng theo phân phối chuẩn (bất kể cở mẫu bao nhiêu). Vấn đề đặt ra là nếu các mẫu rút ra từ các tổng thể khác không theo phân phối chuẩn thì sao? Định lý giới hạn trung tâm cho rằng nếu X1, X2, …, Xn là một mẫu ngẫu nhiên từ bất kỳ tổng thể nào với trung bình là x và phương là , thì trung bình mẫu sẽ có xu hướng theo phân phối chuẩn với trung bình là x và
phương sai là khi cỡ mẫu tăng lên vô cùng6.
Phân phối t
6 Trên thực tế, cho dù phân phối xác suất nền tảng là gì, trung bình mẫu của một cở mẫu ít nhất có 30 quan sát sẽ có thể xấp xỉ chuẩn (Gujarati, 2006, pp.88).
23
Phân phối xác suất được sử dụng rất nhiều trong phần kinh tế lượng căn bản là phân phối t, cũng được gọi là phân phối t Student.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
), thì biến chuẩn hóa Z được định nghĩa Nếu ~ N(x,
như sau: Z = ~ N(0,1) nếu cả hai tham số x và
đều được biết. Nhưng giả sử ta chỉ biết x và giá trị
ước lượng của bởi ước lượng mẫu . Như vậy,
nếu thay bằng ta sẽ có một biến mới như sau:
t = (3.54)
t
24
Lý thuyết thống kê cho rằng biến t sẽ theo phân phối t với số bậc tự do là (n-1), đây là tham số duy nhất của phân phối t.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Tính chất của phân phối t
Giống như phân phối chuẩn, phân phối t đối xứng quanh giá trị trung bình.
Trung bình của phân phối t, giống như phân phối chuẩn hóa, là không, nhưng phương sai là k/(k-2), với k là số bậc tự do. Vì vậy, phương sai của phân phối t chỉ được xác định khi số bậc tự do d.f. > 2.
Để mimh họa ứng dụng của phân phối t trên thực tế ta xét tiếp ví dụ về số lượt khách du lịch quốc tế tại một công ty du lịch như đã đề cập. Biết rằng, trong giai đoạn 15 ngày qua, số lượt khách quốc tế trung bình một ngày là 72 và phương sai mẫu là 4. Hãy tính xác suất để có được số lượt khách trung bình đó, biết rằng giá trị trung bình thực là 70 khách một ngày?
Nếu biết độ lệch thực của tổng thể () thì ta có thể dễ dàng sử dụng phân phối chuẩn hóa để tính xác suất trên. Nhưng ở đây ta có S, là một ước lượng của , nên ta có thể sử dụng phân phối t như sau:
=1.9365
sẽ theo phân phối chuẩn hóa với trung bình bằng 0 và , ta có thể tìm phương sai bằng 1.17. Thay vì tìm P(t > 1.9365). Áp dụng hàm phân phối t7 cho trường hợp một đuôi ta có:
P(t > 1.9365) = 1 – P(t < 1.9365) = 0.0366
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập:
Vây xác suất để số lượt khách trung bình một ngày của công ty du lịch này là 3.66%.
scalar probm19365=1-@ctdist(1.9365,14) = 0.0366
scalar probs19365=@ctdist(1.9365,14) = 0.9634
scalar probs_19365=@ctdist(-1.9365,14) = 0.0366
scalar tval09634=@qtdist(0.9634,14) = 1.9365
7 Hàm phân phối xác suất t trên Excel là: =TDIST(X, Deg_freedom, Tails). “X” nghĩa là giá trị t cần tính xác suất (1.9365), nghĩa là diện tích dưới đường phân phối t từ t đến + (ta sẽ biết đây chính là vùng bác bỏ giả thiết H0). “Deg_freedom” là số bậc tự do (14). “Tails” có hai lựa chọn: “1” (một đuôi), và “2” (hai đuôi). Giá trị xác suất ta tính được từ công thức này chính là P-Value (sẽ được giới thiệu ở bài giảng 4). Nếu ta đã biết mức ý nghĩa (sẽ được trình bày ở bài giảng 4) và số bậc tự do, ta sẽ tìm được giá trị t theo công thức sau: =TINV(Probability, Deg_freedom). Ví dụ, =TINV(3.66%,14) = 1.9365. Lưu ý, Phụ lục B ở cuối bài giảng 3 sẽ hướng dẫn cách vẽ đồ thị phân phối t bằng Excel.
25
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Phân phối xác suất Chi bình phương (2)
Ta đã xác định phân phối xác suất của trung bình mẫu, ,
vậy còn phương sai mẫu, sẽ có phân phối như
thế nào? Phân phối xác suất cần cho mục đích này chính là phân phối xác suất Chi bình phương (2), cũng là một phân phối có mối quan hệ rất gần với phân phối chuẩn. Lưu ý, giống như trung bình mẫu, phương sai mẫu cũng thay đổi từ mẫu này qua mẫu khác. Cho nên, giống như trung bình mẫu, phương sai mẫu cũng là một biến ngẫu nhiên.
Ta biết rằng nếu một biến ngẫu nhiên X theo phân phối
, chuẩn với trung bình là x và phương sai là
), thì biến chuẩn hóa Z~N(0,1). Lý thuyết thống X~N(x, kê cho rằng bình phương của một biến chuẩn hóa có phân phối Chi bình phương (2) với một bậc tự do. Ký hiệu như sau:
(1)
(3.55) Z2 ~ 2
Giống như phân phối t, bậc tự do là tham số của phân phối Chi bình phương (2). Ở phương trình (3.55) chỉ có một bậc tự do vì ta đang xét bình phương của một biến chuẩn hóa8.
Giả sử Z1, Z2, …, Zk là các biến chuẩn hóa độc lập (mỗi biến Z là một biến ngẫu nhiên có phân phối chuẩn với trung bình bằng 0 và phương sai bằng 1). Nếu ta lấy bình phương từng biến này, thì tổng của các biến Z bình phương này cũng theo phân phối Chi bình phương với k bậc tự do.
8 Bậc tự do trong phân Chi bình phương bằng số biến ngẫu nhiên được lấy bình phương
26
(3.56)
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Tính chất của phân phối 2
Khác phân phối chuẩn, phân phối Chi bình phương9 chỉ có giá trị dương từ 0 đến vô cùng.
Khác phân phối chuẩn, phân phối Chi bình phương là một phân phối nghiêng, độ nghiêng của phân phối phụ thuộc vào số bậc tự do. Khi bậc tự do thấp, phân phối Chi bình phương bị nghiêng phải, nhưng khi bậc tự do tăng lên, phân phối sẽ đối xứng và dần về phân phối chuẩn.
9 Hàm phân phối xác suất Chi bình phương trên Excel là: =CHIDIST(X, Deg_freedom). “X” nghĩa là giá trị 2 cần tính xác suất (ví dụ 6), nghĩa là diện tích dưới đường phân phối Chi bình phương từ 2 đến + (ta sẽ biết đây chính là vùng bác bỏ giả thiết H0). “Deg_freedom” là số bậc tự do (ví dụ 2). Giá trị xác suất ta tính được từ công thức này (4.98%) chính là P-Value. Nếu ta đã biết mức ý nghĩa (sẽ được trình bày ở bài giảng 4) và số bậc tự do, ta sẽ tìm được giá trị 2 theo công thức sau: =CHIINV(Probability, Deg_freedom). Ví dụ, =CHIINV(4.98%,2) =6. Lưu ý, Phụ lục C ở cuối bài giảng 3 sẽ hướng dẫn cách vẽ đồ thị phân phối 2 bằng Excel.
27
Giá trị trung bình của một biến ngẫu nhiên theo phân phối Chi bình phương là k và phương sai là 2k (k là số bậc tự do). Đây là một tính chất đáng chú ý của phân phối Chi bình phương vì phương sai gấp đôi giá trị trung bình.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Nếu Z1 và Z2 là hai biến có phân phối Chi bình phương độc lập với k1 và k2 bậc tự do, thì (Z1+Z2) cũng là một biến có phân phối chi bình phương với bậc tự do là (k1+k2).
Tóm lại, đây là một phân phối rất hay sử dụng trong phân tích kinh tế lượng cho các biến ngẫu nhiên dạng bình phương như kiểm định JB, kiểm định phương sai của hạn nhiễu, các kiểm định phần dư sử dụng phương trình hồi qui phụ (nR2), …
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập:
scalar probm6=1-@cchisq(6,2) = 0.0498
scalar probs6=@cchisq(6,2) = 0.9502
scalar chival09502=@qchisq(0.9502,2) = 6
Phân phối F
Một phân phối xác suất khác cũng rất quan trọng trong kinh tế lượng là phân phối F với ý tưởng như sau. Giả sử X1, X2, …, Xm là một mẫu ngẫu nhiên với cỡ mẫu m từ một tổng thể có phân phối chuẩn với trung bình X và 2 X; và Y1, Y2, …, Yn là một mẫu ngẫu nhiên với cỡ mẫu n từ một tổng thể phân phối chuẩn vớn trung bình Y và phương sai 2 Y. Giả sử hai mẫu độc này lập nhau và được lấy từ hai tổng thể có phân phối chuẩn. Giả sử ta muốn xem phương sai của hai tổng thể trên có giống nhau hay không (2 X = 2 Y). Do ta không thể quan sát trực tiếp phương sai tổng thể nên ta suy ra từ các ước lượng phương sai như sau:
X =
S2 (3.57)
Y =
S2 (3.58)
Bây giờ ta xét tỷ số sau đây:
F = (3.59)
28
Các phương sai càng khác nhau thì tỷ số F càng lớn. Phân phối F phụ thuộc vào hai tham số là bậc tự do của tử (m- 1) và bậc tự do của mẫu (n-1).
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Đặc điểm của phân phối F
Giống phân phối chi bình phương, phân phối F10 cũng bị nghiêng phải và nằm trong khoảng từ 0 đến vô cùng.
Giống phân phối t và phân phối chi bình phương, phân phối F sẽ dần về phân phối chuẩn khi k1 và k2 tăng lên vô cùng.
Bình phương của một biến ngẫu nhiên có phân phối t với k bậc tự do sẽ có phân phối F với 1 và k bậc tự do.
(3.60)
Đây là một tính chất có ý nghĩa rất quan trọng trong phần phân tích hồi qui bội.
Cũng như mối quan hệ giữa phân phối t và F, cũng có mối quan hệ giữa phân phối F và phân phối chi bình phương như sau.
(3.61) khi n F(m,n) =
Tóm lại, phân phối F rất quan trọng trong kinh tế lượng khi chúng ta thực hiện phân tích phương sai (ANOVA) và kiểm định các biến dưới dạng tỷ số giữa các phương sai ví dụ kiểm định giả thiết đồng thời, kiểm định Wald, kiểm định Chow, kiểm định nhân quả Granger, …
10 Hàm phân phối xác suất F trên Excel là: =FDIST(X, Deg_freedom1, Deg_freedom2). “X” nghĩa là giá trị F cần tính xác suất (ví dụ 4), nghĩa là diện tích dưới đường phân phối F từ F đến + (ta sẽ biết đây chính là vùng bác bỏ giả thiết H0). “Deg_freedom1” là số bậc tự do của tử số (ví dụ 2). “Deg_freedom2” là số bậc tự do của mẫu số (ví dụ 14). Giá trị xác suất ta tính được từ công thức này (4.23%) chính là P-Value (sẽ được giới thiệu ở bài giảng 4). Nếu ta đã biết mức ý nghĩa và số bậc tự do của tử và mẫu số, ta sẽ tìm được giá trị F theo công thức sau: =FINV(Probability, Deg_freedom1, Deg_freedom2). Ví dụ, =FINV(4.23%,2,14) = 4.
29
Ngoài ra, quí vị có thể tham khảo thêm các loại phân phối khác như phân phối beta, phân phối nhị thức, phân phối Gama, phối Poisson, phân phối Weibull, … trong các tài liệu chuyên về thống kê, ví dụ Hoàng Trọng (2007), và phần trợ giúp trong Eviews (statistical distribution functions). Do các loại phân phối này ít sử dụng trong chương trình kinh tế lượng cơ bản nên cuốn sách này sẽ không đề cập.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Thao tác với Eviews
Trên cửa sổ lệnh của Eviews ta nhập:
scalar probm4=1-@cfdist(4,2,14) = 0.0423
scalar probs4=@cfdist(4,2,14) = 0.9577
30
scalar fval09577=@qfdist(0.9577,2,14) = 4
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
ĐẠI SỐ MA TRẬN
Một số khái niệm
Ma trận
Ma trận A có M dòng và N cột thường được ký hiệu gọn là [aij] có thể được thể hiện như sau:
Thao tác với Eviews
Để tạo ma trận A, thì trên cửa sổ lệnh của Eviews ta nhập: matrix(2,3) matrixA
Sau đó nhập giá trị các thành tố của ma trận A như sau:
Trong đó aij là thành tố ở dòng thứ i và cột thứ j của ma trận A. Trong mô hình hồi qui cổ điển, ma trận X được gọi là ma trận M dòng và N cột. Để dễ dàng nhận biết số bậc của một ma trận, người ta thường ký hiệu số dòng và cột của ma trận đó như sau:
matrixA.fill 2, 6, 3, 1, 5, 3
Vectơ cột
Một ma trận có M dòng và chỉ một cột được gọi là một vectơ cột, và được minh họa như sau:
Trong mô hình hồi qui cổ điển, các ma trận dạng vectơ cột là ma trận biến phụ thuộc Y, ma trận hệ số hồi qui B, và ma trận hạng nhiễu u.
Thao tác với Eviews
Để tạo vectơ cột Y, thì trên cửa sổ lệnh của Eviews ta nhập: vector(4) vectorY
31
Sau đó nhập giá trị các thành tố của vectơ Y như sau: vectorY.fill 3, 4, 5, 9
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Vectơ dòng
Một ma trận có một dòng và N cột được gọi là một vectơ dòng, và được minh họa như sau:
Thao tác với Eviews
Để tạo vectơ dòng Z, thì trên cửa sổ lệnh của Eviews ta nhập: rowvector(5) vectorZ
Sau đó nhập giá trị các thành tố của vectơ Z như sau: vectorZ.fill 2, 5, -4, 10, 17
Ma trận chuyển vị
Ma trận chuyển vị của ma trận A với M dòng và N cột, được ký hiệu là A’ là một ma trận có N dòng và M cột có được bằng cách thay đổi dòng và cột của ma trận A như sau:
Thao tác với Eviews
Để tạo ma trận chuyển vị (AT) của ma trận A, thì trên cửa sổ lệnh của Eviews ta nhập:
matrix AT @transpose(A)
Do vectơ là một loại ma trận đặc biệt, nên chuyển vị một vectơ dòng là một vectơ cột và ngược lại.
Ma trận con
32
Ma trận A có 3 dòng, 3 cột, giả sử bỏ đi dòng và cột thứ 3 của ma trận A, ta sẽ có ma trận B với 2 dòng, 2 cột. B được gọi là ma trận con của ma trận A.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Các loại ma trận
Ma trận vuông
Ma trận có số dòng và số cột bằng nhau được gọi là ma trận vuông, như ma trận A và ma trận B ở trên.
Ma trận đường chéo
Một ma trận vuông với ít nhất một thành tố khác không trên đường chéo chính và các thành tố khác có giá trị không được gọi là ma trận đường chéo.
Ma trận vô hướng
Một ma trận đường chéo với các thành tố trên đường chéo đều giống nhau được gọi là ma trận vô hường. Ma trận vô hướng hay gặp trong kinh tế lượng là ma trận phương sai - hiệp phương sai của hạn nhiễu trong mô hình hồi qui tuyến tính cổ điển như sau:
Ma trận đơn vị
Một ma trận với các thành tố trên đường chéo đều bằng 1 được gọi là ma trận đơn vị, được ký hiệu là I. Ma trận đơn vị là một trường hợp đặc biệt của ma trận vô hường.
Toán tử ma trận
Phép cộng ma trận
Ta có A = [aij] và B = [bij]. Nếu A và B là các ma trận có cùng bậc, thì phép cộng ma trận được định nghĩa như sau:
33
A + B = C
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Trong đó, C có cùng số bậc với A và B và được tính như sau cij = aij + bij cho tất cả các i và j; nghĩa là, C được tính bằng cách cộng các thành tố tương ứng của A và B. Ví dụ:
Và C = A + B thì:
Thao tác với Eviews
Để thực hiện phép cộng hai ma trận A và B, thì trên cửa sổ lệnh của Eviews ta nhập:
matrix matrixC=A+B
Phép trừ ma trận
Phép trừ ma trận cũng được thực hiện theo một nguyên tắc như phép cộng ma trận (C = A – B); nghĩa là, ta trừ các thành tố của A cho các thành tố tương ứng của C.
Thao tác với Eviews
Để thực hiện phép trừ hai ma trận A và B, thì trên cửa sổ lệnh của Eviews ta nhập:
matrix matrixC=A-B
Tích vô hướng
Để nhân một ma trận A với một vô hướng , ta nhân mỗi thành tố của ma trận A với như sau:
A = [aij]
Ví dụ, nếu = 2 và , thì A =
Thao tác với Eviews
Để thực hiện phép nhân một số k và ma trận A, thì trên cửa sổ lệnh của Eviews ta nhập: matrix matrixD=k*A
Phép nhân ma trận
34
Giả sử ta có A là một ma trận M dòng, N cột, và B là một ma trận N dòng, P cột. Thì ma trận C = AB sẽ là một ma trận có M dòng và P cột như sau:
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
i = 1, 2, … M và j = 1, 2, …, P
Nghĩa là, thành tố ở dòng thứ i và cột thứ j của ma trận C được tính bằng cách nhân các thành tố của dòng thứ i của ma trận A với các thành tố tương ứng của cột j của ma trận B và cộng tất cả các tích đó lại. Xem ví dụ sau đây11:
A*B =
Thao tác với Eviews
Để nhân ma trận A và B, thì trên cửa sổ lệnh của Eviews ta nhập: matrix AB=A*B
Lưu ý:
AB BA
Tích của một vectơ dòng và một vectơ cột là một vô hướng
= u’u = [u1 u2 … un]
Tích của một vectơ cột và một vectơ dòng là một ma trận
11 Thực hiện phép nhân ma trận trên Excel như sau: Giả sử trong bảng tính Excel ma trận A đang ở vị trí A1:C2, và B đang ở vị trí A4:B6. Bước một, ta chọn khối vị trí sẽ đặt ma trận C (giả sử D4: E5). Bước hai, tại ô đầu tiên của ma trận C (tức ô D4) ta nhập công thức =MMULT(A1:C2, A4:B6). Bước ba, nhấn phím F2, sau đó giữ đồng phím Ctrl+Shift, và cuối cùng là nhấn phím Enter.
35
uu’ = [u1 u2 … un] =
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Nếu AMN, BNP, CPK, thì (AB)C = A(BC) và A(B + C) = AB + AC và (B+C)A = BA + CA
Phép chuyển vị ma trận
Phép chuyển vị ma trận có các tính chất như sau:
(A’)’ = A
C = A + B và C’ = (A + B)’ = A’ + B’
(AB)’ = B’A’ và (ABCD)’ = D’C’B’A’
I’ = I
’ =
(A)’ = A’ = A’’ = A’
Nếu A là một ma trận vuông và A = A’, thì A là một ma trận đối xứng
Phép nghịch đảo ma trận
được Nghịch đảo của một ma trận vuông A, ký hiệu là định nghĩa như sau:
A = A = I
Xem ví dụ sau đây12:
và thì
Thao tác với Eviews
Để tìm ma trận nghịch đảo (AI) của ma trận A, thì trên cửa sổ lệnh của Eviews ta nhập: matrix AI=@inverse(A)
Ma trận nghịch đảo có các tính chất sau đây:
12 Thực hiện phép nhân ma trận trên Excel như sau: Giả sử trong bảng tính Excel ma trận A đang ở vị trí A1:C2. Bước một, ta chọn khối vị trí sẽ đặt ma trận A-1 (giả sử A4: B5). Bước hai, tại ô đầu tiên của ma trận A-1 (tức ô A4) ta nhập công thức =MINVERSE (A1:C2). Bước ba, nhấn phím F2, sau đó giữ đồng phím Ctrl+Shift, và cuối cùng là nhấn phím Enter.
36
(AB)-1 = B-1A-1 (A-1)’ = (A’)-1
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Định thức ma trận
Tương ứng với mỗi ma trận vuông, A, là một con số nhất định được gọi là định thức của ma trận. Định thức của ma trận A thường được ký hiệu là det A hay . Ví dụ,
và
Việc tính giá trị định thức đối với ma trận 2 dòng 2 cột tương đối đơn giả bằng cách lấy tích của hai thành tố trên đường chéo chính trừ tích của hai thành tố trên đường chéo phụ (a11a22 - a12a21). Tuy nhiên, việc tính giá trị định thức của các ma trận nhiều dòng và nhiều cột (ví dụ 3 dòng 3 cột, hay 5 dòng 5 cột) sẽ trở nên khó khăn và luôn làm nhiều sinh viên cảm thấy sợ hãi! Tuy nhiên, việc tính giá trị định thức trên Excel thực ra là một việc hết sức nhẹ nhàng. Ví dụ, trên bảng tính Excel giá trị các thành tố của ma trận A nằm trong khối A1:C3, ta chỉ cần đánh công thức =MDETERM(A1:C3) vào một ô nào đó thì ta sẽ biết giá trị của định thức A là 116.
Thao tác với Eviews
Để tính định thức của ma trận A, thì trên cửa sổ lệnh Eviews ta nhập:
scalar detA=@det(A)
Một ma trận có giá trị định thức là không được gọi là ma trận suy biến và một ma trận có giá trị định thức khác không được gọi là ma trận không suy biến. Dĩ nhiên, một ma trận suy biến thì không thể có ma trận nghịch đảo. Tính chất này rất quan trọng khi chúng ta phân tích trường hợp đa cộng tuyến hoàn hảo. Một ma trận suy biến có nghĩa là dòng (hay cột) này là một hàm tuyến tính của dòng (hay cột) khác trong ma trận đó.
Nếu tất cả các thành tố của bất kỳ một dòng nào của ma trận đều bằng không, thì giá trị định thức sẽ bằng không.
Đảo vị trí của hai dòng hay hai cột bất kỳ nào sẽ làm
Các tính chất cần lưu ý của định thức ma trận:
37
thay đổi dấu của định thức.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Nếu mỗi thành tố của một dòng hay một cột của ma trận được nhân với một vô hướng , thì giá trị định thức sẽ tăng thên lần.
Nếu hai dòng hay hai cột của ma trận là giống nhau,
Nếu một dòng hay cột của ma trận là bội số của một dòng hay một cột khác thì giá trị định thức sẽ bằng không (nói cách khác, nếu một dòng hay một cột là một kết hợp tuyến tính của các dòng hay các cột khác thì giá trị định thức sẽ bằng không).
thì giá trị định thức sẽ bằng không.
Điều kiện:
(adjA) là chuyển vị của ma trận phụ hợp của A
Tìm nghịch đảo của ma trận vuông
38
Ở đây ta không trình bày chi tiết (adjA) hay ma trận phụ hợp, mà chỉ muốn làm rõ ý tưởng cơ bản rằng nếu ma trận A có giá trị định thức bằng không thì ta không thể xác định được ma trận nghịch đảo của nó được.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
SUY DIỄN THỐNG KÊ LÀ GÌ?
BẢNG 3.11: ROE của 30 công ty trên Sở giao dịch chứng khoán TP.HCM
Suy diễn thống kê là việc nghiên cứu mối quan hệ giữa một tổng thể và một mẫu được lấy ra từ tổng thể đó. Để hiểu rõ khái niệm này, ta xem xét ví dụ cụ thể sau đây về ROE (suất sinh lợi trên vốn chủ sở hữu, %) trên Sở giao dịch chứng khoán TP.HCM.
ROE 13.7 29.2 41.9 14.1 22.8 17.4 19.7 29.3 11.1 22.9 13.0 17.6 19.0 34.8 32.5 Công ty VFC VGP VHC VHG VIC VIS TSC VNE VNM VPL VSC VSH BMC VTB VTO
Công ty ABT SC5 SFI BHS BMP DHA DHG DQC ITA PAC REE SGH STB TAC UNI Trung bình = 22.2 ROE 13.2 10.5 32.5 16.8 14.6 12.6 44.3 16.6 22.3 8.1 26.1 12.7 56.2 11.2 30.2 Độ lệch = 11.5 Phương sai = 131.9
Nguồn: Tác giả tổng hợp, 2008
39
Giả sử quan tâm chính của ta không phải là ROE của một công ty nhất định nào đó, mà là ROE trung bình của toàn bộ chứng khoán niêm yết trên thị trường TP.HCM. Trên nguyên tắc, việc thu thập dữ liệu tỷ số ROE của 152 công ty niêm yết để tính ROE trung bình là hoàn toàn có thể thực hiện được, nhưng thực tế, việc làm này rất tốn thời gian và chi phí (giả sử trong tương lai có thêm rất nhiều công ty niêm yết thì sao?). Cho nên liệu ta có thể sử dụng ROE trung bình của 30 công ty như một giá trị ước lượng của ROE trung bình tổng thể hay không. Cụ thể, nếu ta đặt X = ROE của một chứng khoán và là ROE trung bình của 30 chứng khoán, thì liệu ta có thể nói gì về giá trị kỳ vọng của ROE, E(X) của toàn bộ thị trường chứng khoán TP.HCM hay không. Quá trình khái quát hóa từ giá trị mẫu, ví dụ , cho giá trị tổng thể, E(X), là nội dung chủ yếu
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
của suy diễn thống kê. Ta sẽ thảo luận chi tiết chủ đề này.
Việc thu thập thông tin về tất cả các ROE của cả thị trường chứng khoán để tính ROE trung bình là rất tốn kém, nên ta có thể thu thập một mẫu ngẫu nhiên một số chứng khoán để tính ROE trung bình mẫu, . là ước lượng của ROE trung bình tổng thể, E(X), và cũng được gọi là tham số tổng thể. Một giá trị bằng số của ước lượng được gọi là một giá trị ước lượng. Vì thế, ước lượng là bước đầu tiên của suy diễn thống kê. Sau khi đã có giá trị ước lượng của tham số, ta cần phải tìm hiểu xem giá trị đó có phải là một giá trị ước lượng tốt cho tham số tổng thể hay không, vì một giá trị ước lượng có thể không bằng giá trị tham số thực.
Bước thứ hai của suy diễn thống kê là kiểm định giả thiết. Trong kiểm định giả thiết ta có thể đã có phán đoán hay kỳ vọng trước về giá trị của một tham số nhất định. Ví dụ, dựa vào kiến thức đã có hoặc ý kiến chuyên gia ta có thể biết ROE trung bình thực của thị trường là 17.4. Như vậy, giá trị 22.2 từ mẫu 30 công ty có khác về mặt thống so với giá trị 17.4 hay không.
ƯỚC LƯỢNG CÁC THAM SỐ
Thông thường, một biến ngẫu nhiên X được cho rằng sẽ theo một phân phối nhất định, nhưng ta không biết giá trị các tham số của phân phối đó. Chẳng hạn, nếu X theo phân phối chuẩn, ta muốn biết giá trị của hai tham số trung bình . Để ước lượng các tham số này, E(X) = x và phương sai qui trình thông thường là lấy một mẫu ngẫu nhiên với n quan sát từ một phân phối xác suất đã biết và sử dụng mẫu để ước lượng các tham số chưa biết. Vì thế, ta có thể sử dụng trung bình mẫu như một giá trị ước lượng của trung bình tổng thể và phương sai mẫu như một giá trị ước lượng của phương sai tổng thể. Qui trình này được gọi là vấn đề ước lượng. Vấn đề ước lượng được chia thành hai loại: ước lượng điểm và ước lượng khoảng.
40
Để cụ thể hóa ý tưởng này, giả sử biến ngẫu nhiên X (ROE) là một biến có phân phối chuẩn với một giá trị trung bình và một giá trị phương sai nhất định, nhưng ta không biết giá trị của các tham số này. Giả sử ta có một
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
mẫu ngẫu nhiên gồm 30 ROE từ một tổng thể có phân phối chuẩn như Bảng 3.11.
Ta có thể sử dụng mẫu này để tính giá trị trung bình
tổng thể x = E(X) và phương sai tổng thể như thế nào. Cụ thể hơn, giả sử quan tâm của ta bây giờ là tìm giá trị trung bình x. Ta thấy rằng giá trị trung bình mẫu, , là 22.2. Ta gọi 22.2 là giá trị ước lượng điểm của x, và
công thức được dùng để tính giá trị ước lượng điểm
được gọi là ước lượng điểm. Lưu ý rằng ước lượng điểm là một biến ngẫu nhiên vì giá trị của nó sẽ khác nhau ở các mẫu khác nhau. Vì thế, làm sao có thể tin một giá trị cụ thể như 22.2 là giá trị ước lượng của x. Nói cách khác, làm thế nào ta có thể chỉ dựa vào một giá trị ước lượng của trung bình tổng thể. Tuy nhiên, có vẻ tốt hơn nếu cho rằng một khoảng giá trị nào đó có chứa trung bình tổng thể. Đó là ý tưởng của khái niệm ước lượng khoảng. Ước lượng khoảng là một khoảng các giá trị sẽ chứa giá trị thực của tổng thể với một mức tin cậy nhất định.
Ý tưởng nền tảng của ước lượng khoảng là khái niệm phân phối mẫu của một ước lượng. Giả sử, một biến ngẫu nhiên X có phân phối chuẩn, X~ N(X, 2), thì
) (3.62) ~ N(X,
Z = ~ N(0, 1) (3.63)
Điều này có nghĩa rằng phân phối mẫu của trung bình mẫu cũng theo phân phối chuẩn. Nếu X không theo phân phối chuẩn, thì theo định lý giới hạn trung tâm sẽ theo phân phối chuẩn nếu cỡ mẫu đủ lớn.
Tuy nhiên, do không biết giá trị phương sai , nhưng
ta có thể sử dụng ước lượng của nó là thì
t = ~ td.f.=(n-1) (3.64)
41
theo phân phối t với (n-1) bậc tự do, (d.f.).
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Để biết phương trình (3.64) được sử dụng như thế nào cho ước lượng khoảng của giá trị trung bình tổng thể x của ROE, ta sử dụng Bảng A2 với bậc tự do là 29 như sau:
-2.045
2.045
(3.65) P(-2.045 t 2.045) = 0.95
Với d.f. = 29, xác suất là 0.95 (hay 95%), thì khoảng (- 2.045, 2.045) sẽ chứa giá trị t tính từ công thức (4.3). Các giá trị t trên được gọi là các giá trị t phê phán (critical t values) sẽ cho biết phần trăm diện tích dưới đường phân phối t giữa hai giá trị phê phán này. Trong đó, t = -2.045 được gọi là giá trị t phê phán chặn dưới (lower critical t value) và t = 2.045 được gọi là giá trị t phê phán chặn trên (upper critical t value).
Thế giá trị t từ (3.64) vào (3.65) ta có:
(3.66) P(-2.045 2.045) = 0.95
42
P( - 2.045 ) = 0.95 (3.67) X + 2.045
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Phương trình (3.67) là một ước lượng khoảng (interval estimator) của trung bình tổng thể x.
( Trong thống kê, phương trình (3.67) được gọi là 95% khoảng tin cậy (confidence interval) cho giá trị thực nhưng không biết trung bình tổng thể x và 0.95 được gọi là hệ số tin cậy (confidence coefficient). Nói cách khác, phương trình (3.66) cho biết 95% khoảng ngẫu nhiên chứa giá trị trung bình thực x. ( được gọi là giới hạn dưới của khoảng và
43
( là giới hạn trên.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Lưu ý rằng khoảng ở phương trình (3.67) là một khoảng
, mà hai đại lượng ngẫu nhiên vì nó phụ thuộc vào và
này khác nhau ở các mẫu khác nhau. Nhưng trung bình tổng thể x, dù không biết, nhưng thực ra là một con số cố định và vì thế không ngẫu nhiên. Cho nên, sẽ không đúng nếu nói rằng xác suất 95% x nằm trong khoảng này, mà phải nói rằng xác suất 95% khoảng ngẫu nhiên chứa x.
Quay lại ví dụ ở trên với n = 30, = 22.2, và Sx = 11.5 thì ta xác định khoảng ngẫu nhiên như sau:
22.2 -
(3.68) 17.91 26.49
Phương trình (3.68) cho rằng nếu ta xây dựng được các khoảng phương trình (3.68), thì trong 100 lần, có 95 khoảng như vậy sẽ chứa giá trị x thực. Hãy cẩn thận, không thể nói rằng xác suất là 95% một khoảng nhất định trong phương trình (3.68) chứa x.
Thao tác với Eviews (trên cửa sổ lệnh)
Giá trị trung bình mẫu của ROE: scalar ROEmean=@mean(roe) = 22.2
Giá trị t phê phán: scalar tc95=@qtdist(0.975,29) = 2.045
Độ lệch chuẩn của ROE: scalar stdevROE=@stdev(roe) = 11.5
Số quan sát của mẫu: scalar obs=@obs(roe) = 30
Giá trị chặn dưới của ROE: scalar ROE_lb=ROEmean-tc95*stdevROE/obs
Giá trị chặn trên của ROE: scalar ROE_ub=ROEmean+tc95*stdev/obs
* Lưu ý: Khi quí vị đã quen các hàm trên Eviews, quí vị có thể xây dựng một các trực tiếp chứ không cần thực hiện từng thao tác riêng như thế này.
KIỂM ĐỊNH GIẢ THIẾT
44
Sau khi đã xem xét nhánh ước lượng của suy diễn thống kê, bây giờ chúng ta sẽ xem xét chi tiết hơn nhánh thứ hai của nó là kiểm định giả thiết. Trở lại ví dụ về ROE ở trên, thay vì tìm khoảng tin cậy cho x, giả sử ta giả thiết rằng giá trị thực X bằng một giá trị bằng số cụ thể, ví dụ X = 17.4. Công việc của ta bây giờ là kiểm
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
định giả thiết này. Ta sẽ kiểm định giả thiết này như thế nào – đó là ủng hộ hay bác bỏ nó?
Theo ngôn ngữ kiểm định giả thiết thì một giả thiết như x = 17.4 được gọi là giả thiết không và được ký hiệu là H0. Như vậy, H0: x = 17.4. Giả thiết không luôn được kiểm định ngược lại với giả thiết khác, ký hiệu là H1. Giả thiết khác có thể dưới một số hình thức khác nhau như sau:
H1: x > 17.4, đây là giả thiết khác một phía hay một đuôi
H1: x < 17.4, cũng là giả thiết khác một phía hay một đuôi
H1: x 17.4, đây được gọi là giả thiết khác kết hợp, hai phía, hay hai đuôi.
Để kiểm định H0, ta sử dụng dữ liệu mẫu và lý thuyết thống kê để xây dựng các qui tắc quyết định nhằm xem chứng cứ của mẫu có ủng hộ giả thiết không hay không. Nếu chứng cứ mẫu ủng hộ giả thiết không, ta không bác bỏ H0, ngược lại, ta bác bỏ H0, điều này cũng có nghĩa ta chấp nhận giả thiết H1.
Vấn đề đặc ra là chúng ta xây dựng các qui tắc quyết định này như thế nào? Có hai cách tiếp cận kiểm định có tính bổ sung cho nhau: (i) Khoảng tin cậy, và (ii) Kiểm định ý nghĩa. Chúng tả sử dụng ví dụ về ROE để minh họa cho các phương pháp kiểm định này. Giả sử ta có các giả thiết kiểm định như sau:
H0: x = 17.4
H1: x 17.4
Kiểm định dựa vào khoảng tin cậy
Kiểm định dựa vào khoảng tin cậy có nghĩa là ta cố gắng xây dựng khoảng tin cậy cho một ước lượng, rồi kiểm tra xem giá trị thực được giả định theo giả thiết H0 sẽ nằm trong hay ngoài khoảng tin cậy đó. Và trên cơ sở đó ta sẽ có quyết định bác bỏ hay không bác bỏ giả thiết H0.
45
Để kiểm định giả thiết H0, giả sử ta có dữ liệu mẫu như trong Bảng 3.11. Từ dữ liệu này, ta tính được giá trị trung bình mẫu là 22.2. Ta biết rằng trung bình mẫu có phân phối chuẩn với trung bình là x và phương sai là . Nhưng do ta không biết giá trị phương sai thực của tổng thể, nên ta thay thế phương sai này bằng phương sai
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
mẫu, và như thế thì trung bình mẫu sẽ theo phân phối t. Dựa vào phân phối t ta xây dựng được khoảng tin cậy 95% cho X như sau:
(3.69) 17.91 X 26.49
Ta biết rằng các khoảng tin cậy đưa ra một khoảng các giá trị có thể bao gồm giá trị x thực với một mức độ tin cậy nhất định, chẳng hạn 95%. Vì thế, khoảng tin cậy này không giá trị giả thiết không, x = 17.4, ta có thể bác bỏ giả thiết H0 này không?
Như vậy, khoảng tin cậy và kiểm định giả thiết là hai chủ đề có quan hệ mật thiết với nhau. Theo ngôn ngữ kiểm định giả thiết, khoảng tin cậy 95% được gọi là vùng chấp nhận và vùng ngoài vùng chấp nhận là vùng phê phán hay vùng bác bỏ13 giả thiết H0. Giá trị chặn dưới và giá trị chặn trên của vùng chấp nhận được gọi là các giá trị phê phán14. Theo ngôn ngữ thống kê, nếu vùng chấp nhận có chứa giá trị tham số ở giả thiết H0, ta không bác bỏ H0 (nghĩa là chấp nhận H0 là đúng). Nhưng nếu rơi ngoài vùng chấp nhận (tức nằm trong vùng bác bỏ), ta bác bỏ H0. Ở ví dụ đang xét, ta bác bỏ giả thiết H0: x = 17.4 vì vùng chấp nhận, như ở phương trình (3.69), không chứa giá trị giả thiết không này. .
Các bước thực hiện:
Xác định giả thiết H0 và H1
Chọn mức ý nghĩa với phân phối t hai đuôi
Xây dựng khoảng tin cậy
Kiểm tra xem khoảng tin cậy có chứa giá trị của giả
thiết H0 hay không
13 Acceptance region, critical region, và the region of rejection. 14 Critical value. Lưu ý, các sách thống kê hoặc kinh tế lượng ở Việt Nam dịch thuật ngữ “critical” là “phê phán” hoặc “tới hạn”. Tuy nhiên, điều quan trọng là ta nên hiểu bản chất của thuật ngữ này. Ví dụ, ta thường nói “a critical decision” có nghĩa là một quyết định có ý nghĩa sống còn, theo kiểu “thắng làm vui, thua làm giặc”. Trong thống kê, các ranh giới của vùng chấp nhận được gọi là các giá trị phê phán, vì các ranh giới này là đường phân chia giữa việc chấp nhận và bác bỏ giả thiết H0. Ngoài ra, các giá trị này là các giá trị chuẩn được tính dựa trên một phân phối nhất định (và trước đây chúng được đính kèm dạng các bảng thống kê ở phần phụ lục các sách giáo khoa) để giúp sinh viên tra và so sánh, cho nên đôi khi chúng được gọi là “giá trị tra bảng”. Ngày nay, chúng ta thường tra nhanh các giá trị này bằng các công thức như TINV, FINV, CHIINV, … trên Excel hoặc các hàm @qtdist, @fqdist, @qchisq, … trên Eviews.
46
Đưa ra quyết định
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Sai lầm loại I và loại II
Trong ví dụ về ROE ta bác bỏ giả thiết H0: x = 17.4 bởi vì chứng cứ từ mẫu của ta = 22.2 dường như không phù hợp với giả thiết này. Có phải điều này có nghĩa là mẫu 30 chứng khoán như trong Bảng 3.11 không được lấy từ một tổng thể có phân phối chuẩn với giá trị trung bình là 17.4? Chúng ta hoàn toàn không chắc chắn, vì khoảng tin cậy ở đây là 95% chứ không phải 100%. Nếu điều này là đúng, ta có thể bị mắc sai lầm bác bỏ giả thiết H0: x = 17.4. Đây là loại sai lầm loại I: sai lầm trong việc bác bỏ một giả thiết đúng. Tương tự, giả sử H0: x = 20, và theo phương trình (3.69) ta sẽ không bác bỏ giả thiết không này. Nhưng rất có thể mẫu 30 chứng khoán không được lấy từ một tổng thể có phân phối chuẩn với giá trị trung bình là 20. Như vậy, ta có thể mắc sai lầm loại II: sai lầm trong việc chấp nhận giả thiết sai.
BẢNG 3.12: Hai loại sai lầm trong thống kê
Bác bỏ H0 Sai lầm loại I Quyết định sai Không bác bỏ H0 Quyết định đúng Sai lầm loại II
H0 là đúng H0 là sai Nguồn: Gujarati, 2006, trang 116
Thật lý tưởng nếu ta có thể tối thiểu hóa cả hai loại sai lầm này. Tuy nhiên, với một cỡ mẫu nhất định ta không thể nào tối thiểu hóa đồng thời hai loại sai lầm này. Theo Gujarati (2006, 116), cách duy nhất giảm sai lầm loại II mà không làm tăng sai lầm loại I là tăng cỡ mẫu. Nhưng đây không phải là điều luôn luôn dễ dàng. Cách tiếp cận cổ điển cho rằng sai lầm loại I nghiêm trọng hơn sai lầm loại II. Cho nên, người ta cố gắng giảm thiểu sai lầm loại I càng nhỏ càng tốt, ví dụ khoảng 0.01 hay 0.05, và cố gắng giảm thiểu sai lầm loại II. Theo lý thuyết thống kê, xác suất chấp nhận sai lầm loại I được qui ước là , được gọi là mức ý nghĩa, và xác suất chấp nhận sai lầm loại II được qui ước là . Như vậy,
Sai lầm loại I = = xác suất bác bỏ H0 (H0 là đúng)
Sai lầm loại II = = xác suất chấp nhận H0 (H0 là sai)
47
Xác suất không chấp nhận sai lầm loại II, nghĩa là, bác bỏ H0 khi H0 là sai, là (1-) và được gọi là sức mạnh của kiểm định.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Theo cách tiếp cận cổ điển về kiểm định giả thiết thì thường được cho ở các mức 1%, 5%, rồi cố gắng giảm thiểu . Trong thực tế, cách tiếp cận cổ điển thường xác định giá trị mà không cần quan tâm nhiều đến . Nhưng lưu ý rằng, khi ra quyết định luôn tồn tại sự đánh đổi giữa mức ý nghĩa và sức mạnh kiểm định. Điều này có nghĩa rằng, với một cỡ mẫu nhất định, nếu ta cố gắng giảm xác suất của sai lầm loại I, ta có thể tăng xác suất sai lầm loại II và vì thế giảm sức mạnh kiểm định. Chẳng hạn, thay vì sử dụng = 5%, ta sử dụng = 1%, chúng ta có thể rất tự tin khi bác bỏ H0, nhưng chúng ta có thể sẽ không tự tin lắm khi không bác bỏ H0.
Quay lại ví dụ ROE nhưng với = 1% và ta sẽ tính được khoảng tin cậy 99% như sau:
(3.70) 16.41 x 27.99
So với (3.69), thì khoảng tin cậy 99% rộng hơn khoảng tin cậy 95%. Vì khoảng tin cậy 99% này có chứa giá trị giả thiết là 17.4, nên ta không bác bỏ giả thiết không. Điều này nói lên điều gì? Bằng cách giảm sai lầm loại I từ 5% xuống 1%, chúng ta đã tăng xác suất chấp nhận sai lầm loại II. Nghĩa là, việc không bác bỏ giả thiết không theo công thức (3.70), chúng ta có thể đang chấp nhận một cách sai lầm giả thiết cho rằng giá trị x thực là 17.4. Cho nên, hãy nhớ rằng luôn luôn có sự đánh đổi giữa sai lầm loại I và sai lầm loại II.
Kiểm định dựa vào ý nghĩa
Kiểm định ý nghĩa là một cách kiểm định khác có tính bổ sung và ngắn gọn hơn so với kiểm định dựa vào khoảng tin
cậy15. Xin nhắc lại rằng t = có phân phối t với
15 Vì các phần mềm kinh tế lượng đều cung cấp các thông tin giá trị thống kê t và giá trị xác suất tương ứng, nên phương pháp kiểm định này được sử dụng phổ biến.
16 Biết rằng t=
theo phân phối t với bậc tự do là (n-1), nên ta có thể dễ dàng tính được giá trị xác suất
tương ứng của nó bằng công thức =TDIST(x,Deg_Freedom,Tails). Ví dụ, =TDIST(2.045,29,2) = 5%. Ngoài ra,
48
(n-1) bậc tự do. Các thông tin , n, và S đã biết từ mẫu, nên nếu có giá trị x dưới giả thiết không, ta sẽ tính được giá trị thống kê t (còn được gọi là giá trị t tính toán). Hơn nữa, với (n-1) bậc tự do ta có thể xác định được các giá trị t phê phán16.
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
). Nếu khác biệt giữa và x là nhỏ (tử số sẽ nhỏ và mẫu số không đổi), thì giá giá trị tuyệt đối của t tính toán sẽ nhỏ. Nếu = x, giá trị t tính toán sẽ bằng không, và chắc chắn ta sẽ không bác bỏ giả thiết H0. Cho nên, khi giá trị tuyệt đối của t tính toán càng khác không, ta sẽ có xu hướng bác giả thiết H0. Nói cách khác, khi giá trị tuyệt đối của t tính toán càng lớn, ta càng có xu hướng bác bỏ giả thiết H0. Tuy nhiên, quyết định bác bỏ hay chấp nhận H0 tùy thuộc vào mức ý nghĩa được chọn. Nếu giá trị t tính toán nằm giữa các giá trị t phê phán chặn dưới và ). Ngược lại, nếu giá chặn trên thì ta chấp nhận H0 ( trị thống kê t nằm ngoài các giá trị t phê phán chặn dưới và chặn trên thì ta bác bỏ H0 (
Ví dụ, = 22.2, Sx = 11.5, và n = 30. Giả sử H0: x =
17.4 và H1: x 17.4. Ta có:
t = = 2.286
Với số bậc tự do là 29, các giá trị t phê phán với mức ý nghĩa 5% là -2.045 và 2.045. Như vậy, t tính toán bằng 2.286 nằm ở phía đuôi phải vùng bác bỏ của phân phối t, nên ta bác bỏ giả thiết H0. Ngoài ra, ta dễ dàng tính xác suất để chỉ là 2.974%.
Các bước thực hiện:
Xác định giả thiết H0 và H1
Tính giá trị thống kê t
Chọn mức ý nghĩa với phân phối t hai đuôi và xác định các giá trị t phê phán chặn dưới và chặn trên
So sánh giá trị thống kê t và giá trị t phê phán
Đưa ra quyết định
Theo ngôn ngữ của kiểm định ý nghĩa ta thường gặp hai thuật ngữ sau đây:
Kiểm định có ý nghĩa thống kê17
để tính giá trị t phê phán ta dùng công thức =TINV(Probability,Deg_Freedom). Ví dụ, =TINV(5%,29) = 2.045. Hoặc ta cũng có thể sử dụng hàm @qtdist(0.975,29) = 2.045 hoặc 1-@ctdist(2.045,29) = 5%. 17 Khi nói một kiểm định/kết quả nghiên cứu có ý nghĩa thống kê, nghĩa là ta có thể bác bỏ giả thiết H0. Ngược lại, khi ta không bác bỏ giả thiết H0, ta nói rằng kiểm định/kết quả nghiên cứu không có ý nghĩa thống kê.
49
Kiểm định không có ý nghĩa thống kê
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Kiểm định một đuôi hay hai đuôi?
Cho đến đây tất cả các ví dụ đều xác định giả thiết H1 là hai đuôi. Vì thế nếu ROE bằng 17.4 dưới giả thiết H0, thì dưới giả thiết H1 thì ROE có thể hoặc lớn hơn hoặc nhỏ thua 17.4. Như vậy, nếu thống kê kiểm định rơi vào bất kỳ đuôi nào của phân phối (vùng bác bỏ) ta bác bỏ H0.
-2.045
2.045
Vùng chấp nhận H0
Tuy nhiên, cũng có trường hợp ở đó giả thiết không và giả thiết khác là một đuôi, hay một phía. Ví dụ, H0: x 17.4 và H1: x > 17.4, tức giả thiết khác là một đuôi. Ta sẽ kiểm định giả thiết này như thế nào?
Thủ tục kiểm định hoàn toàn giống cách kiểm định ở các ví dụ trên ngoại trừ việc thay vì tìm hai giá trị phê phán, bây giờ ta chỉ xác định một giá trị phê phán duy nhất của thống kê kiểm định.
50
Lưu ý, khi tra bảng A2, trường hợp kiểm định hai phía ta chọn mức ý nghĩa ở dòng dưới, ngược lại, kiểm định một phía ta chọn mức ý nghĩa ở dòng trên. Khi sử dụng công thức TINV trên Excel, thì mức ý nghĩa được chọn luôn là . Cho nên, nếu kiểm định hai phía với = 5%, thì TINV(5%,d.f.), ngược lại, nếu kiểm định một phía cũng với = 5%, thì ta phải chọn TINV(10%,d.f.).
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
BẢNG 3.13: Tóm tắt kiểm định t
Giả thiết không, H0 Giả thiết khác, H1 Vùng phê phán/bác bỏ H0 nếu
t = > t,d.f.
x = 0 x > 0
t = < t, d.f.
x = 0 x < 0
= > t/2,d.f. x = 0 x 0
Nguồn: Gujarati, 2006, trang 122
Vùng chấp nhận H0
1.699
Lưu ý, về mặt từ ngữ, ta nên sử dụng cách phát biểu “bác bỏ” hoặc “không bác bỏ giả thiết H0, hơn là “bác bỏ” hoặc “chấp nhận” một giả thiết. Theo Gujarati (2006), việc ta không bác bỏ giả thiết không không nhất thiết có nghĩa rằng giả thiết đó đúng, bởi vì một giả thiết không khác có thể cũng tương thích với dữ liệu.
Mức ý nghĩa và giá trị xác suất p
51
Giá trị xác suất p (p-value) cũng được gọi là mức ý nghĩa chính xác của thống kê kiểm định (ví dụ thống kê t). Giá
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
trị xác suất p có thể được định nghĩa là mức ý nghĩa thấp nhất tại đó giả thiết H0 có thể bị bác bỏ. Qui tắc quyết định với giá trị xác suất p như sau: Giá trị xác suất p càng nhỏ, thì bằng chứng để bác bỏ giả thiết H0 càng mạnh. Các phần mềm kinh tế lượng đều có báo cáo giá trị xác suất p. Chúng ta sẽ phân tích thật chi tiết vấn đề giá trị xác suất p ở Bài giảng 7.
Mối quan hệ giữa hai phương pháp kiểm định
Từ phương trình (3.64) ta thấy rằng biến ngẫu nhiên t là một hàm tuyến tính của biến ngẫu nhiên . Dưới giả thiết H0 ta có giá trị x, nên sẽ tìm được giá trị của t theo . Mối quan hệ được thể hiện qua đồ thị phân phối xác suất sau đây:
2.5%
2.5%
17.91
26.49
Vùng chấp nhận H0
2.5%
2.5%
-2.045
2.045
Vùng chấp nhận H0
52
t
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Kiểm định ý nghĩa 2 Như đã biết, nếu S2 là phương sai mẫu từ một mẫu được lấy ngẫu nhiên với n quan sát từ một tổng thể có phân phối chuẩn với phương sai là 2, thì
(n-1) (3.71)
). Do
Nghĩa là, tỷ số của phương sai mẫu/phương sai tổng thể được nhân với số bậc tự do (n-1) có phân phối 2 với số bậc tự do là (n-1). Lưu ý rằng, (n-1) và 2 chỉ là các con số nhất định, riêng bản thân S2 là một biến ngẫu nhiên vì giá trị của S2 sẽ thay đổi từ mẫu này qua mẫu khác (tương tự như là một biến ngẫu nhiên có phân phối chuẩn, thì S2 được xem gần như một , nên theo định nghĩa ở bài giảng 3, S2 sẽ có phân phối 2. Hơn nữa, vế trái của phương trình (3.71) là một biến tổng của (n-1)
biến , nên số bậc tự do sẽ là (n-1).
BẢNG 3.14: Tóm tắt kiểm định 2
Giả thiết không, H0 Giả thiết khác, H1 Vùng phê phán/bác bỏ H0 nếu
Nguồn: Gujarati, 2006, trang 124
Ví dụ, từ một mẫu ngẫu nhiên như Bảng 3.11 ta có phương sai mẫu là S2 = 131.9, ta kiểm định xem giá trị này có khác gì ở mức ý nghĩa = 5% so với giá trị phương sai thực của tổng thể là 99.1 hay không.
53
H0: 2 = 99.1 và H1: 2 99.1 Lưu ý, quí vị cần xem đây là loại giả thiết gì trên ba trường hợp được trình bày ở Bảng 3.14 để xác định giá trị 2 phê phán cho đúng. Ta có n = 30 nên thay vào phương
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
= trình (3.70) ta sẽ có giá trị 2 tính toán là (30-1)
38.598 với số bậc tự do là 29. Từ công thức =CHIINV(2.5%,29) = 45.72 > 38.598 > =CHIINV(97.5%,29) = 16.05, ta không bác bỏ giả thiết H0 ở mức ý nghĩa 5%. Ngoài ra, ta có thể tính xác suất để có được giá trị 2 bằng hoặc lớn hơn 38.598 (với 29 bậc tự do) theo công thức =CHIDIST(38.598,29) = 0.1096 hay 10.96%. Vì xác suất này lớn hơn mức ý nghĩa được chọn là 5%, nên ta không bác bỏ giả thiết H0 cho rằng phương sai thực là 99.1.
Thao tác với Eviews (trên cửa sổ lệnh)
Giá trị phương sai mẫu của ROE: scalar ROEvar=@var(roe) = 131.9
hoặc scalar ROEvar=@stdev(roe)^2 = 131.9 Giá trị 2 phê phán chặn trên: scalar chisqc975=@qchisq(0.975,29) = 45.72 Giá trị 2 phê phán chặn dưới: scalar chisqc0025=@qchisq(0.025,29) = 16.05
Số quan sát của mẫu: scalar obs=@obs(roe) = 30 Giá trị 2 tính toán: scalar chival=(obs-1)*(ROEvar/99.1) = 38.598
Kiểm định ý nghĩa F
Ta đã biết, nếu ta có hai mẫu ngẫu nhiên từ hai tổng thể có phân phối chuẩn X và Y, với m và n quan sát, thì
(3.72)
thì ta kiểm định dựa vào bảng sau: sẽ theo phân phối F với (m-1) và (n-1) bậc tự do. Nếu ta có giả thiết H0:
BẢNG 3.15: Tóm tắt thống kê F
Vùng phê phán/bác bỏ H0 nếu Giả thiết không, H0 Giả thiết khác, H1
54
Nguồn: Gujarati, 2006, trang 125
BÀI GIẢNG 3: ÔN TẬP XÁC SUẤT THỐNG KÊ
ThS Phùng Thanh Bình
Ví dụ, giả sử ta có hai mẫu ngẫu nhiên 30 công ty niêm yết trên hai thị trường TP.HCM và thị trường Hà Nội (ngày 26 tháng 5 năm 2008). Từ hai mẫu này ta thấy ROE trung bình ở hai thị trường gần bằng nhau ( =22.2 và =22.39). Bây giờ ta muốn xem phương sai của hai thị trường này có giống nhau hay không. Từ hai mẫu ta có phương sai lần và H1: lượt là 131.9 và 79.6. Với giả thiết H0:
, với mức ý nghĩa = 5%. Một lần nữa xin quí vị hãy lưu ý loại giả thiết chúng ta đưa ra là gì để xác định giá trị F phê phán cho phù hợp. Ta có giá trị F tính toán là 131.9/79.6 = 1.657, có phân phối F với số bậc tự do lần lượt là 29 và 29. Do giá trị F phê phán tính từ công thức =FINV(5%,29,29) = 1.86 > 1.657, vậy ta không bác bỏ giả thiết H0 ở mức ý nghĩa 5% (nghĩa là hai phương sai tổng thể là giống nhau). Ta cũng có thể kết luận tương tự bằng cách so sánh mức ý nghĩa 5% với giá trị xác suất p =FDIST(1.657,29,29) = 8.99%. Tuy nhiên, nếu mức ý nghĩa 10% thì kết luận của ta sẽ thay đổi.
Thao tác với Eviews (trên cửa sổ lệnh)
Giá trị phương sai mẫu của ROE, TP.HCM: scalar ROE1var=@var(roe1) = 131.9
Giá trị phương sai mẫu của ROE, Hà Nội: scalar ROE2var=@var(roe2) = 99.6
Giá trị F tính toán: scalar Fval=ROE1var/ROEvar2
Giá trị F phê phán: fc095=@qfdist(0.95,29,29) = 1.86
Bước 1: Phát biểu giả thiết H0 và giả thiết H1
Bước 2: Chọn lựa thống kê kiểm định thích hợp (ví dụ trung bình, phương sai, hay so sánh phương sai, …)
Bước 3: Xác định phân phối xác suất thích hợp của
Bây giờ ta có thể tóm tắt các bước trong việc kiểm định một giả thiết thống kê bất kỳ như sau:
Bước 4: Chọn mức ý nghĩa (đó là xác suất chấp nhận
thống kê kiểm định (ví dụ t, 2, hay F)
Bước 5: Chọn phương pháp kiểm định thích hợp (xây
sai lầm loại I)
55
dựng khoảng tin cậy hay kiểm định ý nghĩa)