Phân tích và xử lý dữ liệu với R Chương 3
ƯỚC LƯỢNG & KIỂM ĐỊNH GIẢ THUYẾT
NỘI DUNG
• 1. Ước lượng
• 2. Kiểm định giả thuyết
• 3. So sánh hai tổng thể
Quy trình ước lượng
Ước lượng các tham số của tổng thể chung
1.2 Ước lượng trung bình của tổng thể chung Khoảng tin cậy
Trung bình
Tỷ lệ
Tổng thể bộc lộ
1.2.1 Trường hợp đã biết phương sai
Đọc dữ liệu vào R
>setwd(“D:/testR”)
>data = read.csv(“salary.csv”, header =T)
>attach(data)
>head(data)
id salbeg sex time age salnow edlevel work jobcat minority sexrace
1 7 6900 0 79 28.00 16080 15 3.17 1 0 1
2 8 5400 0 67 28.75 14100 15 0.50 1 0 1
3 9 5040 0 96 27.42 12420 15 1.17
1 0 1
4 11 6300 0 84 33.50 15720 15 6.00
1 0 1
5 12 6000 0 88 54.33 8880 12 27.00
1 0 1
6 18 6900 0 72 32.67 10380 15 6.92
1 0 1
• Ước lượng lương trung bình hiện tại của
nhân viên
sumary (salnow)
n = length(salnow)
alpha = 0.05
salnow.bar = mean (salnow)
s = sd (salnow)
z = qnorm(1-alpha/2)
erro = z *s / sqrt(n)
// khoảng ước lượng:
sal.now + c(-erro, erro)
• Tính khoảng ước lượng trung bình thâm
niên làm việc của nhân viên trong công ty với mức ý nghĩa alpha = 10%
1.3 Ước lượng về tỷ lệ của tổng thể chung
• Ước lượng tỉ lệ nhân viên của công ty có mức lương nhỏ hơn 10,000 usd với alpha = 0.05
>count =0
> alpha =0.05
> for(i in 1:n){if (data[i,"salnow"]<10000){ count = count+1}}
>f = count /n
>z = qnorm(1-alpha/2)
>erro = z*sqrt(f*(1-f)/n)
> f + c(-erro, erro)
• Hãy ước lượng tỉ lệ nhân viên có trình độ đại học có mức lương thấp hơn 20,000 USD
1.4 Xác định cỡ mẫu
Khi chọn cỡ mẫu
• Giả sử rằng chiều cao của học sinh lớp 2 có độ lệch chuẩn là 9.48 cm, hãy tính cỡ mẫu cần thiết để ước lượng được giá trị trung bình có sai số quanh điểm ước lượng là 1.2 cm với khoảng tin cậy 95%
>sigma = 9.48
>e = 1.2
> z = qnorm(0.975)
> n = z^2*sigma^2/(e^2)
NỘI DUNG
• 1. Ước lượng
• 2. Kiểm định giả thuyết
• 3. So sánh trung bình, tỉ lệ hai mẫu
a) Kiểm định Z một phía
Miền bác bỏ
Kiểm định trái khi đã biết phương sai Giả sử các nhà sản xuất tuyên bố rằng cuộc đời trung bình của một bóng đèn là hơn 10.000 giờ. Trong một mẫu của 30 bóng đèn, người ta thấy rằng tuổi thọ trung bình của chúng chỉ là 9,900 giờ. Giả sử độ lệch chuẩn của tổng thể là 120 giờ. Với mức ý nghĩa 5% có thể bác bỏ tuyên bố của nhà sản xuất hay không
Ho: μ >=10000
> xbar = 9900 # sample mean > mu0 = 10000 # hypothesized value > sigma = 120 # population standard de viation > n = 30 # sample size > z = (xbar−mu0)/(sigma/sqrt(n)) > z # test statistic [1] −4.5644
> alpha = .05 > z.alpha = qnorm(1−alpha) > −z.alpha # critical value [1] −1.6449
Kết luận: Giá trị thống kê z< −z.alpha nên chúng ta có đủ cơ sở để bác bỏ tuyên bố của nhà sản xuất
Kiểm định phải khi biết phương sai Trên bao bì của gói cookie ghi rõ rằng khối lượng chất béo bão hòa trong một chiếc cookie không lớn hơn 2g. Người ta chọn ngẫu nhiên 35 chiếc cookie từ 35 gói hàng khác nhau và tính được khối lượng chất béo bão hòa là 2.1 g. giả sử rằng độ lệch chuẩn của lượng chất béo là 0,25gram. Với mức ý nghĩa 5% có thể yêu cầu nhà sản xuất phải thay đổi thông tin ghi trên bao bì được không?
Ho: μ <=2
> xbar = 2.1 # sample mean > mu0 = 2 # hypothesized value > sigma = 0.25 # population standard dev iation > n = 35 # sample size > z = (xbar−mu0)/(sigma/sqrt(n)) > z # test statistic [1] 2.3664
> alpha = .05 > z.alpha = qnorm(1−alpha) > z.alpha # critical value [1] 1.6449
Kết luận: Giá trị thống kê z > z.alpha nên không đủ cơ sở để chấp nhận giả thuyết Ho nên có thể yêu cầu nhà sản xuất đính chính lại thông tin trên bao bì.
2.4 Kiểm định tỷ lệ
NỘI DUNG
• 1. Ước lượng
• 2. Kiểm định giả thuyết
• 3. So sánh hai tổng thể
3. So sánh hai tổng thể
• 3.1 Kiểm định giá trị trung bình của hai
– Hai mẫu độc lập
– Hai mẫu phụ thuộc
• 3.2 Kiểm định tỷ lệ của hai tổng thể
tổng thể
So sánh hai mẫu độc lập
• So sánh thu nhập của cán bộ nam và cán
bộ nữ trong công ty
>head(data)
>ibrary(psych)
>describe.by(salnow, sex)
>t=t.test(salnow~ sex)
>print(t)
data: salnow by sex
t = 11.688, df = 344.26, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
5126.691 7201.198
sample estimates:
mean in group 0 mean in group 1
16576.71 10412.77
>library(beeswarm) // nếu ko có gõ lệnh install.packages (“beeswarm”)
>beeswarm(salnow~sex, data=data, pch=16)
>boxplot(salnow~sex, add=T, col = c("green", "red"))
So sánh hai mẫu phụ thuộc
So sánh giữa lương khởi điểm và lương hiện tại của nhân viên trong công ty
> t=t.test(salnow, salbeg, paired=TRUE)
>print(t)
Paired t-test
data: salnow and salbeg
t = 35.036, df = 473, p-value < 2.2e-16
alternative hypothesis: true difference in means is not equal to 0
95 percent confidence interval:
6570.963 7351.822
sample estimates:
mean of the differences
6961.392