Xác su t th ng kê ng d ng trong KT: M t s đi m c n
n m v ng tr c khi thi . ướ
**I > Nh ng thao tác c b n v i R : ơ
>>Các phép toán s h c và các hàm gi i tích c b n trong R ơ
>>Cách nh p d li u < scan() vs nh p t file >,các thao tác v i véc t và ma tr n (nh p), ơ
dãy s , cách đ t đ ng d n <setwd() vs change dir > ườ
*** II > Ph n Bài t p d li u và x lý d li u :
>>Hi u rõ d li u đ nh l ng và đ nh tính ượ
>>Cách l y c t d li u (vec t ) t d li u data.frame và ng c l i ơ ượ
>>B ng t n s c a vect d li u < l nh table(x) >, t n su t < prop.table(x) > , t n s tích ơ
lũy và t n su t tích lũy < cumsum(table(x)) và cumsum(prop.table(x)) >
>>Cách chia t cho DL đ nh l ng ượ
>>Các lo i bi u đ cho DL đ nh tính, đ nh l ng : s d ng sao cho phù h p v i yêu c u ượ
và d li u c a đ bài . Cách nh n xét bi u đ
>>Các đ i l ng th ng kê mô t dùng cho DL véc t và cách nh n xét k t qu thu đ c. ượ ơ ế ượ
L u ý:ư
>>> L nh v bi u đ có r t nhi u tham s m c đ nh ,khi v n u không có yêu c u gì ế
thêm ch c n chú ý đ n nh ng tham s c b n nh t ,tránh r m rà ,đ n gi n hóa câu ế ơ ườ ơ
l nh.
>>>Ph n d li u đ nh tính ch áp d ng d ng đ c m t đ i l ng th ng kê mô t duy ượ ượ
nh t ,đó là Mode .Cách tìm Mode <chung cho c 2 lo i DL> :
>which( table(x)==max(table(x)) )
Eg:
> x=c(1,1,2,2,2,5,5,5,5)
> which(table(x)==max(table(x)))
5
3 # 5,3 ?
> table(x)
x
1 2 5
2 3 4
Cách đ c k t qu : 5 là giá tr Mode (có t n s l n nh t trong x) còn 3 là v trí c a nó ế
trong b ng t n s (t n s c a nó là 4 ) .N u d li u có nhi u Mode thì k t qu s hi n l n ế ế
l t theo th t xu t hi n trong b ng t n s .ượ
>>>Khi ph i tính nhi u đ i l ng TK thì dùng l nh g p ượ : summary(x)
Eg:
> x=1:100
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
Have a good exam! It’s not so difficult as you expected ! 1
1.00 25.75 50.50 50.50 75.25 100.00
L nh này s cho bi t theo th t : Giá tr nh nh t, t phân v th nh t, trung v , trung bình ế
, t phân v th 3 và giá tr l n nh t c a d li u vec t x . ơ
*** III > Ph n Bài t p xác su t c đi n và bi n ng u nhiên : ế
>>>Hi u đ c khái ni m xác su t theo nghĩa c đi n,cách đ m s tr ng h p thu n l i ượ ế ườ
và s tr ng h p có th (không gian m u) ườ
>>>Hi u v các bi n c đ c l p , xung kh c, h bi n c đ y đ ,và xác su t có đi u ế ế
ki n .Các công th c v xác su t : c ng , nhân, Bayes, xác su t đi u ki n, CT xác su t đ y
đ ...
>>>>Bi t cách đ t các m nh đế A=””,B=””... H=”” sao cho đ bài s đ c xác su t hóa : ượ
P(A)=a,P(B)=b,P(A|H)=ah,.... và Yêu c u c a bài toán đ c bi u di n b i m t xác su t ượ
d ng P(H|A) hay P(A+B),... nào đó . Áp d ng các công th c quen thu c và t gi thuy t s ế
tính đ c xác su t c n tính ! ượ
>>>M t s công th c tính xác su t c a các phân ph i thông d ng : chu n , đ u, nh th c,
poison v i các d ng theo đi m (dnorm(),dpois()..),tích lũy (pnorm(),ppois()...),tìm ng c giá ượ
tr đ xác su t tích lũy đ t giá tr cho tr c (qnorm(),qpois()...) ướ
L u ýư : tham s m c đ nh : lower.tail=T trong các hàm p~ và q~ đ xác đ nh vi c tích lũy
t c n d i đ n giá tr tích lũy, n u đ i lower.tail=F thì vi c tích lũy s đ c hi u là t già ướ ế ế ượ
tr tích lũy đ n c n trên (r t h p n u tính ppois() v i già trì X>N) ế ế
*** IV >Ph n kho ng tin c y và ki m đ nh tham s :
>>>Ki m tra xem máy đã có th vi n BSDA ch a n u không thì cài vào : dùng l nh ư ư ế
>library(BSDA) <g i th vi n BSDA> ư
>>>Khi c l ng kho ng tin c y hay ki m đ nh v TB c a t ng thướ ượ (1 ho c 2) c n
xét xem bài toán r i vào tr ng h p nào đ dùng các l nh z.test(),zsum.test() , t.test() hayơ ườ
tsum.test() cho phù h p .
>>>>Xây d ng c p gi thuy t H0,H1 cho phù h p: ế Gi thuy t bao g m d u = (gi ng ế
nhau,nh nhau, không nh h n, không l n h n..) bao gi cũng đ H0, và gi thuy t đ iư ơ ơ ế
c a nó đ H1 (khác nhau, <>,l n h n , nh h n). ơ ơ Nh v y gi thuy t c n ki m đ như ế
có th đ t H0 ho c H1 tùy thu c nó có bao g m d u = hay không!
>>>Khi dùng prop.test(x,n,p=NULL,correct=F) đ tìm kho ng tin c y cho t l hay ki m
đ nh t l m t hay 2 t ng th thì đ giá tr tham s correct = F.
>>Cách vi t t t m t s tham s : alternative =alt , TRUE=T, FALSE=F, “greater” = “g”,ế
“less”=”l”, “two.sided”=”t” ( m c đ nh là ki m đ nh 2 phía nên có th b qua tham s alt=”t”
n u mu n ki m đ nh 2 phía !)ế
>>>Khi ki m đ nh trung bình 2 t ng th :
Have a good exam! It’s not so difficult as you expected ! 2
- Trong tr ng h p dùng hàm tsum.test(...) thì l u ý có thêm tham s ườ ư var.equal ,m c đ nh
var.equal=TRUE ;nghĩa là gi thi t 2 t ng th có ph ng sai b ng nhau ế ươ
- Trong tr ng h p dùng hàm t.test(...)ườ thì có thêm 2 tham s pairedvar.equal đ
th hi n l y m u đ c l p hay theo c p và có gi thi t gì v ph ng sai 2 t ng th hay ế ươ
không. M c đ nh paired=F và var.equal=F , t c l y m u đ c l p và 2 ph ng sai t ng th ươ
khác nhau . Tùy vào đ bài mà xem xét có đi u ch nh giá tr các tham s nàu không !
*** V> Ph n ki m đ nh Phi Tham s :
>>>Ki m đ nh Khi-bình ph ng : ươ
- V tính đ c l p :D li u liên h gi a 2 tính ch t đ c th hi n trong m t ma tr n ượ
H0:2 tính ch t c n ki m đ nh là đ c l p
H1:2 tính ch t đó ph thu c
L nh trong R : > chisq.test(X)
V i X là : ma tr n nh ng giá tr trong m u
-V s phù h p :
H0: S ki n x y ra phù h p v i quy lu t thông th ng , t c p= p0 ườ
H1: S ki n x y ra không phù h p v i quy lu t thông th ng . ườ
L u ýư p0 là m t vec t các xác su t mô t quy lu t thông th ng và ơ ườ t ng các xác su t
này ph i =1 .
L nh trong R : >chisq(x,p=p0,...)
V i x: véc t các t n s trong m u . ơ
>>>Ki m đ nh Wilcoxon v trung v và t ng h ng :
- Khi không có gi thuy t v phân ph i chu n c a t ng th và c m u l y ra nh thì ta ế
dùng ki m đ nh wilcoxon và ki m đ nh v trung v thay cho trung bình (tr ng h p này ườ
trung v s đ i di n t t h n cho t ng th !) ơ
- Ki m đ nh v trung v c a m t t ng th :
>wilcox.test(x,mu=mu0,alt=)
V i x : véc t giá tr m u ; mu0 : giá tr trung v theo H0 (mu=mu0) . ơ
- Ki m đ nh v t ng h ng 2 t ng th (hay 2 trung v c a 2 t ng th ):
>wilcox.test(x,y,alt=,paired=F,...)
đây mu0=0 nên b qua, mu0 là chênh l ch giá tri 2 trung v theo H0 .
Tham sô paired cho bi t 2 m u có l y đ c l p hay không, m c đ nh là F(đ c l p)ế
>>Ki m đ nh Kruskal Wallis cho nhi u m u đ c l p trong R : (xem qua!)
>kruskal.test(list(x,y,z,...))
V i x,y,z,... : các m u d li u
>>>Ki m đ nh v h s t ng quan th h ng b ng ph ng pháp Spearman: ươ ươ
Khi không có gi thuy t v phân ph i chu n c a 2 t ng th : ế
V i (x,y ):m u d li u rút ra t t ng th
>cor(x,y,method=”spearman”) # H s t ng quan th h ng m u ươ
>cor.test(x,y,alt=,method=”spearman”,...) # Ki m đ nh v h s t ng quan th h ng , ươ
đây H0: h s t ng quan =0 . ươ
Have a good exam! It’s not so difficult as you expected ! 3
*** VI > Ph n h i quy tuy n tính : ế
*** H i quy đ n bi n : ơ ế
Các câu l nh trong R :
V i x,y :t p d li u m u t ng ng v i bi n đ c l p và ph thu c ươ ế
>lm(y~x) # Xác đ nh đ ng h i quy m u ườ
>summary(lm(y~x)) # Các k t qu phân tíchế
>confint(lm(y~x),level=) # Kho ng tin c y cho h s beta_0 , beta_1 v i đ tin c y
cân x ng level (m c đ nh=0.95).
>predict(lm(y~x),newdata,interval= , level= ,...)
# newdata : là d li u data.frame ch a giá tr m i c a x c n x lý ,n u không có tham s ế
này thì s x lý trên véc t x đã nh p . ơ
# N u interval = “ confidence” : tìm kho ng tin c y cho trung bình y khi x nh n giá tr ế
trong newdata
# N u interval = “ prediction: : tìm kho ng d báo cho giá tr (th c) c a y khi x nh n giáế
tr
trong newdata.
# level : đ tin c y cân x ng trong phép x lý (m c đ nh =0.95)
>plot(x,y) # V bi u đ tán x th hi n m i quan h gi a hai bi n ế
>abline(lm(y~x)) # V thêm đ ng h i quy m u vào bi u đ trên ườ
>>>> Eg:
> x=1:10
> y=c(2,3,4,5,7,8,9,13,16,18)
> lm(y~x)
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
-1.267 1.776
# Các h s ( Coefficients ) :
(Intercept) :beta_0 = -1.267
x : beta_1 = 1.776
> confint(lm(y~x),level=0.98)
1 % 99 %
(Intercept) -3.916843 1.383509
x 1.348643 2.202872
# v i đ tin c y cân x ng 98% thì các h s beta_0 , beta_1 n m trong các kho ng trên
## Tìm kho ng tin c y và kho ng d báo cho ytb và y :
Have a good exam! It’s not so difficult as you expected ! 4
> newdata=data.frame(x=c(1.5,2.5,5.5))
> newdata
x
1 1.5
2 2.5
3 5.5
> predict(lm(y~x),newdata,interval="confidence",level=0.99)
fit lwr upr
1 1.396970 -1.039581 3.833520
2 3.172727 1.117716 5.227738
3 8.500000 7.078828 9.921172
# Tìm kho ng tin c y 99% cho giá tri trung bình c a y khi x=c(1.5 ,2.5 ,5.5) là các kho ng
t lwr đ n upr (lower ,uper) ế
> predict(lm(y~x),newdata,interval="prediction",level=0.99)
fit lwr upr
1 1.396970 -3.715179 6.509119
2 3.172727 -1.768969 8.114423
3 8.500000 3.786507 13.213493
# Tìm kho ng d báo 99% cho giá tr th c c a y khi x=c(1.5 , 2.5 , 5.5 )
Nh n xét : Đ r ng c a kho ng d báo (cho gt th c y )bao gi cũng l n h n kho ng tin ơ
c y c a trung bình y
> summary(lm(y~x))
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-2.164e+00 -7.803e-01 -2.082e-16 1.142e+00 1.509e+00
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.2667 0.9150 -1.384 0.204
x 1.7758 0.1475 12.042 2.09e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.339 on 8 degrees of freedom
Multiple R-squared: 0.9477, Adjusted R-squared: 0.9412
F-statistic: 145 on 1 and 8 DF, p-value: 2.087e-06
### Cách đ c các giá tr trong l nh summary() tin c y m c đ nh 95%
>> Residuals : là giá tr ph n d , các đ i l ng th ng kê cho nó đ c li t d i ư ượ ượ ướ
>>>> Coefficients : Các h s :
Have a good exam! It’s not so difficult as you expected ! 5