
Xác su t th ng kê ng d ng trong KT: M t s đi m c n ấ ố ứ ụ ộ ố ể ầ
n m v ng tr c khi thi .ắ ữ ướ
**I > Nh ng thao tác c b n v i R :ữ ơ ả ớ
>>Các phép toán s h c và các hàm gi i tích c b n trong Rố ọ ả ơ ả
>>Cách nh p d li u < scan() vs nh p t file >,các thao tác v i véc t và ma tr n (nh p),ậ ữ ệ ậ ừ ớ ơ ậ ậ
dãy s , cách đ t đ ng d n <setwd() vs change dir > ố ặ ườ ẫ
*** II > Ph n Bài t p d li u và x lý d li u :ầ ậ ữ ệ ử ữ ệ
>>Hi u rõ d li u đ nh l ng và đ nh tínhể ữ ệ ị ượ ị
>>Cách l y c t d li u (vec t ) t d li u data.frame và ng c l iấ ộ ữ ệ ơ ừ ữ ệ ượ ạ
>>B ng t n s c a vect d li u < l nh table(x) >, t n su t < prop.table(x) > , t n s tíchả ầ ố ủ ơ ữ ệ ệ ầ ấ ầ ố
lũy và t n su t tích lũy < cumsum(table(x)) và cumsum(prop.table(x)) >ầ ấ
>>Cách chia t cho DL đ nh l ng ổ ị ượ
>>Các lo i bi u đ cho DL đ nh tính, đ nh l ng : s d ng sao cho phù h p v i yêu c uạ ể ồ ị ị ượ ử ụ ợ ớ ầ
và d li u c a đ bài . Cách nh n xét bi u đữ ệ ủ ề ậ ể ồ
>>Các đ i l ng th ng kê mô t dùng cho DL véc t và cách nh n xét k t qu thu đ c.ạ ượ ố ả ơ ậ ế ả ượ
L u ý:ư
>>> L nh v bi u đệ ẽ ể ồ có r t nhi u tham s m c đ nh ,khi v n u không có yêu c u gìấ ề ố ặ ị ẽ ế ầ
thêm ch c n chú ý đ n nh ng tham s c b n nh t ,tránh r m rà ,đ n gi n hóa câuỉ ầ ế ữ ố ơ ả ấ ườ ơ ả
l nh.ệ
>>>Ph n d li u đ nh tínhầ ữ ệ ị ch áp d ng d ng đ c m t đ i l ng th ng kê mô t duyỉ ụ ụ ượ ộ ạ ượ ố ả
nh t ,đó là Mode .Cách tìm Mode <chung cho c 2 lo i DL> :ấ ả ạ
>which( table(x)==max(table(x)) )
Eg:
> x=c(1,1,2,2,2,5,5,5,5)
> which(table(x)==max(table(x)))
5
3 # 5,3 ?
> table(x)
x
1 2 5
2 3 4
Cách đ c k t qu : 5 là giá tr Mode (có t n s l n nh t trong x) còn 3 là v trí c a nóọ ế ả ị ầ ố ớ ấ ị ủ
trong b ng t n s (t n s c a nó là 4 ) .N u d li u có nhi u Mode thì k t qu s hi n l nả ầ ố ầ ố ủ ế ữ ệ ề ế ả ẽ ệ ầ
l t theo th t xu t hi n trong b ng t n s .ượ ứ ự ấ ệ ả ầ ố
>>>Khi ph i tính nhi u đ i l ng TK thì dùng l nh g pả ề ạ ượ ệ ộ : summary(x)
Eg:
> x=1:100
> summary(x)
Min. 1st Qu. Median Mean 3rd Qu. Max.
Have a good exam! It’s not so difficult as you expected ! 1

1.00 25.75 50.50 50.50 75.25 100.00
L nh này s cho bi t theo th t : Giá tr nh nh t, t phân v th nh t, trung v , trung bìnhệ ẽ ế ứ ự ị ỏ ấ ứ ị ứ ấ ị
, t phân v th 3 và giá tr l n nh t c a d li u vec t x .ứ ị ứ ị ớ ấ ủ ữ ệ ơ
*** III > Ph n Bài t p xác su t c đi n và bi n ng u nhiên :ầ ậ ấ ổ ể ế ẫ
>>>Hi u đ c khái ni m xác su t theo nghĩa c đi n,cách đ m s tr ng h p thu n l iể ượ ệ ấ ổ ể ế ố ườ ợ ậ ợ
và s tr ng h p có th (không gian m u)ố ườ ợ ể ẫ
>>>Hi u v các bi n c đ c l p , xung kh c, h bi n c đ y đ ,và xác su t có đi uể ề ế ố ộ ậ ắ ệ ế ố ầ ủ ấ ề
ki n .Các công th c v xác su t : c ng , nhân, Bayes, xác su t đi u ki n, CT xác su t đ yệ ứ ề ấ ộ ấ ề ệ ấ ầ
đ ...ủ
>>>>Bi t cách đ t các m nh đế ặ ệ ề A=””,B=””... H=”” sao cho đ bài s đ c xác su t hóa :ề ẽ ượ ấ
P(A)=a,P(B)=b,P(A|H)=ah,.... và Yêu c u c a bài toán đ c bi u di n b i m t xác su tầ ủ ượ ể ễ ở ộ ấ
d ng P(H|A) hay P(A+B),... nào đó . Áp d ng các công th c quen thu c và t gi thuy t sạ ụ ứ ộ ừ ả ế ẽ
tính đ c xác su t c n tính ! ượ ấ ầ
>>>M t s công th c tính xác su t c a các phân ph i thông d ng : chu n , đ u, nh th c,ộ ố ứ ấ ủ ố ụ ẩ ề ị ứ
poison v i các d ng theo đi m (dnorm(),dpois()..),tích lũy (pnorm(),ppois()...),tìm ng c giáớ ạ ể ượ
tr đ xác su t tích lũy đ t giá tr cho tr c (qnorm(),qpois()...)ị ể ấ ạ ị ướ
L u ýư : tham s m c đ nh : lower.tail=T trong các hàm p~ và q~ đ xác đ nh vi c tích lũyố ặ ị ể ị ệ
t c n d i đ n giá tr tích lũy, n u đ i lower.tail=F thì vi c tích lũy s đ c hi u là t giàừ ậ ướ ế ị ế ổ ệ ẽ ượ ể ừ
tr tích lũy đ n c n trên (r t h p n u tính ppois() v i già trì X>N)ị ế ậ ấ ợ ế ớ
*** IV >Ph n kho ng tin c y và ki m đ nh tham s :ầ ả ậ ể ị ố
>>>Ki m tra xem máy đã có th vi n BSDA ch a n u không thì cài vào : dùng l nhể ư ệ ư ế ệ
>library(BSDA) <g i th vi n BSDA>ọ ư ệ
>>>Khi c l ng kho ng tin c y hay ki m đ nh v TB c a t ng thướ ượ ả ậ ể ị ề ủ ổ ể (1 ho c 2) c nặ ầ
xét xem bài toán r i vào tr ng h p nào đ dùng các l nh z.test(),zsum.test() , t.test() hayơ ườ ợ ể ệ
tsum.test() cho phù h p .ợ
>>>>Xây d ng c p gi thuy t H0,H1 cho phù h p:ự ặ ả ế ợ Gi thuy t bao g m d u = (gi ngả ế ồ ấ ố
nhau,nh nhau, không nh h n, không l n h n..) bao gi cũng đ H0, và gi thuy t đ iư ỏ ơ ớ ơ ờ ể ở ả ế ố
c a nó đ H1 (khác nhau, <>,l n h n , nh h n).ủ ể ở ớ ơ ỏ ơ Nh v y gi thuy t c n ki m đ như ậ ả ế ầ ể ị
có th đ t H0 ho c H1 tùy thu c nó có bao g m d u = hay không!ể ặ ở ặ ộ ồ ấ
>>>Khi dùng prop.test(x,n,p=NULL,correct=F) đ tìm kho ng tin c y cho t l hay ki mể ả ậ ỷ ệ ể
đ nh t l m t hay 2 t ng th thì đ giá tr tham s correct = F.ị ỷ ệ ộ ổ ể ể ị ố
>>Cách vi t t t m t s tham s : alternative =alt , TRUE=T, FALSE=F, “greater” = “g”,ế ắ ộ ố ố
“less”=”l”, “two.sided”=”t” ( m c đ nh là ki m đ nh 2 phía nên có th b qua tham s alt=”t”ặ ị ể ị ể ỏ ố
n u mu n ki m đ nh 2 phía !)ế ố ể ị
>>>Khi ki m đ nh trung bình 2 t ng th :ể ị ổ ể
Have a good exam! It’s not so difficult as you expected ! 2

- Trong tr ng h p dùng hàm tsum.test(...) thì l u ý có thêm tham s ườ ợ ư ố var.equal ,m c đ nhặ ị
var.equal=TRUE ;nghĩa là gi thi t 2 t ng th có ph ng sai b ng nhauả ế ổ ể ươ ằ
- Trong tr ng h p dùng hàm t.test(...)ườ ợ thì có thêm 2 tham s ốpaired và var.equal để
th hi n l y m u đ c l p hay theo c p và có gi thi t gì v ph ng sai 2 t ng th hayể ệ ấ ẫ ộ ậ ặ ả ế ề ươ ổ ể
không. M c đ nh paired=F và var.equal=F , t c l y m u đ c l p và 2 ph ng sai t ng thặ ị ứ ấ ẫ ộ ậ ươ ổ ể
khác nhau . Tùy vào đ bài mà xem xét có đi u ch nh giá tr các tham s nàu không ! ề ề ỉ ị ố
*** V> Ph n ki m đ nh Phi Tham s :ầ ể ị ố
>>>Ki m đ nh Khi-bình ph ng :ể ị ươ
- V tính đ c l p :D li u liên h gi a 2 tính ch t đ c th hi n trong m t ma tr n ề ộ ậ ữ ệ ệ ữ ấ ượ ể ệ ộ ậ
H0:2 tính ch t c n ki m đ nh là đ c l p ấ ầ ể ị ộ ậ
H1:2 tính ch t đó ph thu cấ ụ ộ
L nh trong R : > chisq.test(X)ệ
V i X là : ma tr n nh ng giá tr trong m u ớ ậ ữ ị ẫ
-V s phù h p : ề ự ợ
H0: S ki n x y ra phù h p v i quy lu t thông th ng , t c p= p0ự ệ ả ợ ớ ậ ườ ứ
H1: S ki n x y ra không phù h p v i quy lu t thông th ng .ự ệ ả ợ ớ ậ ườ
L u ýư p0 là m t vec t các xác su t mô t quy lu t thông th ng và ộ ơ ấ ả ậ ườ t ng các xác su tổ ấ
này ph i =1ả .
L nh trong R : >chisq(x,p=p0,...)ệ
V i x: véc t các t n s trong m u .ớ ơ ầ ố ẫ
>>>Ki m đ nh Wilcoxon v trung v và t ng h ng :ể ị ề ị ổ ạ
- Khi không có gi thuy t v phân ph i chu n c a t ng th và c m u l y ra nh thì taả ế ề ố ẩ ủ ổ ể ỡ ẫ ấ ỏ
dùng ki m đ nh wilcoxon và ki m đ nh v trung v thay cho trung bình (tr ng h p nàyể ị ể ị ề ị ườ ợ
trung v s đ i di n t t h n cho t ng th !)ị ẽ ạ ệ ố ơ ổ ể
- Ki m đ nh v trung v c a m t t ng th :ể ị ề ị ủ ộ ổ ể
>wilcox.test(x,mu=mu0,alt=)
V i x : véc t giá tr m u ; mu0 : giá tr trung v theo H0 (mu=mu0) .ớ ơ ị ẫ ị ị
- Ki m đ nh v t ng h ng 2 t ng th (hay 2 trung v c a 2 t ng th ):ể ị ề ổ ạ ổ ể ị ủ ổ ể
>wilcox.test(x,y,alt=,paired=F,...)
đây mu0=0 nên b qua, mu0 là chênh l ch giá tri 2 trung v theo H0 .Ở ỏ ệ ị
Tham sô paired cho bi t 2 m u có l y đ c l p hay không, m c đ nh là F(đ c l p)ế ẫ ấ ộ ậ ặ ị ộ ậ
>>Ki m đ nh Kruskal Wallis cho nhi u m u đ c l p trong R : (xem qua!)ể ị ề ẫ ộ ậ
>kruskal.test(list(x,y,z,...))
V i x,y,z,... : các m u d li u ớ ẫ ữ ệ
>>>Ki m đ nh v h s t ng quan th h ng b ng ph ng pháp Spearman:ể ị ề ệ ố ươ ứ ạ ằ ươ
Khi không có gi thuy t v phân ph i chu n c a 2 t ng th :ả ế ề ố ẩ ủ ổ ể
V i (x,y ):m u d li u rút ra t t ng thớ ẫ ữ ệ ừ ổ ể
>cor(x,y,method=”spearman”) # H s t ng quan th h ng m uệ ố ươ ứ ạ ẫ
>cor.test(x,y,alt=,method=”spearman”,...) # Ki m đ nh v h s t ng quan th h ng ,ể ị ề ệ ố ươ ứ ạ ở
đây H0: h s t ng quan =0 . ệ ố ươ
Have a good exam! It’s not so difficult as you expected ! 3

*** VI > Ph n h i quy tuy n tính :ầ ồ ế
*** H i quy đ n bi n :ồ ơ ế
Các câu l nh trong R : ệ
V i x,y :t p d li u m u t ng ng v i bi n đ c l p và ph thu c ớ ậ ữ ệ ẫ ươ ứ ớ ế ộ ậ ụ ộ
>lm(y~x) # Xác đ nh đ ng h i quy m uị ườ ồ ẫ
>summary(lm(y~x)) # Các k t qu phân tíchế ả
>confint(lm(y~x),level=) # Kho ng tin c y cho h s beta_0 , beta_1 v i đ tin c y ả ậ ệ ố ớ ộ ậ
cân x ng level (m c đ nh=0.95).ứ ặ ị
>predict(lm(y~x),newdata,interval= , level= ,...)
# newdata : là d li u data.frame ch a giá tr m i c a x c n x lý ,n u không có tham sữ ệ ứ ị ớ ủ ầ ử ế ố
này thì s x lý trên véc t x đã nh p . ẽ ử ơ ậ
# N u interval = “ confidence” : tìm kho ng tin c y cho trung bình y khi x nh n giá tr ế ả ậ ậ ị
trong newdata
# N u interval = “ prediction: : tìm kho ng d báo cho giá tr (th c) c a y khi x nh n giáế ả ự ị ự ủ ậ
tr ị
trong newdata.
# level : đ tin c y cân x ng trong phép x lý (m c đ nh =0.95) ộ ậ ứ ử ặ ị
>plot(x,y) # V bi u đ tán x th hi n m i quan h gi a hai bi nẽ ể ồ ạ ể ệ ố ệ ữ ế
>abline(lm(y~x)) # V thêm đ ng h i quy m u vào bi u đ trên ẽ ườ ồ ẫ ể ồ
>>>> Eg:
> x=1:10
> y=c(2,3,4,5,7,8,9,13,16,18)
> lm(y~x)
Call:
lm(formula = y ~ x)
Coefficients:
(Intercept) x
-1.267 1.776
# Các h s ( Coefficients ) : ệ ố
(Intercept) :beta_0 = -1.267
x : beta_1 = 1.776
> confint(lm(y~x),level=0.98)
1 % 99 %
(Intercept) -3.916843 1.383509
x 1.348643 2.202872
# v i đ tin c y cân x ng 98% thì các h s beta_0 , beta_1 n m trong các kho ng trênớ ộ ậ ứ ệ ố ằ ả
## Tìm kho ng tin c y và kho ng d báo cho ytb và y :ả ậ ả ự
Have a good exam! It’s not so difficult as you expected ! 4

> newdata=data.frame(x=c(1.5,2.5,5.5))
> newdata
x
1 1.5
2 2.5
3 5.5
> predict(lm(y~x),newdata,interval="confidence",level=0.99)
fit lwr upr
1 1.396970 -1.039581 3.833520
2 3.172727 1.117716 5.227738
3 8.500000 7.078828 9.921172
# Tìm kho ng tin c y 99% cho giá tri trung bình c a y khi x=c(1.5 ,2.5 ,5.5) là các kho ngả ậ ủ ả
t lwr đ n upr (lower ,uper)ừ ế
> predict(lm(y~x),newdata,interval="prediction",level=0.99)
fit lwr upr
1 1.396970 -3.715179 6.509119
2 3.172727 -1.768969 8.114423
3 8.500000 3.786507 13.213493
# Tìm kho ng d báo 99% cho giá tr th c c a y khi x=c(1.5 , 2.5 , 5.5 )ả ự ị ự ủ
Nh n xétậ : Đ r ng c a kho ng d báo (cho gt th c y )bao gi cũng l n h n kho ng tinộ ộ ủ ả ự ự ờ ớ ơ ả
c y c a trung bình y ậ ủ
> summary(lm(y~x))
Call:
lm(formula = y ~ x)
Residuals:
Min 1Q Median 3Q Max
-2.164e+00 -7.803e-01 -2.082e-16 1.142e+00 1.509e+00
Coefficients:
Estimate Std. Error t value Pr(>|t|)
(Intercept) -1.2667 0.9150 -1.384 0.204
x 1.7758 0.1475 12.042 2.09e-06 ***
---
Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1
Residual standard error: 1.339 on 8 degrees of freedom
Multiple R-squared: 0.9477, Adjusted R-squared: 0.9412
F-statistic: 145 on 1 and 8 DF, p-value: 2.087e-06
### Cách đ c các giá tr trong l nh summary()ọ ị ệ :đ tin c y m c đ nh 95%ộ ậ ặ ị
>> Residuals : là giá tr ph n d , các đ i l ng th ng kê cho nó đ c li t kê d iị ầ ư ạ ượ ố ượ ệ ở ướ
>>>> Coefficients : Các h s :ệ ố
Have a good exam! It’s not so difficult as you expected ! 5

