Xác Suất Thống Kê Ứng Dụng KT: Điểm Cần Nắm Vững Trước Thi (Phần Mềm R)

Xác su t th ng kê ng d ng trong KT: M t s đi m c n ấ ố ứ ụ ộ ố ể ầ

n m v ng tr c khi thi .ắ ữ ướ

**I > Nh ng thao tác c b n v i R :ữ ơ ả ớ

>>Các phép toán s h c và các hàm gi i tích c b n trong Rố ọ ả ơ ả

>>Cách nh p d li u < scan() vs nh p t file >,các thao tác v i véc t và ma tr n (nh p),ậ ữ ệ ậ ừ ớ ơ ậ ậ

dãy s , cách đ t đ ng d n <setwd() vs change dir > ố ặ ườ ẫ

*** II > Ph n Bài t p d li u và x lý d li u :ầ ậ ữ ệ ử ữ ệ

>>Hi u rõ d li u đ nh l ng và đ nh tínhể ữ ệ ị ượ ị

>>Cách l y c t d li u (vec t ) t d li u data.frame và ng c l iấ ộ ữ ệ ơ ừ ữ ệ ượ ạ

>>B ng t n s c a vect d li u < l nh table(x) >, t n su t < prop.table(x) > , t n s tíchả ầ ố ủ ơ ữ ệ ệ ầ ấ ầ ố

lũy và t n su t tích lũy < cumsum(table(x)) và cumsum(prop.table(x)) >ầ ấ

>>Cách chia t cho DL đ nh l ng ổ ị ượ

>>Các lo i bi u đ cho DL đ nh tính, đ nh l ng : s d ng sao cho phù h p v i yêu c uạ ể ồ ị ị ượ ử ụ ợ ớ ầ

và d li u c a đ bài . Cách nh n xét bi u đữ ệ ủ ề ậ ể ồ

>>Các đ i l ng th ng kê mô t dùng cho DL véc t và cách nh n xét k t qu thu đ c.ạ ượ ố ả ơ ậ ế ả ượ

L u ý:ư

>>> L nh v bi u đệ ẽ ể ồ có r t nhi u tham s m c đ nh ,khi v n u không có yêu c u gìấ ề ố ặ ị ẽ ế ầ

thêm ch c n chú ý đ n nh ng tham s c b n nh t ,tránh r m rà ,đ n gi n hóa câuỉ ầ ế ữ ố ơ ả ấ ườ ơ ả

l nh.ệ

>>>Ph n d li u đ nh tínhầ ữ ệ ị ch áp d ng d ng đ c m t đ i l ng th ng kê mô t duyỉ ụ ụ ượ ộ ạ ượ ố ả

nh t ,đó là Mode .Cách tìm Mode <chung cho c 2 lo i DL> :ấ ả ạ

>which( table(x)==max(table(x)) )

Eg:

> x=c(1,1,2,2,2,5,5,5,5)

> which(table(x)==max(table(x)))

3 # 5,3 ?

> table(x)

1 2 5

2 3 4

Cách đ c k t qu : 5 là giá tr Mode (có t n s l n nh t trong x) còn 3 là v trí c a nóọ ế ả ị ầ ố ớ ấ ị ủ

trong b ng t n s (t n s c a nó là 4 ) .N u d li u có nhi u Mode thì k t qu s hi n l nả ầ ố ầ ố ủ ế ữ ệ ề ế ả ẽ ệ ầ

l t theo th t xu t hi n trong b ng t n s .ượ ứ ự ấ ệ ả ầ ố

>>>Khi ph i tính nhi u đ i l ng TK thì dùng l nh g pả ề ạ ượ ệ ộ : summary(x)

Eg:

> x=1:100

> summary(x)

Min. 1st Qu. Median Mean 3rd Qu. Max.

Have a good exam! It’s not so difficult as you expected ! 1

1.00 25.75 50.50 50.50 75.25 100.00

L nh này s cho bi t theo th t : Giá tr nh nh t, t phân v th nh t, trung v , trung bìnhệ ẽ ế ứ ự ị ỏ ấ ứ ị ứ ấ ị

, t phân v th 3 và giá tr l n nh t c a d li u vec t x .ứ ị ứ ị ớ ấ ủ ữ ệ ơ

*** III > Ph n Bài t p xác su t c đi n và bi n ng u nhiên :ầ ậ ấ ổ ể ế ẫ

>>>Hi u đ c khái ni m xác su t theo nghĩa c đi n,cách đ m s tr ng h p thu n l iể ượ ệ ấ ổ ể ế ố ườ ợ ậ ợ

và s tr ng h p có th (không gian m u)ố ườ ợ ể ẫ

>>>Hi u v các bi n c đ c l p , xung kh c, h bi n c đ y đ ,và xác su t có đi uể ề ế ố ộ ậ ắ ệ ế ố ầ ủ ấ ề

ki n .Các công th c v xác su t : c ng , nhân, Bayes, xác su t đi u ki n, CT xác su t đ yệ ứ ề ấ ộ ấ ề ệ ấ ầ

đ ...ủ

>>>>Bi t cách đ t các m nh đế ặ ệ ề A=””,B=””... H=”” sao cho đ bài s đ c xác su t hóa :ề ẽ ượ ấ

P(A)=a,P(B)=b,P(A|H)=ah,.... và Yêu c u c a bài toán đ c bi u di n b i m t xác su tầ ủ ượ ể ễ ở ộ ấ

d ng P(H|A) hay P(A+B),... nào đó . Áp d ng các công th c quen thu c và t gi thuy t sạ ụ ứ ộ ừ ả ế ẽ

tính đ c xác su t c n tính ! ượ ấ ầ

>>>M t s công th c tính xác su t c a các phân ph i thông d ng : chu n , đ u, nh th c,ộ ố ứ ấ ủ ố ụ ẩ ề ị ứ

poison v i các d ng theo đi m (dnorm(),dpois()..),tích lũy (pnorm(),ppois()...),tìm ng c giáớ ạ ể ượ

tr đ xác su t tích lũy đ t giá tr cho tr c (qnorm(),qpois()...)ị ể ấ ạ ị ướ

L u ýư : tham s m c đ nh : lower.tail=T trong các hàm p~ và q~ đ xác đ nh vi c tích lũyố ặ ị ể ị ệ

t c n d i đ n giá tr tích lũy, n u đ i lower.tail=F thì vi c tích lũy s đ c hi u là t giàừ ậ ướ ế ị ế ổ ệ ẽ ượ ể ừ

tr tích lũy đ n c n trên (r t h p n u tính ppois() v i già trì X>N)ị ế ậ ấ ợ ế ớ

*** IV >Ph n kho ng tin c y và ki m đ nh tham s :ầ ả ậ ể ị ố

>>>Ki m tra xem máy đã có th vi n BSDA ch a n u không thì cài vào : dùng l nhể ư ệ ư ế ệ

>library(BSDA) <g i th vi n BSDA>ọ ư ệ

>>>Khi c l ng kho ng tin c y hay ki m đ nh v TB c a t ng thướ ượ ả ậ ể ị ề ủ ổ ể (1 ho c 2) c nặ ầ

xét xem bài toán r i vào tr ng h p nào đ dùng các l nh z.test(),zsum.test() , t.test() hayơ ườ ợ ể ệ

tsum.test() cho phù h p .ợ

>>>>Xây d ng c p gi thuy t H0,H1 cho phù h p:ự ặ ả ế ợ Gi thuy t bao g m d u = (gi ngả ế ồ ấ ố

nhau,nh nhau, không nh h n, không l n h n..) bao gi cũng đ H0, và gi thuy t đ iư ỏ ơ ớ ơ ờ ể ở ả ế ố

c a nó đ H1 (khác nhau, <>,l n h n , nh h n).ủ ể ở ớ ơ ỏ ơ Nh v y gi thuy t c n ki m đ như ậ ả ế ầ ể ị

có th đ t H0 ho c H1 tùy thu c nó có bao g m d u = hay không!ể ặ ở ặ ộ ồ ấ

>>>Khi dùng prop.test(x,n,p=NULL,correct=F) đ tìm kho ng tin c y cho t l hay ki mể ả ậ ỷ ệ ể

đ nh t l m t hay 2 t ng th thì đ giá tr tham s correct = F.ị ỷ ệ ộ ổ ể ể ị ố

>>Cách vi t t t m t s tham s : alternative =alt , TRUE=T, FALSE=F, “greater” = “g”,ế ắ ộ ố ố

“less”=”l”, “two.sided”=”t” ( m c đ nh là ki m đ nh 2 phía nên có th b qua tham s alt=”t”ặ ị ể ị ể ỏ ố

n u mu n ki m đ nh 2 phía !)ế ố ể ị

>>>Khi ki m đ nh trung bình 2 t ng th :ể ị ổ ể

Have a good exam! It’s not so difficult as you expected ! 2

- Trong tr ng h p dùng hàm tsum.test(...) thì l u ý có thêm tham s ườ ợ ư ố var.equal ,m c đ nhặ ị

var.equal=TRUE ;nghĩa là gi thi t 2 t ng th có ph ng sai b ng nhauả ế ổ ể ươ ằ

- Trong tr ng h p dùng hàm t.test(...)ườ ợ thì có thêm 2 tham s ốpaired và var.equal để

th hi n l y m u đ c l p hay theo c p và có gi thi t gì v ph ng sai 2 t ng th hayể ệ ấ ẫ ộ ậ ặ ả ế ề ươ ổ ể

không. M c đ nh paired=F và var.equal=F , t c l y m u đ c l p và 2 ph ng sai t ng thặ ị ứ ấ ẫ ộ ậ ươ ổ ể

khác nhau . Tùy vào đ bài mà xem xét có đi u ch nh giá tr các tham s nàu không ! ề ề ỉ ị ố

*** V> Ph n ki m đ nh Phi Tham s :ầ ể ị ố

>>>Ki m đ nh Khi-bình ph ng :ể ị ươ

- V tính đ c l p :D li u liên h gi a 2 tính ch t đ c th hi n trong m t ma tr n ề ộ ậ ữ ệ ệ ữ ấ ượ ể ệ ộ ậ

H0:2 tính ch t c n ki m đ nh là đ c l p ấ ầ ể ị ộ ậ

H1:2 tính ch t đó ph thu cấ ụ ộ

L nh trong R : > chisq.test(X)ệ

V i X là : ma tr n nh ng giá tr trong m u ớ ậ ữ ị ẫ

-V s phù h p : ề ự ợ

H0: S ki n x y ra phù h p v i quy lu t thông th ng , t c p= p0ự ệ ả ợ ớ ậ ườ ứ

H1: S ki n x y ra không phù h p v i quy lu t thông th ng .ự ệ ả ợ ớ ậ ườ

L u ýư p0 là m t vec t các xác su t mô t quy lu t thông th ng và ộ ơ ấ ả ậ ườ t ng các xác su tổ ấ

này ph i =1ả .

L nh trong R : >chisq(x,p=p0,...)ệ

V i x: véc t các t n s trong m u .ớ ơ ầ ố ẫ

>>>Ki m đ nh Wilcoxon v trung v và t ng h ng :ể ị ề ị ổ ạ

- Khi không có gi thuy t v phân ph i chu n c a t ng th và c m u l y ra nh thì taả ế ề ố ẩ ủ ổ ể ỡ ẫ ấ ỏ

dùng ki m đ nh wilcoxon và ki m đ nh v trung v thay cho trung bình (tr ng h p nàyể ị ể ị ề ị ườ ợ

trung v s đ i di n t t h n cho t ng th !)ị ẽ ạ ệ ố ơ ổ ể

- Ki m đ nh v trung v c a m t t ng th :ể ị ề ị ủ ộ ổ ể

>wilcox.test(x,mu=mu0,alt=)

V i x : véc t giá tr m u ; mu0 : giá tr trung v theo H0 (mu=mu0) .ớ ơ ị ẫ ị ị

- Ki m đ nh v t ng h ng 2 t ng th (hay 2 trung v c a 2 t ng th ):ể ị ề ổ ạ ổ ể ị ủ ổ ể

>wilcox.test(x,y,alt=,paired=F,...)

đây mu0=0 nên b qua, mu0 là chênh l ch giá tri 2 trung v theo H0 .Ở ỏ ệ ị

Tham sô paired cho bi t 2 m u có l y đ c l p hay không, m c đ nh là F(đ c l p)ế ẫ ấ ộ ậ ặ ị ộ ậ

>>Ki m đ nh Kruskal Wallis cho nhi u m u đ c l p trong R : (xem qua!)ể ị ề ẫ ộ ậ

>kruskal.test(list(x,y,z,...))

V i x,y,z,... : các m u d li u ớ ẫ ữ ệ

>>>Ki m đ nh v h s t ng quan th h ng b ng ph ng pháp Spearman:ể ị ề ệ ố ươ ứ ạ ằ ươ

Khi không có gi thuy t v phân ph i chu n c a 2 t ng th :ả ế ề ố ẩ ủ ổ ể

V i (x,y ):m u d li u rút ra t t ng thớ ẫ ữ ệ ừ ổ ể

>cor(x,y,method=”spearman”) # H s t ng quan th h ng m uệ ố ươ ứ ạ ẫ

>cor.test(x,y,alt=,method=”spearman”,...) # Ki m đ nh v h s t ng quan th h ng ,ể ị ề ệ ố ươ ứ ạ ở

đây H0: h s t ng quan =0 . ệ ố ươ

Have a good exam! It’s not so difficult as you expected ! 3

*** VI > Ph n h i quy tuy n tính :ầ ồ ế

*** H i quy đ n bi n :ồ ơ ế

Các câu l nh trong R : ệ

V i x,y :t p d li u m u t ng ng v i bi n đ c l p và ph thu c ớ ậ ữ ệ ẫ ươ ứ ớ ế ộ ậ ụ ộ

>lm(y~x) # Xác đ nh đ ng h i quy m uị ườ ồ ẫ

>summary(lm(y~x)) # Các k t qu phân tíchế ả

>confint(lm(y~x),level=) # Kho ng tin c y cho h s beta_0 , beta_1 v i đ tin c y ả ậ ệ ố ớ ộ ậ

cân x ng level (m c đ nh=0.95).ứ ặ ị

>predict(lm(y~x),newdata,interval= , level= ,...)

# newdata : là d li u data.frame ch a giá tr m i c a x c n x lý ,n u không có tham sữ ệ ứ ị ớ ủ ầ ử ế ố

này thì s x lý trên véc t x đã nh p . ẽ ử ơ ậ

# N u interval = “ confidence” : tìm kho ng tin c y cho trung bình y khi x nh n giá tr ế ả ậ ậ ị

trong newdata

# N u interval = “ prediction: : tìm kho ng d báo cho giá tr (th c) c a y khi x nh n giáế ả ự ị ự ủ ậ

tr ị

trong newdata.

# level : đ tin c y cân x ng trong phép x lý (m c đ nh =0.95) ộ ậ ứ ử ặ ị

>plot(x,y) # V bi u đ tán x th hi n m i quan h gi a hai bi nẽ ể ồ ạ ể ệ ố ệ ữ ế

>abline(lm(y~x)) # V thêm đ ng h i quy m u vào bi u đ trên ẽ ườ ồ ẫ ể ồ

>>>> Eg:

> x=1:10

> y=c(2,3,4,5,7,8,9,13,16,18)

> lm(y~x)

Call:

lm(formula = y ~ x)

Coefficients:

(Intercept) x

-1.267 1.776

# Các h s ( Coefficients ) : ệ ố

(Intercept) :beta_0 = -1.267

x : beta_1 = 1.776

> confint(lm(y~x),level=0.98)

1 % 99 %

(Intercept) -3.916843 1.383509

x 1.348643 2.202872

# v i đ tin c y cân x ng 98% thì các h s beta_0 , beta_1 n m trong các kho ng trênớ ộ ậ ứ ệ ố ằ ả

## Tìm kho ng tin c y và kho ng d báo cho ytb và y :ả ậ ả ự

Have a good exam! It’s not so difficult as you expected ! 4

> newdata=data.frame(x=c(1.5,2.5,5.5))

> newdata

1 1.5

2 2.5

3 5.5

> predict(lm(y~x),newdata,interval="confidence",level=0.99)

fit lwr upr

1 1.396970 -1.039581 3.833520

2 3.172727 1.117716 5.227738

3 8.500000 7.078828 9.921172

# Tìm kho ng tin c y 99% cho giá tri trung bình c a y khi x=c(1.5 ,2.5 ,5.5) là các kho ngả ậ ủ ả

t lwr đ n upr (lower ,uper)ừ ế

> predict(lm(y~x),newdata,interval="prediction",level=0.99)

fit lwr upr

1 1.396970 -3.715179 6.509119

2 3.172727 -1.768969 8.114423

3 8.500000 3.786507 13.213493

# Tìm kho ng d báo 99% cho giá tr th c c a y khi x=c(1.5 , 2.5 , 5.5 )ả ự ị ự ủ

Nh n xétậ : Đ r ng c a kho ng d báo (cho gt th c y )bao gi cũng l n h n kho ng tinộ ộ ủ ả ự ự ờ ớ ơ ả

c y c a trung bình y ậ ủ

> summary(lm(y~x))

Call:

lm(formula = y ~ x)

Residuals:

Min 1Q Median 3Q Max

-2.164e+00 -7.803e-01 -2.082e-16 1.142e+00 1.509e+00

Coefficients:

Estimate Std. Error t value Pr(>|t|)

(Intercept) -1.2667 0.9150 -1.384 0.204

x 1.7758 0.1475 12.042 2.09e-06 ***

---

Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1

Residual standard error: 1.339 on 8 degrees of freedom

Multiple R-squared: 0.9477, Adjusted R-squared: 0.9412

F-statistic: 145 on 1 and 8 DF, p-value: 2.087e-06

### Cách đ c các giá tr trong l nh summary()ọ ị ệ :đ tin c y m c đ nh 95%ộ ậ ặ ị

>> Residuals : là giá tr ph n d , các đ i l ng th ng kê cho nó đ c li t kê d iị ầ ư ạ ượ ố ượ ệ ở ướ

>>>> Coefficients : Các h s :ệ ố

Have a good exam! It’s not so difficult as you expected ! 5

Xác suất thống kê ứng dụng trong KT: Một vài điểm cần nắm vững trước khi thi (Dùng cho phần mềm R)

Cách nhập dữ liệu ,các thao tác với véc tơ và ma trận (nhập), dãy số, cách đặt đường dẫn ...

Chủ đề:

Tài liệu liên quan

Tài liêu mới

AI tóm tắt

Giới thiệu tài liệu

Đối tượng sử dụng

Từ khoá chính

Nội dung tóm tắt

Hỗ trợ

Phương thức thanh toán

Theo dõi chúng tôi