Xác suất thống kê ứng dụng trong KT: Một vài điểm cần nắm vững trước khi thi (Dùng cho phần mềm R)
lượt xem 100
download
Cách nhập dữ liệu ,các thao tác với véc tơ và ma trận (nhập), dãy số, cách đặt đường dẫn ...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Xác suất thống kê ứng dụng trong KT: Một vài điểm cần nắm vững trước khi thi (Dùng cho phần mềm R)
- Xác suất thống kê ứng dụng trong KT: Một số điểm cần nắm vững trước khi thi . **I > Những thao tác cơ bản với R : >>Các phép toán số học và các hàm giải tích cơ bản trong R >>Cách nhập dữ liệu < scan() vs nhập từ file >,các thao tác với véc t ơ và ma trận (nhập), dãy số, cách đặt đường dẫn *** II > Phần Bài tập dữ liệu và xử lý dữ liệu : >>Hiểu rõ dữ liệu định lượng và định tính >>Cách lấy cột dữ liệu (vec tơ) từ dữ liệu data.frame và ngược lại >>Bảng tần số của vectơ dữ liệu < lệnh table(x) >, tần suất < prop.table(x) > , t ần s ố tích lũy và tần suất tích lũy < cumsum(table(x)) và cumsum(prop.table(x)) > >>Cách chia tổ cho DL định lượng >>Các loại biểu đồ cho DL định tính, định lượng : sử dụng sao cho phù h ợp v ới yêu c ầu và dữ liệu của đề bài . Cách nhận xét biểu đồ >>Các đại lượng thống kê mô tả dùng cho DL véc tơ và cách nhận xét kết quả thu đ ược. Lưu ý: >>> Lệnh vẽ biểu đồ có rất nhiều tham số mặc định ,khi vẽ nếu không có yêu cầu gì thêm chỉ cần chú ý đến những tham số cơ bản nhất ,tránh r ườm rà ,đ ơn gi ản hóa câu lệnh. >>>Phần dữ liệu định tính chỉ áp dụng dụng được một đại lượng thống kê mô tả duy nhất ,đó là Mode .Cách tìm Mode : >which( table(x)==max(table(x)) ) Eg: > x=c(1,1,2,2,2,5,5,5,5) > which(table(x)==max(table(x))) 5 3 # 5,3 ? > table(x) x 125 234 Cách đọc kết quả : 5 là giá trị Mode (có tần số lớn nhất trong x) còn 3 là v ị trí c ủa nó trong bảng tần số(tần số của nó là 4 ) .Nếu dữ liệu có nhi ều Mode thì k ết qu ả s ẽ hi ện l ần lượt theo thứ tự xuất hiện trong bảng tần số . >>>Khi phải tính nhiều đại lượng TK thì dùng lệnh gộp : summary(x) Eg: > x=1:100 > summary(x) Min. 1st Qu. Median Mean 3rd Qu. Max. Have a good exam! It’s not so difficult as you expected ! 1
- 1.00 25.75 50.50 50.50 75.25 100.00 Lệnh này sẽ cho biết theo thứ tự : Giá trị nhỏ nhất, tứ phân v ị th ứ nhất, trung v ị, trung bình , tứ phân vị thứ 3 và giá trị lớn nhất của dữ liệu vec tơ x . *** III > Phần Bài tập xác suất cổ điển và biến ngẫu nhiên : >>>Hiểu được khái niệm xác suất theo nghĩa cổ điển,cách đếm số trường h ợp thuận l ợi và số trường hợp có thể(không gian mẫu) >>>Hiểu về các biến cố độc lập , xung khắc, hệ biến cố đầy đủ ,và xác suất có điều kiện .Các công thức về xác suất : cộng , nhân, Bayes, xác suất đi ều kiện, CT xác suất đ ầy đủ ... >>>>Biết cách đặt các mệnh đề A=””,B=””... H=”” sao cho đề bài sẽ được xác suất hóa : P(A)=a,P(B)=b,P(A|H)=ah,.... và Yêu cầu của bài toán đ ược biểu di ễn b ởi m ột xác su ất dạng P(H|A) hay P(A+B),... nào đó . Áp dụng các công th ức quen thu ộc và t ừ gi ả thuy ết s ẽ tính được xác suất cần tính ! >>>Một số công thức tính xác suất của các phân phối thông d ụng : chu ẩn , đ ều, nh ị th ức, poison với các dạng theo điểm (dnorm(),dpois()..),tích lũy (pnorm(),ppois()...),tìm ng ược giá trị để xác suất tích lũy đạt giá trị cho trước (qnorm(),qpois()...) Lưu ý : tham số mặc định : lower.tail=T trong các hàm p~ và q~ để xác đ ịnh vi ệc tích lũy từ cận dưới đến giá trị tích lũy, nếu đổi lower.tail=F thì việc tích lũy s ẽ được hi ểu là t ừ già trị tích lũy đến cận trên (rất hợp nếu tính ppois() với già trì X>N) *** IV >Phần khoảng tin cậy và kiểm định tham số : >>>Kiểm tra xem máy đã có thư viện BSDA chưa nếu không thì cài vào : dùng l ệnh >library(BSDA) >>>Khi ước lượng khoảng tin cậy hay kiểm định về TB của tổng thể (1 hoặc 2) cần xét xem bài toán rơi vào trường hợp nào để dùng các l ệnh z.test(),zsum.test() , t.test() hay tsum.test() cho phù hợp . >>>>Xây dựng cặp giả thuyết H0,H1 cho phù hợp: Giả thuyết bao gồm dấu = (giống nhau,như nhau, không nhỏ hơn, không lớn hơn..) bao gi ờ cũng để ở H0, và gi ả thuy ết đ ối của nó để ở H1 (khác nhau, ,lớn hơn , nhỏ hơn).Như vậy giả thuyết cần kiểm định có thể đặt ở H0 hoặc H1 tùy thuộc nó có bao gồm dấu = hay không! >>>Khi dùng prop.test(x,n,p=NULL,correct=F) đ ể tìm khoảng tin c ậy cho t ỷ l ệ hay ki ểm định tỷ lệ một hay 2 tổng thể thì để giá trị tham số correct = F. >>Cách viết tắt một số tham số : alternative =alt , TRUE=T, FALSE=F, “greater” = “g”, “less”=”l”, “two.sided”=”t” ( mặc định là kiểm định 2 phía nên có th ể b ỏ qua tham s ố alt=”t” nếu muốn kiểm định 2 phía !) >>>Khi kiểm định trung bình 2 tổng thể : Have a good exam! It’s not so difficult as you expected ! 2
- - Trong trường hợp dùng hàm tsum.test(...) thì l ưu ý có thêm tham s ố var.equal ,mặc định var.equal=TRUE ;nghĩa là giả thiết 2 tổng thể có phương sai bằng nhau - Trong trường hợp dùng hàm t.test(...) thì có thêm 2 tham số paired và var.equal để thể hiện lấy mẫu độc lập hay theo cặp và có giả thiết gì về phương sai 2 t ổng th ể hay không. Mặc định paired=F và var.equal=F , tức lấy mẫu đ ộc l ập và 2 ph ương sai t ổng th ể khác nhau . Tùy vào đề bài mà xem xét có điều chỉnh giá tr ị các tham s ố nàu không ! *** V> Phần kiểm định Phi Tham số : >>>Kiểm định Khi-bình phương : - Về tính độc lập :Dữ liệu liên hệ giữa 2 tính chất được thể hiện trong m ột ma tr ận H0:2 tính chất cần kiểm định là độc lập H1:2 tính chất đó phụ thuộc Lệnh trong R : > chisq.test(X) Với X là : ma trận những giá trị trong mẫu -Về sự phù hợp : H0: Sự kiện xảy ra phù hợp với quy luật thông thường , tức p= p0 H1: Sự kiện xảy ra không phù hợp với quy luật thông thường . Lưu ý p0 là một vec tơ các xác suất mô tả quy luật thông thường và tổng các xác suất này phải =1 . Lệnh trong R : >chisq(x,p=p0,...) Với x: véc tơ các tần số trong mẫu . >>>Kiểm định Wilcoxon về trung vị và tổng hạng : - Khi không có giả thuyết về phân phối chuẩn của t ổng thể và cỡ mẫu l ấy ra nh ỏ thì ta dùng kiểm định wilcoxon và kiểm định về trung vị thay cho trung bình (tr ường h ợp này trung vị sẽ đại diện tốt hơn cho tổng thể !) - Kiểm định về trung vị của một tổng thể : >wilcox.test(x,mu=mu0,alt=) Với x : véc tơ giá trị mẫu ; mu0 : giá trị trung vị theo H0 (mu=mu0) . - Kiểm định về tổng hạng 2 tổng thể (hay 2 trung vị của 2 t ổng th ể): >wilcox.test(x,y,alt=,paired=F,...) Ở đây mu0=0 nên bỏ qua, mu0 là chênh lệch giá tri 2 trung v ị theo H0 . Tham sô paired cho biết 2 mẫu có lấy độc lập hay không, mặc định là F(đ ộc l ập) >>Kiểm định Kruskal Wallis cho nhiều mẫu độc lập trong R : (xem qua!) >kruskal.test(list(x,y,z,...)) Với x,y,z,... : các mẫu dữ liệu >>>Kiểm định về hệ số tương quan thứ hạng bằng phương pháp Spearman: Khi không có giả thuyết về phân phối chuẩn của 2 t ổng th ể : Với (x,y ):mẫu dữ liệu rút ra từ tổng thể >cor(x,y,method=”spearman”) # Hệ số tương quan th ứ h ạng m ẫu >cor.test(x,y,alt=,method=”spearman”,...) # Kiểm định v ề hệ s ố t ương quan th ứ h ạng , ở đây H0: hệ số tương quan =0 . Have a good exam! It’s not so difficult as you expected ! 3
- *** VI > Phần hồi quy tuyến tính : *** Hồi quy đơn biến : Các câu lệnh trong R : Với x,y :tập dữ liệu mẫu tương ứng với biến độc lập và phụ thuộc # Xác định đường hồi quy mẫu >lm(y~x) # Các kết quả phân tích >summary(lm(y~x)) # Khoảng tin cậy cho hệ số beta_0 , beta_1 với đ ộ tin cậy >confint(lm(y~x),level=) cân xứng level (mặc định=0.95). >predict(lm(y~x),newdata,interval= , level= ,...) # newdata : là dữ liệu data.frame chứa giá trị mới của x cần x ử lý ,n ếu không có tham s ố này thì sẽ xử lý trên véc tơ x đã nhập . # Nếu interval = “ confidence” : tìm khoảng tin cậy cho trung bình y khi x nh ận giá tr ị trong newdata # Nếu interval = “ prediction: : tìm khoảng dự báo cho giá tr ị(th ực) c ủa y khi x nh ận giá t rị trong newdata. # level : độ tin cậy cân xứng trong phép xử lý (mặc đ ịnh =0.95) # Vẽ biểu đồ tán xạ thể hiện mối quan h ệ gi ữa hai bi ến >plot(x,y) >abline(lm(y~x)) # Vẽ thêm đường hồi quy mẫu vào biểu đ ồ trên >>>> Eg: > x=1:10 > y=c(2,3,4,5,7,8,9,13,16,18) > lm(y~x) Call: lm(formula = y ~ x) Coefficients: (Intercept) x -1.267 1.776 # Các hệ số ( Coefficients ) : (Intercept) :beta_0 = -1.267 x : beta_1 = 1.776 > confint(lm(y~x),level=0.98) 1 % 99 % (Intercept) -3.916843 1.383509 x 1.348643 2.202872 # với độ tin cậy cân xứng 98% thì các hệ số beta_0 , beta_1 nằm trong các kho ảng trên ## Tìm khoảng tin cậy và khoảng dự báo cho ytb và y : Have a good exam! It’s not so difficult as you expected ! 4
- > newdata=data.frame(x=c(1.5,2.5,5.5)) > newdata x 1 1.5 2 2.5 3 5.5 > predict(lm(y~x),newdata,interval="confidence",level=0.99) fit lwr upr 1 1.396970 -1.039581 3.833520 2 3.172727 1.117716 5.227738 3 8.500000 7.078828 9.921172 # Tìm khoảng tin cậy 99% cho giá tri trung bình của y khi x=c(1.5 ,2.5 ,5.5) là các kho ảng từ lwr đến upr (lower ,uper) > predict(lm(y~x),newdata,interval="prediction",level=0.99) fit lwr upr 1 1.396970 -3.715179 6.509119 2 3.172727 -1.768969 8.114423 3 8.500000 3.786507 13.213493 # Tìm khoảng dự báo 99% cho giá trị thực của y khi x=c(1.5 , 2.5 , 5.5 ) Nhận xét : Độ rộng của khoảng dự báo (cho gt thực y )bao giờ cũng l ớn h ơn kho ảng tin cậy của trung bình y > summary(lm(y~x)) Call: lm(formula = y ~ x) Residuals: Min 1Q Median 3Q Max -2.164e+00 -7.803e-01 -2.082e-16 1.142e+00 1.509e+00 Coefficients: Estimate Std. Error t value Pr(>|t|) (Intercept) -1.2667 0.9150 -1.384 0.204 x 1.7758 0.1475 12.042 2.09e-06 *** --- Signif. codes: 0 ‘***’ 0.001 ‘**’ 0.01 ‘*’ 0.05 ‘.’ 0.1 ‘ ’ 1 Residual standard error: 1.339 on 8 degrees of freedom Multiple R-squared: 0.9477, Adjusted R-squared: 0.9412 F-statistic: 145 on 1 and 8 DF, p-value: 2.087e-06 ### Cách đọc các giá trị trong lệnh summary() :độ tin cậy mặc định 95% >> Residuals : là giá trị phần dư , các đại lượng thống kê cho nó đ ược li ệt kê ở d ưới >>>> Coefficients : Các hệ số : Have a good exam! It’s not so difficult as you expected ! 5
- - beta_0 : giá trị ước đoán (Estimate ) -1.2667 , sai s ố chu ẩn (Std. Error ) : 0.9150 , t- value :-1.384 - beta_1 : giá trị ước đoán : 1.7758 , sai số chuẩn : 0.1475 , t-value : 12.042 Lưu ý : giá tri t (t-value) dùng để kiểm định về độ dốc của đường h ồi quy (hay beta_1) >> Residual standard error : Sai số chuẩn của phần dư : là 1.339 v ới 8 b ậc t ự do (=n-2 , ở đây n=10 và chiều dai véc tơ nhập x,y ) >>>> Multiple R-squared : Là hệ số xác định R^2 : 0.9477 Adjusted R-squared : Hệ số xác định đã đi ều ch ỉnh : 0.94124 (nh ỏ h ơn R^2) >> F-statistic: 145 on 1 and 8 DF, p-value: 2.087e-06 : Th ống kê toàn di ện F (xem qua) > plot(x,y) > abline(lm(y~x)) # Lệnh vẽ : >>>> Kiểm định độ dốc đường hồi quy mẫu với mức ý nghĩa anfa : H0: Độ dốc =0 hay beta_1 =0 -Nếu “H1 : beta_1 >0 “ thì tính >pt(t-value,lower.tail=F,df=n-2) ,r ồi so sánh v ới anfa -Nếu “H1 : beta_1 pt(t-value,df=n-2) ,r ồi so sánh v ới anfa. -Nếu “H1 : beta_1 0” thì tính >2*pt(|t-value|,lower.tail=F,df=n-2) , r ồi so sánh v ới anfa Eg: Tiếp VD trên : có n=10 , t-value =12.042 , với gi ả thuy ết H1 hai phía (beta_10) và giả sử anfa =0.1 : > t_value =12.042 > 2*pt(abs(t_value),lower.tail=F,df=8) [1] 2.087528e-06 Rõ ràng là p-value = 2.087528e-06 < 0.1 =anfa nên ta bác b ỏ H0 ch ấp nh ận H1 . >>>Hệ số tương quan : Have a good exam! It’s not so difficult as you expected ! 6
- >cor(x,y) # Hệ số tương quan mẫu >cor.test(x,y,alt=...) # Kiểm định về hệ số tương quan, với H0: h ệ số t ương quan =0 Lưu ý :tham số method có thể nhận giá trị “pearson”,”kendall” hay “spearman” , n ếu không có yêu cầu cụ thể thì bỏ qua (mặc định) ** Hồi quy đa biến : Tương tự như hồi quy đơn biến , trong các câu lệnh chỉ thay lm( y~x ) bằng lm(y~x1+x2+x3+...) Chẳng hạn nếu y phụ thuộc hai biến độc lập x1,x2 thì : # Xác định đường h ồi quy m ẫu >lm(y~x1+x2) # Các kết quả phân tích >summary(lm(y~x1+x2)) # Khoảng tin cậy cho hệ số beta_0 , beta_1 ,beta_2 v ới >confint(lm(y~x1+x2),level=) độ tin cậy cân xứng level (mặc định=0.95). >predict(lm(y~x1+x2),newdata,interval= , level= ,...) Chú ý : newdata ở đây sẽ có 2 cột x1 và x2 chứ không phải một nh ư tr ước , vd : > newdata=data.frame(x1=c(1,2,5),x2=c(1.5 ,3.5 ,7)) > newdata x1 x2 1 1 1.5 2 2 3.5 3 5 7.0 Không có các lệnh vẽ trong trường hợp này ! * VII > Phần phân tích phương sai : Xem qua ! Ghi chú : Các dấu * (từ * đến *** ) đại diện cho tầm quan trọng của mỗi phần mục lớn. Các dấu > ( từ >> đến >>>> ) biểu hiện cho mức độ quan trọng của các m ục nh ỏ. Dấu > đứng độc lập : biểu diễn câu lệnh trong R !!! Have a good exam! It’s not so difficult as you expected ! 7
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 1 - Ngô Thị Thanh Nga
54 p | 335 | 40
-
Đề thi môn Xác suất thống kê ứng dụng năm học 2013-2014 - ĐH Sư phạm Kỹ thuật TP.HCM
1 p | 675 | 19
-
Bài giảng Xác suất thống kê ứng dụng: Lecture 2 - PGS.TS. Lê Sỹ Vinh
15 p | 126 | 13
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 2 - ĐH Thăng Long
38 p | 106 | 10
-
Bài giảng Xác suất thống kê ứng dụng: Lecture 5 - PGS.TS. Lê Sỹ Vinh
33 p | 99 | 9
-
Bài giảng Xác suất thống kê ứng dụng: Lecture 3 - PGS.TS. Lê Sỹ Vinh
32 p | 65 | 9
-
Bài giảng Xác suất thống kê ứng dụng: Lecture 1 - PGS.TS. Lê Sỹ Vinh
17 p | 56 | 9
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 5.1 - Ngô Thị Thanh Nga
108 p | 120 | 9
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 4 - ĐH Thăng Long
31 p | 102 | 8
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 5.2 - Ngô Thị Thanh Nga
39 p | 90 | 5
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 8 - ĐH Thăng Long
71 p | 84 | 5
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 6 - ĐH Thăng Long
151 p | 101 | 5
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 5 - ĐH Thăng Long
102 p | 126 | 5
-
Bài giảng Xác suất thống kê ứng dụng trong kinh tế xã hội: Chương 3 - ĐH Thăng Long
24 p | 111 | 5
-
Đề thi cuối học kỳ II năm học 2018-2019 môn Xác suất thống kê ứng dụng (Đề số 01) - ĐH Sư phạm Kỹ thuật
2 p | 146 | 2
-
Đề thi cuối học kỳ II năm học 2018-2019 môn Xác suất thống kê ứng dụng - ĐH Sư phạm Kỹ thuật
2 p | 61 | 2
-
Đề thi cuối học kỳ I năm học 2018-2019 môn Xác suất thống kê ứng dụng - ĐH Sư phạm Kỹ thuật
2 p | 85 | 2
-
Đề thi cuối học kỳ II năm học 2019-2020 môn Xác suất thống kê ứng dụng - ĐH Sư phạm Kỹ thuật
2 p | 67 | 2
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn