Bài giảng Tin học ứng dụng: Chương 3 - Trần Trung Hiếu
lượt xem 3
download
Bài giảng "Tin học ứng dụng - Chương 3: Các thống kê cơ bản, tương quan và hồi quy" cung cấp cho người học các bước thực hiện, phân tích kết quả trong thống kê mô tả (Desriptive Statistics) và tổ chức đồ (Histogram), tương quan và hồi qui. Mời các bạn cùng tham khảo nội dung chi tiết.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Tin học ứng dụng: Chương 3 - Trần Trung Hiếu
- Bài giảng tin ứng dụng Gv: Trần Trung Hiếu Bộ môn CNPM – Khoa CNTT Email: tthieu@hua.edu.vn Website: http://fita.hua.edu.vn/tthieu
- Chương III: Các thống kê cơ bản, tương quan & hồi quy I. Thống kê mô tả (Desriptive Statistics) a. Các bước thực hiện b. Phân tích kết quả II. Tổ chức đồ (Histogram) a. Các bước thực hiện b. Phân tích kết quả III. Tương quan và hồi qui a. Tính hệ số tương quan b. Hồi quy tuyến tính c. Hồi quy phi tuyến
- Giới thiệu về phân phối chuẩn 1. Phân phối chuẩn, còn gọi là phân phối Gauss, là một phân phối xác suất cực kì quan trọng trong nhiều lĩnh vực. Nó là họ phân phối có dạng tổng quát giống nhau, chỉ khác tham số vị trí (giá trị trung bình μ) và tỉ lệ (phương sai σ2). 2. Định nghĩa: Biến ngẫu nhiên X có phân phối chuẩn với các tham số m (kỳ vọng), σ2 (phương sai) nếu nó có hàm mật độ:
- Đồ thị hàm mật độ phân phối chuẩn
- Đồ thị hàm phân bố trong phân phối chuẩn
- I. Thống kê mô tả (Descriptive Statistics) 1. Ví dụ 1 – trang 23 2. Liên hệ xác suất thống kê và các thuật ngữ Excel sử dụng trong thống kê mô tả » Thống kê mô tả cho phép tính các số đặc trưng mẫu, các giá trị thống kê mẫu như trung bình, độ lệch chuẩn, sai số chuẩn, trung vị, mode…Số liệu tính toán được bố trí theo cột hoặc theo dòng Mean (trung bình hay kỳ vọng): đặc trưng cho giá trị trung bình của DLNN Standard Deviation (độ lệch chuẩn), Sample Variance (phương sai mẫu): đặc trưng cho độ phân tán các giá trị của DLNN xung quanh giá trị trung bình Standard Error (sai số chuẩn): Sai số của trung bình Median (trung vị): cho giá trị điểm giữa của dãy số, trong xác suất là giá trị Me của đại lượng ngẫu nhiên X sao cho P(XMe) Mode: là giá trị của biến ngẫu nhiên ứng với xác suất cực đại hay giá trị có tần suất xuất hiện trong mẫu lớn nhất
- I. Thống kê mô tả (Descriptive Statistics) 2. Liên hệ xác suất thống kê và các thuật ngữ Excel sử dụng trong thống kê mô tả (tiếp) Kurtosis (độ nhọn): trong xác suất, người ta chứng minh được nếu DLNN X có phân phối chuẩn thì độ nhọn bằng 0. Ở đây, độ nhọn đánh giá đường mật độ phân phối của dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc (dương là nhọn hơn, âm là tù hơn). Nếu trong khoảng [-2,2] thì có thể coi số liệu xấp xỉ chuẩn Skewness (Độ lệch): Trong xác suất gọi là hệ số bất đối xứng đánh giá sự phân phối các giá trị có cân đối đối với giá trị trung bình hay không, nếu các giá trị của X đối xứng qua kỳ vọng thì Skewness=0 biểu hiện ở đường phân phối lệch trái hay lệch phải (âm là lệch trái, dương là lệch phải). Nếu trong khoảng [-2,2] thì có thể coi như số liệu cân đối như trong phân phối chuẩn. Confidence Level (Nửa độ dài khoảng tin cậy): » Ví dụ: Confidence level = 95% » Trong xác suất tương đương bài toán tìm giá trị α sao cho P(m- α
- Kurtosis > 0 đường màu đỏ, Kurtosis
- Nếu Kurtosis > 0, kurtosis càng lớn đồ thị càng nhọn. Nếu kurtosis
- Skewness > 0 là lệch phải,
- II. Tổ chức đồ 1. Ví dụ 2 – trang 25 2. Tần số xuất hiện của số liệu trong các khoảng cách đều nhau cho phép phác họa biểu đồ tần số. Để vẽ biểu đồ cần thực hiện qua 2 bước: bước chuẩn bị và bước vẽ tổ chức đồ Chuẩn bị: » Dể số liệu ở một cột, một hàng hay một bảng chữ nhật » Tìm giá trị lớn nhất (hàm Max), nhỏ nhất (hàm Min) » Tính khoảng biến thiên R=Max-Min » Chọn số khoảng k của miền phân tổ (thực tế chọn k từ 20-30, ví dụ minh họa chọn k từ 6-10), có thể lấy bằng công thức 6*log(n) trong đó n là số giá trị của DLNN X (lấy giá trị nguyên xấp xỉ) » Tìm giá trị bước tăng trong miền phân tổ h = R/k (Sử dụng hàm Round(R/k,số chữ số lẻ) » Tạo cột bin (Edit->Fill->Series, xem trang 25, 20)
- II. Tổ chức đồ Chuẩn bị: Vẽ tổ chức đồ » Chọn Tool -> Data Analysis-> Histogram để khai báo các mục: • Input range: Miền dữ liệu • Input Bin: Miền phân tổ • Labels: Nhãn ở dòng đầu nếu có • Output range: Miền kết quả • Pareto: Tần số sắp xếp trong tổ chức đồ là giảm dần • Cumulative Percentage: Hiển thị đường tần suất cộng dồn % • Chart output: Hiển thị biểu đồ Phân tích kết quả từ biểu đồ » Trong khoảng nào số liệu xuất hiện nhiều nhất » Hình dạng tổ chức đồ có giống hình dạng đường mật độ trong phân phối chuẩn không (có tính đối xứng, nhô cao ở giữa-> dạng đường cong chuông). Nếu có thì kết luận dữ liệu có thể tuân theo luật chuẩn
- Hình ảnh về tổ chức đồ Histogram 7 120.00% 6 100.00% 5 80.00% Frequency 4 Frequency 60.00% 3 Cumulative % 40.00% 2 1 20.00% 0 0.00% 10 15 20 25 30 35 40 45 50 55 More Bin
- Xem xét các đỉnh của các HCN xấp xỉ đường cong hàm mật độ trong phân phối chuẩn hay không ?
- Xem xét trường hợp sau
- III. Tương quan và hồi quy a. Tính hệ số tương quan - Ý nghĩa của hệ số tương quan: (xem lại) - Excel cho phép tính hệ số tương quan đơn giữa các biến - Cách thực hiện: Vào Tools-> Data Analysis-> Correlation và khai báo các mục - Input range: miền dữ liệu kể cả nhãn (nên có) - Grouped by: số liệu nhóm theo cột hay hàng - Labels in first row: tích vào nếu có nhãn ở dòng đầu hay cột đầu - Output range: miền output - Nhấn OK để kết thúc, cho kết quả là bảng n hàng n cột - Ví dụ 3: (Giáo trình)
- III. Tương quan và hồi quy b. Hồi quy tuyến tính - Cho phép tìm phương trình hồi quy tuyến tính đơn y=a*x +b và hồi quy tuyến tính bội y=a1*x1 + a2*x2 + … + an*xn + b - Dữ liệu input: Các biến độc lập chứa trong n cột, biến phụ thuộc y để trong một cột, các giá trị tương ứng giữa biến độc lập và biến phụ thuộc được xếp trên cùng một hàng - Ví dụ (giáo trình): Tìm đường hồi quy cuả năng xuất lúa y phụ thuộc vào độ dài bông, trọng lượng 1000 hạt, và số bông
- Cách thực hiện: Data-> Analysis-> Regression 18
- Xuất hiện hộp thoại Miền dữ liệu của biến phụ thuộc Y Miền dữ liệu của các biến X Có để nhãn đầu dòng không? Độ tin cậy (bằng 1-α, với α là mức xác suất) Hiện đồ thị phần dư Hệ số tự do b = 0 khi tích vào Hiện phần dư hay sai lệch giữa y thực nghiêm và y theo hồi quy Hiện đồ thị đường dự báo 19
- Kết quả 20
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Tin học ứng dụng
258 p | 602 | 177
-
Bài giảng Tin học ứng dụng trong quản lý hành chính Nhà nước: Phần 3 - Ứng dụng công nghệ thông tin trong quản lý hành chính Nhà nước
22 p | 219 | 38
-
Bài giảng tin học ứng dụng: Chương II - Cơ sở dữ liệu
29 p | 191 | 26
-
Bài giảng Tin học ứng dụng - Bài 2: Ứng dụng Excel giải quyết một số bài toán trong kinh tế
15 p | 147 | 14
-
Bài giảng Tin học ứng dụng: Chương 5 - Lê Hữu Hùng
38 p | 126 | 12
-
Bài giảng Tin học ứng dụng trong Hóa học - TS. Mai Xuân Trường
105 p | 138 | 10
-
Bài giảng Tin học ứng dụng: Bài 2 - ThS. Trịnh Hoàng Nam
15 p | 72 | 8
-
Bài giảng Tin học ứng dụng (Phần 4): Chương 5 - Ứng dụng công cụ phân tích dữ liệu
207 p | 10 | 7
-
Bài giảng Tin học ứng dụng: Bài 1 - ThS. Trịnh Hoàng Nam
5 p | 74 | 5
-
Bài giảng Tin học ứng dụng (Phần 2): Chương 3 - Ứng dụng excel giải các bài toán kinh tế
118 p | 16 | 5
-
Bài giảng Tin học ứng dụng (Phần 1): Chương 2 - Kỹ thuật bảng tính nâng cao
44 p | 10 | 5
-
Bài giảng Tin học ứng dụng (Phần 1): Chương 1 - Kỹ thuật soạn thảo văn bản nâng cao
59 p | 12 | 5
-
Bài giảng Tin học ứng dụng: Chương 2 - ThS. Hoàng Hải Xanh
93 p | 12 | 5
-
Bài giảng Tin học ứng dụng: Giới thiệu môn học - ThS. Trịnh Hoàng Nam
2 p | 91 | 5
-
Bài giảng Tin học ứng dụng trong kinh doanh: Chương 2 - ThS. Nguyễn Kim Nam
11 p | 58 | 5
-
Bài giảng Tin học ứng dụng: Chương 3 - ThS. Hoàng Hải Xanh
80 p | 11 | 4
-
Bài giảng Tin học ứng dụng: Chương 1 - ThS. Hoàng Hải Xanh
24 p | 12 | 4
-
Bài giảng Tin học ứng dụng (Phần 3): Chương 4 - Ứng dụng công cụ quản lý dự án
61 p | 4 | 4
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn