Giới thiệu Thống kê học

L/O/G/O

Contents

1. Click to add title in here

2. Click to add title in here

3. Click to add title in here

4. Click to add title in here

5. Click to add title in here

6. Click to add title in here

www.themegallery.com

Thống kê học

• Thống kê học là môn khoa học nghiên cứu hệ thống các phương pháp thu thập, xử lý và phân tích các con số (mặt lượng) của những hiện tượng số lớn để tìm hiểu bản chất và tính quy luật vốn có của nó (mặt chất) trong những điều kiện thời gian và địa điểm cụ thể.

Thống kê học

Vậy thống kê là gì? Đó là một ngành học giúp ta thực hiện những công việc sau: 1. Thu thập dữ liệu và thiết kế các nghiên cứu định lượng 2. Tóm tắt thông tin nhằm hỗ trợ quá trình tìm hiểu về một vấn đề hoặc đối tượng nào đó 3. Đưa ra những kết luận dựa trên số liệu, và 4. Ước lượng hiện tại hoặc dự báo tương lai Thống kê thường đi kèm với môn học song hành là Xác xuất, là ngành học nhằm đưa ra các mô hình toán học về sự ngẫu nhiên và cho phép tính toán về sự ngẫu nhiên trong những trường hợp phức tạp.

Thống kê học

Ánh nắng mặt trời và ung thư da Chứng cứ thuyết phục về mối liên hệ giữa việc tiếp xúc trực tiếp với ánh nắng mặt trời và ung thư da đã được một nhà thống kê người Úc phát hiện ra, Ông Oliver Lancaster. Ông quan sát thấy rằng tỷ lệ người bị ung thư da trong số dân da trắng gốc Bắc Âu có tương quan thuận với vĩ độ của nơi họ ở, tức có tỷ lệ với lượng ánh nắng mặt trời mà họ tiếp xúc: các tiểu bang ở phía bắc có tỷ lệ ung thư da cao hơn các tiểu bang phía nam. Quan sát này chỉ có thể đưa ra được bằng việc thu thập đầy đủ các số liệu và đưa ra các quan sát có phương pháp về tỷ lệ ung thư da. Đó là lý

do tại sao cần học thống kê.

Thống kê học

Data

Information

Thông tin

Dữ liệu

Thống kê

Statistics

www.themegallery.com

Ba bước để làm thống kê

success

01. Suy nghĩ

02. Biểu thị

03. Trình bày

Các khái niệm trong thống kê học

• Quần thể (population): một nhóm gồm các thành phần mà nhà thực hành thống kê quan tâm. – VD: tất cả các nhà thầu ở Cần Thơ

• Mẫu (sample): một tập hợp các dữ liệu rút

ra từ quần thể. – Một mẫu 75 nhà thầu ở Cần Thơ

www.themegallery.com

Các khái niệm trong thống kê học

• Thông số (parameter): một đại lượng môt

tả quần thể. – VD: doanh thu bình quân của tất cả các nhà

thầu là 100 tỷ đồng

• Trị (tham) số thống kê (statistic): một đại

lượng mô tả mẫu – VD: doanh thu bình quân của mẫu 75 nhà

thầu là 120 tỷ đồng.

www.themegallery.com

Các khái niệm trong thống kê học

• Các quần thể có các thông số; các mẫu có

các trị số thống kê.

Phương pháp thống kê

Phương pháp thống kê

Thống kê mô tả (Desriptive statistics)

Thống kê học suy luận (Inferential statistics)

Thống kê mô tả

• Thu thập số liệu

– VD: khảo sát, quan sát, thí nghiệm

• Trình bày dữ liệu

– VD: biểu đồ và đồ thị

• Xác định đặc điểm của dữ liệu

– VD: trung bình của mẫu

Thống kê suy luận

• Quá trình tạo ra một ước lượng, dự đoán, hay quyết định về quần thể dựa trên mẫu.

Dữ liệu thống kê

• Dữ liệu (Data): là đại lượng cùng ngữ cảnh

đi kèm.

• Ngữ cảnh của dữ liệu: “Five W’s”: Who, What, When, Where and Why. Có thể có cả “How.”

• Dữ liệu không có ngữ cảnh đi kèm thì hầu

như vô nghĩa.

Dữ liệu thống kê

Họ và tên Tuổi Loại lao động

Đội thi công Bảo hiểm Lương ngày

Pham Cam Phổ thông 18 50000 1 Không

35 Vũ Phu Nề 90000 1 Có

28 Cao Giá Nề 95000 2 Không

45 Trần Ai Sắt 90000 1 Có

30 Lê La Điện 85000 2 Có

30 Lâm Tặc Mộc 90000 1 Không

32 Ngô Khoai Phổ thông 45000 2 Có

Phạm Thượng 11 Phổ thông 50000 2 Không

Biến của dữ liệu

Định lượng (Quantitative)

Định tính (Categorical)

Biến của dữ liệu

www.themegallery.com

Trình bày dữ liệu định tính

Ba qui tắc trong phân tích dữ liệu

1. Vẽ/tạo hình ảnh – có thể lộ ra những điều mà chúng ta không thấy từ dữ liệu thô. 2. Vẽ/tạo hình ảnh – những đặc điểm quan

trọng của dữ liệu sẽ được thể hiện. Chúng ta có thể thấy những điều chúng ta không mong đợi.

3. Vẽ/tạo hình ảnh – cách tốt nhất để nói với người khác rằng dữ liệu của bạn có hình ảnh trình bày được lựa kỹ.

Bảng tần suất

• Đếm số lượng của các giá trị dữ liệu cho

mỗi loại.

• Tổ chức chúng vào một bảng chỉ số đếm,

thể hiện tổng số lượng và loại.

• Ví dụ hạng vé tàu Titanic:

Hạng vé Đếm

Hạng nhất 325

Hạng nhì 285

Hạng ba 706

Thủy thủ đoàn 885

Bảng tần suất

• Bảng tần suất tương đối cũng tương tự,

nhưng thể hiện dạng phần trăm (thay vì số đếm) cho mỗi loại.

Hạng vé %

Hạng nhất 14.77

Hạng nhì 12.95

Hạng ba 32.08

Thủy thủ đoàn 40.21

Dự liệu tàu Titanic được trình bày hợp lý?

www.themegallery.com

Biểu đồ thanh (Bar Charts)

• Biểu đồ thanh tần suất tương đối mô tả sự phân phối tương đối của số đếm cho mỗi loại.

• Thỏa mãn “nguyên lý diện tích”

Biểu đồ hình bánh (Pie Charts)

• Khi quan tâm các phần trong tổng thể,

biểu đồ bánh là chọn lựa hay.

Bảng tùy thuộc

• Cho phép trình bày hai biến định tính cùng nhau. • Cho phép thể hiện các thành phần được phân phối như thế nào theo mỗi biến, và tùy thuộc vào giá trị của biến khác.

• VD: xem xét hạng vé và sự sống sốt của hàng

khách trên tàu Titanic

Hạng

Nhất Nhì Ba Tổng

Thủy thủ

Sống 203 118 178 212 711 Sống sót Chết 122 167 528 673 1490

Tổng 325 285 706 885 2201

Bảng tùy thuộc

• Các cột và hàng lề bên phải và bên dưới cho ra tổng số và các phân phối tần suất cho mỗi một biến.

• Mỗi phân phối tần suất gọi là phân phối lè của

biến tương ứng.

VD: Phân phối lề cho biến sống sót của tàu Titanic

Hạng

Nhất Nhì Ba Thủy thủ

Sống 203 118 178 212 Sống sót

Chết 122 167 528 673

Bảng tùy thuộc

• Mỗi phần tử của bảng cho ra số đếm của sự kết

hợp giá trị của hai biến.

• VD: phân tử thứ hai ở cột thủy thủ đoàn chỉ ra

673 thủy thủ chết khi tàu Titanic bị chìm.

Hạng

Nhất Nhì Ba Thủy thủ Tổng

Sống 203 118 178 212 711

Sống sót Chết 122 167 528 673 1490

Tổng 325 285 706 885 2201

Phân phối có điều kiện

• Phân phối có điều kiện cho ra phân phối của một biến chỉ cho các thành phần thỏa mãn một điều kiện nào đó của biến khác

• VD: phân phối có điều kiện của hạng vé với điều

kiện sống.

Hạng

Nhất Nhì Ba Thủy thủ Tổng

Sống 203 118 178 212 711

28.6% 16.6% 25.0% 29.8% 100%

Phân phối có điều kiện

• Các phân phối có điều kiện cho thấy rằng có sự

khác nhau về hạng vé và tỷ lệ sự sống sot.

Phân phối có điều kiện

• Sự phân phối của hạng vé với người sống sót và sự phân phối của hạng vé với người không sống sót là khác nhau.

• Hạng vé và sự sống sót là có sự liên hệ, nhưng

chúng không độc lập.

Biểu đồ dạng thanh đốt

• Biểu đồ thanh đốt trình bày lượng thông tin

giống với biểu đồ bánh

• Biểu đồ thanh đốt giữa hạng vé và sự sống sót

Phân phối 1 biến

• Giá trị trung bình

Ví dụ

• Ví dụ: Tính giá trị trung bình của tập hợp

quan sát sau:

i ni xi

1 3 14

2 2 11

3 3 12

Đáp số:

4 3 7

Ví dụ

• Ví dụ: Có 2 dự án với kết quả dự kiến:

Dự án Lợi nhuận (tỷ) Xác suất (p)

1 90 0,3

30 0,7

2 60 0,5

Tính lợi nhuận trung bình xác suất của 2 dự án trên.

Đáp số: Dự án 1: 48 tỷ; Dự án 2: 40 tỷ

20 0,5

Ý nghĩa

Chú ý

Hệ số biến động CV

Tính phương sai và độ lệch chuẩn với Excel

• Các functions:

– Phương sai : Var (địa chỉ chuỗi) – Độ lệch chuẩn: Stdev (địa chỉ chuỗi)

www.themegallery.com

Các phép biến đổi số liệu thường sử dụng

www.themegallery.com

Biến trung tâm hóa và chuẩn hóa

Standardized

Biến trung tâm hóa và chuẩn hóa

Normalized

Biến trung tâm hóa và chuẩn hóa

Adjusted Normalized

Ví dụ

Tính giá trị phương sai (V) và từ đó suy ra giá trị độ lệch chuẩn của tập số liệu xi nói trên

Ví dụ

Tính giá trị phương sai (V) và từ đó suy ra giá trị độ lệch chuẩn của tập số liệu xi nói trên

Ví dụ

• Ví dụ: Có 2 dự án với kết quả dự kiến: Lợi nhuận (tỷ)

Xác suất (p) Dự án

1 90 0,3

30 0,7

2 60 0,5

20 0,5

Ví dụ

• Ví dụ: Có 2 dự án với kết quả dự kiến: Lợi nhuận (tỷ)

Xác suất (p) Dự án

1 90 0,3

30 0,7

2 60 0,5

20 0,5