Giới thiệu Thống kê học
L/O/G/O
Contents
1. Click to add title in here
2. Click to add title in here
3. Click to add title in here
4. Click to add title in here
5. Click to add title in here
6. Click to add title in here
www.themegallery.com
Thống kê học
• Thống kê học là môn khoa học nghiên cứu hệ thống các phương pháp thu thập, xử lý và phân tích các con số (mặt lượng) của những hiện tượng số lớn để tìm hiểu bản chất và tính quy luật vốn có của nó (mặt chất) trong những điều kiện thời gian và địa điểm cụ thể.
Thống kê học
Vậy thống kê là gì? Đó là một ngành học giúp ta thực hiện những công việc sau: 1. Thu thập dữ liệu và thiết kế các nghiên cứu định lượng 2. Tóm tắt thông tin nhằm hỗ trợ quá trình tìm hiểu về một vấn đề hoặc đối tượng nào đó 3. Đưa ra những kết luận dựa trên số liệu, và 4. Ước lượng hiện tại hoặc dự báo tương lai Thống kê thường đi kèm với môn học song hành là Xác xuất, là ngành học nhằm đưa ra các mô hình toán học về sự ngẫu nhiên và cho phép tính toán về sự ngẫu nhiên trong những trường hợp phức tạp.
Thống kê học
Ánh nắng mặt trời và ung thư da Chứng cứ thuyết phục về mối liên hệ giữa việc tiếp xúc trực tiếp với ánh nắng mặt trời và ung thư da đã được một nhà thống kê người Úc phát hiện ra, Ông Oliver Lancaster. Ông quan sát thấy rằng tỷ lệ người bị ung thư da trong số dân da trắng gốc Bắc Âu có tương quan thuận với vĩ độ của nơi họ ở, tức có tỷ lệ với lượng ánh nắng mặt trời mà họ tiếp xúc: các tiểu bang ở phía bắc có tỷ lệ ung thư da cao hơn các tiểu bang phía nam. Quan sát này chỉ có thể đưa ra được bằng việc thu thập đầy đủ các số liệu và đưa ra các quan sát có phương pháp về tỷ lệ ung thư da. Đó là lý
do tại sao cần học thống kê.
Thống kê học
Data
Information
Thông tin
Dữ liệu
Thống kê
Statistics
www.themegallery.com
Ba bước để làm thống kê
success
01. Suy nghĩ
02. Biểu thị
03. Trình bày
Các khái niệm trong thống kê học
• Quần thể (population): một nhóm gồm các thành phần mà nhà thực hành thống kê quan tâm. – VD: tất cả các nhà thầu ở Cần Thơ
• Mẫu (sample): một tập hợp các dữ liệu rút
ra từ quần thể. – Một mẫu 75 nhà thầu ở Cần Thơ
www.themegallery.com
Các khái niệm trong thống kê học
• Thông số (parameter): một đại lượng môt
tả quần thể. – VD: doanh thu bình quân của tất cả các nhà
thầu là 100 tỷ đồng
• Trị (tham) số thống kê (statistic): một đại
lượng mô tả mẫu – VD: doanh thu bình quân của mẫu 75 nhà
thầu là 120 tỷ đồng.
www.themegallery.com
Các khái niệm trong thống kê học
• Các quần thể có các thông số; các mẫu có
các trị số thống kê.
Phương pháp thống kê
Phương pháp thống kê
Thống kê mô tả (Desriptive statistics)
Thống kê học suy luận (Inferential statistics)
Thống kê mô tả
• Thu thập số liệu
– VD: khảo sát, quan sát, thí nghiệm
• Trình bày dữ liệu
– VD: biểu đồ và đồ thị
• Xác định đặc điểm của dữ liệu
– VD: trung bình của mẫu
Thống kê suy luận
• Quá trình tạo ra một ước lượng, dự đoán, hay quyết định về quần thể dựa trên mẫu.
Dữ liệu thống kê
• Dữ liệu (Data): là đại lượng cùng ngữ cảnh
đi kèm.
• Ngữ cảnh của dữ liệu: “Five W’s”: Who, What, When, Where and Why. Có thể có cả “How.”
• Dữ liệu không có ngữ cảnh đi kèm thì hầu
như vô nghĩa.
Dữ liệu thống kê
Họ và tên Tuổi Loại lao động
Đội thi công Bảo hiểm Lương ngày
Pham Cam Phổ thông 18 50000 1 Không
35 Vũ Phu Nề 90000 1 Có
28 Cao Giá Nề 95000 2 Không
45 Trần Ai Sắt 90000 1 Có
30 Lê La Điện 85000 2 Có
30 Lâm Tặc Mộc 90000 1 Không
32 Ngô Khoai Phổ thông 45000 2 Có
Phạm Thượng 11 Phổ thông 50000 2 Không
Biến của dữ liệu
Định lượng (Quantitative)
Định tính (Categorical)
Biến của dữ liệu
www.themegallery.com
Trình bày dữ liệu định tính
Ba qui tắc trong phân tích dữ liệu
1. Vẽ/tạo hình ảnh – có thể lộ ra những điều mà chúng ta không thấy từ dữ liệu thô. 2. Vẽ/tạo hình ảnh – những đặc điểm quan
trọng của dữ liệu sẽ được thể hiện. Chúng ta có thể thấy những điều chúng ta không mong đợi.
3. Vẽ/tạo hình ảnh – cách tốt nhất để nói với người khác rằng dữ liệu của bạn có hình ảnh trình bày được lựa kỹ.
Bảng tần suất
• Đếm số lượng của các giá trị dữ liệu cho
mỗi loại.
• Tổ chức chúng vào một bảng chỉ số đếm,
thể hiện tổng số lượng và loại.
• Ví dụ hạng vé tàu Titanic:
Hạng vé Đếm
Hạng nhất 325
Hạng nhì 285
Hạng ba 706
Thủy thủ đoàn 885
Bảng tần suất
• Bảng tần suất tương đối cũng tương tự,
nhưng thể hiện dạng phần trăm (thay vì số đếm) cho mỗi loại.
Hạng vé %
Hạng nhất 14.77
Hạng nhì 12.95
Hạng ba 32.08
Thủy thủ đoàn 40.21
Dự liệu tàu Titanic được trình bày hợp lý?
www.themegallery.com
Biểu đồ thanh (Bar Charts)
• Biểu đồ thanh tần suất tương đối mô tả sự phân phối tương đối của số đếm cho mỗi loại.
• Thỏa mãn “nguyên lý diện tích”
Biểu đồ hình bánh (Pie Charts)
• Khi quan tâm các phần trong tổng thể,
biểu đồ bánh là chọn lựa hay.
Bảng tùy thuộc
• Cho phép trình bày hai biến định tính cùng nhau. • Cho phép thể hiện các thành phần được phân phối như thế nào theo mỗi biến, và tùy thuộc vào giá trị của biến khác.
• VD: xem xét hạng vé và sự sống sốt của hàng
khách trên tàu Titanic
Hạng
Nhất Nhì Ba Tổng
Thủy thủ
Sống 203 118 178 212 711 Sống sót Chết 122 167 528 673 1490
Tổng 325 285 706 885 2201
Bảng tùy thuộc
• Các cột và hàng lề bên phải và bên dưới cho ra tổng số và các phân phối tần suất cho mỗi một biến.
• Mỗi phân phối tần suất gọi là phân phối lè của
biến tương ứng.
VD: Phân phối lề cho biến sống sót của tàu Titanic
Hạng
Nhất Nhì Ba Thủy thủ
Sống 203 118 178 212 Sống sót
Chết 122 167 528 673
Bảng tùy thuộc
• Mỗi phần tử của bảng cho ra số đếm của sự kết
hợp giá trị của hai biến.
• VD: phân tử thứ hai ở cột thủy thủ đoàn chỉ ra
673 thủy thủ chết khi tàu Titanic bị chìm.
Hạng
Nhất Nhì Ba Thủy thủ Tổng
Sống 203 118 178 212 711
Sống sót Chết 122 167 528 673 1490
Tổng 325 285 706 885 2201
Phân phối có điều kiện
• Phân phối có điều kiện cho ra phân phối của một biến chỉ cho các thành phần thỏa mãn một điều kiện nào đó của biến khác
• VD: phân phối có điều kiện của hạng vé với điều
kiện sống.
Hạng
Nhất Nhì Ba Thủy thủ Tổng
Sống 203 118 178 212 711
28.6% 16.6% 25.0% 29.8% 100%
Phân phối có điều kiện
• Các phân phối có điều kiện cho thấy rằng có sự
khác nhau về hạng vé và tỷ lệ sự sống sot.
Phân phối có điều kiện
• Sự phân phối của hạng vé với người sống sót và sự phân phối của hạng vé với người không sống sót là khác nhau.
• Hạng vé và sự sống sót là có sự liên hệ, nhưng
chúng không độc lập.
Biểu đồ dạng thanh đốt
• Biểu đồ thanh đốt trình bày lượng thông tin
giống với biểu đồ bánh
• Biểu đồ thanh đốt giữa hạng vé và sự sống sót
Phân phối 1 biến
• Giá trị trung bình
Ví dụ
• Ví dụ: Tính giá trị trung bình của tập hợp
quan sát sau:
i ni xi
1 3 14
2 2 11
3 3 12
Đáp số:
4 3 7
Ví dụ
• Ví dụ: Có 2 dự án với kết quả dự kiến:
Dự án Lợi nhuận (tỷ) Xác suất (p)
1 90 0,3
30 0,7
2 60 0,5
Tính lợi nhuận trung bình xác suất của 2 dự án trên.
Đáp số: Dự án 1: 48 tỷ; Dự án 2: 40 tỷ
20 0,5
Ý nghĩa
Chú ý
Hệ số biến động CV
Tính phương sai và độ lệch chuẩn với Excel
• Các functions:
– Phương sai : Var (địa chỉ chuỗi) – Độ lệch chuẩn: Stdev (địa chỉ chuỗi)
www.themegallery.com
Các phép biến đổi số liệu thường sử dụng
www.themegallery.com
Biến trung tâm hóa và chuẩn hóa
Standardized
Biến trung tâm hóa và chuẩn hóa
Normalized
Biến trung tâm hóa và chuẩn hóa
Adjusted Normalized
Ví dụ
Tính giá trị phương sai (V) và từ đó suy ra giá trị độ lệch chuẩn của tập số liệu xi nói trên
Ví dụ
Tính giá trị phương sai (V) và từ đó suy ra giá trị độ lệch chuẩn của tập số liệu xi nói trên
Ví dụ
• Ví dụ: Có 2 dự án với kết quả dự kiến: Lợi nhuận (tỷ)
Xác suất (p) Dự án
1 90 0,3
30 0,7
2 60 0,5
20 0,5
Ví dụ
• Ví dụ: Có 2 dự án với kết quả dự kiến: Lợi nhuận (tỷ)
Xác suất (p) Dự án
1 90 0,3
30 0,7
2 60 0,5
20 0,5