TBDB
NHẬP MŨN THỐNG HƯỚNG TỚI Y HỌC
Phạm Minh Hoịng
Diễn địn VBA Việt Nam
Ngày 17 tháng 6 năm 2022
2
LỜI GIỚI THIỆU
Nói tới diễn đàn THVBA, người ta nghĩ tới những bài viết dễ hiểu, phương châm của
chúng tôi viết làm sao để người ngu nhất cũng hiểu được. Triết y nền móng căn
phát triển diễn đàn cho tới nay. THVBA chuyên về lĩnh vực VBA và đã đóng góp rất
nhiều bài viết v VBA được cộng đồng đánh giá rất cao. Nhiều người khi muốn tìm hiểu
một lĩnh vực nào đó thường nói đùa rằng, ước anh em quản trị viên THVBA cũng mở
thêm mảng họ quan tâm, họ mong chờ những bài viết với phong cách dễ hiểu.
Lập trình AI hay Khoa học dữ liệu lĩnh vực khó mặc Python đã hỗ trợ chúng ta
rất nhiều. Nếu chỉ vận dụng code sẵn và làm theo thì chẳng để nói, vấn đề đây
làm sao hiểu được bản chất để từ đó làm ch tri thức. Kiến thức toán thống được
sử dụng nhiều, nhưng phần lớn mọi người giảng cho nhau nghe thì chỉ nói tới khái niệm
chung chung, không minh họa bằng những dụ cụ thể để mọi người hình dung đúng
bản chất. Một số khác mặc nhiên công nhận điều người khác nói không hiểu ràng
những khái niệm thng kê này.
Theo tôi biết, sách v toán thng kê Vit Nam không thiếu, nhưng liên kết tới các
vấn đề v AI, về khoa hc d liu, thì chưa có cun sách giáo khoa nào làm tốt. Trước
nhu cầu cấp bách đó, tôi p to nên cun sách này, vi li trình y dễ hiểu, tôi sẽ
làm những khái nim cơ bn v xác sut, đng thi s dng Python làm công cụ kiểm
chứng các kết quả tính toán thng kê. Tôi không mong mun gì hơn đó cuốn sách thực
sự ích cho các bn. Và nếu trong tương lai nó tr thành cun sách gối đầu giường của
các bạn sinh viên theo hc ngành khoa hc d liu, hay máy hc, thì đó niềm vui đối
với tôi.
Nội dung trong cuốn sách này đưc tôi biên dch t Chúc các bn gt hái nhiều thành công!
Admin Forum THVBA
nickname: tuhocvba
Phạm Minh Hoàng
Tt nghip ĐH Bách Khoa Hà Nội khóa 2003-2008
Cựu học sinh chuyên toán Chuyên Hùng Vương Phú Thọ khóa 2000-2003
Mục lục
1 Thống kê tả và Suy luận thống kê 5
1.1 Phmvikhóahc................................ 5
1.2 Sử dụng Python trong khóa học y . . . . . . . . . . . . . . . . . . . . . 5
1.3 Thngkêlàgì? ................................. 6
2 Giá trị đại din 9
2.1 Giá trị đại din ca d liu . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
2.2 Trung bình s hc thưng đưc biết đến là gì (trung bình cng) . . . . . . 9
2.3 Sử dụng t sut (trung bình hình hc) . . . . . . . . . . . . . . . . . . . . 10
2.4 Trungbìnhđiuhòa .............................. 11
2.5 Tính chất quan trng ca giá tr trung bình cng . . . . . . . . . . . . . . 12
2.6 Tngkết..................................... 13
3 Giá trị đại din khác 15
3.1 Giá trị trung v, giá tr gia . . . . . . . . . . . . . . . . . . . . . . . . . . 15
3.2 Giá trị xut hin nhiu ln nht: Ti Tn Tr . . . . . . . . . . . . . . . . . 16
3.3 Tngkết..................................... 18
4 Mức độ phân tán (S dng phm vi và v trí phn tư) 19
4.1 Phmvicagiátr............................... 19
4.2 Phạm vi sử dụng phần và độ lệch phần . . . . . . . . . . . . . . . . . 20
4.3 Điểm hạn chế của phạm vi và phạm vi phần . . . . . . . . . . . . . . . 21
4.4 Tngkết..................................... 21
5 Nhất định hiểu v phân tán và độ lệch chuẩn 23
5.1 Đlchtrungbình ............................... 23
5.2 Phân tán và độ lệch chuẩn . . . . . . . . . . . . . . . . . . . . . . . . . . . 24
5.3 Sử dụng Python để tính toán phân tán và độ lệch chuẩn . . . . . . . . . . 25
5.4 Phân tán và Phân tán bất thiên . . . . . . . . . . . . . . . . . . . . . . . . 26
5.5 Tngkết..................................... 27
6 Phân tán bất thiên gì? Tại sao phân tán từ dữ liệu tiêu bản lại nhỏ
hơn phân tán từ dữ liệu cha? 29
6.1 Ước lượng phân tán của dữ liệu cha như thế nào thì tốt? . . . . . . . . . . 30
3
4MỤC LỤC
6.2 [Lý giải bằng hình ảnh]Tại sao độ phân tán của dữ liệu tiêu bản lại nhỏ
hơn độ phân tán của dữ liệu cha? . . . . . . . . . . . . . . . . . . . . . . . 31
6.3 [Lý giải bằng Số Học]Tại sao độ phân tán của dữ liệu tiêu bản lại nhỏ hơn
độ phân tán của dữ liệu cha? . . . . . . . . . . . . . . . . . . . . . . . . . 32
6.4 Phân tán bất thiên (Phương sai không chệch) thể được sử dụng làm
công cụ ước tính cho phương sai tổng thể (phân tán của dữ liệu cha) . . . 33
6.5 Tại sao lại n1,btthiênlàgì?...................... 34
6.6 Tngkết..................................... 34
7 do độ phân tán bất thiên đưc tính bằng phép chia cho n1. Tính
bất thiên nghĩa gì? 35
7.1 Tínhbtthiênlàgì? .............................. 35
7.2 Cách nghĩ v giá trị kỳ vọng . . . . . . . . . . . . . . . . . . . . . . . . . . 37
7.3 do độ phân tán bt thiên chia cho n1................. 39
7.4 Tngkết..................................... 40
8 Làm thế nào đ đc đ phân tán t đ lch chun? 43
8.1 bao nhiêu d liu nm trong khong: Trung bình ±đ lch chuẩn . . . 43
8.2 Nên nhớ v phân b chun . . . . . . . . . . . . . . . . . . . . . . . . . . . 46
8.3 Với phân b chun, 95% d liu nm trong phm vi Giá Tr Trung Bình
±1.96 *ĐLchChun............................. 47
8.4 Tngkết..................................... 47
9 Rất quan trọng! Chun hóa và tr s lch là gì? Tính điểm z và tính
điểm T 49
9.1 So sánh gia các nhóm có d liu khác nhau bng cách tính điểm z. . . . . 49
9.2 Trslchlàgì? ................................ 52
9.3 Tngkết..................................... 57
I Thuật Ngữ 59
Bài 1
Thống kê tả và Suy luận thống kê
1.1 Phạm vi khóa học
khóa học y chúng ta s hc các ni dung cơ bn v thng kê học.
Những điều bản ca nhng điu cơ bn. Tôi chưa bao gi nghiên cứu thống kê! !! Tôi
muốn bạn thực hin khóa hc này trưc khi đc mt cun sách khó v thống kê.
Phạm vi của khóa hc này s bt đu đi t thng kê mô t và xem nhẹ ước tính và thử
nghiệm. Sau đó, i ưc mình có th kết ni vi mt khóa hc máy hc.
Tuy nhiên, tôi nghĩ rng bn s có th đc các sách thng kê khác nếu bạn học qua khóa
học y bạn sẽ có th hc mt cách vng chc các ý tưng cơ bn v thống kê. Đó sẽ
kiến thức cần thiết đ nghiên cu hc máy, vì vy hãy cng c nhng kiến thức bản
trong khóa học y!
1.2 Sử dụng Python trong khóa hc này
Trong khóa học này tôi s s dng Python đ tiếp cn vi thng kê, tuy nhiên cho
bạn không hiểu v code python thì bn có th b qua các phn cha code python.
Tuy nhiên, do mc đích nhm ti sau này là khoa hc d liu (Data Science ), do đó
thế nào đi nữa, nếu bạn chút kiến thức bản v Python thì vẫn tốt hơn đấy.
khóa học y, các thư viện trong python được sử dụng ch yếu NumPy, Pandas,
matplotlib, seaborn, và tôi muốn giới thiệu tới hai thư viện mới SciPy (stats) và scikit-
learn.
SciPy thư viện mở của python trong khoa học, đọc sai-pai. dựa trên NumPy
5