1
ĐẠI CƯƠNG VỀ THỐNG KÊ MÔ TẢ
PGS. TS. Đỗ Văn Dũng
Mục tiêu:
Sau khi học xong, học viên có khả năng:
Trình bày định nghĩa của thống kê, số liệu, thông tin và biến số.
Phân biệt được các loại biến số: định lượng và định tính.
Xây dựng được bảng phân phối tần suất cho số liệu định tính và định lượng.
Lựa chọn được các loại biểu đồ hay đồ thị thích hợp để trình bày số liệu.
Tính được các số thống kê tóm tắt như trung bình, trung vị, yếu vị, độ lệch chuẩn, phương sai.
1. Một số định nghĩa:
Thống là phương pháp khoa học dùng để thu thập, tóm tắt, trình bày và phân tích số liệu. Phương
pháp thống được sử dụng trong nghiên cứu nhằm để so sánh một nhóm đối tượng chứ không nhằm
nghiên cứu từng cá nhân đơn lẻ.
Số liệu: Kết quả có được do việc quan sát hay thu thập đặc tính hay đại lượng ở các đối tượng khác
nhau hay ở thời gian khác nhau.
Thí dụ: Quan sát giới tính của các học viên trong lớp, số liệu ghi nhận được là:
Nam, nam, nữ, nữ, nữ, nam, nữ, v.v
Thí dụ: Một nhà nghiên cứu đo nồng độ hemoglobin của 70 thai phụ có kết quả như sau:
10,2 13,7 10,4 14,9 11,5 12,0 11,0
13,3 12,9 12,1 9,4 13,2 10,8 11,7
10,6 10,5 13,7 11,8 14,1 10,3 13,6
12,1 12,9 11,4 12,7 10,6 11,4 11,9
9,3 13,5 14,6 11,2 11,7 10,9 10,4
12,0 12,9 11,1 8,8 10,2 11,6 12,5
13,4 12,1 10,9 11,3 14,7 10,8 13,3
11,9 11,4 12,5 13,0 11,6 13,1 9,7
11,2 15,1 10,7 12,9 13,4 12,3 11,0
14,6 11,1 13,5 10,9 13,1 11,8 12,2
và những con số này được gọi là số liệu.
2
Cần lưu ý số liệu phải liên kết với một đặc tính hay đại lượng nhất định. Ghi nhận giới tính ở người
này, tuổi của người khác, quần áo của một người khác nữa thì kết quả này không phải là số liệu.
Sử dụng phương pháp thống kê chúng ta thể tóm tắt số liệu trên sử dụng nồng độ hemoglobin
trung bình = 11,98 độ lệch chuẩn bằng 1,42. Số liệu được tóm tắt, trình bày hay phân tích bằng
phương pháp thống kê sẽ trở thành thông tin.
2. Biến số và các loại biến số:
Biến số là những đại lượng hay những đặc tính có thể thay đổi từ người này sang người khác hay từ
thời điểm này sang thời điểm khác.
Như vậy biến số thể thể hiện đại lượng hay đặc tính. Nếu nó thể hiện một đại lượng nó được gọi
là biến số định lượng. Nếu nó nhằm thể hiện một đặc tính thì được gọi là biến số định tính.
Biến số định tính:
Biến số định tính còn được chia làm 3 loại: biến số thứ tự, biến số danh định và biến số nhị giá.
Biến số thứ tự là biến số định tính với các giá trị có thể sắp xếp thứ tự được.
Thí dụ: tình trạng kinh tế hội (giàu, khá, trung bình, nghèo, rất nghèo) biến số thứ tự bởi
người giàu điều kiện kinh tế tốt hơn người khá, người khá hơn người trung bình, trung bình hơn
nghèo, v.v
Những thí dụ khác là học lực của học sinh (giỏi, khá, trung bình, kém), tiên lượng (tốt, khá, xấu, tử
vong).
Theo phân loại tăng huyết áp của Tổ chức Y tế Thế giới được trình y như sau, theo phân loại huyết
áp với các giá trị huyết áp bình thường, tăng huyết áp độ 1, tăng huyết áp độ 2, tăng huyết áp độ 3 là
biến số thứ tự:
Huyết áp bình thường: HA tâm thu 139 và HA tâm trương 89
Tăng huyết áp độ 1: HA tâm thu 179 hay HA tâm trương 104
Tăng huyết áp độ 2: HA tâm thu 180 hay HA tâm trương >114
Tăng huyết áp độ 3: HA tâm thu 180 và HA tâm trương 115 mmHg
Biến số danh định là biến số định tính mà giá trị của nó không thể biểu thị bằng số phải biểu diễn
bằng một tên gọi (danh: tên) và các giá trị này không thể sắp đặt theo một trật tự từ thấp đến cao.
Thí dụ: Biến số dân tộc với các giá trị: Kinh, Khmer, Hoa, Chăm,… là biến số định tính vì chúng ta
không thể sắp xếp các giá trị này từ theo một trật tự từ thấp đến cao hay ngược lại.
3
Một số thí dụ khác của biến số danh định tình trạng hôn nhân (có 4 giá trị: độc thân, gia đình,
li dị, góa) nhóm máu (A, B, AB và O).
Đôi khi biến số danh định chỉ 2 giá trị: thí dụ như sống hay chết; hút thuốc hay không hút
thuốc lá; suy dinh dưỡng hay không suy dinh dưỡng; nam hay nữ. Những biến số thuộc loại y
được gọi là biến số nhị giá (binary variable).
Mã hóa:
Trong phân ch thống kê, để tiện việc nhập số liệu hay giải kết quả, người ta thể ánh xạ
(mapping) các giá trị của biến định tính vào các con số. Việc này được gọi hóa cần hiểu
rằng việc hóa này hoàn toàn tính chất áp đặt các con số được dùng trong hóa không
phản ánh bản chất của biến số danh định.
Giới tính là biến số danh định và có hai giá trị là nam và nữ. Chúng ta có thể mã hóa giới tính và
quy ước Nam là 1 và Nữ là 2. Tuy nhiên việc mã hóa này là áp đặt và chúng ta hoàn toàn có thể
quy ước Nam là 1 và Nữ là 0. Việc mã hóa chỉ nhằm giúp việc nhập số liệu và xử lí số liệu trở nên
dễ dàng hơn chứ không nhằm phản ánh bản chất của biến số đó.
Biến số định lượng:
Biến số định lượng nhằm thể hiện một đại lượng và do đó có giá trị là những con số.
Thí dụ: tuổi là biến số liên tục bởi vì ta có thể nói người này 20 tuổi, người kia 32 tuổi, …
Những thí dụ khác là đường huyết, hemoglobin, hematocrite, chiều cao, cân nặng, thu nhập, …
3. Phương pháp trình bày số liệu bảng:
Số liệu ghi nhận các đặc tính hay đại lượng có thể trình bày thành bảng và bảng y được gọi là bảng
phân phối tần suất.
Phân phối tần suất của biến số định tính:
Số liệu của biến số rời rạc thể được trình bày dưới dạng một phân phối tần suất. Phân phối tần
suất là một bảng chỉ ra tần suất xuất hiện của từng giá trị rời rạc của biến số (Bảng 1). Như vậy, bảng
phân phối tần suất gồm 2 cột, một cột liệt các giá trị của biến số một cột trình bày tần suất
tương ứng của các giá trị đó.
Bảng 1 là bảng phân phối tần suất của giới tính. Bởi vì giới tính có 2 giá trị nam và nữ nên ta liệt kê
2 giá trị này ở một cột. Ở cột thứ nhì ta ghi tần suất tương ứng của các giá trị này. Ðôi khi bảng phân
phối tần suất có thêm cột phần trăm như trong thí dụ ở trên. Bảng 2 là một thí dụ khác về bảng phân
phối tần suất.
4
Bảng 1: Phân phối giới tính của 69 học sinh lớp cơm thường tại trường mầm non 23 tháng 11,
Huyện Hóc môn
Giới
Số trẻ
Phần trăm
Nam
45
65
Nữ
24
35
Tổng số
69
100
Bảng 2: Phương pháp đỡ đẻ của 600 trẻ trong bệnh viện
Phương pháp đỡ đẻ
Số sinh
Phần trăm
Sinh thường
478
79,7
Sinh forceps
65
10,8
Sinh mổ
57
9,5
Tổng số
600
100,0
Ðôi khi trong bảng phân phối người ta không ghi con số thực tế của tần suất chỉ ghi nhận phần
trăm. Trong trường hợp hợp này, phải ghi rõ số đối tượng của toàn bộ phân phối (số đối tượng toàn
bộ trong thí dụ trên là 600).
Phân phối tần suất của biến số định lượng:
Nếu biến số là biến số liên tục chúng ta không thể liệt kê tất cả các giá trị của biến số. Trong trường
hợp này chúng ta có thể nhóm (làm tròn) giá trị của biến số lại.
Cụ thể các bước xây dựng bảng phân phối tần suất cho biến số định lượng như sau:
1- Tìm phạm vi (giá trị tối thiểu và giá trị tối đa) của số liệu. Trong thí dụ về hemoglobin của 70 phụ
nữ phạm vi là 8,8 đến 15,1.
2. Chia phạm vi số liệu ra làm n khoảng với độ rộng của mỗi khoảng là d. Cần lưu ý độ rộng mỗi
khoảng d nên đại lượng chẵn như 1, 2, 5, 10 hay 0,5, 0,2 số các khoảng n nên từ 5 - 12 (trung
bình là 7 - 8). Trong thí dụ trên ta có thể chia phạm vi ra làm 8khoảng với chiều rộng khoảng bằng 1
đơn vị. Khi đó các khoảng là: 8 - 8,9; 9 - 9,9; 10 - 10,9; 11 - 11,9; 12 - 12,9; 13 - 13,9; 14 - 14,9; 15
- 15,9.
3. Ðếm các giá trị thích hợp vào khoảng đã định trước.
5
Hemoglobin
(g/100ml)
8 - 8,9
9 - 9,9
10 - 10,9
11 - 11,9
12 - 12,9
13 - 13,9
14 - 14,9
15 - 15,9
4. Xây dựng bảng phân phối tần suất với biến số và các khoảng giá trị của biến số và tần suất tương
ứng với các khoảng giá trị đó. Chúng ta cũng thể thêm vào cột phần trăm cột phần trăm tích
lũy (nếu thích hợp).
Bảng 3. Hemoglobin của 70 phụ nữ
Hemoglobin
Tần suất
Phần trăm
Phần trăm tích lũy
8 - 8,9
1
1,43
1,43
9 - 9,9
3
4,29
5,71
10 - 10,9
14
20,00
25,71
11 - 11,9
19
27,14
52,86
12 - 12,9
14
20,00
72,86
13 - 13,9
13
18,57
91,43
14 - 14,9
5
7,14
98,57
15 - 15,9
1
1,43
100,00
Thí dụ như nếu biến số là chu vi vòng cánh tay của trẻ chúng ta có thể làm tròn chu vi vòng cánh
tay đến 1 cm. Khi đó ta có thể xem thang đo của biến số là rời rạc và trình bày bảng phân phối tần
suất của biến số (bảng 2).