Tuan V. Nguyen Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj. Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia

© Tuan V. Nguyen

Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019

Dữ liệu, thông tin, tri thức

• Data = dữ liệu

• Information = thông tin

• Knowledge = tri thức

Dữ liệu à Thông tin à Tri thức

Phân tích

Bàn luận

Dữ liệu là vàng

• Dữ liệu khoa học là vàng

• Cần phải trân quí dữ liệu

• Dữ liệu phải được lưu giữ ít nhất 10 năm

• Dữ liệu phải được chia sẻ (khi được yêu cầu)

Lưu trữ dữ liệu

• Lưu trữ dữ liệu là một vấn đề nan giải

• Sắp xếp dữ liệu thô (raw data) tốt sẽ giúp cho việc phân

tích tiện lợi hơn

• Sắp xếp dữ liệu không tốt sẽ làm tốn rất nhiều thì giờ để

chỉnh sửa

Dữ liệu gốc (thô)

Data: Likert scale

• Likert scale: dùng để đánh giá mức độ đồng thuận của

một phát biểu / sự kiện

Mức độ mà bạn đồng ý hay không đồng như với phát biểu sau đây: ....

☐ Rất đồng ý

☐ Đồng ý

☐ Trung dung

☐ Không đồng ý

☐ Rất không đồng ý

Dữ liệu (data)

• Dữ liệu khoa học là vàng, là kim cương

• Một phần rất quan trọng của nghiên cứu khoa học

• Là chứng từ của nghiên cứu

• Có thể sử dụng nhiều lần sau này

• Có thể phải chia sẻ với đồng nghiệp quốc tế (data

sharing)

• Ý nghĩa đạo đức khoa học

Hai loại dữ liệu

• Bản gốc (giấy)

• Bản điện tử

• (Có thể kể đến một số output)

Phần mềm để lưu trữ dữ liệu điện tử

• Microsoft Access

• Epi Info

• Excel

• Oracle

Có khi nhập dữ liệu 2 lần

Nguyên tắc chuẩn bị dữ liệu cho phân tích

• Nguyên tắc 1: Dòng và cột (dòng là quan sát, cột là biến số)

• Nguyên tắc 2: Mỗi biến là mỗi cột

• Nguyên tắc 3: Tất cả cột phải có số liệu, kể cả missing data

• Nguyên tắc 4: Nhập dữ liệu gốc, không phải tính toán

• Nguyên tắc 5: Dữ liệu trống (missing data) phải được mã

hoá thích hợp

Nguyên tắc 1: dòng = observation, cột=variable

• Tất cả các chương trình máy tính dùng cho phân tích đều dùng dữ

liệu theo dạng tabular hay ma trận (dòng và cột)

• Với các dữ liệu điều tra, cột thường thể hiện một biến đơn hay

một câu hỏi, dòng thể hiện id của đối tượng

Id

Age

Gender

Service

employed

Case 1 Case 2

1 2

27 19

1 2

2 1

1 2

Case 3

3

24

2

3

1

Nguyên tắc 2: mỗi biến là một cột

Nguyên tắc 3: Cột phải có số liệu!

Khi có nhiều files ...

• Nếu có nhiều file, không nên dựa vào tên của file để

lưu trữ thông tin.

Thay vì dùng nhiều files, có thể chỉ cần thêm cột để chỉ thông tin mới.

SubjID

Time

Response

HeartRate

ADJ

1

183

120

ADJ

2

177

115

ADJ

3

192

101

BDR

1

186

112

BDR

2

183

115

BDR

3

169

135

Dữ liệu polytomous

Nếu dữ liệu có nhiều nhóm hay classes, không bao giờ giảm xuống phần trăm hay tỉ lệ, mà phải nhập dữ liệu gốc:

65- Lý do chọn ngành- Dư luận- 01 66- Lý do chọn ngành- Dư luận- 02 69- Lý do chọn ngành- 05 70- Lý do chọn ngành- 06 71- Lý do chọn ngành- 07 72- Lý do chọn ngành- 08 73- Lý do chọn ngành- 09 74- Lý do chọn ngành- 10 61- Ấn tượng - 08 62- Ấn tượng - 09 63- Ấn tượng - 10

1 1 0 0 0 0 0 1 64- Ngành học 0 Điện - Điện tử 1 Điện - Điện tử 0 Điện - Điện tử 0 67- Lý do chọn ngành:tri ển vọng thu nhập-03 1 1 0 0 68- Lý do chọn ngành:tri ển vọng thu nhập-04 0 1 1 1 0 1 0 0 0 0 0 0 1 1 1 1 0 1 0 0 0 1 0 0 0 1 0 0 1 1 1 1 0 0 0 0

Kỹ thuật Điện - Điện tử

1 1 0 0 0 0 1 1 1 1 0 1 0 1 0 1 0 0 0 0 1 0 0 0 Điện - Điện tử 0 Điện - Điện tử 0 0 0 0 0 0 Điện tử 0 0 điện 0 1 0 0 1 0 0 0 1 0 0 0 0 0 0 0 0 0 0 0 0 0 1 1 1 1 0 1 0 1 1 0 0 1 0 1 0 0 0 1 0 0 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 0 1 0 0 1 1 1 1 1 1 0 0 1 1 1 0 0 0 0 1 0 1 0 0 0 1 0 1 1 0 1 1 1 0 1 1 0 1 0 1 0 0 0 0 0 0

Nguyên tắc 3: Nhập dữ liệu gốc

• Không nhập tỉ lệ, mà chỉ nhập tử số và mẫu số

• Tử số và mẫu số cần phải có cột riêng để dễ tính toán

Nguyên tắc 5: Missing data phải mã hoá

Tất cả các cột phải có cùng số dòng (kể cả missing data (số khống).

Dùng "blank space" hoặc "." hoặc "NA" để chỉ missing data.

- Tuyệt đối không dùng 0 hay 999 cho missing data!

Tạo dữ liệu: những điều quan trọng cần biết

Không dùng header, trailer, subtotals, hay những thông tin "ngoại biên"

Tên biến số có ý nghĩa và dễ đọc

XET NGHIEM

Nguồn dữ liệu phiếu thu phiếu thu

HbA1c Năm STT Số BA glucoz a máu Máu lắng Khí máu đườn g giấy anti HCV HBsA g Định nhóm máu test coom bs procal citoni n XN sinh hóa XN huyết học

XN sinh hóa phiếu thu XN huyết học phiếu thu XN Cross - Matc h XN sinh hóa bệnh án XN huyết học bệnh án

0 0 0 0 0 0 1 0 0 1

2015 2014 2015 2015 2015 2015 2014 2015 2015 2015 2014 2015 2014 2014 1 166 2 3 4 5 167 6 7 8 168 9 169 170 38 202 289 382 409 460 478 568 613 629 691 759 871 949 1 1 4 1 3 0 -99 0 0 2 0 1 0 0 2 5 -99 4 1 3 1 2 1 2 1 1 1 1 2 5 1 4 1 3 1 2 2 2 1 1 1 1 4 2 3 1 -99 0 1 1 1 2 1 0 0 1 0 0 1 -99 0 1 1 0 0 0 0 1 0 1 1 0 1 1 1 1 0 1 1 1 1 1 2 2 0 0 1 1 0 1 0 0 3 0 2 1 3 3 1 5 2 2 1 5 1 4 1 3 1 1 3 3 1 5 2 2 1 5 1 4 3 3 2 1 2 2 0 3 0 4 0 0 5 0 0 0 0 0 0 0 0 0 0 0 1 0 1 1 1 1 1 1 1 1 1 1 1 1 1 0 1 1 1 1 1 1 1 1 1 1 1 1 0 2 1 0 1 0 0 1 1 0 2 0 4 0 0 4 0 2 0 2 1 2 0 2 0 2 0 0 4 0 2 0 2

Chuẩn bị dữ liệu tốn thời gian

Qui luật chung:

• 90% chuẩn bị dữ liệu

• 10% phân tích

Phải hết sức cẩn thận với dữ liệu!

Áp dụng qui tắc phòng lab

• Qui tắc lab: Có sổ ghi dữ liệu (red book)

• Mỗi khi thay đổi số liệu, phải có ghi chú và giải thích

• Trong phân tích dữ liệu cũng có qui tắc

– Tất cả sửa đổi phải có chú thích + giải thích + kí tên

– Mã hoá (coding) phải có chú tích

– Dùng LabArchive (nếu có)

Tóm lại: 5 nguyên tắc

• Nguyên tắc 1: Dòng và cột (dòng là quan sát, cột là biến số)

• Nguyên tắc 2: Mỗi biến là mỗi cột

• Nguyên tắc 3: Tất cả cột phải có số liệu, kể cả missing data

• Nguyên tắc 4: Nhập dữ liệu gốc, không phải tính toán

• Nguyên tắc 5: Dữ liệu trống (missing data) phải được mã hoá

thích hợp

Đến phiên các bạn ...

Dữ liệu theo nhóm

Nhóm WT

BMD

Nhóm WT

BMD

ID

ID

101 102

A A

15 21

1.15 0.98

201 202

B B

5 15

1.50 1.21

103 104 105

A A A

5 11 25

0.97 1.10 1.06

31 21 29

1.09 1.15 1.25

203 204 205 206

B B B B

Bạn hãy thiết kế lại số liệu trên tiện cho phân tích thống kê

Dữ liệu theo thời gian

Tuần 2 17 26 17 10 20

Tuần 1 15 21 5 11 25

Nhóm A A B B A

Tuần 5 29 31 21 8 18

ID 101 102 103 104 105 Bạn hãy thiết kế lại số liệu trên tiện cho phân tích thống kê

Dữ liệu theo thời gian hai biến số

wc1

wc2

wc3

wc4

wc5

hip1

hip4

hip5

93 88 88 87 79 90.5 78 83 75

90.5 86 86 80 78 92 76.5 80 77

90.5 85 85 80 76.5 91 77 79.5 73

id 3 37 39 1 2 5 6 7 8

age 20 32 27 29 22 50 20 21 23

sex Male Male Male Female Female Female Female Female Female

101 88.5 97 93 86.5 96 84.5 88 87.5

97 89 93 94 88.5 102 88.5 90 85

95 87 90 90 84 96 82 88 83.5

94.5 85 88 85 82 90 80 82.5 78

94 84.5 87 84 81 92.5 79.5 81 75

hip2 hip3 95 89.5 88.5 87.5 80.4 94.6 82 86.5 80

95 89.5 90.5 89.5 83 95 79 85.5 80.5

Bạn hãy thiết kế lại số liệu trên tiện cho phân tích thống kê