Bài giảng Tổ chức dữ liệu
lượt xem 3
download
Bài giảng Tổ chức dữ liệu; lưu trữ dữ liệu; dữ liệu gốc; phần mềm để lưu trữ dữ liệu điện tử; nguyên tắc chuẩn bị dữ liệu cho phân tích; dữ liệu polytomous...
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Tổ chức dữ liệu
- Tuan V. Nguyen Garvan Institute of Medical Research Professor, UNSW School of Public Health and Community Medicine Professor of Predictive Medicine, University of Technology Sydney Adj. Professor of Epidemiology and Biostatistics, School of Medicine Sydney, University of Notre Dame Australia Phân tích dữ liệu và ứng dụng | Đại học Dược Hà Nội | 12/6 to 17/6/2019 © Tuan V. Nguyen
- Dữ liệu, thông tin, tri thức • Data = dữ liệu • Information = thông tin • Knowledge = tri thức Dữ liệu à Thông tin à Tri thức Phân tích Bàn luận
- Dữ liệu là vàng • Dữ liệu khoa học là vàng • Cần phải trân quí dữ liệu • Dữ liệu phải được lưu giữ ít nhất 10 năm • Dữ liệu phải được chia sẻ (khi được yêu cầu)
- Lưu trữ dữ liệu • Lưu trữ dữ liệu là một vấn đề nan giải • Sắp xếp dữ liệu thô (raw data) tốt sẽ giúp cho việc phân tích tiện lợi hơn • Sắp xếp dữ liệu không tốt sẽ làm tốn rất nhiều thì giờ để chỉnh sửa
- Dữ liệu gốc (thô)
- Data: Likert scale • Likert scale: dùng để đánh giá mức độ đồng thuận của một phát biểu / sự kiện Mức độ mà bạn đồng ý hay không đồng như với phát biểu sau đây: .... ☐ Rất đồng ý ☐ Đồng ý ☐ Trung dung ☐ Không đồng ý ☐ Rất không đồng ý
- Dữ liệu (data) • Dữ liệu khoa học là vàng, là kim cương • Một phần rất quan trọng của nghiên cứu khoa học • Là chứng từ của nghiên cứu • Có thể sử dụng nhiều lần sau này • Có thể phải chia sẻ với đồng nghiệp quốc tế (data sharing) • Ý nghĩa đạo đức khoa học
- Hai loại dữ liệu • Bản gốc (giấy) • Bản điện tử • (Có thể kể đến một số output)
- Phần mềm để lưu trữ dữ liệu điện tử • Microsoft Access • Epi Info • Excel • Oracle Có khi nhập dữ liệu 2 lần
- Nguyên tắc chuẩn bị dữ liệu cho phân tích • Nguyên tắc 1: Dòng và cột (dòng là quan sát, cột là biến số) • Nguyên tắc 2: Mỗi biến là mỗi cột • Nguyên tắc 3: Tất cả cột phải có số liệu, kể cả missing data • Nguyên tắc 4: Nhập dữ liệu gốc, không phải tính toán • Nguyên tắc 5: Dữ liệu trống (missing data) phải được mã hoá thích hợp
- Nguyên tắc 1: dòng = observation, cột=variable • Tất cả các chương trình máy tính dùng cho phân tích đều dùng dữ liệu theo dạng tabular hay ma trận (dòng và cột) • Với các dữ liệu điều tra, cột thường thể hiện một biến đơn hay một câu hỏi, dòng thể hiện id của đối tượng Id Age Gender Service employed Case 1 1 27 1 2 1 Case 2 2 19 2 1 2 Case 3 3 24 2 3 1
- Nguyên tắc 2: mỗi biến là một cột
- Nguyên tắc 3: Cột phải có số liệu!
- Khi có nhiều files ... • Nếu có nhiều file, không nên dựa vào tên của file để lưu trữ thông tin. • Thay vì dùng nhiều files, có thể chỉ cần thêm cột để chỉ thông tin mới.
- SubjID Time Response HeartRate ADJ 1 183 120 ADJ 2 177 115 ADJ 3 192 101 BDR 1 186 112 BDR 2 183 115 BDR 3 169 135
- Dữ liệu polytomous Nếu dữ liệu có nhiều nhóm hay classes, không bao giờ giảm xuống phần trăm hay tỉ lệ, mà phải nhập dữ liệu gốc:
- 67- Lý do 68- Lý do 65- Lý do 66- Lý do chọn chọn chọn chọn ngành:tri ngành:tri 69- Lý do 70- Lý do 71- Lý do 72- Lý do 73- Lý do 74- Lý do 61- Ấn 62- Ấn 63- Ấn ngành- ngành- ển vọng ển vọng chọn chọn chọn chọn chọn chọn tượng - tượng - tượng - Dư luận- Dư luận- thu thu ngành- ngành- ngành- ngành- ngành- ngành- 08 09 10 64- Ngành học 01 02 nhập-03 nhập-04 05 06 07 08 09 10 1 0 0 Điện - Điện tử 1 0 1 0 0 0 1 0 0 0 1 0 1 Điện - Điện tử 1 0 1 1 1 0 1 1 1 1 0 0 0 Điện - Điện tử 1 0 0 1 0 0 1 0 0 0 0 1 0 1 0 0 1 0 0 1 0 0 0 Kỹ thuật Điện - 1 1 0 Điện tử 0 1 0 1 0 0 1 1 0 0 1 0 0 Điện - Điện tử 1 0 0 1 1 0 1 0 0 0 0 1 0 Điện - Điện tử 0 1 1 0 0 0 1 1 0 0 0 0 0 1 0 1 0 0 0 1 0 1 0 0 1 0 1 1 1 0 1 0 0 0 1 0 0 0 0 0 0 1 0 0 0 1 0 0 0 1 0 0 1 0 1 1 0 0 0 1 0 0 1 0 0 1 0 1 0 0 0 1 0 0 0 1 0 0 Điện tử 1 0 0 1 1 0 1 0 0 0 1 1 0 0 0 0 0 0 0 0 0 0 0 0 0 0 điện 1 0 1 0 0 0 0 1 0 1
- Nguyên tắc 3: Nhập dữ liệu gốc • Không nhập tỉ lệ, mà chỉ nhập tử số và mẫu số • Tử số và mẫu số cần phải có cột riêng để dễ tính toán
- Nguyên tắc 5: Missing data phải mã hoá • Tất cả các cột phải có cùng số dòng (kể cả missing data (số khống). • Dùng "blank space" hoặc "." hoặc "NA" để chỉ missing data. - Tuyệt đối không dùng 0 hay 999 cho missing data!
- Tạo dữ liệu: những điều quan trọng cần biết • Không dùng header, trailer, subtotals, hay những thông tin "ngoại biên" • Tên biến số có ý nghĩa và dễ đọc
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Cơ sở dữ liệu - GV. Nguyễn Hồng Phương
65 p | 557 | 79
-
Bài giảng Cấu trúc dữ liệu - Bài 1:Tổng quan về cấu trúc dữ liệu và giải thuật
47 p | 180 | 17
-
Bài giảng Cấu trúc dữ liệu và giải thuật: Stack and Queue - TS. Ngô Hữu Dũng
61 p | 150 | 9
-
Bài giảng Tổ chức dữ liệu vật lý - Vũ Tuyết Trinh
13 p | 118 | 9
-
Bài giảng Nhập môn hệ thống thông tin - Bài 5: Tổ chức dữ liệu và thông tin
37 p | 81 | 8
-
Bài giảng Cở sở dữ liệu 2: Chương 4 - Trương Hải Bằng
24 p | 72 | 6
-
Bài giảng Cấu trúc dữ liệu và giải thuật: Chương 1 - Trần Minh Thái
34 p | 70 | 5
-
Bài giảng Chương 5: Tổ chức dữ liệu trong hệ thống thông tin kế toán
14 p | 114 | 5
-
Bài giảng Cấu trúc dữ liệu và giải thuật 1: Chương 9
17 p | 43 | 5
-
Bài giảng Cơ sở dữ liệu: Chương 1 - Phạm Thị Bạch Huệ
10 p | 46 | 4
-
Bài giảng Cơ sở dữ liệu: Chương 1 - GV. Đỗ Thị Kim Thành
21 p | 104 | 4
-
Bài giảng Cơ sở dữ liệu: Chương 7 - Nguyễn Hồng Phương
5 p | 42 | 4
-
Bài giảng Cấu trúc dữ liệu và giải thuật: Chương 3 - Trần Minh Thái (Trường Đại học Hồng Bàng )
43 p | 69 | 4
-
Bài giảng Cấu trúc dữ liệu và giải thuật: Chương 3 – Trần Minh Thái (2017)
65 p | 56 | 3
-
Bài giảng Cấu trúc dữ liệu và giải thuật: Chương 4 – Trần Minh Thái (2017)
72 p | 67 | 3
-
Bài giảng Cấu trúc dữ liệu và giải thuật: Chương 4.1 - Trần Minh Thái (2016)
57 p | 65 | 3
-
Bài giảng Cấu trúc dữ liệu và giải thuật: Chương 3 - Trần Minh Thái (2016)
64 p | 45 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn