Bài giảng Nhập và xử lý số liệu - TS. Nguyễn Minh Hà
lượt xem 18
download
Bài giảng Nhập và xử lý số liệu nhằm trình bày các nội dung chính: chuẩn bị, nhập và kiểm tra dữ liệu, khám phá và trình bày dữ liệu, phân tích thống kê mô tả, phân tích dữ liệu. Bài giảng được trình bày khoa học, súc tích giúp các bạn sinh viên tiếp thu bài học nhanh.
Bình luận(0) Đăng nhập để gửi bình luận!
Nội dung Text: Bài giảng Nhập và xử lý số liệu - TS. Nguyễn Minh Hà
- 3/13/2011 CHƯƠNG 9 NHẬP VÀ XỬ LÝ SỐ LIỆU TS. NGUYỄN MINH HÀ TRƯỜNG ĐH MỞ TPHCM 1 NỘI DUNG 1. CHUẨN BỊ, NHẬP VÀ KIỂM TRA DỮ LIỆU 2. KHÁM PHÁ VÀ TRÌNH BÀY DỮ LIỆU 3. PHÂN TÍCH THỐNG KÊ MÔ TẢ 4. PHÂN TÍCH DỮ LIỆU 2 1
- 3/13/2011 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 1. Các loại dữ liệu: - Dữ liệu phân loại - Dữ liệu mô tả/ dữ liệu định danh - Dữ liệu xếp hạng hay thứ tự - Dữ liệu có thể định lượng - Dữ liệu khoảng cách 3 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 2. Trình bày dữ liệu: - Trình bày dữ liệu ở dạng bảng. Gọi là ma trận dữ liệu - Đặt tên biến ngắn gọn, nên viết tắt (tiếng Anh/tiếng Việt không dấu) - Đặt tên biến nên theo quy luật và trình tự của bảng câu hỏi hay trình tự khảo sát. - Có thể lưu trữ ở phần mềm Excel hay SPSS Số nhận dạng Biến 1 Biến 2 Biến 3 Biến 4 (ID) 1 15 1 3 0,4 2 27 0 1 1,2 3 18 0 2 0,9 ... 4 2
- 3/13/2011 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 3. Mã hóa dữ liệu: Ghi dữ liệu bằng mã số học a. Mã hóa dữ liệu có thể định lượng: Các con số thực tế được sử dụng như mã số cho dữ liệu có thể định lượng. VD ở bảng trên b. Mã hóa dữ liệu phân loại: Các câu hỏi, các biến trả lời nên được mã hóa thành các con số. Việc mã hóa sẽ tiết kiệm thời gian khi nhập, có thể sử dụng để phân tích, kiểm định và đối chiếu. Để tạo ra bộ mã hóa cho mỗi biến, cần phải: - Xem xét dữ liệu và xác lập các nhóm tổng quát - Chia nhóm tổng quát thành những nhóm nhỏ tùy vào phân tích dự định thực hiện - Phân bổ mã số cho tất cả các phân loại - Ghi chú những câu trả lời thực tế được phân bổ vào mỗi loại và bộ mã - Đảm bảo những phân loại có thể hợp nhất với nhau được mã hóa liền nhau để thuận tiện cho việc mã hóa lại. 5 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 4. Nhập dữ liệu: - Cần tạo 1 file để chứa tên và giải thích ý nghĩa của các biến trong dữ liệu để thuận tiện phân tích và kế thừa nghiên cứu. - Các dữ liệu định lượng, nhập đúng giá trị trong bảng phỏng vấn. - Đối với các câu trả lời đóng: • Khi câu có 1 câu trả lời/chọn 1 trong 2 (có/không; Nam/nữ): sử dụng giá trị 0 và 1 để lưu thông tin. Vd: có là 1, không là 0; Nam là 1, Nữ là 0 hoặc ngược lại. Tình trạng gia đình (0: độc thân, 1: lập gia đình hoặc ngược lại) • Khi có từ 3 lựa chọn trở lên nhưng chỉ có 1 câu trả lời (không thích/thích/không ý kiến): Sử dụng 1, 2, 3 tương ứng theo câu trả lời. Trường hợp này hay gặp với với câu hỏi phân loại/ danh nghĩa/định danh. Vd: Màu tóc (đen, đỏ, hung): 1,2,3 tương ứng hoặc có thể đổi thứ tự. Ngành kinh doanh: 1 là Nông nghiệp, 2 là công nghiệp và 3 là dịch vụ. Từ các mã hóa 1, 2, 3, ... Chúng ta có thể chuyển thành các biến dummy khác nhau dễ dàng. 6 3
- 3/13/2011 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 4. Nhập dữ liệu: • Đối với câu trả lời thứ bậc và xếp hạng: nhập theo số thứ bậc/xếp hạng mà được trả lời. Vd: thang đo likert (1-5) • Khi có từ 3 lựa chọn trở lên và có ít nhất 2 câu trả lời (vd: sở thích xem tivi, đọc báo, và nghe radio): Tạo 3 biến, mỗi biến là 1 sự lựa chọn và sử dụng giá trị 0 và 1 để lưu thông tin. Lựa chọn nào được đánh dấu trong bảng câu hỏi thì biến tương ứng sẽ có giá trị là 1, nếu không được chọn thì đánh số 0. - Câu trả lời mở: Nhập chính xác câu trả lời ghi trong bảng câu hỏi, sau đó đọc và phân nhóm câu trả lời rồi mã hóa. 7 I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU 5. Kiểm tra sai soát và thanh lọc dữ liệu: - Kiểm tra sai soát: - Kiểm tra các mã không hợp lệ: số 0 hay o, 1 hay I, ... Sử dụng 1 số công dụng trong Excel, SPSS hay các chương trình khác để kiểm tra. - Tìm kiếm những quan hệ không logic: Coi chừng nhập lộn giữa số 1 (thấp nhất hay cao nhất) và số 5 (cao nhất hay thấp nhất) - Phát hiện các dị biệt trong dữ liệu (outliers): Sử dụng Excel: hàm min, hàm max, công cụ Auto Filter, đồ thị scatter, đồ thị plot để xác định Trong SPSS: đồ thị scatter, công cụ Frequency, ... để phát hiện. - Phát hiện và xử lý dữ liệu bị khuyết tật (missing data): Sử dụng Exel: Công cụ Auto Filter Sử dụng SPSS: Công cụ Frequency và Select Cases 8 4
- 3/13/2011 II. KHÁM PHÁ VÀ TRÌNH BÀY DỮ LIỆU Sử dụng các biểu đồ, đồ thị, hình vẽ, số liệu thống kê để trình bày dữ liệu. Phần này như là phần trình bày kết quả NC thống kê dữ liệu (khác với mô tả thống kê: Descriptive Statistics) - Trình bày 1 biến sao cho có thể dễ dàng đọc được 1 giá trị cụ thể bất kỳ. - Thấy giá trị cao nhất, thấp nhất - Thể hiện xu hướng: dùng đường thẳng - Tỷ lệ xảy ra (tỷ lệ %) - Thể hiện sự phân bố của các giá trị cho 1 biến (vd: đa số tập trung ở mức 25% trên) - Thể hiện mối quan hệ: Đồ thị/biểu đồ phân tán hoặc thống kê. Vd: trình độ học vấn theo tuổi, Thu nhập theo trình độ học vấn, ... - So sánh các biến hay so sánh biến theo các đặc tính, .. 9 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 1. Phân tích thống kê mô tả định lượng: - Sử dụng Excel: Công cụ Descriptive Statistics trong chức năng Data Analysis - Sử dụng SPSS: Công cụ Frequency, Descriptives, Explore chức năng Descriptive Statistics. a. Ôn lại 1 số chỉ tiên thống kê: - Đo lường xu hướng trung tâm: Mode, Trung vị (Median), giá trị trung bình (Mean), Khoảng cách (Range) - Đo lường sự biến thiên: Phương sai (Variance; σ2) là trung bình tổng các sai số bình phương giữa các giá trị của các quan sát và giá trị trung bình. Độ lệch chuẩn (Standard Deviation; SD, σ) đo lường mức độ phân tán của số liệu xung quanh giá trị trung bình. 10 5
- 3/13/2011 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 1. Phân tích thống kê mô tả định lượng: b. Thống kê mô tả - Yêu cầu bảng thống kê mô tả tối thiểu gồm : Variable Obs Mean Std. Dev. Min Max Growth 21,217 -0.04 0.84 -1 15.27 Assetgrowth 21,205 0.08 1.03 -1 19.00 Lnage 32,766 1.91 0.62 0 3.43 Capital 32,766 48.79 115.86 0 1,344.65 AgriSector 32,766 0.01 0.09 0 1 InduSector 32,766 0.32 0.47 0 1 ServSector 32,766 0.67 0.47 0 1 11 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 2. Phân tích thống kê mô tả định tính: - Sử dụng các bảng đơn giản: Trong SPSS, sử dụng công cụ Basic Table Trong Excel, sử dụng Pivote table trong ... Ví dụ: Số mẫu Tỷ lệ (%) Số mẫu Tỷ lệ (%) Nông nghiệp 22 7,2 Nam 140 53,8 Công nghiệp 155 50,8 Nữ 120 46,2 Dịch vụ 128 42 Tổng 260 100 Tổng 305 100 12 6
- 3/13/2011 III. PHÂN TÍCH THỐNG KÊ MÔ TẢ 2. Phân tích thống kê mô tả định tính: - Sử dụng các bảng so sánh 2 chiều hay còn gọi Bảng chéo (Cross- Tabulation) Trong SPSS, sử dụng công cụ Basic Table Trong Excel, sử dụng Pivote table trong ... Ví dụ: Current salary (unit: dong) Level of education Sum 2001 2002 2,000,000 % % Under 1500,000- 1,500,000 3,000,000 - Over 3,000,000 Total 530 100 880 100 Intermediate 3,000,000 Sector 1 0 0.0 4 0.5 ,Colleges 8 9 15 1 33 Sector 2 164 30.9 292 33.2 count % 24.24 27.27 45.45 3.03 100.00 Sector 3 366 69.1 584 66.4 University 144 81 93 58 376 Professional degree count % 38.30 21.54 24.73 15.43 100.00 Post- graduation 1 3 8 14 26 university count % 3.85 11.54 30.77 53.85 100.00 13 IV. PHÂN TÍCH DỮ LIỆU - Phân tích tương quan và đa cộng tuyến (correlation matrix) - Phân tích hồi quy (Regression): có mối quan hệ, có quan hệ nhân quả, cường độ tác động, dự báo các giá trị, dự báo xu hướng (chuổi theo thời gian) - Phân tích khám phá EFA - Phân tích Anova (test sự khác nhau giữa 2 nhóm) sử dụng t-test Trong excel sử dụng: Correlation, Anova và regression trong chức năng Data Analysis Trong SPSS: các công cụ Compare Means, Nonparametric Tests, Regression Lưu ý: cách chọn các biến phụ thuộc và biến độc lập trong hồi quy (các biến phải tương ứng với nhau). Trình bày 1 bảng kết quả hồi quy 14 7
- 3/13/2011 Ví d : B ng: K t qu h i quy .... B ng: K t qu h i quy .... Biến Coefficients Std.Errors Biến Hệ số Constant 0.6178 0.4400 Constant 0.6178 Biến 1 -0.0762* 0.3441 (0.4400) Biến 2 0.0142 0.1031 Biến 1 -0.0762* Biến 3 -0.0399*** 0.0122 (0.3441) ... -0.0001 0.0001 Biến 2 0.0142 -0.0154 0.2615 (0.1031) Số quan sát 11,057 Biến 3 -0.0399*** R (0.0122) R2 ... R2 điều chỉnh Số quan sát Chi- R Wald test R2 R2 điều chỉnh Ghi chú: (n u có) Chi- *** Ý nghĩa t i m c 1%, ** Ý nghĩa t i m c 5%, và * Wald test Ý nghĩa t i m c 10%. Ghi chú: Trong ngo c là Std Errors *** Ý nghĩa t i m c 1%, ** Ý nghĩa t i m c 5%, và * Ý nghĩa t i m c 10%. 15 IV. PHÂN TÍCH DỮ LIỆU Sau khi phân tích thống kê, mô tả thống kê, trong phân tích có thể kết hợp (tùy theo yêu cầu của nghiên cứu) 1 trong những phần sau: - Test correlation, sau đó chạy hồi quy và thực hiện 1 số tests - Chỉ phân tích EFA - Phân tích khám phá EFA, sau đó chạy hồi quy - Phân tích EFA và test Anova - Phân tích hồi quy và test Anova - Chỉ thực hiện test Anova - Chỉ thực hiện mô tả thống kê và phân tích thống kê, - .... 16 8
- 3/13/2011 Kết thúc Thanks 17 9
CÓ THỂ BẠN MUỐN DOWNLOAD
-
Bài giảng Quản trị xuất nhập khẩu: Chương 12 - GS.TS. Đoàn Thị Hồng Vân
51 p | 263 | 76
-
Bài giảng Phương pháp nghiên cứu kinh tế: Chương 7 - TS. Trần Tiến Khai
91 p | 93 | 26
-
Bài giảng Pháp luật Hải quan
60 p | 237 | 17
-
Bài giảng Thống kê trong kinh doanh: Xử lý data với SPSS - Nguyễn Duy Tâm
69 p | 128 | 16
-
Bài giảng Kinh tế vĩ mô (Ths.Trần Thị Hòa) - Chương 4: Tổng cầu và chính sách tài khóa
36 p | 135 | 16
-
Lý thuyết về tiêu dùng
54 p | 110 | 10
-
Bài giảng Ứng dụng công nghệ quét trong xử lý dữ liệu điều tra tại Tổng cục Thống kê
14 p | 77 | 6
-
Bài giảng Kinh tế quốc tế - Chương 6
18 p | 96 | 6
-
Phương sai thay đổi
3 p | 114 | 6
-
Bài giảng Phương pháp kiểm tra nội bộ trên máy tính đối với 4 nội dung
94 p | 55 | 6
-
Bài giảng Đăng ký lưu hành bộ xét nghiệm nhanh
12 p | 69 | 5
-
Bài giảng Kinh tế quốc tế (International Economics): Chương 1 - Hồ Văn Dũng
5 p | 72 | 4
-
Bài giảng Kinh tế công cộng (Phần 3: Chính phủ và việc đảm bảo công bằng trong nền kinh tế thị trường): Chương 1 - Lý Hoàng Phú
21 p | 74 | 4
-
Bài giảng Phương pháp nghiên cứu kinh tế xã hội: Chương 1 - ThS. Dương Xuân Lâm
67 p | 39 | 3
-
Bài giảng Phương pháp nghiên cứu kinh tế: Chương 7 - TS. Kiều Thanh Nga
34 p | 9 | 3
-
Bài giảng Luật thuế-luật kế toán: Phần 2 - ThS. Trần Kiều Trang
124 p | 13 | 3
-
Bài giảng Pháp luật hải quan: Phần 2
141 p | 6 | 3
Chịu trách nhiệm nội dung:
Nguyễn Công Hà - Giám đốc Công ty TNHH TÀI LIỆU TRỰC TUYẾN VI NA
LIÊN HỆ
Địa chỉ: P402, 54A Nơ Trang Long, Phường 14, Q.Bình Thạnh, TP.HCM
Hotline: 093 303 0098
Email: support@tailieu.vn