1/19/2012
1
CHƯƠNG 9
NHẬP VÀ XỬ LÝ SỐ LIỆU
TS. NGUYỄN MINH HÀ
TRƯỜNG ĐH MỞ TPHCM
1
NỘI DUNG
1. CHUẨN BỊ, NHẬP VÀ KIỂM TRA DỮ LIỆU
2. KHÁM PHÁ TRÌNH BÀY DỮ LIỆU
3. PHÂN TÍCH THỐNG KÊ MÔ TẢ
4. PHÂN TÍCH DỮ LIỆU
2
1/19/2012
2
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
1. Các loại dữ liệu:
( Dữ liệu phân loại
( Dữ liệu mô tả/ dữ liệu định danh
( Dữ liệu xếp hạng hay thứ tự
( Dữ liệu có thể định lượng
( Dữ liệu khoảng cách
3
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
2. Trình bày dữ liệu:
( Trình bày dữ liệu ở dạng bảng. Gọi là ma trận dữ liệu
( Đặt tên biến ngắn gọn, nên viết tắt (tiếng Anh/tiếng Việt không dấu)
( Đặt tên biến nên theo quy luật và trình tự của bảng câu hỏi hay trình
tự khảo sát.
( Có thể lưu trữ ở phần mềm Excel hay SPSS
Sô nhận dạng
(ID)
Biến 1 Biến 2 Biến 3 Biến 4
1 15 1 3 0,4
2 27 0 1 1,2
3 18 0 2 0,9
...
4
1/19/2012
3
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
3. Mã hóa dữ liệu:
Ghi dữ liệu bằng mã số học
a. Mã hóa dữ liệu thể định lượng: Các con số thực tế được sử dụng như mã số
cho dữ liệu có thể định lượng.
VD ở bảng trên
b. Mã hóa dữ liệu phân loại:
Các câu hỏi, các biến trả lời nên được mã hóa thành các con số. Việc mã hóa sẽ tiết
kiệm thời gian khi nhập, có thể sử dụng để phân tích, kiểm định và đối chiếu.
Để tạo ra bộ mã hóa cho mỗi biến, cần phải:
( Xem xét dữ liệu và xác lập các nhóm tổng quát
( Chia nhóm tổng quát thành những nhóm nhỏ tùy vào phân tích dự định thực
hiện
( Phân bổ mã số cho tất cả các phân loại
( Ghi chú những câu trả lời thực tế được phân bổ vào mỗi loại và bộ
( Đảm bảo những phân loại thể hợp nhất với nhau được hóa liền nhau đ
thuận tiện cho việc mã hóa lại.
5
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
4. Nhập dữ liệu:
( Cần tạo 1 file để chứa tên giải thích ý nghĩa của các biến trong
dữ liệu để thuận tiện phân tích và kế thừa nghiên cứu.
( Các dữ liệu định lượng, nhập đúng giá trị trong bảng phỏng vấn.
( Đối với các câu trả lời đóng:
Khi câu 1 câu trả lời/chọn 1 trong 2 (có/không; Nam/nữ): sử dụng giá
trị 0 và 1 để lưu thông tin. Vd: có là 1, không là 0; Nam là 1, Nữ là 0 hoặc
ngược lại. Tình trạng gia đình (0: độc thân, 1: lập gia đình hoặc ngược
lại)
Khi từ 3 lựa chọn trở lên nhưng chỉ 1 câu trả lời (không
thích/thích/không ý kiến): S dụng 1, 2, 3 tương ứng theo câu trả lời.
Trường hợp này hay gặp với với câu hỏi phân loại/ danh nghĩa/định danh.
Vd: Màu tóc (đen, đỏ, hung): 1,2,3 tương ng hoặc thể đổi thứ tự.
Ngành kinh doanh: 1 Nông nghiệp, 2 công nghiệp 3 dịch vụ.
Từ các hóa 1, 2, 3, ... Chúng ta thể chuyển thành các biến dummy
khác nhau dễ dàng.
6
1/19/2012
4
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
4. Nhập dữ liệu:
Đối với u trả lời thứ bậc xếp hạng: nhập theo số thứ bậc/xếp hạng
mà được trả lời. Vd: thang đo likert (1(5)
Khi từ 3 lựa chọn trở lên ít nhất 2 câu trả lời (vd: sở thích xem
tivi, đọc báo, và nghe radio): Tạo 3 biến, mi biến 1 sự lựa chọn và sử
dụng giá trị 0 1 để lưu thông tin. Lựa chọn nào được đánh dấu trong
bảng câu hỏi thì biến tương ứng sẽ có giá trị 1, nếu không được chọn
thì đánh số 0.
( Câu trả lời mở: Nhập chính xác câu trả lời ghi trong bảng câu hỏi,
sau đó đọc và phân nhóm câu trả lời rồi mã hóa.
7
I. CHUẨN BỊ, NHẬP, VÀ KIỂM TRA DỮ LIỆU
5. Kiểm tra sai soát và thanh lọc dữ liệu:
( Kiểm tra sai soát:
( Kiểm tra c không hợp lệ: số 0 hay o, 1 hay I, ... Sử dụng 1 số công
dụng trong Excel, SPSS hay các chương trình khác để kiểm tra.
( Tìm kiếm những quan hệ không logic: Coi chừng nhập lộn giữa số 1
(thấp nhất hay cao nhất) và số 5 (cao nhất hay thấp nhất)
( Phát hiện các dị biệt trong dữ liệu (outliers):
Sử dụng Excel: hàm min, hàm max, công cAuto Filter, đồ thị scatter, đồ thị plot
để xác định
Trong SPSS: đồ thị scatter, công cụ Frequency, ... để phát hiện.
( Phát hiện và xử lý dữ liệu bị khuyết tật (missing data):
Sử dụng Exel: Công cụ Auto Filter
Sử dụng SPSS: Công cụ Frequency và Select Cases
8
1/19/2012
5
II. KHÁM PHÁ VÀ TRÌNH BÀY DỮ LIỆU
Sử dụng các biểu đồ, đồ thị, hình vẽ, số liệu thống kê để trình bày d
liệu. Phần này như là phần trình bày kết quả NC thống kê dữ liệu
(khác với mô tả thống kê: Descriptive Statistics)
( Trình bày 1 biến sao cho thể dễ dàng đọc được 1 giá trị cụ thể
bất kỳ.
( Thấy giá trị cao nhất, thấp nhất
( Thể hiện xu hướng: dùng đường thẳng
( Tỷ lệ xảy ra (tỷ lệ %)
( Thể hiện sự phân bố của các giá trị cho 1 biến (vd: đa số tập
trung ở mức 25% trên)
( Thể hiện mối quan hệ: Đồ thị/biểu đồ phân tán hoặc thống kê.
Vd: trình độ học vấn theo tuổi, Thu nhập theo tnh độ học vấn,
...
( So sánh các biến hay so sánh biến theo các đặc tính, ..
9
III. PHÂN TÍCH THỐNG KÊ MÔ TẢ
1. Phân tích thống ta] định lượng:
( Sưƒ dụng Excel: Công cụ Descriptive Statistics trong chức năng
Data Analysis
( Sưƒ dụng SPSS: Công cụ Frequency, Descriptives, Explore chức
năng Descriptive Statistics.
a. Ôn lại 1 sô chỉ tiên thống kê:
( Đo lường xu hướng trung tâm: Mode, Trung vị (Median), gia… trị
trung bình (Mean), Khoảng cách (Range)
( Đo lường sư† biến thiên: Phương sai (Variance; σ2) trung bình
tổng c sai sô… bình phương giữa các gia… trị của các quan sát va‡
gia… trị trung bình. Đô† lệch chuẩn (Standard Deviation; SD, σ) đo
lường mức đô† phân tán của sô… liệu xung quanh gia… trị trung bình.
10