272
ĐỀ TÀI KHOA HỌC
SỐ: 2.2.17-CS06
NGHIÊN CỨU KHAI THÁC SỬ DỤNG MỘT SỐ PHƢƠNG PHÁP
PHÂN TÍCH SỐ LIỆU THỐNG KÊ DỰA TRÊN PHẦN MỀM SPSS
1. Cấp đề tài : Cơ sở
2. Thời gian nghiên cứu : 2006
3. Đơn vị chủ trì : Viện Khoa học Thống kê
4. Đơn vị quản lý : Viện Khoa học Thống kê
5. Chủ nhiệm đề tài : KS. Lê Đỗ Mạch
6. Điểm đánh giá nghiệm thu đề tài: 9,05 / Xếp loại: Giỏi
273
I. MỘT SỐ VẤN ĐỀ BẢN VỀ SỬ DỤNG QUẢN DỮ LIỆU
TRONG SPSS
SPSS cho Windows một phần mềm phân tích thống mạnh là
một hệ thống quản dữ liệu trong môi trƣờng đồ họa, sử dụng các menu
tả các hộp đối thoại đơn giản để vận hành hệ thống. Ngƣời sử dụng thực
hiện ng việc quản lý, biến đổi dữ liệu, phân tích dữ liệu vẽ đồ thị chỉ
đơn giản bằng trỏ kích chuột, không phải lập trình. Quy trình thực hiện
phân tích dữ liệu trên SPSS gồm 4 bƣớc cơ bản:
Bƣớc 1. Đƣa dữ liệu vào SPSS. Để có thể phân tích, trƣớc hết cần phải
đƣa dữ liệu vào SPSS qua cửa sổ Data Editor. Lƣu ý tại một thời điểm, chỉ
tồn tại một file dữ liệu duy nhất trong SPSS (thƣờng gọi là file đang làm việc
hay file đang hoạt động).
Bƣớc 2. Chọn một thủ tục. Chọn một thủ tục từ menu để tính toán các
thống kê hoặc tạo ra một đồ thị.
Bƣớc 3. Chọn các biến để phân tích. Các biến trong file dữ liệu đƣợc
hiện trong hộp đối thoại của thủ tục (phần danh sách nguồn). Chúng ta thể
chọn các biến cần phân tích từ danh sách này. Lƣu ý chỉ các biến thích
hợp với thủ tục phân tích mới đƣợc hiện trong danh sách nguồn.
Bƣớc 4. Thực hiện thủ tục và xem kết quả. Khi đã chọn các biến phân
tích và các chọn lựa cần thiết trong hộp đối thoại, chúng ta có thể ra lệnh cho
thủ tục thực hiện (bấm OK). Kết quả thực hiện thủ tục sẽ đƣợc đƣa ra cửa sổ
Viewer. Từ đây có thể xem kết quả phân tích, kiểm tra tính đúng đắn, nếu kết
quả đạt yêu cầu thì dùng tính năng soạn thảo của bộ Viewer để trình bày kết
quả cho đẹp trƣớc khi in ra hoặc ghi lại để dùng về sau, hoặc chuyển sang các
phần mềm khác để tiếp tục sdụng. Nếu kết quchƣa đạt yêu cầu ttiến
hành hiệu chỉnh dữ liệu và thực hiện lại.
Trong phần này nghiên cứu những đối tƣợng quy trình 4 bƣớc cần
phải sử dụng để hoàn tất công việc phân tích. Đó là:
1. Hệ thống cửa sổ của SPSS. Cửa sổ các giao diện giúp ta trao đổi
thông tin giữa ngƣời và máy trong quá trình phân tích dữ liệu. Bao gồm Cửa
sổ soạn thảo dữ liệu Data Editor, cửa sổ xem kết quả Viewer, cửa sổ xem kết
quả văn bản Draft Viewer, cửa sổ hiệu chỉnh bảng xoay Pivot Table Editor,
cửa sổ hiệu chỉnh đồ thị Chart Editor, cửa sổ hiệu đính văn bản kết quả, cửa
sổ hiệu chỉnh cú pháp Text Output Editor Syntax, cửa sổ hiệu chỉnh các trình
nhỏ Editor Script Editor.
274
2. Hệ thống các Menu. Mỗi cửa sổ SPSS có một chức năng riêng, vì vậy
hệ thống các menu riêng thích hợp cho loại cửa sổ đó. Riêng các menu
Analyze Graph sẵn trên tất cả các cửa sổ để dễ dàng thực hiện các
thủ tục phân tích và vẽ các đồ thị mà không phải chuyển cửa sổ.
3. Hệ thống các công cụ. Trong một cửa smột thanh công cụ bao
gồm một số thủ tục thƣờng sử dụng, thanh công cụ sẽ giúp ta chọn và truy
nhập các thủ tục này nhanh hơn.
4. Hộp đối thoại. Đa số các lựa chọn trong menu đều mở ra một hộp đối
thoại. Ta sử dụng hộp đối thoại để chọn các biến các tùy chọn cho phân
tích. Mỗi hộp đối thoại thƣờng một số thành phần bản nhƣ sau: Danh
sách các biến nguồn, danh sách các biến đích và các nút điều khiển.
5. Cửa sổ soạn thảo dữ liệu Data Editor. Đó nơi chúng ta sẽ đƣa
dữ liệu vào SPSS. Ta có thể đọc các loại file dữ liệu khác nhau vào SPSS: file
dữ liệu SPSS, file dliệu Excel, file dữ liệu Dbase, file dữ liệu văn bản, file
csdl, hoặc đƣa dữ liệu trực tiếp bằng tay.
6. Kết nốic file dữ liu. mỗi thi đim trong SPSS chỉ có mt file dữ
lium vic (hot động), chon trƣớc c phân ch nếu số liệu cn dùng nằm
trên nhiều file khác nhau tphải kết nối cng về cùng một file để làm việc.
7. Cửa sổ kết quả tính toán và đồ thị (Viewer). Kết quả thực hiện của
các thủ tục và vẽ đồ thị đều đƣợc đƣa ra cửa sổ Viewer. Ta thể sử dụng
cửa sổ Viewer để: xem hiệu đính các kết quả, hiện hoặc giấu các bảng
đồ/đồ thị, thay đổi trình tự xuất hiện các kết quả, trao đổi kết quả giữa
SPSS và các ứng dụng khác.
II. PHÂN TÍCH SỐ LIỆU - THỐNG KÊ MÔ T
1. Các thống kê mô tả cơ bản
Trong phần này sẽ trình bày các thủ tục tạo lập các bảng thống kê mô tả.
Đó những thống vẫn thƣờng xuyên đƣợc sử dụng trong phân tích thống
kê. Những thống kê mô tả tóm tắt tập dữ liệu của một biến về:
- Quy mô, độ lớn nhƣ tổng số quan sát (N), tổng số gtrị (Sum), phần
trăm (%) giá trị đƣợc tính trên nhiều góc độ khác nhau.
- Sự tập trung phân tán của dữ liệu: Trung bình (Mean), trung vị
(Median), Mod, phƣơng sai (Variance), độ lệch chuẩn (std. deviation), sai số
chuẩn của trung bình (std. error of mean), khoảng biến thiên (Range), giá trị
nhỏ nhất (Minimum), giá trị lớn nhất (Maximum)…
275
- Về hình dạng của một phân phối: độ lệch của phân phối (Skewness),
độ nhọn của phân phối (Kurtosis), các phân vị (Percentile)…
2. Kiểm tra nhận dạng những giá trị ngoại biên và hình dạng của một
phân phối
Trƣớc khi tiến hành bất kỳ một phân tích nào, bƣớc đầu tiên cần phải
kiểm tra dữ liệu. Việc kiểm tra đƣợc tiến hành trên cả hai phƣơng diện: nhận
dạng những giá trị ngoại biên những giá trị xấu làm sai lệch kết quả phân
tích; dạng phân phối của dữ liệu phù hợp với một thủ tục phân tích hay
không, thí dnhƣ phân tích phƣơng sai đòi hỏi các tổng thể phải phân
phối chuẩn và phƣơng sai bằng nhau. Qua kiểm tra ta thể cân nhắc để loại
đi những giá trị xấu hoặc biến đổi dữ liệu đphân phối đỡ lệch hơn. Các thủ
tục thống kê mô tả có chức năng làm việc này.
3. Thủ tục lập bản phân tích tần số đơn biến (Frequencies)
Thủ tục Frequencies cho một mô tả chi tiết về dữ liệu, cung cấp các
thống các đồ thị rất ích cho việc tả dữ liệu của nhiều loại biến.
Đây là cái nhìn đầu tiên về dữ liệu qua đếm tần số của mỗi giá trị duy nhất và
chúng ta dễ dàng phát hiện ra các sliệu ngoại lai xử trƣớc khi bắt đầu
phân tích số liệu.
4. Thủ tục lập bảng thống kê cơ bản trên các biến (Descriptives)
Thủ tục này tạo lập các thống tả bản cho các biến trong một
bảng riêng và tính các giá trị chuẩn hóa (tỉ số z).
5. Thủ tục khám phá số liệu (Explore) trên các nhóm
Thủ tục Explore sản xuất ra các thống tả các đồ thị hoặc cho
tất cả các quan sát hoặc riêng cho từng nhóm quan sát. Mục đích của sử dụng
thủ tục khám pdữ liệu để phát hiện ra sự ẩn dấu đằng sau của số liệu,
nhận dạng các giá trị ngoại biên, tả số liệu, kiểm tra các giả thiết phân
biệt sự khác nhau giữa các nhóm.
6. Thủ tục lập bảng phân tích tần s song biến (Crosstabs)
Thủ tục Crosstabs tạo lập các bảng tần số hai chiều hay nhiều chiều
tả chi tiết về số liệu, cung cấp nhiều kiểm định khác nhau các độ đo về
mỗi quan hệ ca hai biến. Các thống kê và các độ đo về mối quan hệ chỉ đƣợc
tính cho bảng hai chiều. Thí dụ:
- Kiểm định tính độc lập của hai biến bằng thống kê Pearson - χ2
276
- Đo lƣờng cƣờng độ mối quan hệ của hai biến bằng các thống kê: hệ số
Phi, hệ số C ngẫu nhiên, hệ số V.
- Đo lƣờng sự giảm bớt sai lầm khi dự đoán bằng thống kê Lambda và τ.
- Cảnh báo nguy cơ của một hiện tƣợng bằng Tỷ số Odd và hệ số Cohort
trong bản 2*2.
- Đo lƣờng sự thống nhất ý kiến bằng hệ số Kppa.
-
III. VẼ BIỂU ĐỒ VÀ ĐỒ THỊ
Các kết quả thống quan trọng nhất của một cuộc điều tra thƣờng
đƣợc trình bày thông qua các biểu đồ đồ thị hấp dẫn. Các biểu đđƣợc
chuẩn bị kỹ lƣỡng sức hấp dẫn hơn nhiều so với các bảng biểu ngƣời
đọc dễ dàng hiểu đƣợc vấn đề. Tuy nhiên phải thấy rằng các biểu đồ chỉ trình
bày đƣợc một số lƣợng nhỏ dữ kiện, nếu chúng ta dựa vào quá nhiều sự kiện
biểu đồ trở nên mất tính hiệu quả. Mặt khác cũng thấy rằng biểu đồ chỉ đƣa ra
một cách tƣơng đối độ lớn các sự kiện. Các bảng biểu thể đƣa ra các con
số chi tiết và chính xác đến từng dấu phẩy. Hơn nữa, đồ thị còn phƣơng
pháp tả dữ liệu rất quan trọng trong quá trình xphân tích số liệu
thống kê.
Trong SPSS nhiều loại đồ thị khác nhau, chất lƣợng đồ thị rất cao
chất lƣợng xuất bản cũng cao. Một số đồ thị dùng vào việc tả và kiểm tra
sự phân bố của dliệu, kiểm tra các giá trị ngoại biên phục vụ cho qtrình
xử và phân ch nhƣ: đthị cành lá, đồ thị hộp, đồ thị histogram, đồ thị
phân tán Scatter, ma trận đồ thị phân tán, đthị P-P, Q-Q không đƣợc trình
bày trong phần này. Chúng đƣợc giới thiệu trong các thủ tục tphân
tích dữ liệu.
Trong phần này chúng tôi chỉ giới thiệu một số biểu đồ thông dụng
thƣờng dùng để trình bày kết quả thống kê: Biểu đồ thanh (Bar), biểu đồ bánh
xe (Pie), đồ thị dây (Line).
IV. PHÂN TÍCH SỐ LIỆU - LẬP BẢNG TỔNG HỢP
Lập bảng tổng hợp số liệu lập báo cáo thống là việc làm thƣờng
xuyên của cán bộ nghiệp vụ thống kê. Khả năng lập các bảng số liệu tổng
hợp, các báo cáo thống trong SPSS hết sức đa dạng linh hoạt với nhiều
chiều phân tổ khác nhau và dễ dàng thực hiện không phải lập trình. Các bảng