Phương pháp thu thập Phương pháp thu thập và và phân tích thông tin định lượng phân tích thông tin định lượng
Lê Thanh Sang Lê Thanh Sang Học viện Khoa học xã hội Học viện Khoa học xã hội
CÁC VẤN ĐỀ CƠ BẢN CẦN LÀM RÕ CÁC VẤN ĐỀ CƠ BẢN CẦN LÀM RÕ Có thể thu thập các thông tin định lượng từ những Có thể thu thập các thông tin định lượng từ những nguồn nào? nguồn nào?
Các loại thông tin định lượng nào cần thu thập, các Các loại thông tin định lượng nào cần thu thập, các lựa chọn và đo lường như thế nào? lựa chọn và đo lường như thế nào?
Phân tích đơn biến là gì và ý nghĩa của nó? Phân tích đơn biến là gì và ý nghĩa của nó?
Phân tích hai biến là gì và ý nghĩa của nó? Phân tích hai biến là gì và ý nghĩa của nó?
Đâu là những ưu điểm và hạn chế của các phân tích Đâu là những ưu điểm và hạn chế của các phân tích định lượng? định lượng?
CÁC NGUỒN THÔNG TIN ĐỊNH LƯỢNG CÁC NGUỒN THÔNG TIN ĐỊNH LƯỢNG
Thông tin từ các báo cáo, bài viết, sách, tài liệu thứ Thông tin từ các báo cáo, bài viết, sách, tài liệu thứ cấp có thể được thu thập và tổng hợp lại một cách hệ cấp có thể được thu thập và tổng hợp lại một cách hệ thống và có định hướng mục tiêu. thống và có định hướng mục tiêu. Các số liệu điều tra, số liệu thống kê chính thức phù Các số liệu điều tra, số liệu thống kê chính thức phù hợp có thể được xem là nguồn số liệu thứ cấp để trực hợp có thể được xem là nguồn số liệu thứ cấp để trực tiếp phân tích tiếp phân tích Tiến hành thu thập trực tiếp thông tin định lượng Tiến hành thu thập trực tiếp thông tin định lượng thông qua việc thiết kế các công cụ thu thập thông tin thông qua việc thiết kế các công cụ thu thập thông tin (các loại bản hỏi) trong các cuộc điều tra mẫu. Các (các loại bản hỏi) trong các cuộc điều tra mẫu. Các cuộc điều tra này có thể là đồng đại và lịch đại, xác cuộc điều tra này có thể là đồng đại và lịch đại, xác suất và phi xác suất. suất và phi xác suất. Thông tin thu thập trực tiếp phù hợp nhất với nội dung Thông tin thu thập trực tiếp phù hợp nhất với nội dung nghiên cứu nhưng tốn kém thời gian, tiền bạc… nghiên cứu nhưng tốn kém thời gian, tiền bạc…
Các biến phụ thuộc
Các biến độc lập
Các biến kiểm soát
THU THẬP CÁI GÌ VÀ TẠI SAO THU THẬP CÁI GÌ VÀ TẠI SAO Thông tin giúp trả lời theo những cách có thể kiểm Thông tin giúp trả lời theo những cách có thể kiểm soát được những vấn đề mà cuộc nghiên cứu đặt ra. soát được những vấn đề mà cuộc nghiên cứu đặt ra. Thông tin thu thập có thể mở rộng ở mức độ nào đó Thông tin thu thập có thể mở rộng ở mức độ nào đó tùy thuộc vào kinh phí, thời gian, và nhân lực. tùy thuộc vào kinh phí, thời gian, và nhân lực. : những vấn đề nghiên cứu đã Các biến phụ thuộc: những vấn đề nghiên cứu đã được thao tác hoá thành những biến số cần được đo được thao tác hoá thành những biến số cần được đo lường trong cuộc nghiên cứu. lường trong cuộc nghiên cứu. : các nhân tố ảnh hưởng đã được Các biến độc lập: các nhân tố ảnh hưởng đã được thao tác hoá thành những biến số có thể đo lượng thao tác hoá thành những biến số có thể đo lượng được trong cuộc nghiên cứu. được trong cuộc nghiên cứu. : các yếu tố kiểm soát để làm rõ Các biến kiểm soát: các yếu tố kiểm soát để làm rõ ảnh hưởng thuần của các biến độc lập đối với các ảnh hưởng thuần của các biến độc lập đối với các biến phụ thuộc. biến phụ thuộc.
CÁC LOẠI BIẾN SỐ CÁC LOẠI BIẾN SỐ
Biến định danh (nominal): nam/nữ Biến định danh (nominal): nam/nữ
Biến thứ bậc (ordinal): học vấn Biến thứ bậc (ordinal): học vấn
Biến khoảng cách (scale): khoảng cách giữa Biến khoảng cách (scale): khoảng cách giữa hài lòng/không hài lòng hài lòng/không hài lòng
Biến liên tục (continuous): thu nhập, năng suất Biến liên tục (continuous): thu nhập, năng suất
ĐO LƯỜNG CÁC BIẾN SỐ ĐO LƯỜNG CÁC BIẾN SỐ Đối với biến định danh: số đếm, tỷ lệ phần trăm, Đối với biến định danh: số đếm, tỷ lệ phần trăm, modemode
Đối với biến thứ bậc: số đếm, tỷ lệ phần trăm, mode Đối với biến thứ bậc: số đếm, tỷ lệ phần trăm, mode
Đối với biến khoảng cách: số đếm, tỷ lệ phần trăm, Đối với biến khoảng cách: số đếm, tỷ lệ phần trăm, mode, trung bình, trung vị, giá trị lớn nhất, giá trị nhỏ mode, trung bình, trung vị, giá trị lớn nhất, giá trị nhỏ nhất, độ lệch chuẩn, phương sai nhất, độ lệch chuẩn, phương sai
Đối với biến liên tục: số đếm, tỷ lệ phần trăm, mode, Đối với biến liên tục: số đếm, tỷ lệ phần trăm, mode, trung bình, trung vị, giá trị lớn nhất, giá trị nhỏ nhất, trung bình, trung vị, giá trị lớn nhất, giá trị nhỏ nhất, độ lệch chuẩn, phương sai độ lệch chuẩn, phương sai
QUI TRÌNH PHÂN TÍCH QUI TRÌNH PHÂN TÍCH
Xác định vấn đề và mục tiêu cụ thể cần phân tích. Xác định vấn đề và mục tiêu cụ thể cần phân tích. Xác định các biến phụ thuộc. Xác định các biến phụ thuộc. Lựa chọn các biến độc lập. Lựa chọn các biến độc lập. Xây dựng khung phân tích (quan hệ giữa các biến) Xây dựng khung phân tích (quan hệ giữa các biến) Lựa chọn các mô hình thống kê phân tích thích hợp. Lựa chọn các mô hình thống kê phân tích thích hợp. Xem các biến số được đo lường như thế nào và lựa Xem các biến số được đo lường như thế nào và lựa chọn phương pháp xử lý và phân tích thích hợp. chọn phương pháp xử lý và phân tích thích hợp. Khảo sát đơn biến. Khảo sát đơn biến. Tái mã hóa. Tái mã hóa. Khảo sát hai biến. Khảo sát hai biến. Khảo sát đa biến. Khảo sát đa biến.
ĐỊNH HƯỚNG PHÂN TÍCH ĐỊNH HƯỚNG PHÂN TÍCH Luôn luôn xem xét mối quan hệ giữa các yếu tố: Luôn luôn xem xét mối quan hệ giữa các yếu tố: 1. Phương pháp đo lường biến số 1. Phương pháp đo lường biến số 2. Phương pháp xử lý dữ liệu 2. Phương pháp xử lý dữ liệu 3. Phương pháp phân tích dữ liệu 3. Phương pháp phân tích dữ liệu 4. Các vấn đề cần làm rõ và các giả thuyết cần 4. Các vấn đề cần làm rõ và các giả thuyết cần kiểm chứng. kiểm chứng.
Xác định các hướng xử lý dữ liệu và khả năng xử lý dựa trên Xác định các hướng xử lý dữ liệu và khả năng xử lý dựa trên các cách đo lường biến số và các mục tiêu phân tích xác các cách đo lường biến số và các mục tiêu phân tích xác định. định. Lựa chọn các dạng thống kê mô tả thích hợp cần xử lý. Lựa chọn các dạng thống kê mô tả thích hợp cần xử lý. Lựa chọn các mô hình thống kê phân tích thích hợp nhằm Lựa chọn các mô hình thống kê phân tích thích hợp nhằm kiểm định giả thuyết cần xử lý. kiểm định giả thuyết cần xử lý. Khả năng sử dụng các cách xử lý định lượng, định tính và sự Khả năng sử dụng các cách xử lý định lượng, định tính và sự kết hợp giữa hai phương pháp trong phân tích. kết hợp giữa hai phương pháp trong phân tích.
PHÂN TÍCH ĐƠN BIẾN PHÂN TÍCH ĐƠN BIẾN ĐOLƯỜNG ĐỘ TẬP TRUNG ĐOLƯỜNG ĐỘ TẬP TRUNG
Số trung bình Số trung bình Số trung vị Số trung vị MốtMốt
ĐO LƯỜNG ĐỘ PHÂN TÁN ĐO LƯỜNG ĐỘ PHÂN TÁN
Phương sai Phương sai Độ lệch chuẩn Độ lệch chuẩn (Lưu ý là tuỳ vào loại biến số mà áp dụng các (Lưu ý là tuỳ vào loại biến số mà áp dụng các phân tích thích hợp) phân tích thích hợp)
PHÂN TÍCH HAI BIẾN PHÂN TÍCH HAI BIẾN Bảng chéo và Chi-Squared Bảng chéo và Chi-Squared Phân tích phương sai Phân tích phương sai Phân tích tương quan Phân tích tương quan (Rất thận trọng khi giải thích vì không kiểm soát (Rất thận trọng khi giải thích vì không kiểm soát được ảnh hưởng của các tác nhân khác) được ảnh hưởng của các tác nhân khác) PHÂN TÍCH ĐA BIẾN PHÂN TÍCH ĐA BIẾN Hồi qui tuyến tính Hồi qui tuyến tính Hồi qui logistic Hồi qui logistic Phân tích nhân tố Phân tích nhân tố Phân tích đường đi Phân tích đường đi Phân tích chuỗi thời gian Phân tích chuỗi thời gian
ƯU ĐIỂM ƯU ĐIỂM Thông tin được tổ chức và đo lường tốt. Thông tin được tổ chức và đo lường tốt. Thường trên qui mô khá lớn và có tính đại diện Thường trên qui mô khá lớn và có tính đại diện Dễ thu thập thông tin trên diện rộng Dễ thu thập thông tin trên diện rộng Thu thập và phân tích nhanh nhiều vấn đề Thu thập và phân tích nhanh nhiều vấn đề Có thể áp dụng các mô hình phân tích thống kê Có thể áp dụng các mô hình phân tích thống kê HẠN CHẾ HẠN CHẾ Ít hiệu quả đối với những vấn đề nhạy cảm, Ít hiệu quả đối với những vấn đề nhạy cảm, trừu tượng trừu tượng Thiên về mô tả các yếu tố bên ngoài nhưng khó Thiên về mô tả các yếu tố bên ngoài nhưng khó giải thích các mối quan hệ sâu nằm bên dưới. giải thích các mối quan hệ sâu nằm bên dưới.
PHƯƠNG SAI VÀ ĐỘ LỆCH CHUẨN PHƯƠNG SAI VÀ ĐỘ LỆCH CHUẨN
Phương sai của đại lượng ngẫu nhiên X, ký hiệu là Phương sai của đại lượng ngẫu nhiên X, ký hiệu là D(X) được xác định bởi biểu thức D(X) = E{(X- D(X) được xác định bởi biểu thức D(X) = E{(X- E(X))22}} E(X))
Phương sai của một đại lượng X rời rạc có thể được Phương sai của một đại lượng X rời rạc có thể được biểu diễn theo các dạng thức: biểu diễn theo các dạng thức:
nn
– E(X))22ppii ) - (E(X))22 hoặc D(X) = E(X22) - (E(X)) hoặc D(X) = E(X
D(X) = ∑ (xii – E(X)) D(X) = ∑ (x i=1i=1
Độ lệch chuẩn của một đại lượng X rời rạc có thể Độ lệch chuẩn của một đại lượng X rời rạc có thể được biểu diễn như sau: được biểu diễn như sau: δ = D(X) . δ = D(X) .
MỐT VÀ SỐ TRUNG VỊ MỐT VÀ SỐ TRUNG VỊ
Mốt của một đại lượng ngẫu nhiên X là giá trị x mà Mốt của một đại lượng ngẫu nhiên X là giá trị x mà tại đó: tại đó: P(X=x) lớn nhất nếu X là đại lượng rời rạc; P(X=x) lớn nhất nếu X là đại lượng rời rạc; f(x) đạt giá trị cực đại nếu X là đại lượng liên tục và f(x) đạt giá trị cực đại nếu X là đại lượng liên tục và f(x) là hàm mật độ xác suất của X. f(x) là hàm mật độ xác suất của X.
Số trung vị là giá trị của quan sát đứng giữa trong Số trung vị là giá trị của quan sát đứng giữa trong dãy phân phối được sắp xếp theo thứ tự từ thấp đến dãy phân phối được sắp xếp theo thứ tự từ thấp đến cao hoặc từ cao đến thấp. Khi dãy phân phối là số lẻ cao hoặc từ cao đến thấp. Khi dãy phân phối là số lẻ thì số trung vị là giá trị của quan sát đứng giữa. Khi thì số trung vị là giá trị của quan sát đứng giữa. Khi dãy phân phối là số chẵn thì số trung vị là giá trị dãy phân phối là số chẵn thì số trung vị là giá trị trung bình của hai quan sát đứng ở giữa. trung bình của hai quan sát đứng ở giữa.
nn
Số trung bình đơn giản: X = (∑x
Số trung bình đơn giản: X = (∑xii)/n)/n
i=1i=1 kk
)/n với n = n11 + n + n22
Phương sai: δ
Số trung bình gia trọng: X = (∑xii n nii)/n với n = n Số trung bình gia trọng: X = (∑x i=1 i=1 … n… nkk Phương sai: δ22 = (∑(x = (∑(xii – x) )/(n-1) – x)22)/(n-1)
Sai số chuẩn: δ
Độ lệch chuẩn: δ = (∑(xi – x)2)/(n-1) Độ lệch chuẩn: δ = (∑(xi – x) )/(n-1) Mốt: Giá trị có tần số xuất hiện nhiều nhất (rời rạc) Mốt: Giá trị có tần số xuất hiện nhiều nhất (rời rạc) Trung vị: Xếp dãy số phân phối theo thứ tự, số trung Trung vị: Xếp dãy số phân phối theo thứ tự, số trung vị là giá trị của quan sát ở giữa trong dãy phân phối. vị là giá trị của quan sát ở giữa trong dãy phân phối. = δ/ n Sai số chuẩn: δyy = δ/ n
Ứ Ậ Ứ Ậ Ủ Ủ Ố M C T P TRUNG VÀ PHÂN TÁN C A PHÂN PH I Ố M C T P TRUNG VÀ PHÂN TÁN C A PHÂN PH I
GIÁ TRỊ z (z-score) GIÁ TRỊ z (z-score)
Giá trị z cho một giá trị Y của một biến số là số lần Giá trị z cho một giá trị Y của một biến số là số lần độ lệch chuẩn mà Y cách giá trị trung bình μμ.. độ lệch chuẩn mà Y cách giá trị trung bình
z= (Y- μμ)/ )/ δδ z= (Y-
Nếu một biến số có phân phối thông thường (normal Nếu một biến số có phân phối thông thường (normal distribution), và nếu các giá trị của nó được chuyển distribution), và nếu các giá trị của nó được chuyển đổi thành giá trị z bằng cách trừ giá trị trung bình và đổi thành giá trị z bằng cách trừ giá trị trung bình và chia cho độ lệch chuẩn, thì phân phối của z-score là chia cho độ lệch chuẩn, thì phân phối của z-score là phân phối chuẩn (standard normal distribution) phân phối chuẩn (standard normal distribution)

