intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Bài giảng Phương pháp nghiên cứu khoa học - Chương 8: Phân tích số liệu

Chia sẻ: Dsfcf Dsfcf | Ngày: | Loại File: PDF | Số trang:47

325
lượt xem
66
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục đích của chương 8 Phân tích số liệu thuộc bài giảng Phương pháp nghiên cứu khoa học là phải đưa ra cách thể hiện đơn giản về việc phân tích số liệu như thế nào, đáp ứng mục tiêu trên, các nội dung trình bày trong chương này bao gồm: mã hóa và lưu giữ các quan sát, phân tích một biến, lập bảng chéo trong phân tích số liệu, phân tích hồi quy tuyến tính đơn, phân tích hồi quy đa biến, các biến giả trong phân tích hồi quy, giới thiệu quy trình xử lý số liệu định lượng trong nghiên cứu xây dựng chỉ số cạnh tranh cấp tỉnh (CPI).

Chủ đề:
Lưu

Nội dung Text: Bài giảng Phương pháp nghiên cứu khoa học - Chương 8: Phân tích số liệu

  1. CHƯƠNG 8: PHÂN TÍCH SỐ LIỆU Mục đích của chương này là phải đưa ra cách thể hiện đơn giản về việc phân tích số liệu như thế nào. Đáp ứng mục tiêu trên, các nội dung trình bày trong chương này bao gồm: 8.1. Mã hóa và lưu giữ các quan sát 8.2. Phân tích một biến 8.3. Lập bảng chéo trong phân tích số liệu 8.4. Phân tích hồi quy tuyến tính đơn 8.5. Phân tích hồi quy đa biến 8.6. Các biến giả trong phân tích hồi quy 8.7. Giới thiệu quy trình xử lý số liệu định lượng trong nghiên cứu xây dựng chỉ số cạnh tranh cấp tỉnh (CPI)
  2. 8.1-Mã hóa và lưu giữ các quan sát  Thường các dữ liệu được lưu giữ theo dạng ma trận.  Mã hóa có nghĩa là định rõ các loại và chỉ định chữ số cho mỗi loại.  Chẳng hạn như mã số theo giới, trong đó nữ là 1, nam là hai; hay mã số theo vùng: vùng Bắc bộ là 1, Trung bộ là 2, Nam bộ là 3…
  3. 8.1-Mã hóa và lưu giữ các quan sát  Hoặc mã số theo thang đo mức độ đồng tình có 7 mức độ: hoàn toàn đồng tình là 1, đồng tình phần lớn là 2, đồng tình một phần là 3, không đồng tình là 4, không đồng tình phần lớn là 5, không đồng tình 1 phần tình là 6, rất không đồng tình là 7.  Ngày nay có nhiều chương trình phần mềm để xử lý và lưu giữ số liệu điều tra như chương trình SPSS, ACESS, SAS…
  4. Phân tích định lượng 8.2-Phaân tích moät bieán  Phân tích thường dựa vào một dạng nào đó của “phân loại” và “so sánh”.  Giả sử chúng ta muốn biết sở hữu xe hơi theo hộ trong tổng số dân cư hay tổng số hộ. Mỗi hộ sau đó có thể được phân loại dựa vào số xe hơi được sở hữu  Các quan sát theo mẫu ngẫu nhiên với kích thước mẫu n=100 hộ có thể được phân loại theo phân bổ tần suất một biến theo biểu 8.1 dưới đây
  5. BẢNG 8.1: Sở hữu xe hơi theo hộ trong mẫu ngẫu nhiên x=Số xe h=tần số tuyệt h/n= Tỷ lệ hơi sở đối=số lượng hộ quan hệ hữu theo sở hữu xe hơi tần suất 0 3 0,03 3 1 45 0,45 45 2 37 0,37 37 3 11 0,11 11 4 4 0,04 4 Tổng số 100 1,00 100
  6. 8.2-Phân tích một biến (tt)  Ngoài ra, từ kết quả khảo sát trên, nhờ vào máy tính có thể tính các số trung bình, số trung vị, phương sai, độ chênh lệch chuẩn, hệ số biến thiên. Đây là các chỉ số kiểm định thống kê về kết quả khảo sát để đảm bảo độ tin cậy của số liệu thu thập.  Số trung bình: x   x i n
  7. 8.2-Phân tích một biến (tt)-Các kiểm định thống kê  Trong công thức trên, xi là giá trị quan sát thứ i, n là số lần quan sát. Trung bình số học (mean) làx là ký hiệu của số trung bình trong thí dụ này bằng 1,68, tức trung bình có 1,68 xe hơi trên 1 hộ  Tần số h và tần suất f được tính bằng hệ số h/n, trong đó h là tần số tuyệt đối (trong thí dụ của chúng ta h số hộ theo số xe sở hữu
  8. 8.2-Phân tích một biến (tt)-Các kiểm định thống kê  Số trung vị (median) là giá trị nằm giữa của giãy số  Nếu giá trị quan sát là lẻ thì số thứ tự của số trung vị (median) là (n+1)/2. Trong thí dụ này (0,1,2,3,4), số trung vị nằm ở vị trí thứ 3 có giá trị =2  Nếu số giá trị quan sát là chẵn, số trung vị là số nằm giữa hai giá trị trung tâm. Giả sử số biến quan sát x trong thí dụ của chúng ta là từ 0 đến 5 (0, 1, 2, 3, 4, 5), khi đó số trung vị trong thí dụ này có giá trị là (2+3)/2= 2,5.
  9. 8.2-Phân tích một biến (tt)-Các kiểm định thống kê  Khoảng biến thiên R = Xmax-Xmin, thể hiện độ ổn định của dãy số liệu (khoảng biến thiên càng nhỏ thể hiện dãy số đạt độ ổn định cao, ngược lại khoảng biến thiên lớn thể hiện đại lượng ngẫu nhiên bị phân tán)  Xmin là giá trị nhỏ nhất của quan sát trong thí dụ này =0,000; Xmax là giá trị lớn nhất của quan sát trong thí dụ này=4,000  Như vậy khỏang biến thiên trong thí dụ này R= 4,000-0,000=4,000
  10. 8.2-Phân tích một biến (tt)-Các kiểm định thống kê  Độ lệch chuẩn (standard deviation). Độ lệch chuẩn là công cụ để so sánh sự đồng nhất của hai dãy phân phối, dãy nào có độ lệch chuẩn nhỏ được coi nhà đồng nhất hơn  Độ lệch chuẩn là căn bậc hai của phương sai của mẫu quan sát. Phương sai của mẫu quan sát được tính theo công thức sau:  2   ( x i  x ) x n  1
  11. 8.2-Phân tích một biến (tt)-Các kiểm định thống kê 2 • Độ lệch chuẩn    trong thí dụ của chúng ta δ= 0,836. • Ước lượng số trung bình tổng thể • Dựa vào độ lệch chuẩn có thể ước lượng số trung bình của tổng thể • Dựa vào các kiểm định thống kê để có thể rút ra rằng xu hướng tìm được qua kích thước mẫu là 100 hộ (thí dụ trên) có đủ để đại diện cho xu thế của toàn bộ số hộ hay không?.
  12. 8.2-Phân tích một biến (tt)-Các kiểm định thống kê  Giả sử cho rằng số xe hơi theo hộ là phân bố chuẩn, tức 95% giới hạn độ tin cậy, số trung bình xe hơi cho tổng thể toàn bộ N hộ, ký hiệu số trung bình cho tổng thể là , và  có thể tính được qua bảng phân bố Student t  Với xác suất độ tin cậy cho trước, tra bảng phân bố student t, tìm thấy  có hai giá trị trên và dưới, giá trị trên =1,8513; giá trị dưới =1,5087. Vì vậy chúng ta có thể kết luận rằng dự đoán tốt nhất cho  là 1,68 xe hơi cho một gia đình
  13. 8.2-Phân tích một biến (tt)-Các kiểm định thống kê  Giả sử chúng ta cần phải kiểm định giả thuyết H: ước lượng số trung bình tổng thể =1,55 xe cho một hộ. Lý do sử dụng giá trị giả thuyết giá trị 1,55 có thể được biết qua thực tế từ dãy tổng thể tương tự  Nếu như ta không có thông tin trước chúng ta sẽ sử dụng hai lựa chọn là  khác 1,55 và  lớn hơn 1,55. Xác suất tin cậy =0,95, khoảng tin cậy tính được từ 1,5 đến 2,0, sử dụng khoảng tin cậy để kiểm định giả thuyết, giá trị 1,55 là nằm trong khoảng tin cậy lựa chọn, như vậy không cần phải loại bỏ giả thuyết H. Nếu giá trị giả thuyết tìm được nằm ngoài khoảng 1,5-2,0 tức giả thuyết H bị loại bỏ.
  14. 8.3-Lập bảng chéo  Thí dụ chúng ta cần nghiên cứu khả năng quan hệ giữa trình độ giáo dục của khách hàng và sự quan tâm về sản phẩm nào đó  Số liệu có thể được lập bảng chéo được trình bày trong bảng 8.2 dưới đây. Trong đó Trình độ giáo dục được phân theo hai mức (cao và thấp) và mức độ quan tâm sản phẩm đã được phân thành hai loại (cao và thấp). 
  15. Bảng 8.2: Bảng chéo thể hiện mối quan hệ của hai biến Mức độ quan Trình độ giáo dục Tổng tâm sản phẩm Thấp Cao Cao 53% (40) 48% (60) 50% (100) Thấp 47% (35) 52% (65) 50% (100) Tổng 100% 100% 100% (75) (125) (200)
  16. 8.3-Lập bảng chéo -Giải thích bảng 8.2  Trong bảng 8.2, mức độ quan tâm sản phẩm được coi là biến phụ thuộc và trình độ giáo dục là biến độc lập  Kết quả dòng 1 bảng số thấy 53% người có trình độ giáo dục thấp có mức độ quan tâm sản phẩm cao, trong khi chỉ có 48% số ngưới có trình độ giáo dục cao với mức quan tâm sản phẩm cao  Xu thế dòng 2 trong bảng thì ngược lại. Vì vậy, có mối quan hệ giữa trình độ giáo dục và mức độ quan tâm sản phẩm 
  17. 8.3-Lập bảng chéo (tt)  Nếu biến độc lập thứ hai được thêm vào trong phân tích thì một bảng mới được thiết lập và tình hình có thể khác.  Giả sử thêm vào biến độc lập là giới, kết quả số liệu được thể hiện qua bảng 8.3 dưới đây.
  18. Bảng 8.3: Bảng chéo thể hiện 3 biến Mức Giới Tổng độ quan Nữ Nam tâm Trình độ giáo Trình độ giáo sản phẩm dục dục Thấp Cao Thấp Cao Cao 80% 80% 40% 40% 50% (20) (20) (20) (40) (100) Thấp 20% 20% 60% 60% 50% (5) (5) (30) (60) (100) Tổng 100% 100% 100% 100% 100% (25) (25) (50) (100) (200)
  19. 8.3-Lập bảng chéo-Giải thích bảng 8.3  Theo bảng 8.3 thì trình độ giáo dục hình như không có tác động đến mức độ quan tâm sản phẩm. Giới bây giới đã cho giải thích tất cả những khác biệt  Thí dụ này rất đặc biệt. Trong hầu hết các trường hợp cả hai biến độc lập dường như có tác động đến biến phụ thuộc. Ở đây có thể có mối quan hệ tương tác giữa các biến độc lập
  20. 8.3-Lập bảng chéo (tt) )-Nhiều biến và kiểm định thống kê  Bảng chéo có thể chứa nhiều biến, nhưng thường sử dụng cho 3 đến 4 biến.  Với bất kỳ số loại dòng và cột nào chúng ta thường được chú ý đến kiểm chứng giả thuyết, H, rằng có hay không sự độc lập thống kê về mối quan hệ giữa phân loại theo dòng và phân loại theo cột. Thường được kiểm định qua ChiSq (xem giáo trình xác suất-thống kê).
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
3=>0