CHƯƠNG 2 THU THẬP DỮ LIỆU
ThS. Nguyễn Tiến Dũng Bộ môn Quản trị Kinh doanh, Viện Kinh tế và Quản lý Email: dung.nguyentien3@hust.edu.vn
MỤC TIÊU CỦA CHƯƠNG
● Sau khi kết thúc chương này, người học có
thể: ● Phân biệt được DL thứ cấp và DL sơ cấp ● Kể tên và nêu được đặc điểm, phạm vi ứng dụng của các kỹ thuật lấy mẫu ngẫu nhiên và không ngẫu nhiên
● Phân biệt được DL định tính và DL định lượng và ý
nghĩa của hai loại DL này trong phân tích TK.
© Nguyễn Tiến Dũng Thống kê ứng dụng
2
CÁC NỘI DUNG CHÍNH
● 2.1 Xác định DL cần thu thập ● 2.2 DL thứ cấp ● 2.3 DL sơ cấp ● 2.4 Các kỹ thuật (phương pháp) lấy mẫu
© Nguyễn Tiến Dũng Thống kê ứng dụng
3
2.1 XÁC ĐỊNH DỮ LIỆU CẦN THU THẬP
● Tiến trình NC
● Vấn đề quản trị >> Mục tiêu NC >> Kế hoạch NC >> Thu
thập DL >> Phân tích DL …
● TD: NC mối liên hệ mức độ yêu thích chuyên ngành
của SV và kết quả học tập ● DL về Biến đầu vào X = Mức độ yêu thích chuyên ngành ● DL về Biến đầu ra Y = Kết quả học tập = f(X) ● DL khác:
● Về SV: khoa, trường, học năm thứ mấy ● Về môi trường học tập: đặc điểm nhà trường, xã hội … ● 2 loại DL theo tính sẵn có tại thời điểm NC:
● DL thứ cấp ● DL sơ cấp
© Nguyễn Tiến Dũng Thống kê ứng dụng
4
2.2 DỮ LIỆU THỨ CẤP
● DL có sẵn ● Tiếp cận nguồn DL -> Lấy DL về -> Xử lý
thêm
● Nguồn bên trong DN ● Nguồn bên ngoài DN
● Các tổ chức chuyên TK của nhà nước: TCTK
(gso.gov.vn), Cục TK …
● Các tổ chức không chuyên TK ● Các tổ chức dịch vụ cung cấp thông tin: TNS, A.C.
Nielsen …
© Nguyễn Tiến Dũng Thống kê ứng dụng
5
Dữ liệu bên trong DN
● TD: SV làm TTTN phải lấy các số liệu về DN mà SV đó
thực tập
● Phần 1: GT chung về DN
● Sở hữu nào ● Quy mô DN ● Mặt hàng KD ● Cơ cấu tổ chức ● Quy trình công nghệ, sản xuất, cung cấp dịch vụ ● …
● Phần 2: PT hoạt động KD của DN
● 2.1. Tiêu thụ và marketing ● 2.2. Lao động và tiền lương ● 2.3. Vật tư và tài sản cố định ● 2.4. Chi phí và giá thành ● 2.5. Tình hình tài chính
© Nguyễn Tiến Dũng Thống kê ứng dụng
6
2.3 DỮ LIỆU SƠ CẤP
● DL không có sẵn ● Tự làm hay thuê ngoài ● Các phương pháp thu thập DL sơ cấp
● NC định tính
● Phỏng vấn sâu ● Thảo luận nhóm
● NC định lượng
● Quan sát ● Nhật ký ● Điều tra chọn mẫu: PV trực tiếp, qua điện thoại, qua thư
© Nguyễn Tiến Dũng Thống kê ứng dụng
7
2.4 CÁC PHƯƠNG PHÁP LẤY MẪU
Yêu cầu đối với lấy mẫu
Các phương pháp lấy mẫu ngẫu nhiên
Các phương pháp lấy mẫu không ngẫu nhiên
• Lấy mẫu thuận
• Lấy mẫu ngẫu nhiên đơn giản
tiện
• Lấy mẫu hệ
• Lấy mẫu theo
• Sai số • Chi phí • Thời gian
thống
định mức
• Lấy mẫu phân
• Lấy mẫu bằng
tầng
• Lấy mẫu theo
phán đoán • Lấy mẫu theo
cụm
giới thiệu
© Nguyễn Tiến Dũng Thống kê ứng dụng
8
2.4.1 Các phương pháp lấy mẫu ngẫu nhiên
● Lấy mẫu ngẫu nhiên là gì (random sampling)? ● 2.4.1.1 Lấy mẫu ngẫu nhiên đơn giản (simple
random sampling) ● Tổng thể gồm N = 20 phần tử chọn ra n = 5
phần tử
● Giả thiết (giả định): có ds N phần tử, được đánh số
từ 1 tới N
● Các kỹ thuật (p.pháp) cụ thể:
● Tra bảng số ngẫu nhiên ● Rút thăm ngẫu nhiên ● Khởi tạo số ngẫu nhiên trên máy tính:
● Excel: Hàm RANDBETWEEN(a;b)
© Nguyễn Tiến Dũng Thống kê ứng dụng
9
Bảng số ngẫu nhiên (Table of Random Numbers)
© Nguyễn Tiến Dũng Thống kê ứng dụng
10
2.4.1.2 Lấy mẫu hệ thống (systematic sampling)
● N = 49; n = 10 ● Cách 1: Lấy mẫu không quay vòng
● Tính bước nhảy k = [N/n] = 4 ● Chọn ngẫu nhiên p.tử đầu tiên trong [1;k] 3 ● Tính ra các p.tử tiếp theo: 7, 11, 15, 19, 23, 27, ...
● Cách 2: Lấy mẫu quay vòng
● Tính bước nhảy k = N/n = 4,9 làm tròn là 5. ● Chọn ngẫu nhiên p.tử đầu tiên trong [1;5] 4
● Các phần tử tiếp theo: 9, 14, 19, 24, 29, 34, 39, 44, 49 (đủ)
● Chọn ngẫu nhiên p.tử đầu tiên: [1;5] 5
● Các phần tử tiếp theo: 10, 15, 20, 25, 30, 35, 40, 45, (50) ● 50 – 49 = 1 lấy mẫu quay vòng
© Nguyễn Tiến Dũng Thống kê ứng dụng
11
2.4.1.3 Lấy mẫu phân tầng (phân lớp) (stratified sampling) ● Tổng thể gồm nhiều nhóm (gọi là tầng), có đặc điểm
khác nhau.
● Yêu cầu: lấy ra một số lượng hay tỷ lệ nhất định theo
từng nhóm (tầng). ● Lấy mẫu phân tầng tỷ lệ ● Lấy mẫu phân tầng không tỷ lệ
● TD: Có DS gồm N = 20 khách nam + 20 khách nữ.
Cần chọn ra n = 4 người, trong đó có 2 khách nam và 2 khách nữ để phỏng vấn (rút mẫu phân tầng cùng tỷ lệ). ● Quy trình rút mẫu như thế nào?
● Tỷ lệ rút mẫu trong các tầng có thể không đều
● Kích thước các nhóm ● Mục đích
© Nguyễn Tiến Dũng Thống kê ứng dụng
12
2.4.1.4 Lấy mẫu theo cụm (cluster sampling)
● Tổng thể gồm nhiều nhóm (gọi là cụm), có đặc điểm khác nhau, mỗi cụm lại có thể bao gồm các cụm con.
● Lấy mẫu theo cụm 1 giai đoạn ● Chọn ngẫu nhiên một số cụm ● Trong các cụm đã chọn, chọn ngẫu nhiên một số p.tử
● Lấy mẫu theo cụm 2 giai đoạn ● Chọn ngẫu nhiên một số cụm ● Trong các cụm đã chọn, lấy ngẫu nhiên một số cụm con ● Trong các cụm con đã chọn, lấy ngẫu nhiên một số p.tử ● TD: N = 20 nhà x 10 tầng x 10 hộ = 2000 hộ; n = 100
● Cách 1: 1 nhà x 10 tầng x 10 hộ ● Cách 2: 20 nhà x 5 tầng x 1 hộ ● Cách 3: 10 nhà x 5 tầng x 2 hộ
© Nguyễn Tiến Dũng Thống kê ứng dụng
13
2.4.2 Các phương pháp lấy mẫu không ngẫu nhiên (phi xác suất)
● Lấy mẫu thuận tiện (convenience sampling) ● Quy trình cụ thể, thuận tiện cho người TK/NC ● Lấy mẫu định mức / lấy mẫu theo chỉ tiêu
(quota sampling) ● Lấy mẫu thuận tiện + kiểm soát số lượng theo tiêu
chí định trước
● Lấy mẫu theo phán đoán (judgemental
sampling)
● Lấy mẫu theo giới thiệu (snowball sampling)
© Nguyễn Tiến Dũng Thống kê ứng dụng
14
2.5 DỮ LIỆU ĐỊNH TÍNH VÀ ĐỊNH LƯỢNG
● Dữ liệu định tính (qualitative data)
● DL định danh ● DL thứ bậc
● Dữ liệu định lượng (quantitative data)
● DL khoảng ● DL tỷ lệ
● Việc tính giá trị TB, phương sai và độ lệch chuẩn
của DL định tính là vô nghĩa
● Thang đo Dữ liệu Phương pháp PT DL ● TD: Mã hoá 1 = Nam; 2 = Nữ. Đã PV 100 người,
chạy ra kết quả biến giới tính = 1,5
© Nguyễn Tiến Dũng Thống kê ứng dụng