CHƯƠNG 2 THU THẬP DỮ LIỆU

ThS. Nguyễn Tiến Dũng Bộ môn Quản trị Kinh doanh, Viện Kinh tế và Quản lý Email: dung.nguyentien3@hust.edu.vn

MỤC TIÊU CỦA CHƯƠNG

● Sau khi kết thúc chương này, người học có

thể: ● Phân biệt được DL thứ cấp và DL sơ cấp ● Kể tên và nêu được đặc điểm, phạm vi ứng dụng của các kỹ thuật lấy mẫu ngẫu nhiên và không ngẫu nhiên

● Phân biệt được DL định tính và DL định lượng và ý

nghĩa của hai loại DL này trong phân tích TK.

© Nguyễn Tiến Dũng Thống kê ứng dụng

2

CÁC NỘI DUNG CHÍNH

● 2.1 Xác định DL cần thu thập ● 2.2 DL thứ cấp ● 2.3 DL sơ cấp ● 2.4 Các kỹ thuật (phương pháp) lấy mẫu

© Nguyễn Tiến Dũng Thống kê ứng dụng

3

2.1 XÁC ĐỊNH DỮ LIỆU CẦN THU THẬP

● Tiến trình NC

● Vấn đề quản trị >> Mục tiêu NC >> Kế hoạch NC >> Thu

thập DL >> Phân tích DL …

● TD: NC mối liên hệ mức độ yêu thích chuyên ngành

của SV và kết quả học tập ● DL về Biến đầu vào X = Mức độ yêu thích chuyên ngành ● DL về Biến đầu ra Y = Kết quả học tập = f(X) ● DL khác:

● Về SV: khoa, trường, học năm thứ mấy ● Về môi trường học tập: đặc điểm nhà trường, xã hội … ● 2 loại DL theo tính sẵn có tại thời điểm NC:

● DL thứ cấp ● DL sơ cấp

© Nguyễn Tiến Dũng Thống kê ứng dụng

4

2.2 DỮ LIỆU THỨ CẤP

● DL có sẵn ● Tiếp cận nguồn DL -> Lấy DL về -> Xử lý

thêm

● Nguồn bên trong DN ● Nguồn bên ngoài DN

● Các tổ chức chuyên TK của nhà nước: TCTK

(gso.gov.vn), Cục TK …

● Các tổ chức không chuyên TK ● Các tổ chức dịch vụ cung cấp thông tin: TNS, A.C.

Nielsen …

© Nguyễn Tiến Dũng Thống kê ứng dụng

5

Dữ liệu bên trong DN

● TD: SV làm TTTN phải lấy các số liệu về DN mà SV đó

thực tập

● Phần 1: GT chung về DN

● Sở hữu nào ● Quy mô DN ● Mặt hàng KD ● Cơ cấu tổ chức ● Quy trình công nghệ, sản xuất, cung cấp dịch vụ ● …

● Phần 2: PT hoạt động KD của DN

● 2.1. Tiêu thụ và marketing ● 2.2. Lao động và tiền lương ● 2.3. Vật tư và tài sản cố định ● 2.4. Chi phí và giá thành ● 2.5. Tình hình tài chính

© Nguyễn Tiến Dũng Thống kê ứng dụng

6

2.3 DỮ LIỆU SƠ CẤP

● DL không có sẵn ● Tự làm hay thuê ngoài ● Các phương pháp thu thập DL sơ cấp

● NC định tính

● Phỏng vấn sâu ● Thảo luận nhóm

● NC định lượng

● Quan sát ● Nhật ký ● Điều tra chọn mẫu: PV trực tiếp, qua điện thoại, qua thư

© Nguyễn Tiến Dũng Thống kê ứng dụng

7

2.4 CÁC PHƯƠNG PHÁP LẤY MẪU

Yêu cầu đối với lấy mẫu

Các phương pháp lấy mẫu ngẫu nhiên

Các phương pháp lấy mẫu không ngẫu nhiên

• Lấy mẫu thuận

• Lấy mẫu ngẫu nhiên đơn giản

tiện

• Lấy mẫu hệ

• Lấy mẫu theo

• Sai số • Chi phí • Thời gian

thống

định mức

• Lấy mẫu phân

• Lấy mẫu bằng

tầng

• Lấy mẫu theo

phán đoán • Lấy mẫu theo

cụm

giới thiệu

© Nguyễn Tiến Dũng Thống kê ứng dụng

8

2.4.1 Các phương pháp lấy mẫu ngẫu nhiên

● Lấy mẫu ngẫu nhiên là gì (random sampling)? ● 2.4.1.1 Lấy mẫu ngẫu nhiên đơn giản (simple

random sampling) ● Tổng thể gồm N = 20 phần tử  chọn ra n = 5

phần tử

● Giả thiết (giả định): có ds N phần tử, được đánh số

từ 1 tới N

● Các kỹ thuật (p.pháp) cụ thể:

● Tra bảng số ngẫu nhiên ● Rút thăm ngẫu nhiên ● Khởi tạo số ngẫu nhiên trên máy tính:

● Excel: Hàm RANDBETWEEN(a;b)

© Nguyễn Tiến Dũng Thống kê ứng dụng

9

Bảng số ngẫu nhiên (Table of Random Numbers)

© Nguyễn Tiến Dũng Thống kê ứng dụng

10

2.4.1.2 Lấy mẫu hệ thống (systematic sampling)

● N = 49; n = 10 ● Cách 1: Lấy mẫu không quay vòng

● Tính bước nhảy k = [N/n] = 4 ● Chọn ngẫu nhiên p.tử đầu tiên trong [1;k]  3 ● Tính ra các p.tử tiếp theo: 7, 11, 15, 19, 23, 27, ...

● Cách 2: Lấy mẫu quay vòng

● Tính bước nhảy k = N/n = 4,9  làm tròn là 5. ● Chọn ngẫu nhiên p.tử đầu tiên trong [1;5]  4

● Các phần tử tiếp theo: 9, 14, 19, 24, 29, 34, 39, 44, 49 (đủ)

● Chọn ngẫu nhiên p.tử đầu tiên: [1;5]  5

● Các phần tử tiếp theo: 10, 15, 20, 25, 30, 35, 40, 45, (50) ● 50 – 49 = 1  lấy mẫu quay vòng

© Nguyễn Tiến Dũng Thống kê ứng dụng

11

2.4.1.3 Lấy mẫu phân tầng (phân lớp) (stratified sampling) ● Tổng thể gồm nhiều nhóm (gọi là tầng), có đặc điểm

khác nhau.

● Yêu cầu: lấy ra một số lượng hay tỷ lệ nhất định theo

từng nhóm (tầng). ● Lấy mẫu phân tầng tỷ lệ ● Lấy mẫu phân tầng không tỷ lệ

● TD: Có DS gồm N = 20 khách nam + 20 khách nữ.

Cần chọn ra n = 4 người, trong đó có 2 khách nam và 2 khách nữ để phỏng vấn (rút mẫu phân tầng cùng tỷ lệ). ● Quy trình rút mẫu như thế nào?

● Tỷ lệ rút mẫu trong các tầng có thể không đều

● Kích thước các nhóm ● Mục đích

© Nguyễn Tiến Dũng Thống kê ứng dụng

12

2.4.1.4 Lấy mẫu theo cụm (cluster sampling)

● Tổng thể gồm nhiều nhóm (gọi là cụm), có đặc điểm khác nhau, mỗi cụm lại có thể bao gồm các cụm con.

● Lấy mẫu theo cụm 1 giai đoạn ● Chọn ngẫu nhiên một số cụm ● Trong các cụm đã chọn, chọn ngẫu nhiên một số p.tử

● Lấy mẫu theo cụm 2 giai đoạn ● Chọn ngẫu nhiên một số cụm ● Trong các cụm đã chọn, lấy ngẫu nhiên một số cụm con ● Trong các cụm con đã chọn, lấy ngẫu nhiên một số p.tử ● TD: N = 20 nhà x 10 tầng x 10 hộ = 2000 hộ; n = 100

● Cách 1: 1 nhà x 10 tầng x 10 hộ ● Cách 2: 20 nhà x 5 tầng x 1 hộ ● Cách 3: 10 nhà x 5 tầng x 2 hộ

© Nguyễn Tiến Dũng Thống kê ứng dụng

13

2.4.2 Các phương pháp lấy mẫu không ngẫu nhiên (phi xác suất)

● Lấy mẫu thuận tiện (convenience sampling) ● Quy trình cụ thể, thuận tiện cho người TK/NC ● Lấy mẫu định mức / lấy mẫu theo chỉ tiêu

(quota sampling) ● Lấy mẫu thuận tiện + kiểm soát số lượng theo tiêu

chí định trước

● Lấy mẫu theo phán đoán (judgemental

sampling)

● Lấy mẫu theo giới thiệu (snowball sampling)

© Nguyễn Tiến Dũng Thống kê ứng dụng

14

2.5 DỮ LIỆU ĐỊNH TÍNH VÀ ĐỊNH LƯỢNG

● Dữ liệu định tính (qualitative data)

● DL định danh ● DL thứ bậc

● Dữ liệu định lượng (quantitative data)

● DL khoảng ● DL tỷ lệ

● Việc tính giá trị TB, phương sai và độ lệch chuẩn

của DL định tính là vô nghĩa

● Thang đo  Dữ liệu  Phương pháp PT DL ● TD: Mã hoá 1 = Nam; 2 = Nữ. Đã PV 100 người,

chạy ra kết quả biến giới tính = 1,5

© Nguyễn Tiến Dũng Thống kê ứng dụng

15