Hồi quy với Dữ liệu Bảng (Regression with Panel Data)

Lê Việt Phú Trường Chính sách Công và Quản lý Fulbright

1 / 59

14-24/2/2023

Nhận diện các loại cấu trúc dữ liệu

2 / 59

▶ Dữ liệu chéo (cross-sectional data) ▶ Dữ liệu chuỗi thời gian (time series data) ▶ Dữ liệu gộp (pooled cross-sectional data) ▶ Dữ liệu bảng (longitudinal/panel data)

Trường hợp mô hình hồi quy không có hiệu lực nội tại do thiếu biến quan trọng

▶ Ví dụ mô hình hồi quy tỷ suất thu nhập của đi học với hai biến giải thích số năm đi học (educ) và tố chất cá nhân (Ability ):

log (incomei ) = β0 + β1educi + β2Abilityi + ui

thỏa các điều kiện CLRM. i đại diện cho quan sát thứ i trong mẫu gồm có N quan sát.

▶ Tuy nhiên không quan sát được Ability , do đó chúng ta sẽ ước lượng mô hình sau trên thực tế:

log (incomei ) = β0 + β1educi + β2Abilityi + ui (cid:125) (cid:124) (cid:123)(cid:122) vi

3 / 59

Trong đó vi là sai số gộp của cả sai số ngẫu nhiên ui và biến không quan sát được Abilityi , vi = ui + β2Abilityi

Đánh giá hướng chệch trong mô hình thiếu biến quan trọng

Các đặc tính của ước lượng của ˆβ1:

ˆβ1 = β1 + β2σ21

σ21 là hệ số góc của hồi quy biến Ability lên educ:

σ21 = cov (educ, Ability ) var (educ)

▶ Nếu β2 = 0 (biến Ability không phải là biến quan trọng) thì ˆβ1 không chệch.

▶ Nếu σ21 = 0 (educ và Ability không tương quan) thì ˆβ1 cũng không chệch.

4 / 59

▶ Nếu không phải 2 trường hợp trên thì β1 chệch, với hướng và mức độ chệch tùy thuộc vào giá trị của β2 và tương quan giữa biến educ và biến không quan sát được Ability thông qua hệ số σ21.

Ước lượng bị thiên lệch do thiếu biến quan trọng - Omitted variables bias

▶ Tố chất cá nhân Ability được kỳ vọng có tác động đến tiền lương.

5 / 59

▶ Tố chất cá nhân tương quan với trình độ học vấn. ▶ Tố chất cá nhân không quan sát được. ▶ Kỳ vọng β2 > 0 và σ21 > 0 ⇒ Ước lượng tỷ suất thu nhập của đi học có khả năng bị chệch lên.

Sử dụng dữ liệu bảng để khắc phục vấn đề thiếu biến quan trọng không quan sát được

Với dữ liệu bảng, chúng ta có thể viết hàm hồi quy dữ liệu bảng như sau:

log (incomeit) = β0 + β1educit + β2Abilityit + γt + uit

với ký hiệu it đại diện cho quan sát thứ i tại năm quan sát t.

6 / 59

▶ γ là xu hướng thay đổi thu nhập trung bình theo thời gian.

Trường hợp đơn giản nhất, ví dụ chúng ta có quan sát tại hai thời điểm, t = 0 và t = 1. Với giả định rằng tố chất cá nhân không thay đổi theo thời gian, khi đó hàm hồi quy có thể viết lại như sau:

(1)

(2) log (incomei0) = β0 + β1educi0 + β2Abilityi + ui0 log (incomei1) = β0 + β1educi1 + β2Abilityi + γ + ui1

Lấy (2) trừ (1):

7 / 59

[log (incomei1) − log (incomei0)] = β1[educi1 − educi0] + γ + [ui1 − ui0]

Khi đó, hàm hồi quy dựa trên sai phân của các biến giải thích có thể được viết dưới dạng sau:

(3) ∆log (incomei ) = γ + β1∆educi + ∆ui

▶ Phương trình hồi quy sử dụng sai phân không còn biến Ability ▶ Giả sử ∆educi và ∆ui không tương quan, khi đó chúng ta có thể ước lượng β1 bằng hồi quy OLS với phương trình (3) và ước lượng này có hiệu lực nội tại.

▶ Tên gọi: chuyển đổi sai phân bậc nhất với dữ liệu

8 / 59

(first-differencing transformation) dùng để tạo ra ước lượng sai phân bậc nhất (first-differencing estimator) hoặc ước lượng khác biệt trong khác biệt (difference-in-difference, hoặc diff-in-diff estimator).

Thực hành ước lượng hàm sản xuất của doanh nghiệp với bốn yếu tố đầu vào trong mô hình KLEM

Sử dụng bộ dữ liệu energy.dta của 5,000 doanh nghiệp ở Việt Nam trong hai năm 2015-16.

logQ = β0 + β1lnK + β2lnL + β3lnE + β4lnM + γt + u

▶ Nếu mô hình trên bị thiếu biến quan trọng có tương quan với các biến giải thích thì ước lượng của một hoặc tất cả các tham số bị chệch và không nhất quán.

▶ Nếu nhân tố không quan sát được không thay đổi theo thời gian (ví dụ đặc tính chủ doanh nghiệp, loại hình kinh doanh, vị trí địa lý, cơ sở hạ tầng...) thì chúng ta có thể sử dụng ước lượng với sai phân bậc nhất để xử lý vấn đề OVB:

∆logQ = γ + β1∆lnK + β2∆lnL + β3∆lnE + β4∆lnM + v

9 / 59

▶ So sánh kết quả ước lượng bằng pooled OLS và DiD.

Lưu ý với ước lượng diff-in-diff (DiD)

▶ Các biến không thay đổi theo thời gian sẽ bị loại bỏ khi thực hiện lấy sai phân bậc nhất. Do đó, không thể dùng mô hình Diff-in-Diff để ước lượng tác động của các nhân tố cố định đến biến phụ thuộc. Ví dụ giới tính, vị trí nơi ở, cơ sở hạ tầng (trong ngắn hạn), trình độ học vấn của những người đã kết thúc quá trình học hành...

▶ Ước lượng tác động của các yếu tố ít thay đổi cũng thiếu chính xác.

▶ Phương pháp DiD dẫn đến giảm số lượng quan sát trong mô hình:

o Biến sai phân làm giảm số lượng quan sát gốc. o Chỉ sử dụng quan sát có dữ liệu cả hai kỳ. Các quan sát chỉ có

dữ liệu ở một kỳ sẽ bị loại bỏ ⇒ Cảnh giác với dữ liệu bị mất/thiếu và quá trình lựa chọn mẫu có thể làm sai lệch kết quả!

10 / 59

Ứng dụng phương pháp DiD trong phân tích tác động chính sách

11 / 59

Nghiên cứu đánh giá tác động chính sách

Các chính sách kinh tế xã hội cần phải đánh giá hiệu quả và điều chỉnh nếu cần thiết. Ví dụ:

▶ Chính sách thuế bảo vệ môi trường (!) đối với xăng dầu có làm giảm lượng người sử dụng phương tiện cá nhân hay không? Nếu có thì giảm bao nhiêu phần trăm (quãng đường, số lượng xe cộ mua mới)?

▶ Chính sách bảo hiểm (nông nghiệp, y tế) có tác động như thế nào đối với hoạt động sản xuất nông nghiệp và tỷ lệ đi khám chữa bệnh hoặc chi tiêu dành cho y tế của người dân?

▶ Các chương trình tín dụng ưu đãi đối với hộ nghèo tại các

12 / 59

vùng miền núi và dân tộc thiểu số có giúp tăng thu nhập của người dân hay không?

Các hình thức đánh giá tác động chính sách

▶ Đánh giá có thể được thực hiện trước khi có chương trình (đánh giá tiên nghiệm), hoặc sau khi có chương trình (hậu nghiệm hoặc hồi cứu).

▶ Đánh giá tiên nghiệm dựa trên các kịch bản và dự báo thay đổi (dòng tiền, chi phí, lợi ích). Ví dụ báo cáo khả thi của dự án, hay phân tích CBA.

13 / 59

▶ Đánh giá hậu nghiệm thực hiện trong quá trình vận hành dự án, hay sau khi dự án đã hoàn thành. Đánh giá hậu nghiệm dựa trên dữ liệu thu thập được trong quá trình thực hiện dự án, và dữ liệu trước khi có dự án.

Yêu cầu của đánh giá tác động chính sách

▶ Xác lập được quan hệ nhân quả giữa chính sách can thiệp và kết quả. Quan hệ nhân quả được xác lập khi chúng ta có thể kết luận chính sách X gây ra tác động Y.

o Phải là quan hệ nhân quả chứ không chỉ dừng lại ở quan hệ tương quan. Do đó cần định nghĩa thế nào là quan hệ nhân quả?

14 / 59

▶ Thách thức: các nhân tố khác thay đổi có thể ảnh hưởng đến kết quả. Cấn thiết phải tách được tác động của chính sách ra khỏi các nhân tố khác.

Định nghĩa tác động nhân quả - Causal effect

Còn gọi là tác động can thiệp (treatment effect).

▶ Tác động nhân quả của chính sách được định nghĩa là sự khác biệt giữa kết quả sau khi thực hiện chính sách so với kết quả đáng lẽ đã xảy ra nếu không có chính sách.

15 / 59

▶ Kết quả đáng lẽ đã xảy ra gọi là phản thực (phản chứng) - counterfactual. Chúng ta không bao giờ quan sát được phản chứng. Một gia đình chỉ có thể được hưởng lợi từ một chính sách nào đó, tại một thời điểm nhất định, hoặc không. Không thể có số liệu đối với cả hai trường hợp có và không có chính sách đối với cùng một quan sát trong một thời điểm nhất định.

Định nghĩa tác động nhân quả - Causal effect

o Treatment/intervention: Chính sách can thiệp được áp dụng lên một nhóm đối tượng tại một thời điểm.

o Một nhóm bị ảnh hưởng hay được hưởng lợi từ chính sách, gọi là nhóm hưởng lợi (treatment/treated group).

o Một nhóm không bị ảnh hưởng bởi chính sách, được gọi là nhóm kiểm soát hoặc nhóm đối chứng (control group).

16 / 59

o Counterfactual: phản chứng/phản thực.

Định nghĩa tác động nhân quả - Causal effect

Impact = Yreal − Ycounterfactual

o Không phải là khác biệt giữa hai nhóm hưởng lợi và nhóm đối chứng (with and without comparison).

o Không phải là sự khác biệt trước và sau khi thực hiện chính sách (pre and post-treatment comparison)

17 / 59

→ Rất khó xác lập được quan hệ nhân quả do yêu cầu phải biết điều gì sẽ xảy ra nếu không có chính sách. Điều này đòi hỏi phải có các thiết kế nghiên cứu (research design) hợp lý. Các mô hình hồi quy thông thường chỉ xác định được quan hệ tương quan mà không xác định được quan hệ nhân quả vững chắc.

▶ Do đó, trọng tâm của việc đánh giá tác động chính sách là sử dụng các thiết kế nghiên cứu để ước lượng phản thực. Phân tích tác động nhân quả cũng được gọi là phân tích phản thực/kết quả tiềm năng - potential outcome/counterfactual analysis.

18 / 59

▶ Tùy vào cách thức thực hiện, độ phức tạp, khả năng thu thập dữ liệu, chi phí và yêu cầu về độ tin cậy mà dữ liệu có thể bao gồm cả dữ liệu trước và sau khi thực hiện chính sách, hoặc chỉ có dữ liệu sau khi thực hiện chính sách.

Lưu ý khi đề xuất nghiên cứu đánh giá tác động can thiệp

A. Muốn xác lập quan hệ nguyên nhân - kết quả, nguyên nhân

(causes) phải thay đổi chi phối được dưới tác động của chính sách. Ví dụ chính sách có thể tác động đến chỗ ở, đi học ở đâu, có tham gia vay mượn hay không, qua đó ảnh hưởng như thế nào đến sinh kế.

B. Thuộc tính (attributes) chỉ có thể có quan hệ tương quan đến kết quả. Ví dụ giới tính, độ tuổi, dân tộc không thể bị chi phối hay thay đổi bởi chính sách can thiệp, do đó không thể thiết lập được quan hệ nhân quả giữa thuộc tính với kết quả.

19 / 59

Lý do: chỉ có thể xây dựng được phản chứng đối với [A]. Không tồn tại phản chứng với [B].

Xây dựng khái niệm quan hệ nhân quả: Đánh giá tác động chính sách bằng thiết kế mẫu ngẫu nhiên

Randomization, randomized experiments, randomized controlled trial - RCT

Chương trình nghiên cứu gồm có hai bước: Quan sát được hai nhóm (hưởng lợi và đối chứng) tại hai thời điểm trước và sau khi thực hiện chính sách.

20 / 59

Impact = Ytreatment − Ycontrol

Đánh giá tác động chính sách bằng thiết kế mẫu ngẫu nhiên

▶ Dựa vào thiết kế đảm bảo nhóm đối chứng hoàn toàn tương

đồng (về các đặc tính quan sát được và không quan sát được) với nhóm hưởng lợi trước khi thực hiện chương trình, cỡ mẫu đủ lớn, can thiệp được ngẫu nhiên hóa để tránh vấn đề lựa chọn mẫu (selection into treatment).

▶ Khi này, sử dụng nhóm đối chứng làm counterfactual, và khác biệt về kết quả giữa hai nhóm sau khi thực hiện chính sách chính là tác động của chính sách can thiệp.

⇒ Các nghiên cứu bằng RCT rất tốn kém, khó thực hiện, nhưng có hiệu lực nội tại cao nhất trong tất cả các thiết kế nghiên cứu.

o RCT (đặc biệt với thiết kế thử nghiệm lâm sàng truyền thống - classical clinical design) là tiêu chuẩn vàng (gold standard) để thiết lập quan hệ nhân quả.

21 / 59

Các phương pháp khác đánh giá tác động chính sách

Bản chất của đánh giá tác động chính sách là ước lượng counterfactual.

▶ Dữ liệu quan sát lặp (dữ liệu bảng) có thể được sử dụng để ước lượng counterfactual.

▶ Các thiết kế nghiên cứu đặc biệt như hồi quy gián đoạn (hồi quy cắt - regression discontinuity design) hay hồi quy biến công cụ.

▶ Các hiện tượng ngẫu nhiên xảy ra (natural experiments) cho phép ước lượng phản thực từ nhóm không bị ảnh hưởng.

22 / 59

▶ Ước lượng phản thực bằng các thuật toán thống kê (matching, synthetic controls)

Sử dụng phương pháp DiD để đánh giá tác động chính sách Giả định song song (parallel assumption): Nếu không có chính sách can thiệp thì xu hướng thay đổi của nhóm hưởng lợi và nhóm kiểm soát là như nhau.

Trước

Đối chứng Y0 Y1 Hưởng lợi

Sau Thay đổi Y2 Y4

Y2 − Y0 = a Y4 − Y1 = b

Ước lượng DiD = (Y4 − Y1) − (Y2 − Y0) = Y4 − Y3

23 / 59

Mô hình ước lượng tác động chính sách bằng DiD

Tác động của chính sách có thể được ước lượng bằng mô hình sau:

Y = β0 + β1 ∗ T + β2 ∗ Year + β3 ∗ (T × Year ) + βk ∗ X + u

trong đó

▶ T là biến chính sách (T = 1 nếu thuộc nhóm hưởng lợi, T = 0 với nhóm kiểm soát).

▶ Year là biến thời gian (Year = 0 trước khi thực hiện chính sách và Year = 1 sau khi kết thúc).

24 / 59

▶ Y là biến kết quả; X là các biến giải thích khác trong mô hình (tạm thời bỏ qua).

Trước (Year = 0)

Đối chứng (T = 0) Y = β0 Hưởng lợi (T = 1)

Y = β0 + β1

Sau (Year = 1) Y = β0 + β2 Y = β0 + β1 + β2 + β3

△Y β2 β2 + β3 DiD = β3

Y = β0 + β1 ∗ T + β2 ∗ Year + β3 ∗ (T × Year ) + u

25 / 59

β3 gọi là tác động can thiệp trung bình. Phương pháp ước lượng này còn được gọi là ước lượng DiD bằng biến tương tác.

Điều kiện áp dụng phương pháp DiD để đánh giá tác động chính sách

▶ Dữ liệu bảng – nhưng không nhất thiết phải cân bằng! ▶ Giả định song song (parallel assumption): Nếu không có chính sách can thiệp thì xu hướng thay đổi của nhóm hưởng lợi và nhóm kiểm soát là như nhau.

o Điều kiện này nới lỏng hơn rất nhiều so với điều kiện nhóm kiểm soát hoàn toàn tương đồng với nhóm hưởng lợi trong thiết kế đánh giá ngẫu nhiên (RCT).

o Có thể sử dụng nhóm hưởng lợi và nhóm kiểm soát có khác biệt về các thuộc tính, kể cả các thuộc tính không quan sát được (unobserved heterogeneity).

26 / 59

Lưu ý về giả định song song và hiệu lực của phương pháp DiD

▶ Giả định song song thỏa nếu nhân tố quan sát được ảnh hưởng đến kết quả không thay đổi theo thời gian (time invariant) và mang tính cộng dồn (additive).

▶ Nếu giả định song song bị vi phạm thì phản chứng là không hợp lệ (invalid counterfactual) ⇒ Ước lượng bị chệch!

o Khi xu hướng thay đổi của hai nhóm không tương đồng

(time-varying unobserved heterogeneity), ví dụ tốc độ tăng lương của nhóm rất nghèo so với nhóm rất giàu có thể khác nhau.

o Khi thời gian thực hiện chương trình quá dài dẫn đến những

thay đổi mang tính cấu trúc giữa các nhóm.

27 / 59

▶ Nếu có dữ liệu từ 3 kỳ quan sát trở lên thì có thể kiểm định giả định song song (falsification test).

Rủi ro với hiệu lực của phương pháp DiD/Threats to validity

28 / 59

▶ Đánh giá tác động ngắn hạn và dài hạn. ▶ Dữ liệu repeated cross-sectional và panel data. ▶ Vấn đề rơi rụng mẫu/attrition and self selection.

Các hình thức ước lượng mô hình DiD

Cách 1: OLS với dữ liệu gộp (pooled regression) và biến tương tác (interaction effect).

Y = β0 + β1 ∗ T + β2 ∗ Year + β3 ∗ (T × Year ) + βk ∗ X + u

▶ Tác động của chính sách là tham số của biến tương tác T × Year .

▶ Lợi ích của hồi quy dữ liệu gộp là thực hiện đơn giản, không yêu cầu dữ liệu bảng phải cân bằng (mỗi hộ gia đình đều có quan sát ở tất cả các thời kỳ). Tuy nhiên, nếu dữ liệu bị thiếu một cách hệ thống (non-random missing values/sample attrition) thì việc ước lượng có thể bị chệch do vấn đề lựa chọn mẫu (sample selection).

o Những quan sát rớt rụng khỏi mẫu có đặc tính khác biệt so với phần còn lại (ví dụ hộ gia đình vay vốn không có khả năng trả nợ thì bỏ trốn hay không trả lời phỏng vấn).

29 / 59

Ví dụ: Sử dụng bộ dữ liệu microcredit.dta để ước lượng tác động của chính sách cho vay tín dụng vi mô (microfinance) đến tổng chi tiêu của hộ gia đình ở Bangladesh

▶ Tìm hiểu bộ dữ liệu. ▶ Cấu trúc dữ liệu dạng bảng dọc (long format): 826 hộ gia

30 / 59

đình, trong đó có 468 hộ hưởng lợi, mỗi hộ có quan sát trước (Year=0) và sau (Year=1) khi thực hiện chương trình. ▶ Biến chính sách treat = 1 nếu hộ có tham gia vay vốn. ▶ Biến kết quả: Tổng chi tiêu của hộ (exptot).

Cách thức tổ chức dữ liệu bảng

Các kỹ thuật xử lý và chuyển đổi dữ liệu rất quan trọng đối với dữ liệu bảng do các phương pháp khác nhau yêu cầu tổ chức cấu trúc dữ liệu khác nhau!

Bảng dọc (long format):

HHid Year Treatment (T) 1 1 0 0 ... 1 1 2 2 ... 0 1 0 1 ... Yi y10 y11 y20 y21 ... Xi x10 x11 x20 x21 ...

Với cấu trúc trên, mô hình ước lượng được viết như sau:

log (exptotit) = β0 + β1 ∗ treati + β2 ∗ Yeart

+ β3 ∗ (treati × Yeart) + βk Xit + uit

31 / 59

với Xit là các đặc tính của hộ gia đình.

Nhận xét với hồi quy dữ liệu gộp

▶ Bản chất của hồi quy dữ liệu gộp tương tự như hồi quy dữ liệu chéo. Dễ thực hiện, không yêu cầu dữ liệu cân bằng. ▶ Các giả định của mô hình CLRM vẫn cần thiết. Nếu vi phạm ⇒ ước lượng bị chệch hoặc không nhất quán.

▶ Chưa tận dụng tối đa khả năng của dữ liệu bảng (quan sát lặp qua thời gian) cho phép vi phạm giả định về tương quan giữa phần dư với biến chính sách.

32 / 59

▶ Dữ liệu bị thiếu có hệ thống có thể làm mất hiệu lực nội tại của mô hình.

Mô hình tổng quát của hồi quy dữ liệu bảng

Do dữ liệu bảng cho phép kiểm soát nhân tố không quan sát được không thay đổi theo thời gian (time-invariant unobserved heterogeneity), chúng ta có thể xử lý vấn đề OVB với hồi quy dữ liệu bảng. Bắt đầu bằng phương trình hồi quy với chính sách can thiệp T :

(4)

Yit = β0 + β1 ∗ Tit + β2 ∗ Yeart + βk ∗ Xit + ai + uit (cid:124) (cid:123)(cid:122) (cid:125) vit

viết tắt thành:

(5)

Yit = βk ∗ Xit + ai + uit (cid:124) (cid:123)(cid:122) (cid:125) vit

với ai là tác động cố định, đặc trưng cho từng quan sát i, và không quan sát được. ai khác nhau giữa các hộ/cá nhân nhưng trong cùng một hộ/cá nhân, đặc trưng này không thay đổi theo thời gian, ví dụ như tính cách, quan hệ xã hội, tố chất cá nhân, giới tính chủ hộ.

33 / 59

▶ Do ai không quan sát được nên ai sẽ bị gom chung vào phần dư gộp của mô hình (vit = ai + uit).

▶ Nếu ai tương quan dương với biến chính sách Ti (người có quan hệ tốt có khả năng vay vốn tốt hơn) ⇒ ước lượng của β1 sẽ bị chệch lên.

▶ Lấy trung bình đối với từng quan sát theo thời gian, ta có phương trình:

(6) Yi = βk ∗ Xi + ai + ui

▶ Ước lượng các tham số dựa trên mô hình (6) được gọi là

34 / 59

between estimator (ước lượng dựa vào sự khác biệt giữa các hộ gia đình với nhau về mặt trung bình).

Lấy phương trình (5) trừ đi phương trình (6), do nhân tố cố định ai không đổi nên nó sẽ bị loại trừ:

(7) Yit − Yi = βk ∗ (Xit − Xi ) + (uit − ui )

viết gọn lại thành:

¨Yit = βk ∗ ¨Xit + ¨uit (8) với các giá trị ¨Yit, ¨Xit được tính bằng cách lấy giá trị quan sát tại mỗi kỳ trừ đi giá trị trung bình trong từng hộ gia đình (còn gọi là chuyển đổi bên trong - within transformation/time-demeaned transformation).

▶ Do đã khử được ai nên ước lượng của mô hình (8) có hiệu lực nội

tại.

▶ Ước lượng này được gọi là ước lượng tác động cố định, within estimator/fixed-effects (FE) estimator (ước lượng dựa vào biến động nội tại cùng một hộ gia đình).

35 / 59

Các hình thức ước lượng hồi quy dữ liệu bảng với tác động cố định

1. Hồi quy dữ liệu bảng với tác động cố định (Fixed Effects Panel Regression):

(9) Yit = β0 + β1 ∗ Tit + β2 ∗ Yeart + βk ∗ Xit + ai + uit

xtreg Y T Year X, fe i(id) với id là mã hộ gia đình

▶ Phương pháp tối ưu với dữ liệu bảng. ▶ Chỉ sử dụng các quan sát lặp ⇒ Cảnh giác với vấn đề mẫu bị rớt rụng (attrition) có hệ thống có thể làm giảm hiệu lực của kết quả.

36 / 59

N−1 (cid:88)

2. Hồi quy với biến giả - Least Square Dummy Variables (LSDV):

j=1

σj Dj + uit (10) Yit = β0 + β1 ∗ Tit + β2 ∗ Yeart + βk ∗ Xit +

với Dj là (N-1) biến giả đại diện cho N quan sát. areg Y T Year Xi , a(id) hoặc reg Y T Year Xi i.id

37 / 59

Bản chất của phương pháp này là ước lượng mô hình dữ liệu gộp OLS với (N-1) biến giả Dj đại diện cho N hộ gia đình. β1 là tác động của chính sách.

3. Hồi quy với dữ liệu sai phân bậc nhất - Regression with First Differences

Lấy sai phân bậc nhất của các biến số qua thời gian (lấy dữ liệu năm sau trừ đi dữ liệu năm trước). Khi đó tác động cố định và tung độ gốc sẽ bị trừ khử, và bản chất là chúng ta ước lượng mô hình sau:

∆Yi = β2 + β1 ∗ ∆Ti + βk ∗ ∆Xi + ui

với ∆Yi = Yi1 − Yi0...

38 / 59

reg dY dT dXi với sai phân bậc nhất của các biến số được tạo ra.

Thực hành đánh giá tác động của chương trình tín dụng vi mô đến tổng chi tiêu của hộ gia đình với phương pháp hồi quy dữ liệu bảng

Sử dụng bộ dữ liệu microcredit.dta của 826 hộ gia đình thu thập qua hai năm.

▶ Viết phương trình hồi quy với các phương pháp đã học

(pooled regression, panel data with FE, LSDV, OLS with first differences).

39 / 59

▶ Ước lượng và so sánh các mô hình. ▶ Diễn giải ý nghĩa.

1. Pooled regression with an interaction term:

log (exptotit) = β0+β1Ti +β2Yeart+β3∗(Ti ×Yeart)+βk Xit+uit

2. Fixed-effects panel regression:

log (exptotit) = β0 + β1Tit + β2Yeart + βk Xit + ai + uit

N−1 (cid:88)

3. LSDV:

j=1

σj Dj + uit log (exptotit) = β0 + β1Tit + β2Yeart + βk Xit +

4. OLS with first differencing data:

40 / 59

∆log (exptoti ) = β2 + β1∆Ti + βk ∆Xi + ui

Nhận xét ưu nhược điểm của các hình thức ước lượng

▶ Hồi quy dữ liệu gộp đơn giản, dễ thực hiện, nhưng không tận dụng tối đa ưu điểm điều tra lặp của dữ liệu bảng.

41 / 59

▶ Hồi quy dữ liệu bảng với tác động cố định xtreg fe là hiệu quả nhất. Cũng có thể sử dụng hồi quy sai phân bậc nhất để loại bỏ những nhấn tố không thay đổi theo thời gian. Nhưng nếu bảng dữ liệu không cân bằng thì một số quan sát sẽ bị loại bỏ ⇒ Giảm cỡ mẫu ⇒ Giảm khả năng kiểm định các giả thuyết thống kê. Nếu dữ liệu bị thiếu một cách hệ thống (systematic attrition) ⇒ mô hình có thể bị chệch do vấn đề lựa chọn mẫu.

▶ Hồi quy với biến giả cũng có thể được sử dụng để kiểm soát các nhân tố không thay đổi theo thời gian. Tuy nhiên đưa nhiều biến giả làm giảm bậc tự do và giảm sức mạnh của kiểm định thống kê.

▶ Các phương pháp trên không nhất thiết ra kết quả giống nhau. o Khi dữ liệu chỉ có hai kỳ quan sát và cân bằng thì pooled,

xtreg fe, lsdv và first differencing đều cho kết quả tương đồng.

o Khi giải thích mô hình, trị kiểm định và R 2 của XTREG và

first-differencing estimator có thể rất thấp do các phương pháp này sử dụng with-in variations (do đó làm mất dao động của dữ liệu), trong khi pooled OLS hoặc LSDV sử dụng dữ liệu gốc. Điều này có thể gây hiểu lầm là mô hình yếu.

42 / 59

Mở rộng: DiD có tính đến điều kiện ban đầu

▶ Sử dụng để kiểm tra tính vững của kết quả khi nghi ngờ điều kiện trước khi thực hiện chính sách (điều kiện ban đầu) ảnh hưởng đến tốc độ thay đổi của kết quả (độ dốc của giả định song song).

43 / 59

▶ Không kiểm soát điều kiện ban đầu có thể dẫn đến sai lầm khi xây dựng phản thực, dẫn đến ước lượng bị chệch.

i + ui

▶ Mô hình hồi quy với sai phân bậc nhất của các biến số, có kiểm soát thêm điều kiện ban đầu Xi:

i (quan sát Xi

∆Yi = β2 + β1 ∗ ∆Ti + βk ∗ ∆Xi + γk ∗ X0 ▶ Sử dụng lệnh reg dY dT dXi Xi với sai phân bậc nhất của

các biến số được tạo ra và điều kiện ban đầu X 0 tại thời điểm Year = 0).

▶ Phương pháp này cũng được sử dụng nếu nhà nghiên cứu

muốn đánh giá tác động của nhân tố không thay đổi lên kết quả. Nhân tố không thay đổi sẽ bị khử trong quá trình chuyển đổi sai phân bậc nhất.

44 / 59

Thực hành: kiểm tra độ vững của mô hình DiD có kiểm soát điều kiện ban đầu khi đánh giá tác động của tín dụng vi mô đến tổng chi tiêu hộ.

Hồi quy dữ liệu bảng - Nâng cao

45 / 59

Hồi quy tác động ngẫu nhiên (random-effects (RE) model)

(11)

Yit = βk ∗ Xit + ai + uit (cid:124) (cid:123)(cid:122) (cid:125) vit

▶ Trong trường hợp tác động cố định không quan sát được ai không tương quan với các biến giải thích Xit (bao gồm cả biến chính sách Ti ) trong mô hình (11):

cov (Xit, ai ) = 0

khi này, mô hình (11) vẫn thỏa điều kiện cov (Xit, vit) = 0 và ước lượng bằng OLS vẫn không chệch.

▶ Nhưng ước lượng bằng fixed-effects trong trường hợp này là

46 / 59

không tối ưu do chuyển đổi dữ liệu làm mất thông tin và giảm số bậc tự do.

▶ Áp dụng mô hình tác động ngẫu nhiên (random-effects) trong trường hợp này:

(12) Yit = βk ∗ Xit + vit

với vit = ai + uit là phần dư gộp (composite error term).

▶ Ước lượng (12) bằng OLS vẫn không chệch (unbiased) nhưng không hiệu quả nhất do các phần dư vit tương quan chuỗi với nhau (vi phạm điều kiện iid):

47 / 59

̸= 0 cov (vit, vis ) = σ2 a a + σ2 σ2 u

Mô hình tác động ngẫu nhiên

Tương tự như phương pháp hồi quy với quyền số (generalized least square-GLS) để xử lý vấn đề tương quan chuỗi:

1. Ước lượng quyền số chuyển đổi dữ liệu θ,

(cid:115)

θ = 1 − (σ2 σ2 u u + T σ2 a)

o T là số kỳ quan sát, và thỏa điều kiện số quan sát lớn hơn

nhiều số kỳ quan sát, N ≫ T .

o θ luôn dương và nhỏ hơn 1. o Chuyển đổi bộ dữ liệu theo công thức: Yit − θYi , Xit − θXi , và

vit − θvi .

2. Và ước lượng mô hình OLS với dữ liệu đã chuyển đổi:

(13) Yit − θYi = βk ∗ (Xit − θXi ) + (vit − θvi )

48 / 59

Stata: xtreg Y T Year X , re i(id)

Bản chất của ước lượng RE là kết hợp giữa pooled OLS với FE thông qua quyền số θ

▶ θ phản ánh mức độ quan trọng tương đối của tác động cố

định ai so với phần dư uit của mô hình thông qua phương sai a và σ2 σ2 u.

▶ Nếu tác động cố định không quan trọng trong mô hình, u ⇒ θ → 0. Khi này ước lượng RE tương tự như σ2 a ≪ σ2 pooled OLS.

u ⇒ θ → 1. Khi này ước lượng RE sẽ tiệm cận ước

▶ Nếu tác động cố định rất quan trọng trong mô hình,

49 / 59

σ2 a ≫ σ2 lượng FE.

Khi nào thì sử dụng pooled OLS, fixed-effects và random-effects model?

Lựa chọn mô hình nào tùy thuộc vào lý thuyết nền tảng, lập luận bối cảnh nghiên cứu, dữ liệu và kiểm định.

▶ Luôn sử dụng pooled OLS làm mô hình tham chiếu trước khi ước lượng các mô hình khác phức tạp hơn.

▶ Nếu tác động cố định tương quan với biến giải thích thì mô hình FE sẽ xử lý được vấn đề thiếu biến quan trọng. Nếu tác động cố định không tương quan với biến giải thích thì mô hình RE sẽ hiệu quả hơn FE.

▶ Áp dụng sai dẫn đến hậu quả nghiêm trọng:

o Áp dụng FE sai dẫn đến ước lượng không hiệu quả. o Áp dụng RE sai dẫn đến ước lượng không nhất quán.

50 / 59

Kiểm định Hausman để lựa chọn FE hoặc RE model Kiểm định Hausman kiểm tra sự khác biệt mang tính hệ thống giữa hai ước lượng FE/RE và lựa chọn mô hình phù hợp nhất.

H0 : βFE = βRE H1 : βFE ̸= βRE

▶ Trị kiểm định χ2 được tính với giả định các tham số ước

lượng được theo phương pháp FE thì nhất quán (consistent), và phương phương pháp RE thì hiệu quả (efficient).

▶ Nếu hai tham số ước lượng tương đương nhau thì chọn ước lượng có hiệu quả hơn (tham số ước lượng có sai số chuẩn thấp nhất).

▶ Nếu có sự khác biệt giữa hai tham số ước lượng, khi này giả định sử dụng trong ước lượng RE có thể không hợp lý. ▶ Nguyên tắc chọn mô hình với Hausman test:

o Bác bỏ H0 ⇒ ước lượng RE khác với ước lượng FE ⇒ sử dụng

ước lượng FE.

o Không bác bỏ H0 ⇒ sử dụng ước lượng RE.

51 / 59

Thực hành

52 / 59

Ước lượng hàm sản xuất KLEM với dữ liệu energy bằng cả bốn mô hình pooled OLS, between effects, fixed effects, và random effects. So sánh kết quả và giải thích.

Triple Differencing Estimator/Diff-in-Diff-in-Diff (DDD)

DDD có thể được sử dụng trong một số trường hợp để kiểm định và cải thiện độ vững của ước lượng DiD. Ví dụ chúng ta muốn đánh giá tác động của một chính sách can thiệp xảy ra với đối tượng từ 55 tuổi trở lên tại Hà Nội. Có các lựa chọn sau:

53 / 59

▶ So sánh nhóm trên 55 với nhóm vừa cận dưới 55, chẳng hạn nhóm 45-54 tuổi, tại thời điểm trước và sau khi thực hiện chính sách, tại Hà Nội. Đây là thiết kế DiD truyền thống. ▶ Do chúng ta có nhiều tỉnh thành, có thể mở rộng đánh giá quá trình thay đổi về sự khác biệt giữa nhóm 45-54 với nhóm trên 55 tại Hà nội so với quá trình thay đổi về sự khác biệt giữa các nhóm này tại các địa phương khác. Đây là thiết kế DDD.

Xây dựng mô hình ước lượng DDD bằng hồi quy

Yist i: treatment indicator (0,1) s: state (treated/control state) t: time indicator (0,1)

Yist = β0 + β1Treat + β2State + β3Year

+ β4Treat ∗ State + β5Treat ∗ Year + β6State ∗ Year + β7Treat ∗ State ∗ Year + βj Xj + εist

so với DiD truyền thống:

54 / 59

Yist = β0 + β1Treat + β2Year + β3Treat ∗ Year + βj Xj + εist

DiD vs DDD

▶ Tại sao gọi β7 là triple-difference estimator?

55 / 59

▶ Tại sao ước lượng β7 vững hơn β3 của mô hình DiD?

56 / 59

DiD vs DDD

▶ DDD cũng có thể áp dụng với dữ liệu có từ 3 kỳ trở lên.

▶ Nếu giả định song song đảm bảo thì DDD sẽ giống với ước lượng DiD. Do đó nó cũng được dùng để kiểm định giả định song song.

57 / 59

▶ Nếu DDD khác với DiD thì sử dụng DDD vững hơn DiD.

DDD với dữ liệu 3 kỳ

58 / 59

Kiểm định giả định song song (Placebo treatment/Parallel trend test)

59 / 59

Khi có nhiều hơn hai kỳ quan sát, có thể kiểm chứng liệu xu hướng thay đổi của nhóm đối chứng và hưởng lợi có tương đồng trước khi thực hiện chương trình hay không bằng kiểm định can thiệp giả (placebo treatment test). - Nếu can thiệp giả không có tác động thì giả định song song là phù hợp. - Nếu can thiệp giả cho ra tác động thì giả định song song không phù hợp hoặc mô hình mis-specified. Cần kiểm tra lại cách xây dựng mô hình.