intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Ứng dụng mô hình Arima để dự báo số lượng trúng tuyển và nhập học tại trường Đại học Quảng Nam

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

7
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục tiêu của nghiên cứu này nhằm giới thiệu việc xây dựng mô hình chuỗi thời gian theo phương pháp trung bình trượt tích hợp tự hồi quy (Autoregressive Integrated Moving Average - ARIMA). Với dữ liệu quá khứ trúng tuyển và nhập học từ năm 2007-2022 tại trường đại học Quảng Nam, kết quả của mô hình sẽ dự báo số lượng trúng tuyển và nhập học cho những năm tiếp theo.

Chủ đề:
Lưu

Nội dung Text: Ứng dụng mô hình Arima để dự báo số lượng trúng tuyển và nhập học tại trường Đại học Quảng Nam

  1. ỨNG DỤNG MÔ HÌNH ARIMA ĐỂ DỰ BÁO SỐ LƯỢNG TRÚNG TUYỂN VÀ NHẬP HỌC TẠI TRƯỜNG ĐẠI HỌC QUẢNG NAM Lê Phước Thành1, Nguyễn Văn2 Tóm tắt: Trong phân tích dữ liệu, việc dự báo thường dựa trên hai loại mô hình chính là mô hình nhân quả và mô hình chuỗi thời gian. Trong mô hình nhân quả, kỹ thuật phân tích hồi qui được sử dụng để thiết lập mối quan hệ giữa biến phụ thuộc và các biến nguyên nhân. Mục tiêu của nghiên cứu này nhằm giới thiệu việc xây dựng mô hình chuỗi thời gian theo phương pháp trung bình trượt tích hợp tự hồi quy (Autoregressive Integrated Moving Average - ARIMA). Với dữ liệu quá khứ trúng tuyển và nhập học từ năm 2007-2022 tại trường đại học Quảng Nam, kết quả của mô hình sẽ dự báo số lượng trúng tuyển và nhập học cho những năm tiếp theo. Từ khóa: Dự báo chuỗi thời gian, ARIMA, Tự hồi quy, Trung bình trượt, Tính dừng, Nhiễu trắng, Tương quan, Hồi quy, Hiệp phương sai, Phương pháp Box-Jenkins. 1. Mở đầu Dự báo chuỗi thời gian là một lớp mô hình quan trọng trong thống kê, kinh tế lượng và học máy (Machine learning). Sở dĩ chúng ta gọi lớp mô hình này là chuỗi thời gian (Time series) là vì mô hình được áp dụng trên các chuỗi đặc thù có yếu tố thời gian. Một mô hình chuỗi thời gian thường dự báo dựa trên giả định rằng các qui luật trong quá khứ sẽ lặp lại ở tương lai. Do đó xây dựng mô hình chuỗi thời gian là chúng ta đang mô hình hóa mối quan hệ trong quá khứ giữa biến độc lập (biến đầu vào) và biến phụ thuộc (biến mục tiêu). Dựa vào mối quan hệ này để dự đoán giá trị trong tương lai của biến phụ thuộc [4]. 2. Nội dung 2.1. Phương pháp nghiên cứu 2.1.1. Mô hình ARIMA Hai tác giả George Box & Gwilym Jenkins (1976) đã nghiên cứu mô hình tự hồi quy tích hợp trung bình trượt (Autoregressive Integrated Moving Average), viết tắt là ARIMA. Tên của họ (Box-Jenkins) được dùng để gọi cho các quá trình ARIMA tổng quát áp dụng vào việc phân tích và dự báo [3]. Dựa trên giả thuyết chuỗi dừng và phương sai sai số không đổi, mô hình sử dụng đầu vào chính là những tín hiệu quá khứ của chuỗi được dự báo để dự báo nó. Các tín hiệu đó bao gồm: chuỗi tự hồi qui AR (Auto Regression) và chuỗi trung bình trượt MA (Moving Average). Hầu hết các chuỗi thời gian sẽ có xu hướng tăng hoặc giảm theo thời gian, do đó yếu tố chuỗi dừng thường không đạt được. Trong trường hợp chuỗi không dừng thì ta cần biến đổi sang chuỗi dừng bằng sai phân. Khi đó tham số đặc trưng của mô hình sẽ có thêm thành phần bậc của sai phân d và mô hình được đặc tả bởi 3 tham số ARIMA(p, d, q) [4]. 1.ThS., Trường Đại học Quảng Nam 2.ThS., Trường Đại học Quảng Nam 31
  2. ỨNG DỤNG MÔ HÌNH ARIMA ĐỂ DỰ BÁO SỐ LƯỢNG TRÚNG TUYỂN... Mô hình sẽ biểu diễn phương trình hồi qui tuyến tính đa biến (Multiple Linear Regression) của các biến đầu vào (còn gọi là biến phụ thuộc trong thống kê) là 2 thành phần chính như sau [3], [6]: 1) Quá trình tự hồi quy-AR (AutoRegression) bậc p Trong một quá trình tự hồi quy bậc p, số liệu tại thời điểm hiện tại yt được tạo ra bởi một tổng trung bình có trọng số của các giá trị trong quá khứ tính cho đến giá trị quá khứ thứ p(yt-k). Mô hình tự hồi quy tổng quát chỉ có các giá trị hiện tại và quá khứ của Y được sử dụng trong mô hình và không có biến hồi quy nào khác. Giá trị của Y tương lai phụ thuộc vào giá trị của nó trong quá khứ cộng với một yếu tố ngẫu nhiên. Rõ ràng với mô hình tự hồi quy, dữ liệu đã tự nó giải thích cho bản thân nó. Mô hình AR(p) có dạng như sau: Yt=µ + φ1Yt-1 + φ2Yt-2 +…+ φpYt-p + εt φi: là các trọng số được ước lượng thể hiện sự ảnh hưởng của các giá trị yt-i lên yt. µ: là hệ số chặn εt: là sai số 2) Quá trình trung bình trượt-MA (Moving Average) bậc q Quá trình trung bình trượt được hiểu là quá trình dịch chuyển hoặc thay đổi giá trị trung bình của chuỗi theo thời gian. Mô hình trung bình trượt được mô tả hoàn toàn bằng phương trình tuyến tính có trọng số của các sai số ngẫu nhiên hiện hành và các giá trị trễ của nó. Mô hình được viết như sau: Yt=µ + εt - θ1ε t-1 + … +θqε t-q µ: Trung bình của chuỗi thời gian tĩnh {yt} εt: Sai số, còn gọi là nhiễu trắng (white noise) là thành phần ngẫu nhiên thể hiện cho yếu tố không thể dự đoán được và không có tính quy luật. θi: Các hệ số ước lượng mức ảnh hưởng của εt-i lên yt 3) Quá trình trung bình trượt tích hợp tự hồi quy-ARIMA bậc (p, d, q) Mô hình ARIMA(p,q) là sự kết hợp của hai mô hình AR(p) và MA(q): Yt=δ + + Mô hình ARMA(p,q) làm việc tốt với các dữ liệu tĩnh, tức là không có thành phần xu hướng (trend). Nhưng trong thực tế dữ liệu thường có một xu hướng đi lên hay đi xuống nào đó. Một trong những cách chuyển một chuỗi thời gian có xu hướng về chuỗi thời gian tĩnh (chuỗi phải dừng) là phương pháp lấy sai phân bậc d lúc đó ta có mô hình ARIMA(p,d,q). 2.1.2. Các bước xây dựng mô hình ARIMA (Phương pháp Box-Jenkins) [3] 1) Bước 1. Nhận dạng mô hình Nhận dạng mô hình ARMA(p,q) là tìm các giá trị thích hợp của p, q. Với p là bậc tự hồi quy và q là bậc trung bình trượt. Việc xác định p và q sẽ phụ thuộc vào đồ thị hàm tự tương quan. Với ACF là hệ số tự tương quan và PACF là hệ số tự hồi quy từng phần mẫu; - Chọn mô hình AR(p) nếu đồ thị PACF có giá trị cao tại độ trễ 1,2,…,p và giảm 32
  3. LÊ PHƯỚC THÀNH - NGUYỄN VĂN nhiều sau p và dạng hàm tự tương quan ACF giảm dần. - Chọn mô hình MA(q) nếu đồ thị ACF có giá trị cao tại các độ trễ 1,2,…,q và giảm nhiều sau q và dạng hàm tự tương quan riêng từng phần PACF giảm dần. Mô hình ARIMA chỉ được áp dụng đối với chuỗi dừng. Một quá trình ngẫu nhiên Yt được xem là dừng nếu như trung bình và phương sai của quá trình không thay đổi theo thời gian và giá trị của đồng phương sai giữa hai thời đoạn chỉ phụ thuộc vào khoảng cách hay độ trễ về thời gian giữa hai thời đoạn này chứ không phụ thuộc vào thời điểm thực tế mà đồng phương sai được tính. Để biến đổi chuỗi không dừng thành chuỗi dừng, thông thường nếu lấy sai phân một lần, hai lần hoặc ba lần (bậc d=0, 1, 2, 3) thì sẽ được một chuỗi kết quả có tính dừng (stationary). 2) Bước 2. Ước lượng thông số của mô hình Sau khi đã xác định được bậc của mô hình, ta tiến hành ước lượng các thông số. Quá trình lựa chọn mô hình là quá trình thực nghiệm và ước lượng các thông số theo phương pháp bình phương nhỏ nhất cho đến khi ta chọn được mô hình tốt nhất cho việc dự báo. Các thông số của mô hình sẽ được ước lượng bằng nhiều phần mềm khác nhau như: Eview, SPSS, R, … 3) Bước 3. Kiểm định mô hình Để đảm bảo mô hình là phù hợp cho việc dự báo, điều cần phải làm là tiến hành kiểm định xem số hạng sai số εt của mô hình có phải là một nhiễu trắng hay không, một trong những cách kiểm tra là sử dụng hàm tự tương quan của nó. 4) Bước 4. Dự báo Dựa trên phương trình của mô hình ARIMA, tiến hành xác định giá trị dự báo điểm và khoảng tin cậy của dự báo. 2.2. Kết quả nghiên cứu 2.2.1. Thu thập dữ liệu Trường đại học Quảng Nam thành lập năm 2007 trên cơ sở trường Cao đẳng sư phạm Quảng Nam và tuyển sinh bắt đầu từ năm này. Tuy nhiên đây là năm đầu tiên nhà trường không tổ chức thi tuyển mà xét tuyển dựa trên kết quả thi đại học của các trường đại học khác. Từ năm 2008 đến 2014 nhà trường tự tổ chức thi và xét tuyển. Từ năm 2015 đến 2022 nhà trường tổ chức xét tuyển đại học theo kỳ thi THPT quốc gia theo quy định của Bộ Giáo dục và Đào tạo. Sau đây là dữ liệu theo năm tuyển sinh và số lượng trúng tuyển và nhập học (Bảng 1. Dữ liệu gồm 16 quan sát được): Bảng 1. Số liệu trúng tuyển và nhập học qua các năm Năm Trúng tuyển Năm Trúng tuyển & STT STT Tuyển sinh & Nhập học Tuyển sinh Nhập học 1 2007 213 9 2015 1019 2 2008 458 10 2016 554 3 2009 488 11 2017 575 4 2010 561 12 2018 294 5 2011 537 13 2019 215 33
  4. ỨNG DỤNG MÔ HÌNH ARIMA ĐỂ DỰ BÁO SỐ LƯỢNG TRÚNG TUYỂN... 6 2012 642 14 2020 252 7 2013 798 15 2021 406 8 2014 956 16 2022 492 2.2.2. Kết quả xây dựng mô hình Sử dụng phần mềm SPSS (Phiên bản 20.0) để xây dựng mô hình và dự báo, đây là phần mềm phân tích thống kê được sử dụng phổ biến hiện nay, đặc biệt là việc trực quan hóa dữ liệu bằng biểu đồ tạo điệu kiện cho các nhà phân tích nhanh chóng phân tích và đánh giá kết quả. Bên cạnh đó kết quả kiểm định mô hình sử dụng phần mềm Eview (Phiên bản 8.0). 1) Kiểm tra tính dừng của chuỗi Chuỗi dữ liệu quá khứ về sự biến động của số lượng trúng tuyển và nhập học theo thời gian từ năm 2008 đến 2022 được biểu diễn bằng biểu đồ Hình 1 sau: Hình 1. Biểu đồ biến động số lượng trúng tuyển và nhập học từ năm 2007-2022 Quan sát biểu đồ này chuỗi có xu hướng tăng dần từ năm 2007 đến 2015, giảm dần từ năm 2016 đến 2019 và tăng lên trở lại từ năm 2021 đến 2022. Như vậy suy đoán rằng chuỗi số lượng trúng tuyển và nhập học qua các năm là không dừng. Khi lấy sai phân bậc 2, chuỗi này không rõ xu hướng và xoay quanh trục một giá trị trung bình nào đó (Hình 2). Đây được xem như là biểu hiện của một chuỗi dừng. Hình 2. Biểu đồ chuỗi dừng khi lấy sai phân bậc 2 34
  5. LÊ PHƯỚC THÀNH - NGUYỄN VĂN Dùng kiểm định Dickey-Fuller (kiểm định nghiệm đơn vị) với sai phân bậc 2 và ta có kết quả ở bảng 2 như sau: Bảng 2. Kiểm định tính dừng với sai phân bậc 2 t-Statistic   Prob.* Augmented Dickey-Fuller test statistic -6.245190  0.0003 Test critical values: 1% level -4.057910 5% level -3.119910 10% level -2.701103 Với mức ý nghĩa 5% và giá trị p-value =0.0003
  6. ỨNG DỤNG MÔ HÌNH ARIMA ĐỂ DỰ BÁO SỐ LƯỢNG TRÚNG TUYỂN...   AC   PAC  Q-Stat  Prob 9 0.097 -0.076 10.577 0.306 10 -0.073 -0.062 10.873 0.367 11 -0.018 0.001 10.899 0.452 12 -0.038 -0.015 11.063 0.524 Cả hai biểu đồ này có đỉnh cao tại độ trễ 1 giảm đột ngột về giá trị bằng 0 và có ý nghĩa thống kê (mức ý nghĩa 5% và giá trị p-value =0.028
  7. LÊ PHƯỚC THÀNH - NGUYỄN VĂN   AC   PAC  Q-Stat  Prob 9 0.081 -0.227 7.1116 0.417 10 0.02 -0.202 7.1329 0.522 11 0.014 -0.069 7.1467 0.622 12 -0.002 -0.035 7.1472 0.711 13 -0.006 -0.043 7.1557 0.786 4) Dự báo Kết quả dự báo về số lượng trúng tuyển và nhập học qua các năm theo mô hình ARIMA(1,2,1) theo như bảng 5 và biểu đồ hình 5 như sau: Bảng 5. Số liệu dự báo ở các năm 2023-2025 Forecast 17 18 19 Model (2023) (2024) (2025) Forecast 604 697 793 NhapHoc- UCL 1090 1555 2156 Model_1 LCL 119 -161 -570 Hình 5. Biểu đồ dự báo số lượng trúng tuyển và nhập học Qua bảng số liệu dự báo và xu hướng biểu đồ nhận thấy rằng số lượng trúng tuyển và nhập học ở các năm tiếp theo 2023, 2024 và 2025 có xu hướng tăng ở mức tương đối, với các giá trị dự báo tương ứng là 604, 697 và 793. 3. Kết luận Công tác dự báo là một bộ phận không thể thiếu trong hoạt động của bất kỳ tổ chức nào. Giải pháp này giúp các nhà quản lý lập chiến lược, kế hoạch phù hợp cho tương lai. Hiện nay các tổ chức đã sưu tập được số lượng lớn dữ liệu lịch sử, riêng các trường đại học đã có đầy đủ dữ liệu trúng tuyển và nhập học qua các năm. Dữ liệu này rất thuận lợi cho việc dự báo theo chuỗi thời gian để dự đoán được giá trị tại một thời điểm cụ thể của tương lai. 37
  8. ỨNG DỤNG MÔ HÌNH ARIMA ĐỂ DỰ BÁO SỐ LƯỢNG TRÚNG TUYỂN... Nghiên cứu khả năng ứng dụng của mô hình ARIMA vào việc dự báo số lượng trúng tuyển và nhập học qua các năm cho thấy, mô hình ARIMA(1,2,1) xây dựng được là phù hợp và đã được kiểm định. Kết quả dự báo cho thấy khả năng số lượng trúng tuyển và nhập học ở năm 2023 đến 2025 có xu hướng tăng ở mức tương đối. Dự báo này là thông tin tốt để Nhà trường chuẩn bị những điều kiện đảm bảo (cơ sở vật chất, đội ngũ, …), lập kế hoạch thực hiện phù hợp với số lượng tuyển sinh như dự báo. TÀI LIỆU THAM KHẢO [1] Phùng Thanh Bình (2006), Bài giảng Hướng dẫn sử dụng phần mềm Eviews 6.0. Trường Đại học Kinh tế thành phố Hồ Chí Minh. [2] Hoàng Trọng & Chu Nguyễn Mộng Ngọc (2005), Phân tích dữ liệu nghiên cứu với SPSS. Nhà xuất bản Thống kê. [3] Cao Hào Thi và Các Cộng Sự (1998), Bản Dịch Kinh Tế Lượng Cơ Sở (Basic Econometrics của Gujarati D.N.). Chương Trình FulBright về Giảng Dạy Kinh Tế tại Việt Nam. [4] Phạm Đình Khánh, Mô hình ARIMA trong time series. (https://phamdinhkhanh.github.io/2019/12/12/ARIMAmodel.html, truy cập ngày 17/12/2022) [5] IBM SPSS Forecasting 22. (https://docplayer.es/57613312-Ibm-spss-forecasting-22. html, truy cập ngày 17/12/2022) [6] Time Series: Autoregressive models AR, MA, ARMA, ARIMA. ( https://people. cs.pitt.edu/~milos/courses/cs3750/lectures/class16.pdf, truy cập ngày 17/12/2022) APPLICATION OF THE ARIMA MODEL FOR FORECASTING THE NUMBER OF PASSING AND ENROLLMENT CANDIDATES AT QUANG NAM UNIVERSITY LE PHUOC THANH NGUYEN VAN Quang Nam University Abstract: In data analysis, forecasting is often based on two main types of models: Cause and Effect Modeling and Time Series Modeling. For The Cause and Effect Model, Regression Analysis Techniques are used to establish the relationship between the dependent variables and the causal variables. The objective of this research is to introduce the construction of the Time Series Model by the Autoregressive Integrated Moving Average (ARIMA) method. With past data on matriculation and enrollment from 2007-2022 at Quang Nam University, the model’s results will forecast the number of matriculation and enrollment for the following years. Keywords: Time series forecasting, ARIMA, AutoRegression, Moving Average, Stationary, White noise, Correlation, Regression, Covariance, Box-Jenkins methodology. 38
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2