intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Luận án Tiến sĩ Kinh tế: Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp thành phố Hồ Chí Minh)

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:282

12
lượt xem
6
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án Tiến sĩ Kinh tế "Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp thành phố Hồ Chí Minh)" trình bày các nội dung chính sau: Xây dựng quy trình thu thập và tổng hợp chỉ số giá tiêu dùng từ nguồn dữ liệu lớn là thông tin giá trên các trang web bán hàng trực tuyến.

Chủ đề:
Lưu

Nội dung Text: Luận án Tiến sĩ Kinh tế: Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp thành phố Hồ Chí Minh)

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO 7BỘ GIÁO DỤC ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH -------------------------- ----------------------------- NGUYỄN THANH BÌNH NGUYỄN THANH BÌNH KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH CHỈ SỐ GIÁ TIÊU DÙNG CHỈ SỐ GIÁ TIÊU VIỆT NAM Ở VIỆT NAM Ở DÙNG (TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH) (TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH) LUẬN ÁN TIẾN SĨ KINH TẾ LUẬN ÁN TIẾN SĨ KINH TẾ TP Hồ Chí Minh, năm 2020 Tp. Hồ Chí Minh - Năm 2023
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH BỘ GIÁO DỤC VÀ ĐÀO TẠO -------------------------- TRƯỜNG ĐẠI HỌC KINH TẾ TP. HỒ CHÍ MINH -------------------------- NGUYỄN THANH BÌNH KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH NGUYỄN THANH BÌNH CHỈ SỐ GIÁ TIÊU DÙNG Ở VIỆT NAM (TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH) KHAI THÁC DỮ LIỆU LỚN TRONG VIỆC TÍNH Chuyên ngành: THỐNG KÊ CHỈ SỐ GIÁ TIÊU DÙNG Ở VIỆT NAM Mã số: 9460201 (TRƯỜNG HỢP THÀNH PHỐ HỒ CHÍ MINH) LUẬN ÁN TIẾN SĨ KINH TẾ NGƯỜI HƯỚNG DẪN KHOA HỌC: LUẬN ÁN TIẾN SĨ Hà Văn Sơn 1. TS. KINH TẾ 2. TS. Lê Thị Thanh Loan Tp. Hồ Chí Minh - Năm 2023
  3. LỜI CAM ĐOAN Tôi cam đoan về sự trung thực và chuẩn mực đạo đức của toàn bộ nghiên cứu này. Thành phố Hồ Chí Minh, tháng 12 năm 2023 Tác giả Nguyễn Thanh Bình
  4. i MỤC LỤC Trang Trang phụ bìa Lời cam đoan Mục lục i Danh mục các chữ viết tắt v Danh mục bảng vii Danh mục hình ix Danh mục phụ lục x Tóm tắt xi Abstract xii Chương 1. Giới thiệu đề tài nghiên cứu 1 1.1. Lý do chọn đề tài 1 1.2. Mục tiêu nghiên cứu 5 1.3. Câu hỏi nghiên cứu 6 1.4. Đối tượng và phạm vi nghiên cứu 7 1.5. Phương pháp nghiên cứu 7 1.6. Nguồn dữ liệu 9 1.7. Những đóng góp mới của luận án 9 1.8. Kết cấu của nghiên cứu 10 Chương 2. Cơ sở lý thuyết và tổng quan các nghiên cứu trước có 11
  5. ii Trang liên quan 2.1. Cơ sở lý thuyết về giá và chỉ số giá 11 2.1.1. Khái niệm về giá và chỉ số giá 11 2.1.2. Chỉ số giá tiêu dùng 14 2.1.3. Ứng dụng của chỉ số giá tiêu dùng 15 2.1.4. Phương pháp tính chỉ số giá tiêu dùng truyền thống tại 16 một số quốc gia trên thế giới 2.1.5. Phương pháp tính chỉ số giá tiêu dùng truyền thống tại 21 Việt Nam 2.2. Cơ sở lý thuyết về dữ liệu lớn 23 2.2.1. Định nghĩa về dữ liệu lớn 23 2.2.2. Các ứng dụng dữ liệu lớn 25 2.2.3. Các loại dữ liệu lớn 29 2.2.4. Các công nghệ thu thập dữ liệu lớn 30 2.2.5. Lợi ích, hạn chế của dữ liệu lớn 36 2.2.6. Sự khác biệt giữa dữ liệu truyền thống và dữ liệu lớn 40 2.3. Cơ sở lý thuyết mô hình hồi quy Hedonic 43 2.3.1. Điều chỉnh chất lượng hàng hóa trong chỉ số giá tiêu 43 dùng 2.3.2. Mô hình hồi quy Hedonic 45 2.4. Tổng quan các nghiên cứu trước có liên quan đến đề tài 49
  6. iii Trang 2.4.1. Nghiên cứu quốc tế sử dụng dữ liệu lớn tính chỉ số giá 49 tiêu dùng 2.4.2. Nghiên cứu trong nước có liên quan đến chỉ số giá 61 2.4.3. Nghiên cứu quốc tế về điều chỉnh chất lượng máy tính 67 trong chỉ số giá tiêu dùng 2.5. Khoảng trống trong nghiên cứu 77 Tóm tắt chương 2 80 Chương 3. Phương pháp nghiên cứu và quy trình nghiên cứu 81 3.1. Quy trình nghiên cứu 81 3.2. Nghiên cứu định tính 82 3.2.1.Thu thập ý kiến chuyên gia qua phiếu khảo sát 85 3.2.2. Phỏng vấn trực diện 86 3.2.3. Hội thảo chuyên gia 88 3.3. Phương pháp khai thác dữ liệu lớn 88 3.4. Phương pháp tính chỉ số giá tiêu dùng từ dữ liệu lớn 98 3.5. Xây dựng mô hình Hedonic: Trường hợp giá máy tính xách tay 103 3.5.1. Tổng hợp các yếu tố tác động đến giá máy tính xách tay 106 từ các nghiên cứu trước 3.5.2. Đề xuất mô hình hồi quy Hedonic cho sản phẩm máy 109 tính xách tay Tóm tắt chương 3 117
  7. iv Trang Chương 4. Kết quả và thảo luận 118 4.1. Tổng quan về Thành phố Hồ Chí Minh 118 4.2. Tình hình hoạt động thương mại điện tử tại Thành phố Hồ Chí 124 Minh 4.3. Số lượng trang web và số lượng mặt hàng thu thập 129 4.4. Kết quả mô hình hồi quy Hedonic cho sản phẩm máy tính xách 131 tay 4.5. Ứng dụng kết quả mô hình hồi quy Hedonic cho sản phẩm máy 142 tính xách tay vào việc tính chỉ số giá tiêu dùng 4.6. Kết quả tính toán chỉ số giá tiêu dùng 145 4.7. Thảo luận kết quả nghiên cứu 153 4.8. Phân tích những thách thức khi triển khai tính chỉ số giá tiêu dùng 162 từ khai thác dữ liệu lớn Tóm tắt chương 4 172 Chương 5. Kết luận và hàm ý chính sách 173 5.1. Kết luận 173 5.2. Hàm ý chính sách 176 5.3. Hạn chế của đề tài 184 5.4. Hướng nghiên cứu mở rộng đề tài 184 Danh mục các công trình khoa học đã công bố Danh mục tài liệu tham khảo
  8. v DANH MỤC CÁC CHỮ VIẾT TẮT ABS Cơ quan Thống kê quốc gia Úc ARIMA Phương pháp trung bình trượt kết hợp tự hồi quy (Autoregressive Integrated Moving Average) Big data Dữ liệu lớn BLS Cục Thống kê lao động Hoa Kỳ (Bureau of labor statistics) CAPI Phỏng vấn cá nhân với sự trợ giúp của máy tính (Computer Assisted Personal Interviewing) CNTT Công nghệ thông tin COICOP Phân loại hàng hóa tiêu dùng cá nhân theo mục đích sử dụng CIS STAT Ủy ban Thống kê liên bang của Cộng đồng các Quốc gia Độc lập CTK Cục Thống kê CTY Công ty CPI Chỉ số giá tiêu dùng (Consumer Price index) CPU Bộ xử lý trung tâm (Central Processing Unit) ĐTV Điều tra viên EC Ủy Ban Châu Âu (European Commission) Eurostat Cơ quan Thống kê của Cộng đồng Châu Âu (Statistical Office of the European Communities) GDP Tổng sản phẩm trong nước (Gross Domestic Product) GRDP Tổng sản phẩm trên địa bàn (Gross Regional Domestic Product)
  9. vi HDD Ổ cứng máy tính (Hard Disk Drive) ICLS Hội nghị quốc tế về các nhà thống kê lao động ILO Tổ chức Lao động Quốc tế IMF Quỹ Tiền tệ Quốc tế (International Monetary Fund) KHTK Khoa học Thống kê NXB Nhà xuất bản OECD Tổ chức Hợp tác và Phát triển Kinh tế (Organization for Economic Co-operation and Development) OLS Bình phương bé nhất thông thường (Ordinary Least Squares) PPCĐ Phương pháp chế độ RAM Bộ nhớ truy cập ngẫu nhiên (Random Access Memory) RPI Chỉ số giá bán lẻ (Retail price index) TCTK Tổng cục Thống kê TMĐT Thương mại điện tử TNHH Trách nhiệm hữu hạn TP.HCM Thành phố Hồ Chí Minh UN Liên Hợp Quốc (United Nations) UNECE Liên Hiệp Quốc ủy ban kinh tế châu Âu (United Nations Economic Commission for Europe) WB Ngân hàng Thế giới (The World Bank) WLS Bình phương nhỏ nhất có trọng số (Weighted Least Squares)
  10. vii DANH MỤC BẢNG Bảng Tên bảng Trang Bảng 2.1 Tổng hợp đánh giá chỉ số giá tiêu dùng ở các nước 17 Bảng 2.2 Tổng quan về số liệu thống kê dựa trên dữ liệu lớn 26 Bảng 2.3 So sánh các phần mềm web scraping 35 Cơ hội, thách thức và rủi ro của dữ liệu lớn cho thống Bảng 2.4 36 kê chính thức Bảng 2.5 So sánh dữ liệu lớn và dữ liệu nhỏ 41 Ưu và khuyết điểm của các loại dữ liệu dùng để tính Bảng 2.6 42 CPI Sử dụng mô hình Hedonic để điều chỉnh sự thay đổi về Bảng 2.7 48 chất lượng sản phẩm ở các nước Tổng hợp nghiên cứu ngoài nước liên quan đến CPI và Bảng 2.8 58 dữ liệu lớn Tổng hợp nghiên cứu Việt Nam liên quan đến CPI và Bảng 2.9 66 dữ liệu lớn Bảng tóm tắt các yếu tố từ các nghiên cứu trước được Bảng 2.10 72 chọn Tổng hợp nghiên cứu ngoài nước liên quan đến mô Bảng 2.11 74 hình hồi quy Hedonic Bảng 3.1 Quy trình nghiên cứu định tính 84 Bảng 3.2 Tổng hợp chuyên gia tham gia khảo sát 85
  11. viii Bảng Tên bảng Trang Bảng 3.3 Danh sách các trang web chia theo nhóm ngành 92 Bảng tóm tắt các yếu tố từ các nghiên cứu trước được Bảng 3.4 108 chọn Bảng 3.5 Mô tả biến và kỳ vọng dấu 114 Tổng sản phẩm trên địa bàn theo giá so sánh 2010 phân Bảng 4.1 119 theo khu vực kinh tế Tổng mức bán lẻ hàng hóa và doanh thu dịch vụ tiêu Bảng 4.2 122 dùng theo giá hiện hành phân theo ngành kinh tế Bảng 4.3 Chỉ số giá tiêu dùng các tháng trong năm 123 Một số kết quả chủ yếu về hoạt động TMĐT tại Bảng 4.4 125 TP.HCM Bảng 4.5 Số lượng trang web và số lượng mặt hàng thu thập 129 Bảng 4.6 Kết quả thống kê mô tả giá trị các biến của mô hình 132 Bảng 4.7 Các nhân tố tác động đến giá máy tính xách tay 134 Các nhân tố tác động đến giá máy tính xách tay (sau khi Bảng 4.8 137 xử lý hiện tượng phương sai thay đổi) Bảng 4.9 Chỉ số giá sản phẩm máy tính xách tay chia theo tháng 144 Bảng 4.10 Chỉ số giá nhóm thiết bị và đồ dùng gia đình 145 Bảng 4.11 Chỉ số giá tiêu dùng so tháng trước chia theo tháng 151 Bảng 4.12 Bảng so sánh các yếu tố từ các nghiên cứu trước 154
  12. ix DANH MỤC HÌNH Hình Tên hình Trang Hình 3.1 Quy trình nghiên cứu 82 Hình 3.2 Quy trình thu thập thông tin từ khai thác dữ liệu lớn 91 Hình 3.3 Quy trình sử dụng dữ liệu lớn trong tính toán CPI 98 Hình 4.1 Cơ cấu tổng sản phẩm trên địa bàn của TP.HCM 120 năm 2018-2022 Hình 4.2 Hình thức đặt hàng và đối tượng bán hàng 128 Hình 4.3 Sơ đồ cấu trúc của mặt hàng máy tính xách tay trong 143 CPI Hình 4.4 Chỉ số giá tiêu dùng truyền thống và chỉ số giá được 152 tính từ dữ liệu lớn so tháng trước Hình 4.5 Chỉ số giá tiêu dùng truyền thống và chỉ số giá được 153 tính từ dữ liệu lớn so tháng 9 năm 2017
  13. x DANH MỤC PHỤ LỤC Phụ lục 1. Kết quả mô hình hồi quy Hedonic cho máy tính xách tay Phụ lục 2. Danh sách chuyên gia Phụ lục 3. Phiếu khảo sát chuyên gia Phụ lục 4. Kết quả tổng hợp các ý kiến của chuyên gia Phụ lục 5. Biên bản hội thảo Phụ lục 6. Một số hình ảnh và các đoạn chương trình khai thác dữ liệu giá Phụ lục 7. Kết quả tính chỉ số giá tiêu dùng khai thác từ dữ liệu lớn (27 biểu)
  14. xi TÓM TẮT Luận án khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng (CPI) sử dụng nguồn thông tin giá thu thập được từ các trang web trực tuyến để tính toán chỉ số giá tiêu dùng cho Thành phố Hồ Chí Minh. Nguồn dữ liệu này không những giải quyết được một số thách thức trong phương pháp thu thập giá truyền thống (như độ trễ trong việc công bố số liệu, khó khăn trong việc thu thập thông tin tại địa bàn, sai số phi chọn mẫu, chi phí thu thập) mà còn cho phép chúng ta mở rộng cỡ mẫu, tần suất thu thập cao hơn, phản ánh chính xác hơn việc sử dụng các mặt hàng thay thế của người tiêu dùng, thông tin thu thập kịp thời hơn. Kết quả tính toán chỉ số giá tiêu dùng dựa trên dữ liệu lớn thu thập được từ các trang web trực tuyến so với chỉ số giá tiêu dùng được tính theo phương pháp truyền thống cũng khá tương đồng, thể hiện đúng xu hướng. Từ nguồn dữ liệu lớn thu thập được, luận án cũng đã xây dựng được mô hình hồi quy Hedonic (tính cho trường hợp máy tính xách tay) nhằm điều chỉnh sự thay đổi của chất lượng, quy cách hàng hóa trong rỗ hàng hóa tính chỉ số giá tiêu dùng, đảm bảo tính so sánh của chỉ số giá. Qua đó cho thấy mô hình hồi quy Hedonic phù hợp trong việc điều chỉnh sự thay đổi của chất lượng hàng hóa, là một nội dung quan trọng trong kỹ thuật tính toán chỉ số giá tiêu dùng. Nghiên cứu này đã bổ sung phương pháp mới trong việc thu thập dữ liệu phục vụ công tác thống kê, đặc biệt là thống kê nhà nước cũng như xây dựng được phương pháp tính chỉ số giá tiêu dùng từ nguồn dữ liệu lớn. Từ khóa: Dữ liệu lớn, chỉ số giá tiêu dùng, mô hình hồi quy Hedonic
  15. xii ABSTRACT The thesis exploits big data in calculating the consumer price index for Ho Chi Minh City using price information collected from online websites. This data source not only solves some challenges in traditional price collection methods (such as delay in data publication, difficulty in collecting data at sampling zone/ difficulty in offline data collection, non-sampling error, collection costs) but also allows us to expand sample sizes and frequency which helps better reflect consumer substitution patterns and get real-time data. The consumer price index calculated based on large online data is showing similar trend compared with the consumer price index calculated by the traditional method. From the big data collected, the thesis has also built a Hedonic regression model (applied for the case of laptop category) to adjust the change in quality and specifications of goods in the basket to calculate the consumer price index and ensure the comparability. Thereby, it shows that the Hedonic regression model is approriate in adjusting the change of goods quality, which is an important content in consumer price index calculating technique. This study has added a new method of collecting data for statistics, especially official statistics, as well as developing a method to calculate the consumer price index from abig data source. Keyword: Big data, consumer price index, Hedonic regression model. .
  16. 1 CHƯƠNG 1. GIỚI THIỆU ĐỀ TÀI NGHIÊN CỨU Trong chương 1, tác giả luận án trình bày tầm quan trọng của chỉ số giá tiêu dùng và đưa ra những lý do mà tác giả luận án lựa chọn vấn đề nghiên cứu. Trong chương này, tác giả cũng trình bày được mục tiêu nghiên cứu tổng quát, qua đó tác giả luận án đưa ra từng mục tiêu cụ thể cần đạt được trong nghiên cứu. Chương này còn trình bày các nội dung gồm đối tượng, phạm vi nghiên cứu, phương pháp nghiên cứu, ý nghĩa khoa học và thực tiễn, những đóng góp chính của nghiên cứu. Ngoài ra, ở phần cuối chương, tác giả trình bày cấu trúc từng chương trong luận án. 1.1. Lý do chọn đề tài Chỉ số giá và các thông tin về giá cả thị trường có một vị trí, vai trò rất quan trọng trong công tác quản lý và điều hành các chính sách vĩ mô của nhà nước như các chính sách về quản lý tài chính tiền tệ, kiềm chế lạm phát, điều chỉnh lãi suất ngân hàng, điều chỉnh tỷ giá, ban hành các chính sách phát triển kinh tế xã hội theo vùng miền, các chính sách tiền lương, qua đó góp phần phát triển hoạt động sản xuất kinh doanh và trao đổi thương mại quốc tế. Trong đó chỉ số giá tiêu dùng được xem là một trong những chỉ số kinh tế quan trọng nhất do các cơ quan thống kê quốc gia công bố (Berry et al., 2019). Chỉ số giá tiêu dùng có lịch sử rất lâu đời, được thu thập và tính toán ở phần lớn các quốc gia trên thế giới. Phương pháp tính chỉ số giá tiêu dùng hiện nay cũng khác biệt nhiều so với trước đây, hàng hóa đã được mở rộng phạm vi thu thập, nguồn dữ liệu được sử dụng để xác định quyền số cũng có nhiều bước phát triển. Mặc dù vậy, tính toán chỉ số giá tiêu dùng vẫn dựa trên mẫu chứ không phải tất cả mọi mức giá của từng loại hàng hóa hoặc dịch vụ mà người dân chi tiêu dùng cuối cùng đều được thu thập. Các cơ quan thống kê quốc gia thường chọn mẫu các hàng hóa và dịch vụ đại diện mà người dân tiêu dùng nhiều nhất. Ngoài ra, do không thể quan sát giá của hàng hóa và dịch vụ được lựa chọn tại tất cả các cửa hàng bán lẻ bán trên toàn quốc, nên một lần nữa, các cơ quan
  17. 2 thống kê quốc gia lại sử dụng phương pháp chọn mẫu chọn đại diện các cửa hàng để thu thập giá. Điều này dẫn đến khả năng phát sinh sai số chọn mẫu cao. Việc thu thập thông tin giá theo phương pháp truyền thống thông qua các cuộc điều tra như hiện nay cũng có một số bất cập như chi phí thực hiện điều tra và việc tiến hành ngày càng trở lên khó khăn hơn, việc gia tăng số lượng chuỗi cửa hàng làm cho thời gian thu thập kéo dài hơn, tỷ lệ trả lời ngày càng giảm (Crystal et al., 2019). Ngoài ra việc tính toán chỉ số giá tiêu dùng theo phương pháp truyền thống cũng phát sinh thêm một số bất cập như có độ trễ trong việc công bố số liệu, còn tồn tại sai số phi chọn mẫu, khó khăn trong việc xử lý các mặt hàng thay thế của người tiêu dùng, các mặt hàng mới xuất hiện, các mặt hàng có vòng đời sản phẩm ngắn. Ngành thống kê Việt Nam tiến hành điều tra, thu thập thông tin, tính chỉ số giá tiêu dùng và công bố hàng tháng vào các ngày cuối tháng. Thông tin thống kê về chỉ số giá tiêu dùng được thu thập từ cuộc điều tra giá tiêu dùng do Tổng cục Thống kê triển khai và được thực hiện ở cả 63 tỉnh, thành phố. Hệ thống thông tin thống kê về giá tiêu dùng của ngành Thống kê đã được xây dựng và ngày càng hoàn thiện với một số các nghiên cứu điển hình như nghiên cứu về phương pháp xác định hệ thống quyền số tính chỉ số giá tiêu dùng (Văn Thị Loan, 1998); Chỉ số giá tiêu dùng Việt Nam và các yếu tố tác động phương pháp tiếp cận định lượng (Trương Văn Phước và Chu Hoàng Long, 2005); Hoàn thiện phương pháp tính chỉ số giá nhóm nhà ở trong chỉ số giá tiêu dùng ở Việt Nam (Đỗ Thị Ngọc, 2014a); Giới thiệu về phương pháp tính chỉ số giá tiêu dùng mới và một số khuyến nghị (Đỗ Thị Ngọc, 2014b); Hệ thống thông tin giá và các cuộc điều tra thống kê giá (Vũ Thị Thu Thủy, 2015); Nghiên cứu và đề xuất mô hình dự báo chỉ số giá tiêu dùng áp dụng cho Tổng cục Thống kê (Vũ Thị Thu Thủy, 2018). Tuy nhiên, cũng tương tự như thực trạng tính chỉ số giá tiêu dùng trên thế giới, phương pháp tính chỉ số giá tiêu dùng ở Việt Nam cũng còn một số bất cập như công tác thu thập tại địa bàn ngày một khó khăn hơn; sai số phi chọn mẫu vẫn còn cao do chất lượng thông tin thu thập được phụ thuộc vào kỹ năng thu thập thông tin cũng như tính trung thực của điều tra viên; chi phí cho cuộc điều tra cao vì phải huy động lực lượng lớn điều tra viên lớn.
  18. 3 Cùng với xu hướng ngày càng phát triển của nền kinh tế số trên thế giới, các giao dịch mua bán, giới thiệu sản phẩm trực tiếp trên internet ở Việt Nam ngày càng phổ biến. Theo sách trắng thương mại điện tử Việt Nam năm 2022, thị trường thương mại điện tử Việt Nam đạt nhiều kết quả ấn tượng. Nếu như năm 2017, thương mại điện tử bán lẻ Việt Nam mới chỉ đạt 6,2 tỷ USD, thì đến năm 2022 đã đạt mức 16,4 tỷ USD (Cục Thương mại điện tử và Kinh tế số (Bộ Công Thương), 2022). Việc người dân quan tâm và phát triển mua bán trên mạng ngày càng nhiều sẽ tạo ra nguồn dữ liệu vô cùng lớn. Nghiên cứu về dữ liệu lớn ở Việt Nam được phát triển trong thời gian gần đây trong một số lĩnh vực như kinh tế, thông tin - thư viện, kiểm toán báo cáo tài chính, ngân hàng, bất động sản, giáo dục và đào tạo. Tuy nhiên, các nghiên cứu về dữ liệu lớn ứng dụng trong thống kê chính thức ở Việt Nam còn hạn chế, phần lớn đang trong giai đoạn nghiên cứu tổng quan. Năm 2018, Tổng cục Thống kê thực hiện một nghiên cứu thí điểm việc lồng ghép các dữ liệu thu thập trực tuyến trong việc sản xuất chỉ số giá tiêu dùng. Kết quả không được công bố và nguồn dữ liệu chưa được tích hợp vào quy trình nghiệp vụ thống kê (Thuy Nguyen Van and Hoan Nguyen Cong, 2018). Hơn hai mươi năm trước, cuộc cách mạng công nghệ thông tin và truyền thông tại các quốc gia phát triển đã làm thay đổi hành vi tiêu dùng của người dân cũng như hành vi phân phối hàng hóa của doanh nghiệp. Sự phát triển vượt bậc này giúp tạo ra một nguồn dữ liệu lớn chưa từng có ở những khu vực mà các kỹ thuật thu thập dữ liệu truyền thống không thể tiếp cận được. Ngoài ra, cùng với sự gia tăng của các hình thức cửa hàng hiện đại là sự gia tăng của các nền tảng bán hàng trực tuyến, điều này tạo điều kiện cho việc thu thập giá trực tuyến trong rất nhiều lĩnh vực khác nhau. Xuất phát từ thực tế trên, cơ quan thống kê của các quốc gia đã xác định nguồn dữ liệu mới này là cơ hội tốt giúp họ giải quyết nhiều thách thức mà điều tra giá tiêu dùng đang gặp phải. Nguồn dữ liệu giá thu thập từ các trang web bán hàng trực tuyến có thể đo lường chính xác hơn sự thay đổi giá, giúp mở rộng cở mẫu, phản ánh chính xác hơn việc sử dụng các mặt hàng thay thế của người tiêu dùng, giảm hoặc loại bỏ áp lực của người cung cấp thông tin và trong một số trường
  19. 4 hợp sẽ giúp giảm chi phí thu thập thông tin. Ngoài ra nguồn dữ liệu lớn này có thể giúp thu thập thông tin giá kịp thời hơn, mặt hàng đa dạng hơn, tần số thu thập cao hơn (Crystal et al., 2019). Một trong những dự án đi đầu và tiêu biểu cho việc sử dụng tính năng thu thập dữ liệu giá trực tuyến trên web để tính toán và dự báo chỉ số giá tiêu dùng là dự án tỷ giá do Viện Công nghệ Massachusetts nghiên cứu và phát triển. Kết quả nghiên cứu đã chứng minh rằng dữ liệu chi tiết về giá bán lẻ có thể được thu thập từ xa với chi phí thấp hơn đáng kể so với thu thập bằng phương pháp truyền thống (Cavallo and Rigobon, 2016). Dự án này đã làm thay đổi đáng kể mô hình hoạt động truyền thống của các cơ quan thống kê quốc gia là thu thập thông tin giá trực tiếp, điều tra viên đến các điểm bán lẻ để thu thập thông tin (Harchaoui and Janssen, 2018). Mặc dù chỉ số giá tiêu dùng tính theo phương pháp trực tuyến vẫn đang trong giai đoạn đầu của quá trình phát triển, nhưng có rất nhiều bằng chứng cho thấy nó cung cấp cho các nhà hoạch định chính sách một bức tranh hợp lý, phản ánh đúng xu hướng về chỉ số giá tiêu dùng theo thời gian thực. Một bằng chứng chắc chắn và cụ thể hơn là trường hợp của Argentina, trong đó chỉ số giá tiêu dùng của dự án tỷ giá được chứng minh là một sự thay thế tốt hơn cho chỉ số giá tiêu dùng chính thức sau khi nó bị mất uy tín do can thiệp chính trị (Cavallo, 2013). Ngoài ra Cavallo nhận xét các chỉ số được xây dựng từ giá trực tuyến này đã cung cấp một ước tính hợp lý tốt về cả mức độ và diễn biến của tỷ lệ lạm phát chính thức cho phần lớn các quốc gia được xem xét (Brazil, Chile, Columbia và Venezuela). Tiếp tục các nghiên trước, Dubey và Gennari (2014) đã nghiên cứu sử dụng dữ liệu lớn trong lĩnh vực giá với nhóm hàng cụ thể là lương thực, từ việc đưa ra các số liệu thống kê chính thức đến các dự báo, cảnh báo sớm về an ninh lương thực. Trong bối cảnh trên, một số quốc gia cũng đã và đang tích cực chuẩn bị để chuyển sang sử dụng dữ liệu lớn để tính toán chỉ số giá tiêu dùng như Na Uy (Manik and Albarda, 2015), Anh (Naynor et al., 2015), Bỉ (Van Loon and Roels, 2018), Pháp, Thụy Điển và Hà Lan (Jens, 2019), Hoa Kỳ (Crystal et al., 2019). Dữ liệu lớn để thống kê giá cũng được các cơ quan thống kê quốc gia ở Châu Á và Thái Bình Dương tích cực
  20. 5 khai thác, tuy nhiên công việc này cũng mới đang từng bước tìm hiểu (Bernal et al., 2021), cụ thể như Úc (ESCAP, 2020), New Zealand (Statistics New Zealand, 2017), Nhật Bản (Statistics Bureau of Japan, 2019), Malaysia (Mustapa, 2020), Philippines, Indonesia (Bernal et al., 2021). Nhận thức được tầm quan trọng của công nghệ thông tin - truyền thông và đặc biệt là dữ liệu lớn, ngày 10 tháng 5 năm 2018 Thủ tướng Chính phủ ban hành Quyết định số 501/QĐ-TTg phê duyệt Đề án ứng dụng công nghệ thông tin - truyền thông trong Hệ thống thống kê nhà nước giai đoạn 2017-2025, tầm nhìn đến năm 2030 đề ra mục tiêu: “Ứng dụng công nghệ dữ liệu lớn để hiện đại hóa, giảm chi phí, nâng cao chất lượng và tăng cường khả năng dự báo đối với một số chỉ tiêu thống kê trong các lĩnh vực thống kê giá” (Thủ tướng Chính phủ, 2018). Đánh giá được tiềm năng to lớn của dữ liệu lớn, Tổng cục Thống kê đã có một số định hướng hoạt động như thành lập tổ công tác về dữ liệu lớn, bổ sung thêm nội dung "Nghiên cứu ứng dụng dữ liệu lớn vào chương trình phát triển ứng dụng công nghệ thông tin của Tổng cục Thống kê", xây dựng đề án ứng dụng dữ liệu lớn trong thống kê nhà nước (Nguyễn Bích Lâm, 2016). Nghiên cứu giải pháp sử dụng nguồn dữ liệu lớn để tính chỉ số giá tiêu dùng ở Việt Nam là một việc rất cần thiết và phù hợp với xu hướng của thế giới nên tác giả chọn chủ đề: “Khai thác dữ liệu lớn trong việc tính chỉ số giá tiêu dùng ở Việt Nam (trường hợp Thành phố Hồ Chí Minh)” làm nghiên cứu cho luận án này. Đề tài triển khai thu thập thông tin giá từ các trang web trực tuyến và tiến hành tính toán chỉ số giá tiêu dùng dựa trên nguồn thông tin thu thập được. Những hàm ý chính sách, những giải pháp được đề xuất trong nghiên cứu này sẽ giúp cho việc triển khai thành công công tác thu thập giá trực tuyến phục vụ việc tính toán chỉ số giá tiêu dùng ở Việt Nam. 1.2. Mục tiêu nghiên cứu Mục tiêu nghiên cứu: Xây dựng quy trình thu thập và tổng hợp chỉ số giá tiêu dùng từ nguồn dữ liệu lớn là thông tin giá trên các trang web bán hàng trực tuyến.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2