intTypePromotion=1
zunia.vn Tuyển sinh 2023 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Khai thác dữ liệu giao dịch để biên soạn chỉ số giá tiêu dùng - Kinh nghiệm của Cơ quan Thống kê quốc gia Úc

Chia sẻ: Nguathienthan2 Nguathienthan2 | Ngày: | Loại File: PDF | Số trang:9

37
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước. Thực tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả năng đáp ứng nhu cầu thông tin của người sử dụng. Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI). Bài viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI.

Chủ đề:
Lưu

Nội dung Text: Khai thác dữ liệu giao dịch để biên soạn chỉ số giá tiêu dùng - Kinh nghiệm của Cơ quan Thống kê quốc gia Úc

THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP<br /> <br /> KHAI THÁC DỮ LIỆU GIAO DỊCH ĐỂ BIÊN SOẠN CHỈ SỐ GIÁ TIÊU DÙNG<br /> KINH NGHIỆM CỦA CƠ QUAN THỐNG KÊ QUỐC GIA ÚC<br /> ThS. Nguyễn Văn Thụy*<br /> <br /> <br /> Tóm tắt:<br /> Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước. Thực<br /> tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn<br /> và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh<br /> nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả<br /> năng đáp ứng nhu cầu thông tin của người sử dụng. Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng<br /> nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI). Bài<br /> viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI.<br /> <br /> 1. Lời giới thiệu doanh nghiệp. Vì vậy dữ liệu giao dịch là một<br /> nguồn thông tin rất đa dạng và phong phú đối với<br /> Big data có nhiều loại và hình thức khác<br /> công tác thống kê, đặc biệt là thống kê nhà nước.<br /> nhau như dữ liệu vệ tinh, dữ liệu di động, dữ liệu<br /> Tiếp cận và truy cập được các files (tập tin) dữ liệu<br /> truyền thông xã hội, dữ liệu giao dịch,... Dữ liệu<br /> điện tử sẽ giúp các cơ quan thống kê giảm thiểu<br /> giao dịch được khai thác để biên soạn các thông<br /> được chi phí thu thập thông tin cũng như giảm bớt<br /> tin thống kê kinh tế, trong đó có chỉ số giá tiêu<br /> được gánh nặng cho người cung cấp thông tin<br /> dùng. Thông tin của dữ liệu giao dịch thu thập<br /> trong quá trình thu thập thông tin thống kê.<br /> được từ các nhà bán lẻ chủ yếu thông qua các<br /> giao dịch điện tử về mua bán hàng hóa tại thời Điều này đặc biệt có ý nghĩa trong việc<br /> điểm giao dịch (mua bán). Dữ liệu giao dịch bao nâng cao tính đại diện của mẫu trong rổ hàng hóa<br /> gồm các thông tin chi tiết về doanh nghiệp như: tính CPI. Dữ liệu giao dịch sẽ cho phép khắc phục<br /> Tên doanh nghiệp, địa điểm giao dịch, ngày tháng, được những nhược điểm về khái niệm cũng như sự<br /> số lượng, giá cả và doanh thu của hàng hóa được thay đổi về giá trong quá trình xác định giá của<br /> giao dịch... Dữ liệu này được dùng để ước lượng hàng hóa được giao dịch. Về mặt lý thuyết, để xây<br /> giá trị đơn vị (giá đơn vị) và sự biến động về giá dựng và tính toán được chỉ số giá tiêu dùng một<br /> của từng sản phẩm hàng hóa, đồng thời ước lượng cách chính xác và hiệu quả, các nhà thống kê giá<br /> mức độ chi tiêu dùng đối với từng mặt hàng của phải ghi chép tất cả các mức giá của từng loại<br /> <br /> <br /> * Phó Viện trưởng Viện Khoa học Thống kê<br /> SỐ 03 – 2017 31<br /> Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch<br /> ch…<br /> <br /> hàng hóa và dịch vụ tại thời điểm mà ngườời tiêu Hình 1: Chỉ số giá của nhóm hàng thuốcc lá và<br /> dùng mua. Do đó, việc sử dụng dữ liệuu giao ddịch đồ uống có cồn1<br /> sẽ thu thập được thông tin của nhiềuu hàng hóa ccủa<br /> nhiều nhà bán lẻ hơn so với dữ liệu thu thậpp đư<br /> được<br /> từ phương pháp truyền thống điều tra tại địaa bàn.<br /> Hơn nữa, dữ liệu giao dịch chứa nhiềuu thông tin vvề<br /> số lượng và doanh thu của hàng hóa đượcc giao<br /> dịch, nên có thể được sử dụng để tính toán mmột số<br /> chỉ tiêu thống kê khác như: Chỉ số giá bán lẻ,, m<br /> mức<br /> lưu chuyển hàng hóa bán lẻ,...<br /> <br /> ABS bắt đầu thu thập các dữ liệuu giao ddịch<br /> Ghi chú:<br /> của các nhà cung cấp từ tháng 12 năm 2011 và<br /> thực hiện nhiều công việc liên quan để tính chchỉ số Chỉ số giá chung (CPI)<br /> giá thông qua việc sử dụng các thông tin về giá và Chỉ số giá của nhóm thuốc lá và đồ uống<br /> ng có<br /> mức chi tiêu của hàng hóa. ABS đã sử dụng cồn thu thập từ phương pháp truyền thố<br /> ống<br /> phương pháp lấy mẫu trực tiếp từ dữ liệuu giao ddịch Chỉ số giá của nhóm thuốc lá và đồ uống<br /> ng có<br /> cồn thu thập từ dữ liệu giao dịch<br /> để thay thế cho việc lấy mẫu điều tra tại địaa bàn.<br /> Từ ngày 1 tháng 1 năm 2014, ABS lấy mẫuu đđể thu 2. Những thách thứcc trong quá trình khai<br /> thập thông tin về giá của khoảng 20.000 mặtt hàng thác và ứng dụng dữ liệu giao dịch để biên soạn<br /> so<br /> hóa thay thế cho các mặt hàng trong rổ hàng hóa chỉ số giá tiêu dùng<br /> của CPI. Đồng thời,i, ABS đã phân tích và ch chứng<br /> minh được các thông tin về giá thu thập đượcc ttừ dữ Như đã trình bày ở trên, sử dụng dữ liệu<br /> giao dịch để tổng hợp và biên soạn chỉ số giá tiêu<br /> liệu giao dịch hoàn toàn phù hợp với việcc thông tin<br /> dùng đã nhận được sự quan tâm đáng kể củaa các<br /> phân tích thu thập được từ điều tra tại địaa bàn. Ví<br /> cơ quan thống kê quốc gia trên thế giới.i. Tuy nhiên,<br /> dụ, Hình 1 cho thấy chỉ số giá củaa nhóm hàng<br /> thuốc lá và đồ uống có cồn được thu thậpp và tính do đặc điểm của dữ liệu giao dịch có khốii lượng<br /> lư<br /> rất lớn, tốc độ cập nhật thông tin cao, vì vậyy việc<br /> vi<br /> toán từ tháng 9/2012 đến tháng 3/2016.<br /> chọn lọc thông tin để tính toán CPI gặp nhiềuu khó<br /> Phân tích số liệu trong giai đoạn từ tháng khăn và thách thức.<br /> c. Các phương pháp nghiên cứu c<br /> 9/2012 đến tháng 3/2016 cho thấy, y, hai phương ứng dụng để tính CPI cần nghiên cứu kỹ và được<br /> đư<br /> pháp thu thập dữ liệu (truyền thống và dữ liệuu giao quốc tế công nhận. Dưới đây là một số khó khăn<br /> dịch) cho kết quả tương đối giống nhau: Chỉ ssố giá và thách thức, cũng như kinh nghiệm xử lý của<br /> c<br /> của nhóm hàng thuốc lá và đồ uống có cồnn tăng ABS trong quá trình biên soạn CPI.<br /> của 2 phương pháp này tăng lần lượtt là 23,6% và<br /> 23,9% (chênh lệch không đáng kể 0,3% trong giai<br /> đoạn 3 năm). Đồng thời, xu hướng chỉ số giá ccủa<br /> 1<br /> nhóm hàng này cũng tăng cùng với xu hướng ng ccủa Nguồn:<br /> n: Australia report 2016, Making greater use<br /> of transactions data to compile the Consumer price<br /> chỉ số giá chung CPI (22,5%). Index, Australia.<br /> 32 SỐ 03 – 2017<br /> 201<br /> Khai thác dữ liệu giao dịch… Thống kê Quốc tế và Hội nhập<br /> <br /> (1) Đảm bảo tính an toàn của dữ liệu an toàn dữ liệu, trong đó quy định quyền cho phép<br /> Một trong những thách thức lớn nhất của truy cập và quyền bảo vệ dữ liệu; quyền cập nhật,<br /> ứng dụng dữ liệu giao dịch để biên soạn CPI là dữ hiệu đính và sửa chữa dữ liệu,...<br /> liệu giao dịch phải được liên tục và kịp thời. Để (2) Quản lý và phân loại dữ liệu<br /> giải quyết vấn đề này, nhiều cơ quan thống kê Quá trình tiếp nhận và quản lý các dữ liệu<br /> quốc gia phải mua dữ liệu từ các công ty nghiên giao dịch yêu cầu phải có các cơ sở lưu trữ kỹ<br /> cứu thị trường. Ở một số nước, pháp luật cho thuật. ABS đã nhìn thấy được các cơ hội để xây<br /> phép các cơ quan thống kê quốc gia có quyền<br /> dựng và phát triển các cơ sở lưu trữ dữ liệu để có<br /> thu thập các thông tin từ các doanh nghiệp để<br /> thể dễ dàng sử dụng và quản lý nhiều nguồn dữ<br /> phục vụ cho mục đích thống kê. Ở Australia, theo<br /> liệu Big data với quan điểm “một lần thu thập, sử<br /> quy định của pháp luật, ABS là cơ quan thống kê<br /> dụng nhiều lần”. Tuy nhiên, việc này đồng nghĩa<br /> quốc gia có quyền truy cập vào các dữ liệu giao<br /> với việc chi phí đầu tư ban đầu lớn, chi phí cho<br /> dịch để thu thập và khai thác thông tin từ các<br /> quá trình vận hành để lưu trữ và duy trì và đảm<br /> doanh nghiệp. Tuy nhiên, để đảm bảo an toàn,<br /> bảo sự an toàn của các files dữ liệu cũng tương<br /> ABS luôn phải chứng minh mục đích khai thác dữ<br /> đối cao.<br /> liệu phục vụ công tác thống kê và đàm phán với<br /> nhà cung cấp về các điều khoản, nguyên tắc khai Mã hóa và phân loại dữ liệu: Thông thường,<br /> thác và cung cấp dữ liệu. để quản lý các sản phẩm, doanh nghiệp thường<br /> sử dụng mã vạch để nhận dạng và phân biệt các<br /> Việc đảm bảo an toàn của dữ liệu bao gồm:<br /> loại sản phẩm phục vụ công tác quản lý của<br /> Dữ liệu không bị phá hủy hay bị truy cập trái phép;<br /> doanh nghiệp. Tuy nhiên, mã vạch lại quá chi tiết<br /> dữ liệu phải được bảo mật; dữ liệu luôn được kiểm<br /> đối với mục đích thống kê. Một thay đổi rất nhỏ<br /> soát trong cả quá trình sử dụng. Để đảm bảo quá<br /> của một số bản ghi hoặc một số thông tin mặc dù<br /> trình quản lý dữ liệu được an toàn, tùy từng đặc<br /> không ảnh hưởng đến lợi ích của người tiêu dùng,<br /> tính của dữ liệu, ABS chia dữ liệu thành các nhóm:<br /> nhưng cũng dẫn đến làm thay đổi mã vạch. Ví dụ,<br /> - Dữ liệu được cất giữ trong các thiết bị lưu nếu một nguồn cung cấp dữ liệu của một cơ sở<br /> trữ chuyên dụng (DAR: Data At-Rest), nhưng có nào đó có sự thay đổi từ nước này sang nước<br /> thể được trích xuất ra bộ nhớ tạm thời bất cứ khi khác sẽ dẫn đến việc thay đổi mã vạch của hàng<br /> nào có yêu cầu. hóa. Hay một số nhà bán lẻ cung cấp các sản<br /> phẩm có cùng các thông số kỹ thuật từ các nhà<br /> - Dữ liệu đang được xử lý (DIM: Data In-<br /> sản xuất khác nhau, cũng có thể dẫn đến các mã<br /> Motion).<br /> vạch khác nhau. Do đó, ABS không sử dụng mã<br /> - Dữ liệu đang được sử dụng (DIU: Data In- vạch của sản phẩm để phân loại thông tin đối với<br /> Use); dữ liệu giao dịch. Thay vào đó, ABS sử dụng mã<br /> Bất cứ người sử dụng nào muốn truy cập quản lý nội bộ riêng, gọi là mã SKUs (Stock<br /> vào dữ liệu, đặc biệt là dữ liệu đang sử dụng DIU, Keeping Units). Các mã SKUs nhóm các sản<br /> đều phải được cấp quyền truy cập. Đồng thời, ABS phẩm giống nhau lại thành một nhóm, mặc dù<br /> đã xây dựng các quy định về chính sách đảm bảo chúng có các mã vạch (barcode) khác nhau.<br /> SỐ 03 – 2017 33<br /> Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch…<br /> <br /> Một trở ngại chính đối với mã hóa dữ liệu là xây dựng các cơ sở lưu trữ dữ liệu, cũng như quá<br /> sắp xếp các nhóm sản phẩm theo mã SKUs để trình xử lý và vận hành, khai thác dữ liệu. ABS<br /> phù hợp với các danh mục hàng hóa đã được không chỉ đầu tư đơn thuần về hạ tầng công nghệ<br /> phân loại trong rổ hàng hóa CPI. Mã SKUs không thông tin để đáp ứng yêu cầu khai thác và sử dụng<br /> phù hợp với các phân ngành thống kê. Đây là một dữ liệu lớn phục vụ công tác thống kê, mà còn đầu<br /> quy trình đặc biệt, cần có chuyên môn sâu rộng tư các chi phí liên quan đến cơ sở hạ tầng thống<br /> để sắp xếp và duy trì dữ liệu do khối lượng các mã kê nhằm xây dựng và phát triển hệ thống để tính<br /> SKUs rất lớn và thường xuyên thay đổi. Ví dụ: Dữ toán các chỉ tiêu thống kê từ dữ liệu lớn và kiểm<br /> liệu giao dịch được cung cấp cho ABS từ các nhà soát hệ thống đáp ứng được yêu cầu của các kết<br /> bán lẻ lớn bao gồm trên 750.00 mã SKUs, so với quả đầu ra một cách kịp thời hơn, chất lượng cao<br /> 250 mục hàng hóa cơ sở trong rổ hàng hóa CPI. hơn và đặc biệt là dữ liệu an toàn hơn. Dự kiến,<br /> trong giai đoạn 2016-2020, Chính phủ Úc sẽ đầu<br /> Hiệu chỉnh và làm sạch dữ liệu, việc xác<br /> tư khoảng 250 triệu USD để chuyển đổi cơ sở hạ<br /> định các dữ liệu sai để giải quyết và làm sạch dữ<br /> tầng, hệ thống và quy trình sản xuất số liệu thống<br /> liệu là rất khó, ngay cả khi đã phát hiện ra và trao<br /> kê của ABS2.<br /> đổi với nhà cung cấp. Đây là một trong những hạn<br /> chế lớn của dữ liệu giao dịch. ABS nhận thấy cần Việc sử dụng dữ liệu giao dịch để tính toán<br /> phải giảm thiểu các rủi ro về sai sót của dữ liệu CPI có thể sẽ tiết kiệm chi phí hơn so với các<br /> thông qua các phương pháp hiệu đính hệ thống và nguồn dữ liệu truyền thống, do giảm thiểu được<br /> các thủ tục đảm bảo chất lượng dữ liệu. Các files các chi phí cho hoạt động thu thập thông tin tại địa<br /> dữ liệu phải được kiểm tra tự động và thủ công bàn và có thể bù đắp được các chi phí quản lý và<br /> một cách chặt chẽ trước khi bắt đầu quy trình sản đảm bảo chất lượng thông tin dữ liệu giao dịch.<br /> xuất số liệu thống kê. Chẳng hạn, kiểm tra kích ABS cũng hy vọng chi phí tiết kiệm được do sử<br /> thước các files dữ liệu và sự thay đổi định dạng dụng dữ liệu giao dịch sẽ bù đắp được cả các<br /> của dữ liệu để phát hiện những bất thường ở từng khoản chi phí đầu tư ban đầu, tuy nhiên cũng chưa<br /> file khi nhận được. xác định được chính xác.<br /> <br /> (3) Đầu tư ban đầu cho quá trình vận hành (4) Phương pháp tính toán<br /> và quản lý dữ liệu giao dịch<br /> Kết hợp giữa dữ liệu giao dịch với điều tra<br /> Việc sử dụng dữ liệu giao dịch trong quá thu thập thông tin tại địa bàn, nghiên cứu năm<br /> trình biên soạn và tính toán CPI đã được cơ quan 2010 của ABS chỉ ra rằng thông tin dữ liệu giao<br /> thống kê quốc gia lựa chọn vì tiết kiệm được chi dịch có thể được sử dụng đến 50% trong rổ hàng<br /> phí do không phải tiến hành điều tra thu thập số hóa tính CPI của nước này. Tuy nhiên, đối với các<br /> liệu tại địa bàn. Tuy nhiên, việc đầu tư ban đầu và dữ liệu giao dịch đã thu thập được, hiện có sẵn<br /> các chi phí liên quan đến quá trình vận hành và không thể sử dụng được hoàn toàn 100%. Vì vậy<br /> quản lý dữ liệu cần phải cân nhắc. Để thực hiện<br /> được việc này cần phải nỗ lực rất lớn từ nhiều yếu<br /> tố, trong đó có vấn đề đầu tư chi phí ban đầu để 2<br /> Nguồn: http://www.abs.gov.au/websitedbs/Corporate.nsf<br /> /Home/government+investment+in+the+ABS<br /> 34 SỐ 03 – 2017<br /> Khai thác dữ liệu giao dịch… Thống kê Quốc tế và Hội nhập<br /> <br /> cần phải tiến hành và kết hợp với điều tra thu thập dùng, hàng hóa luôn luôn thay đổi về chất lượng,<br /> số liệu tại địa bàn để biên soạn CPI. hình dáng, kích thước và chủng loại. Việc điều tra<br /> thu thập thông tin về giá tại địa bàn thường không<br /> Vấn đề đặt ra là làm sao kết hợp giữa dữ<br /> phản ánh hết và không theo kịp những thay đổi<br /> liệu giao dịch với dữ liệu thu thập được thông qua<br /> của hàng hóa. Do đó, những loại hàng hóa có giá<br /> điều tra tại địa bàn. Thông tin từ dữ liệu giao dịch<br /> bao gồm cả thông tin về số lượng và doanh thu mới, vẫn bị tính vào nhóm hàng hóa cũ. Ngược lại,<br /> có rất nhiều hàng hóa cũ bị loại ra khỏi thị trường<br /> của từng loại mặt hàng, thông tin này cho phép<br /> tính toán được các chỉ số cao nhất. Số liệu thông nhưng vẫn chưa bị loại ra khỏi danh sách hoặc rổ<br /> tin từ điều tra tại địa bàn không bao gồm những hàng hóa trong CPI. Việc sử dụng dữ liệu giao dịch<br /> thông tin về số lượng và doanh thu của các mặt để tính toán và biên soạn CPI cho thấy khắc phục<br /> hàng, do đó yêu cầu phải sử dụng công thức tính rất tốt những nhược điểm này của phương pháp<br /> truyền thống để tính toán sự thay đổi, biến động về thu thập dữ liệu giá truyền thống do tính liên tục<br /> giá. Nếu những dữ liệu này kết hợp tại thời điểm cập nhật thông tin của dữ liệu giao dịch.<br /> quan sát hoặc thu thập thông tin thì việc cần làm (5) Đối với cộng đồng người sử dụng<br /> chỉ đơn giản là loại bỏ thông tin về số lượng của<br /> CPI được sử dụng cho nhiều mục đích, như:<br /> các mặt hàng thu thập được trong dữ liệu giao dịch<br /> Phân tích và xây dựng các chính sách kinh tế, làm<br /> và áp dụng các công thức truyền thống.<br /> cơ sở để tính và điều chỉnh tiền lương, lương hưu<br /> Xử lý vấn đề mẫu thu thập tại địa bàn, việc và căn cứ để xây dựng các hợp đồng cá nhân,...<br /> thu thập các thông tin để tính toán và biên soạn Do đó, người sử dụng CPI luôn quan tâm đến các<br /> CPI theo phương pháp điều tra tại điện bàn tương phương pháp tính toán và biên soạn CPI, đặc biệt<br /> đối tốn kém về kinh phí và nhân lực. Việc khai thác những thay đổi trong phương pháp tính. Việc áp<br /> dữ liệu giao dịch vào tính toán CPI sẽ giúp giảm dụng các phương pháp tính toán CPI phải có kế<br /> thiểu được các chi phí trên. Trong một số trường hoạch kỹ lưỡng và được thông báo rộng rãi. Các<br /> hợp, dữ liệu giao dịch có thể cung cấp thông tin tin cơ quan thống kê quốc gia phải có đủ thời gian để<br /> cậy và phù hợp với một số nhóm sản phẩm thì chuẩn bị, thử nghiệm và kiểm tra các phương<br /> chúng ta có thể giảm bớt hoặc thậm chí loại bỏ pháp mới và thông báo cho cộng đồng người sử<br /> những phương pháp thu thập số liệu thủ công đối dụng CPI về những thay đổi trong phương pháp<br /> với các mặt hàng này. Tuy nhiên, cần phải có một tính. Các cơ quan thống kê phải thông báo rộng<br /> phương pháp để đánh giá xem các thông tin về giá rãi và giải thích cho người sử dụng và các bên liên<br /> và chi tiêu dùng cho các mặt hàng từ hai nguồn dữ quan hiểu rõ phương pháp tính toán CPI để người<br /> liệu này tương đồng với nhau hay không. Từ đó sử dụng hiểu được giá trị và ý nghĩa thống kê đối<br /> mới có thể quyết định được duy trì hay giảm bớt với phương pháp mới; có được phản hồi của người<br /> các mẫu điều trong dàn mẫu của CPI để giảm sử dụng về phương pháp xây dựng chỉ số giá. Qua<br /> thiểu công tác thu thập thông tin tại địa bàn. đó, cộng đồng người sử dụng số liệu sẽ hiểu, hỗ<br /> Khắc phục sự thay đổi về chất lượng hàng trợ và ủng hộ việc ứng dụng khai thác dữ liệu giao<br /> hóa và hàng hóa thay thế, trên thị trường hàng tiêu dịch vào biên soạn CPI.<br /> <br /> <br /> SỐ 03 – 2017 35<br /> Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch…<br /> <br /> 3. Phương pháp tính toán chỉ số giá tiêu dùng phẩm phù hợp hoặc giống với các sản phẩm có<br /> sẵn trong danh mục hàng hóa để tính CPI. Ví dụ,<br /> Tổng quan về phương pháp tính toán CPI<br /> các hàng hóa bị trùng nhau do khác mã SKUs<br /> của ABS<br /> hoặc do mã SKUs của hàng bị loại không được<br /> Dữ liệu giao dịch thu thập được từ các nhà loại ra mà vẫn tính vào danh mục hàng hóa để tính<br /> bán lẻ chủ yếu, được ABS sử dụng để tính toán CPI. Nhìn chung, ABS xác định được chính xác<br /> CPI theo quý bắt đầu từ tháng 1 năm 2014. ABS 80% các mặt hàng trong mẫu hàng hóa để tính<br /> sử dụng phương pháp lấy mẫu trực tiếp thu được toán CPI.<br /> từ dữ liệu giao dịch để thay thế cho phương pháp<br /> Thành phần của rổ hàng hóa trong CPI<br /> lấy mẫu thu thập dữ liệu từ địa bàn. Khoảng<br /> phản ánh sự ưa thích tiêu dùng của hộ gia đình.<br /> 20.000 mặt hàng được lấy giá từ dữ liệu giao dịch<br /> Dữ liệu giao dịch cung cấp số lượng hàng hóa đã<br /> và thay thế cho các nhóm trong rổ hàng hóa để<br /> được bán của doanh nghiệp theo thời gian thực.<br /> tính toán CPI.<br /> Thông tin về số lượng hàng đã bán của doanh<br /> Giá của mỗi mặt hàng từ dữ liệu giao dịch nghiệp trước đây không được ABS thu thập trong<br /> được tính bằng cách lấy tổng doanh thu của từng quá trình tính toán CPI. Tiếp cận được các thông<br /> mặt hàng chia cho tổng số lượng mặt hàng đó đã tin này, cho phép ABS nâng cao được tính phù<br /> được bán. Giá này được gọi là giá trị đơn vị (giá hợp/phổ biến của các sản phẩm để tính CPI. Mỗi<br /> đơn vị) của hàng hóa/sản phẩm và đại diện cho sản phẩm hoặc hàng hóa được lựa chọn trong<br /> giá thanh toán (giao dịch) của người mua trong 1 mẫu để tính CPI đều được kiểm tra và đánh giá rất<br /> tuần hoặc 1 tháng. Như vậy, giá đơn vị của hàng chặt chẽ theo từng quý về doanh thu và tính nhất<br /> hóa/sản phẩm là giá bình quân của hàng hóa quán. Với những hàng hóa này, nếu quá trình kiểm<br /> hoặc sản phẩm đó được người mua thanh toán tra phát hiện không đạt thì sẽ bị thay thế bằng các<br /> cho một thời kỳ (thường là tuần, tháng), không<br /> sản phẩm khác phù hợp từ một nhóm các hàng<br /> phải là giá tại thời điểm mua. Giá đơn vị hàng hóa<br /> tương tự.<br /> được thu thập từ một lượng lớn các cửa hàng kinh<br /> doanh ở từng tỉnh, thành phố. Giá đơn vị hàng hóa Tính giá đơn vị<br /> thu được từ dữ liệu giao dịch được sử dụng để tính Một trong những ưu điểm của việc sử dụng<br /> toán và biên soạn chỉ số CPI theo danh mục chi dữ liệu giao dịch là có nhiều lựa chọn về giá linh<br /> tiêu hàng hóa. hoạt hơn so với phương pháp truyền thống điều tra<br /> Chọn và duy trì mẫu đại diện từ dữ liệu tại địa bàn. Lý tưởng nhất là lấy tối đa số lượng dữ<br /> giao dịch liệu giao dịch để tính giá đơn vị. Tuy nhiên, trong<br /> thực tế phương pháp này có nhược điểm là cần<br /> Dữ liệu thu thập được từ bộ dữ liệu giao dịch<br /> phải có thời gian để tính toán.<br /> có chất lượng rất đa dạng và khác nhau tùy thuộc<br /> vào các nhà cung cấp dữ liệu. Các files dữ liệu có Đối với các sản phẩm trước đây được xác<br /> chất lượng kém (đặc biệt là danh sách các sản định giá theo quý. Giá đơn vị có thể được tính theo<br /> phẩm) rất khó xác định được chính xác các sản 5 cách sau:<br /> <br /> <br /> 36 SỐ 03 – 2017<br /> Khai thác dữ liệu giao dịch… Thống kê Quốc tế và Hội nhập<br /> <br /> (1) Xác định giá đơn vị dựa trên tháng giữa thay đổi về lượng (như thay đổi về kích thước) và<br /> của quý (thời gian này giống như phương pháp thu thay đổi về mã hàng hóa; (3) Hàng hóa có sự thay<br /> thập số liệu tại địa bàn); đổi về lượng, nhưng không thay đổi mã hàng hóa.<br /> <br /> (2) Xác định giá đơn vị dựa trên 2 tháng đầu Trường hợp thứ nhất là đơn giản nhất, chỉ<br /> tiên của quý; cần tính giá hàng hóa của kỳ trước. Trường hợp<br /> thứ hai và ba, do có yếu tố điều chỉnh về chất<br /> (3) Xác định giá đơn vị dựa trên 2 tháng đầu<br /> lượng hàng hóa dẫn đến sự thay đổi về số lượng<br /> tiên của quý cộng với 2 tuần đầu của tháng thứ ba;<br /> hàng hóa. ABS đã nghiên cứu phương pháp kết<br /> (4) Xác định giá đơn vị dựa trên 3 tháng nối giữa những sản phẩm mới với sản phẩm bị<br /> của quý; biến mất trên thị trường. Ví dụ, có một lô hàng<br /> (5) Xác định giá đơn vị dựa trên mức di thay đổi về kích thước thường sẽ dẫn đến thay đổi<br /> chuyển giá trung bình của 3 tháng (tính giá trung về mã SKUs. Quy trình kết nối sẽ sử dụng các<br /> bình từ giá của tháng cuối cùng của quý trước và thông tin về mô tả sản phẩm như: Giá, doanh thu,<br /> giá của 2 tháng đầu tiên của quý hiện tại). thời gian (xuất hiện và biến mất trên thị trường) và<br /> số lượng hàng bán ra trên thị trường. Quy trình này<br /> Để đánh giá sự khác nhau giữa các phương<br /> sẽ giúp tìm được sản phẩm mới giống hoặc gần<br /> pháp tính giá, ABS quan sát mức độ chênh lệch<br /> giống với sản phẩm cũ (nhưng khác về mã sản<br /> tuyệt đối của giá đơn vị của 5 phương pháp trên.<br /> phẩm) và điều chỉnh sự thay đổi về số lượng.<br /> Độ lệch của phần lớn các sản phẩm là rất nhỏ và<br /> những thay đổi tương đối về giá của hàng hóa có Hàng hóa theo mùa vụ sẽ có sự biến động<br /> thể giải thích do chiết khấu sản phẩm. Cách thứ ba về số lượng hàng hóa trên thị trường tùy theo từng<br /> được lựa chọn vì điều này cho phép sử dụng tối đa mùa, vụ của hàng hóa đó trong năm. Những thay<br /> thời gian thu thập dữ liệu mà không làm ảnh hưởng đổi theo mùa vụ sẽ dẫn đến thay đổi về sản lượng<br /> đến thời gian biên soạn số liệu. và giá cả hàng hóa, do đó dẫn đến sự thay đổi về<br /> nhu cầu của người tiêu dùng trên thị thường. Đối<br /> Xử lý vấn đề thay đổi về chất lượng hàng<br /> với các loại hàng hóa này, ABS quyết định lấy<br /> hóa và sản phẩm mới xuất hiện<br /> doanh thu lớn nhất (hoặc thời điểm bán tốt nhất)<br /> Đối với phương pháp điều tra truyền thống, của hàng hóa của mỗi thời kỳ. Phương pháp này<br /> thu thập dữ liệu tại địa bàn, các điều tra viên có thể sẽ lựa chọn những hàng hóa đại diện nhất cho<br /> dễ dàng phát hiện được sự thay đổi của hàng hóa mỗi chu kỳ tính giá, đồng thời tránh được việc<br /> do mẫu điều tra nhỏ. Tuy nhiên, đối với hình thức chọn hàng thanh lý (hàng loại) hoặc hàng không<br /> thu thập thông tin sử dụng dữ liệu giao dịch, việc phù hợp, tùy theo ngưỡng doanh thu tối thiểu<br /> phát hiện ra những thay đổi của từng loại hàng hàng tháng.<br /> hóa trong quá trình tính toán và biên soạn CPI là<br /> Chọn giá cơ sở<br /> không khả thi, do dữ liệu rất lớn. Sự thay đổi về<br /> hàng hóa chủ yếu là do: (1) Hàng hóa mới được Khi chuyển phương pháp tính CPI từ thu<br /> đưa vào mẫu tính giá (xuất hiện hàng hóa mới thập thông tin tại địa bàn sang phương pháp tính<br /> thay thế cho hàng hóa cũ); (2) Hàng hóa có sự giá từ dữ liệu giao dịch sẽ có sự thay đổi về cơ sở<br /> <br /> SỐ 03 – 2017 37<br /> Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch…<br /> <br /> tính giá và sẽ ảnh hưởng tới mức giá của mẫu 4. Kết luận và khuyến nghị<br /> điều tra. Sự biến động về giá trong tháng 3 năm<br /> Tiềm năng của dữ liệu giao dịch là nguồn<br /> 2014 của hàng hóa trong dàn mẫu để tính CPI sẽ<br /> dữ liệu đầu vào quan trọng không thể bỏ qua đối<br /> được sử dụng để tính giá cơ sở khi áp dụng dữ<br /> với các cơ quan thống kê quốc gia, trong đó có<br /> liệu giao dịch vào tính CPI. Việc thay đổi cách tính<br /> Việt Nam. Nguồn dữ liệu này có thể thay thế cho<br /> giá từ phương pháp lấy giá tại thời điểm điều tra<br /> các nguồn dữ liệu truyền thống và có ảnh hưởng<br /> theo phương pháp truyền thống sang phương<br /> rất lớn đến phương thức sản xuất số liệu thống kê<br /> pháp tính giá đơn vị sản phẩm không ảnh hưởng<br /> nhà nước trong tương lai. Vì vậy, cần khuyến khích<br /> đến sự thay đổi kết quả tính toán giá hàng hóa.<br /> và tiếp tục nghiên cứu, triển khai các biện pháp để<br /> Những cơ hội khác khi sử dụng dữ liệu tăng cường khả năng tiếp cận, truy cập, sử dụng<br /> giao dịch và khai thác dữ liệu từ nguồn dữ liệu lớn nói chung<br /> và dữ liệu giao dịch nói riêng vào công tác sản<br /> Việc sử dụng dữ liệu giao dịch cho phép<br /> xuất số liệu thống kê một cách hiệu quả.<br /> ABS kiểm tra và tính toán CPI thường xuyên và kịp<br /> thời hơn trong tương lai. Những người sử dụng CPI Để thực hiện được vấn đề này, trước hết, cơ<br /> có thể yêu cầu tính toán và cung cấp CPI hàng quan thống kê cần thí điểm sử dụng dữ liệu giao<br /> tháng ở các vùng trong cả nước. Dữ liệu giao dịch dịch để tính toán và biên soạn CPI. Tuy nhiên, để<br /> sẵn có và cập nhật ở tần suất cao sẽ cho phép khai thác được hết tính phong phú và đa dạng của<br /> các cơ quan thống kê dễ dàng thực hiện được các cơ sở dữ liệu này đòi hỏi phải có sự thống nhất về<br /> mục tiêu tính toán CPI. Dữ liệu giao dịch cũng có phương pháp luận thống kê. Mặc dù việc nghiên<br /> thể giúp việc so sánh sự thay đổi về giá giữa các cứu phương pháp luận là rất quan trọng, nhưng đó<br /> khu vực thành thị và nông thôn, từ đó có thể cung mới là những thách thức ban đầu trong quá trình<br /> cấp thông tin quan trọng về việc CPI có cần thiết sử dụng và khai thác dữ liệu này. Việc trích xuất dữ<br /> phải tính toán trên phạm vi tất cả các khu vực trên liệu và thông tin từ dữ liệu giao dịch phục vụ cho<br /> cả nước hay không? Hay chỉ cần tính cho các khu sản xuất số liệu thống kê là việc làm không hề đơn<br /> vực thành thị? giản. Bài viết này đã đưa ra một số những khó<br /> khăn trong quá trình sử dụng dữ liệu giao dịch để<br /> ABS đã tiến hành các công việc để tiến<br /> biên soạn CPI, tuy nhiên, còn nhiều vấn đề khác<br /> hành ứng dụng rộng rãi dữ liệu giao dịch đối với<br /> vẫn chưa được giải quyết một cách thỏa đáng cần<br /> thống kê nhà nước. Các thông tin về doanh thu, số<br /> tiếp tục nghiên cứu thêm.<br /> lượng, giá cả hàng hóa là nguồn thông tin rất tiềm<br /> năng phục vụ cho các mục đích thống kê kinh tế, Đối với Thống kê Việt Nam, một trong<br /> như: Điều tra bán lẻ hàng hóa, đo lường và xác những nhiệm vụ trọng tâm của Tổng cục Thống kê<br /> định các yêu tố chi tiêu dùng cuối cùng của hộ gia trong giai đoạn 2016-2021 là: Ứng dụng phương<br /> đình trong tài khoản quốc gia, giúp hiệu chỉnh cơ pháp thống kê tiên tiến, công nghệ thông tin và<br /> sở dữ liệu điều tra chi tiêu hộ gia đình. truyền thông. Cụ thể là nghiên cứu, triển khai thí<br /> điểm sử dụng dữ liệu hành chính, dữ liệu lớn trong<br /> sản xuất số liệu thống kê chính thức ở một số lĩnh<br /> <br /> 38 SỐ 03 – 2017<br /> Khai thác dữ liệu giao dịch… Thống kê Quốc tế và Hội nhập<br /> <br /> vực khả thi. Nghiên cứu, khai thác và sử dụng dữ phương pháp thống kê mới, về ứng dụng công<br /> liệu lớn nói chung, dữ liệu giao dịch nói riêng phục nghệ thông tin trong khai thác dữ liệu giao dịch để<br /> vụ sản xuất số liệu thống kê nhà nước một cách có sản xuất chỉ số giá tiêu dùng.<br /> hiệu quả, Tổng cục Thống kê cần thực hiện một số<br /> Tài liệu tham khảo:<br /> nhiệm vụ sau:<br /> 1. Khanh Moore (2014), Dữ liệu giao dịch:<br /> Thứ nhất, Tiến hành nghiên cứu một cách<br /> Từ lý thuyết đến thực tế, Cơ quan Thống kê quốc<br /> hệ thống về Big data, trong đó có dữ liệu giao dịch.<br /> gia Úc;<br /> Trước hết, thí điểm khai thác nguồn dữ liệu giao<br /> dịch phục vụ sản xuất số liệu thống kê nhà nước 2. Tổng cục Thống kê (2017), Báo cáo<br /> trong các lĩnh vực như: Thống kê giá, thống kê những nhiệm vụ trọng tâm của Tổng cục Thống kê<br /> thương mại,... và đề xuất ưu tiên hỗ trợ giai đoạn 2017-2021;<br /> <br /> Thứ hai, Nghiên cứu kinh nghiệm quốc tế về 3. Tổ chức Lao động quốc tế, Quỹ Tiền tệ<br /> phương pháp khai thác nguồn dữ liệu giao dịch quốc tế, Tổ chức Hợp tác và Phát triển Kinh tế, Cơ<br /> phục vụ thống kê nhà nước; quan Thống kê châu Âu, Tổ chức Liên hợp quốc và<br /> Ngân hàng Thế giới (2004), Sổ tay chỉ số giá tiêu<br /> Thứ ba, Rà soát, đánh giá thực trạng các<br /> dùng: Từ lý thuyết đến thực tế;<br /> văn bản pháp lý về sản xuất số liệu thống kê nhà<br /> nước hiện nay; các văn bản pháp lý về ứng dụng, 4. Van der Grient, H.A. (2010), Phương<br /> khai thác dữ liệu giao dịch phục vụ sản xuất số liệu pháp phân tích sự thay đổi của chỉ số giá khi áp<br /> thống kê nhà nước; dụng công thức tính giá RYGEKS, Cơ quan Thống<br /> kê Hà Lan;<br /> Thứ tư, Xây dựng và trình cấp có thẩm<br /> quyền phê duyệt các văn bản pháp lý về khai thác 5. Van der Grient, H.A. và de Haan, J.<br /> nguồn dữ liệu giao dịch phục vụ sản xuất số liệu (2010), Sử dụng dữ liệu scanner từ siêu thị để tính<br /> thống kê nhà nước; toán chỉ số giá tiêu dùng, bài trình bày tại hội thảo<br /> về dữ liệu scanner tại Geneva, Thụy Sĩ, ngày 10<br /> Thứ năm, Khảo sát, đánh giá hạ tầng công<br /> tháng 5 năm 2010.<br /> nghệ thông tin và đào tạo nguồn nhân lực về<br /> <br /> ------------------------------------------------------------<br /> Tiếp theo trang 48<br /> Các quy trình lưu trữ quá nhiều, cả những https://statswiki.unece.org/pages/viewpage.action<br /> tài liệu có thành phần thống kê, và những quy tắc ?pageId=129172757<br /> chung, có thể áp dụng cho bất kỳ loại tổ chức nào, Anh Tuấn (dịch)<br /> được đề cập trong GSBPM, nhưng không bao gồm<br /> Nguồn: https://statswiki.unece.org/pages/viewpage<br /> trong Sản xuất liên quan đến các bộ phận khác .action?pageId=129171865, truy cập ngày<br /> của GAMSO. 20/6/2017.<br /> Xem thêm Phụ lục tại địa chỉ:<br /> SỐ 03 – 2017 39<br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2