THỐNG KÊ QUỐC TẾ VÀ HỘI NHẬP<br />
<br />
KHAI THÁC DỮ LIỆU GIAO DỊCH ĐỂ BIÊN SOẠN CHỈ SỐ GIÁ TIÊU DÙNG<br />
KINH NGHIỆM CỦA CƠ QUAN THỐNG KÊ QUỐC GIA ÚC<br />
ThS. Nguyễn Văn Thụy*<br />
<br />
<br />
Tóm tắt:<br />
Dữ liệu lớn (Big data) đã và đang đem lại nhiều tiềm năng to lớn đối với thống kê nhà nước. Thực<br />
tế cho thấy, việc ứng dụng khai thác nguồn dữ liệu Big data để sản xuất số liệu thống kê sẽ kịp thời hơn<br />
và giải quyết được nhiều vấn đề liên quan hơn so với nguồn dữ liệu truyền thống, như: giảm thiểu gánh<br />
nặng về thu thập thông tin, đặc biệt là gánh nặng điều tra thu thập thông tin đối với người trả lời, khả<br />
năng đáp ứng nhu cầu thông tin của người sử dụng. Cơ quan Thống kê quốc gia Úc (ABS) đã sử dụng<br />
nguồn dữ liệu giao dịch để tính toán một số chỉ tiêu thống kê, trong đó có Chỉ số giá tiêu dùng (CPI). Bài<br />
viết này giới thiệu một số kinh nghiệm của ABS về khai thác dữ liệu giao dịch để biên soạn CPI.<br />
<br />
1. Lời giới thiệu doanh nghiệp. Vì vậy dữ liệu giao dịch là một<br />
nguồn thông tin rất đa dạng và phong phú đối với<br />
Big data có nhiều loại và hình thức khác<br />
công tác thống kê, đặc biệt là thống kê nhà nước.<br />
nhau như dữ liệu vệ tinh, dữ liệu di động, dữ liệu<br />
Tiếp cận và truy cập được các files (tập tin) dữ liệu<br />
truyền thông xã hội, dữ liệu giao dịch,... Dữ liệu<br />
điện tử sẽ giúp các cơ quan thống kê giảm thiểu<br />
giao dịch được khai thác để biên soạn các thông<br />
được chi phí thu thập thông tin cũng như giảm bớt<br />
tin thống kê kinh tế, trong đó có chỉ số giá tiêu<br />
được gánh nặng cho người cung cấp thông tin<br />
dùng. Thông tin của dữ liệu giao dịch thu thập<br />
trong quá trình thu thập thông tin thống kê.<br />
được từ các nhà bán lẻ chủ yếu thông qua các<br />
giao dịch điện tử về mua bán hàng hóa tại thời Điều này đặc biệt có ý nghĩa trong việc<br />
điểm giao dịch (mua bán). Dữ liệu giao dịch bao nâng cao tính đại diện của mẫu trong rổ hàng hóa<br />
gồm các thông tin chi tiết về doanh nghiệp như: tính CPI. Dữ liệu giao dịch sẽ cho phép khắc phục<br />
Tên doanh nghiệp, địa điểm giao dịch, ngày tháng, được những nhược điểm về khái niệm cũng như sự<br />
số lượng, giá cả và doanh thu của hàng hóa được thay đổi về giá trong quá trình xác định giá của<br />
giao dịch... Dữ liệu này được dùng để ước lượng hàng hóa được giao dịch. Về mặt lý thuyết, để xây<br />
giá trị đơn vị (giá đơn vị) và sự biến động về giá dựng và tính toán được chỉ số giá tiêu dùng một<br />
của từng sản phẩm hàng hóa, đồng thời ước lượng cách chính xác và hiệu quả, các nhà thống kê giá<br />
mức độ chi tiêu dùng đối với từng mặt hàng của phải ghi chép tất cả các mức giá của từng loại<br />
<br />
<br />
* Phó Viện trưởng Viện Khoa học Thống kê<br />
SỐ 03 – 2017 31<br />
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch<br />
ch…<br />
<br />
hàng hóa và dịch vụ tại thời điểm mà ngườời tiêu Hình 1: Chỉ số giá của nhóm hàng thuốcc lá và<br />
dùng mua. Do đó, việc sử dụng dữ liệuu giao ddịch đồ uống có cồn1<br />
sẽ thu thập được thông tin của nhiềuu hàng hóa ccủa<br />
nhiều nhà bán lẻ hơn so với dữ liệu thu thậpp đư<br />
được<br />
từ phương pháp truyền thống điều tra tại địaa bàn.<br />
Hơn nữa, dữ liệu giao dịch chứa nhiềuu thông tin vvề<br />
số lượng và doanh thu của hàng hóa đượcc giao<br />
dịch, nên có thể được sử dụng để tính toán mmột số<br />
chỉ tiêu thống kê khác như: Chỉ số giá bán lẻ,, m<br />
mức<br />
lưu chuyển hàng hóa bán lẻ,...<br />
<br />
ABS bắt đầu thu thập các dữ liệuu giao ddịch<br />
Ghi chú:<br />
của các nhà cung cấp từ tháng 12 năm 2011 và<br />
thực hiện nhiều công việc liên quan để tính chchỉ số Chỉ số giá chung (CPI)<br />
giá thông qua việc sử dụng các thông tin về giá và Chỉ số giá của nhóm thuốc lá và đồ uống<br />
ng có<br />
mức chi tiêu của hàng hóa. ABS đã sử dụng cồn thu thập từ phương pháp truyền thố<br />
ống<br />
phương pháp lấy mẫu trực tiếp từ dữ liệuu giao ddịch Chỉ số giá của nhóm thuốc lá và đồ uống<br />
ng có<br />
cồn thu thập từ dữ liệu giao dịch<br />
để thay thế cho việc lấy mẫu điều tra tại địaa bàn.<br />
Từ ngày 1 tháng 1 năm 2014, ABS lấy mẫuu đđể thu 2. Những thách thứcc trong quá trình khai<br />
thập thông tin về giá của khoảng 20.000 mặtt hàng thác và ứng dụng dữ liệu giao dịch để biên soạn<br />
so<br />
hóa thay thế cho các mặt hàng trong rổ hàng hóa chỉ số giá tiêu dùng<br />
của CPI. Đồng thời,i, ABS đã phân tích và ch chứng<br />
minh được các thông tin về giá thu thập đượcc ttừ dữ Như đã trình bày ở trên, sử dụng dữ liệu<br />
giao dịch để tổng hợp và biên soạn chỉ số giá tiêu<br />
liệu giao dịch hoàn toàn phù hợp với việcc thông tin<br />
dùng đã nhận được sự quan tâm đáng kể củaa các<br />
phân tích thu thập được từ điều tra tại địaa bàn. Ví<br />
cơ quan thống kê quốc gia trên thế giới.i. Tuy nhiên,<br />
dụ, Hình 1 cho thấy chỉ số giá củaa nhóm hàng<br />
thuốc lá và đồ uống có cồn được thu thậpp và tính do đặc điểm của dữ liệu giao dịch có khốii lượng<br />
lư<br />
rất lớn, tốc độ cập nhật thông tin cao, vì vậyy việc<br />
vi<br />
toán từ tháng 9/2012 đến tháng 3/2016.<br />
chọn lọc thông tin để tính toán CPI gặp nhiềuu khó<br />
Phân tích số liệu trong giai đoạn từ tháng khăn và thách thức.<br />
c. Các phương pháp nghiên cứu c<br />
9/2012 đến tháng 3/2016 cho thấy, y, hai phương ứng dụng để tính CPI cần nghiên cứu kỹ và được<br />
đư<br />
pháp thu thập dữ liệu (truyền thống và dữ liệuu giao quốc tế công nhận. Dưới đây là một số khó khăn<br />
dịch) cho kết quả tương đối giống nhau: Chỉ ssố giá và thách thức, cũng như kinh nghiệm xử lý của<br />
c<br />
của nhóm hàng thuốc lá và đồ uống có cồnn tăng ABS trong quá trình biên soạn CPI.<br />
của 2 phương pháp này tăng lần lượtt là 23,6% và<br />
23,9% (chênh lệch không đáng kể 0,3% trong giai<br />
đoạn 3 năm). Đồng thời, xu hướng chỉ số giá ccủa<br />
1<br />
nhóm hàng này cũng tăng cùng với xu hướng ng ccủa Nguồn:<br />
n: Australia report 2016, Making greater use<br />
of transactions data to compile the Consumer price<br />
chỉ số giá chung CPI (22,5%). Index, Australia.<br />
32 SỐ 03 – 2017<br />
201<br />
Khai thác dữ liệu giao dịch… Thống kê Quốc tế và Hội nhập<br />
<br />
(1) Đảm bảo tính an toàn của dữ liệu an toàn dữ liệu, trong đó quy định quyền cho phép<br />
Một trong những thách thức lớn nhất của truy cập và quyền bảo vệ dữ liệu; quyền cập nhật,<br />
ứng dụng dữ liệu giao dịch để biên soạn CPI là dữ hiệu đính và sửa chữa dữ liệu,...<br />
liệu giao dịch phải được liên tục và kịp thời. Để (2) Quản lý và phân loại dữ liệu<br />
giải quyết vấn đề này, nhiều cơ quan thống kê Quá trình tiếp nhận và quản lý các dữ liệu<br />
quốc gia phải mua dữ liệu từ các công ty nghiên giao dịch yêu cầu phải có các cơ sở lưu trữ kỹ<br />
cứu thị trường. Ở một số nước, pháp luật cho thuật. ABS đã nhìn thấy được các cơ hội để xây<br />
phép các cơ quan thống kê quốc gia có quyền<br />
dựng và phát triển các cơ sở lưu trữ dữ liệu để có<br />
thu thập các thông tin từ các doanh nghiệp để<br />
thể dễ dàng sử dụng và quản lý nhiều nguồn dữ<br />
phục vụ cho mục đích thống kê. Ở Australia, theo<br />
liệu Big data với quan điểm “một lần thu thập, sử<br />
quy định của pháp luật, ABS là cơ quan thống kê<br />
dụng nhiều lần”. Tuy nhiên, việc này đồng nghĩa<br />
quốc gia có quyền truy cập vào các dữ liệu giao<br />
với việc chi phí đầu tư ban đầu lớn, chi phí cho<br />
dịch để thu thập và khai thác thông tin từ các<br />
quá trình vận hành để lưu trữ và duy trì và đảm<br />
doanh nghiệp. Tuy nhiên, để đảm bảo an toàn,<br />
bảo sự an toàn của các files dữ liệu cũng tương<br />
ABS luôn phải chứng minh mục đích khai thác dữ<br />
đối cao.<br />
liệu phục vụ công tác thống kê và đàm phán với<br />
nhà cung cấp về các điều khoản, nguyên tắc khai Mã hóa và phân loại dữ liệu: Thông thường,<br />
thác và cung cấp dữ liệu. để quản lý các sản phẩm, doanh nghiệp thường<br />
sử dụng mã vạch để nhận dạng và phân biệt các<br />
Việc đảm bảo an toàn của dữ liệu bao gồm:<br />
loại sản phẩm phục vụ công tác quản lý của<br />
Dữ liệu không bị phá hủy hay bị truy cập trái phép;<br />
doanh nghiệp. Tuy nhiên, mã vạch lại quá chi tiết<br />
dữ liệu phải được bảo mật; dữ liệu luôn được kiểm<br />
đối với mục đích thống kê. Một thay đổi rất nhỏ<br />
soát trong cả quá trình sử dụng. Để đảm bảo quá<br />
của một số bản ghi hoặc một số thông tin mặc dù<br />
trình quản lý dữ liệu được an toàn, tùy từng đặc<br />
không ảnh hưởng đến lợi ích của người tiêu dùng,<br />
tính của dữ liệu, ABS chia dữ liệu thành các nhóm:<br />
nhưng cũng dẫn đến làm thay đổi mã vạch. Ví dụ,<br />
- Dữ liệu được cất giữ trong các thiết bị lưu nếu một nguồn cung cấp dữ liệu của một cơ sở<br />
trữ chuyên dụng (DAR: Data At-Rest), nhưng có nào đó có sự thay đổi từ nước này sang nước<br />
thể được trích xuất ra bộ nhớ tạm thời bất cứ khi khác sẽ dẫn đến việc thay đổi mã vạch của hàng<br />
nào có yêu cầu. hóa. Hay một số nhà bán lẻ cung cấp các sản<br />
phẩm có cùng các thông số kỹ thuật từ các nhà<br />
- Dữ liệu đang được xử lý (DIM: Data In-<br />
sản xuất khác nhau, cũng có thể dẫn đến các mã<br />
Motion).<br />
vạch khác nhau. Do đó, ABS không sử dụng mã<br />
- Dữ liệu đang được sử dụng (DIU: Data In- vạch của sản phẩm để phân loại thông tin đối với<br />
Use); dữ liệu giao dịch. Thay vào đó, ABS sử dụng mã<br />
Bất cứ người sử dụng nào muốn truy cập quản lý nội bộ riêng, gọi là mã SKUs (Stock<br />
vào dữ liệu, đặc biệt là dữ liệu đang sử dụng DIU, Keeping Units). Các mã SKUs nhóm các sản<br />
đều phải được cấp quyền truy cập. Đồng thời, ABS phẩm giống nhau lại thành một nhóm, mặc dù<br />
đã xây dựng các quy định về chính sách đảm bảo chúng có các mã vạch (barcode) khác nhau.<br />
SỐ 03 – 2017 33<br />
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch…<br />
<br />
Một trở ngại chính đối với mã hóa dữ liệu là xây dựng các cơ sở lưu trữ dữ liệu, cũng như quá<br />
sắp xếp các nhóm sản phẩm theo mã SKUs để trình xử lý và vận hành, khai thác dữ liệu. ABS<br />
phù hợp với các danh mục hàng hóa đã được không chỉ đầu tư đơn thuần về hạ tầng công nghệ<br />
phân loại trong rổ hàng hóa CPI. Mã SKUs không thông tin để đáp ứng yêu cầu khai thác và sử dụng<br />
phù hợp với các phân ngành thống kê. Đây là một dữ liệu lớn phục vụ công tác thống kê, mà còn đầu<br />
quy trình đặc biệt, cần có chuyên môn sâu rộng tư các chi phí liên quan đến cơ sở hạ tầng thống<br />
để sắp xếp và duy trì dữ liệu do khối lượng các mã kê nhằm xây dựng và phát triển hệ thống để tính<br />
SKUs rất lớn và thường xuyên thay đổi. Ví dụ: Dữ toán các chỉ tiêu thống kê từ dữ liệu lớn và kiểm<br />
liệu giao dịch được cung cấp cho ABS từ các nhà soát hệ thống đáp ứng được yêu cầu của các kết<br />
bán lẻ lớn bao gồm trên 750.00 mã SKUs, so với quả đầu ra một cách kịp thời hơn, chất lượng cao<br />
250 mục hàng hóa cơ sở trong rổ hàng hóa CPI. hơn và đặc biệt là dữ liệu an toàn hơn. Dự kiến,<br />
trong giai đoạn 2016-2020, Chính phủ Úc sẽ đầu<br />
Hiệu chỉnh và làm sạch dữ liệu, việc xác<br />
tư khoảng 250 triệu USD để chuyển đổi cơ sở hạ<br />
định các dữ liệu sai để giải quyết và làm sạch dữ<br />
tầng, hệ thống và quy trình sản xuất số liệu thống<br />
liệu là rất khó, ngay cả khi đã phát hiện ra và trao<br />
kê của ABS2.<br />
đổi với nhà cung cấp. Đây là một trong những hạn<br />
chế lớn của dữ liệu giao dịch. ABS nhận thấy cần Việc sử dụng dữ liệu giao dịch để tính toán<br />
phải giảm thiểu các rủi ro về sai sót của dữ liệu CPI có thể sẽ tiết kiệm chi phí hơn so với các<br />
thông qua các phương pháp hiệu đính hệ thống và nguồn dữ liệu truyền thống, do giảm thiểu được<br />
các thủ tục đảm bảo chất lượng dữ liệu. Các files các chi phí cho hoạt động thu thập thông tin tại địa<br />
dữ liệu phải được kiểm tra tự động và thủ công bàn và có thể bù đắp được các chi phí quản lý và<br />
một cách chặt chẽ trước khi bắt đầu quy trình sản đảm bảo chất lượng thông tin dữ liệu giao dịch.<br />
xuất số liệu thống kê. Chẳng hạn, kiểm tra kích ABS cũng hy vọng chi phí tiết kiệm được do sử<br />
thước các files dữ liệu và sự thay đổi định dạng dụng dữ liệu giao dịch sẽ bù đắp được cả các<br />
của dữ liệu để phát hiện những bất thường ở từng khoản chi phí đầu tư ban đầu, tuy nhiên cũng chưa<br />
file khi nhận được. xác định được chính xác.<br />
<br />
(3) Đầu tư ban đầu cho quá trình vận hành (4) Phương pháp tính toán<br />
và quản lý dữ liệu giao dịch<br />
Kết hợp giữa dữ liệu giao dịch với điều tra<br />
Việc sử dụng dữ liệu giao dịch trong quá thu thập thông tin tại địa bàn, nghiên cứu năm<br />
trình biên soạn và tính toán CPI đã được cơ quan 2010 của ABS chỉ ra rằng thông tin dữ liệu giao<br />
thống kê quốc gia lựa chọn vì tiết kiệm được chi dịch có thể được sử dụng đến 50% trong rổ hàng<br />
phí do không phải tiến hành điều tra thu thập số hóa tính CPI của nước này. Tuy nhiên, đối với các<br />
liệu tại địa bàn. Tuy nhiên, việc đầu tư ban đầu và dữ liệu giao dịch đã thu thập được, hiện có sẵn<br />
các chi phí liên quan đến quá trình vận hành và không thể sử dụng được hoàn toàn 100%. Vì vậy<br />
quản lý dữ liệu cần phải cân nhắc. Để thực hiện<br />
được việc này cần phải nỗ lực rất lớn từ nhiều yếu<br />
tố, trong đó có vấn đề đầu tư chi phí ban đầu để 2<br />
Nguồn: http://www.abs.gov.au/websitedbs/Corporate.nsf<br />
/Home/government+investment+in+the+ABS<br />
34 SỐ 03 – 2017<br />
Khai thác dữ liệu giao dịch… Thống kê Quốc tế và Hội nhập<br />
<br />
cần phải tiến hành và kết hợp với điều tra thu thập dùng, hàng hóa luôn luôn thay đổi về chất lượng,<br />
số liệu tại địa bàn để biên soạn CPI. hình dáng, kích thước và chủng loại. Việc điều tra<br />
thu thập thông tin về giá tại địa bàn thường không<br />
Vấn đề đặt ra là làm sao kết hợp giữa dữ<br />
phản ánh hết và không theo kịp những thay đổi<br />
liệu giao dịch với dữ liệu thu thập được thông qua<br />
của hàng hóa. Do đó, những loại hàng hóa có giá<br />
điều tra tại địa bàn. Thông tin từ dữ liệu giao dịch<br />
bao gồm cả thông tin về số lượng và doanh thu mới, vẫn bị tính vào nhóm hàng hóa cũ. Ngược lại,<br />
có rất nhiều hàng hóa cũ bị loại ra khỏi thị trường<br />
của từng loại mặt hàng, thông tin này cho phép<br />
tính toán được các chỉ số cao nhất. Số liệu thông nhưng vẫn chưa bị loại ra khỏi danh sách hoặc rổ<br />
tin từ điều tra tại địa bàn không bao gồm những hàng hóa trong CPI. Việc sử dụng dữ liệu giao dịch<br />
thông tin về số lượng và doanh thu của các mặt để tính toán và biên soạn CPI cho thấy khắc phục<br />
hàng, do đó yêu cầu phải sử dụng công thức tính rất tốt những nhược điểm này của phương pháp<br />
truyền thống để tính toán sự thay đổi, biến động về thu thập dữ liệu giá truyền thống do tính liên tục<br />
giá. Nếu những dữ liệu này kết hợp tại thời điểm cập nhật thông tin của dữ liệu giao dịch.<br />
quan sát hoặc thu thập thông tin thì việc cần làm (5) Đối với cộng đồng người sử dụng<br />
chỉ đơn giản là loại bỏ thông tin về số lượng của<br />
CPI được sử dụng cho nhiều mục đích, như:<br />
các mặt hàng thu thập được trong dữ liệu giao dịch<br />
Phân tích và xây dựng các chính sách kinh tế, làm<br />
và áp dụng các công thức truyền thống.<br />
cơ sở để tính và điều chỉnh tiền lương, lương hưu<br />
Xử lý vấn đề mẫu thu thập tại địa bàn, việc và căn cứ để xây dựng các hợp đồng cá nhân,...<br />
thu thập các thông tin để tính toán và biên soạn Do đó, người sử dụng CPI luôn quan tâm đến các<br />
CPI theo phương pháp điều tra tại điện bàn tương phương pháp tính toán và biên soạn CPI, đặc biệt<br />
đối tốn kém về kinh phí và nhân lực. Việc khai thác những thay đổi trong phương pháp tính. Việc áp<br />
dữ liệu giao dịch vào tính toán CPI sẽ giúp giảm dụng các phương pháp tính toán CPI phải có kế<br />
thiểu được các chi phí trên. Trong một số trường hoạch kỹ lưỡng và được thông báo rộng rãi. Các<br />
hợp, dữ liệu giao dịch có thể cung cấp thông tin tin cơ quan thống kê quốc gia phải có đủ thời gian để<br />
cậy và phù hợp với một số nhóm sản phẩm thì chuẩn bị, thử nghiệm và kiểm tra các phương<br />
chúng ta có thể giảm bớt hoặc thậm chí loại bỏ pháp mới và thông báo cho cộng đồng người sử<br />
những phương pháp thu thập số liệu thủ công đối dụng CPI về những thay đổi trong phương pháp<br />
với các mặt hàng này. Tuy nhiên, cần phải có một tính. Các cơ quan thống kê phải thông báo rộng<br />
phương pháp để đánh giá xem các thông tin về giá rãi và giải thích cho người sử dụng và các bên liên<br />
và chi tiêu dùng cho các mặt hàng từ hai nguồn dữ quan hiểu rõ phương pháp tính toán CPI để người<br />
liệu này tương đồng với nhau hay không. Từ đó sử dụng hiểu được giá trị và ý nghĩa thống kê đối<br />
mới có thể quyết định được duy trì hay giảm bớt với phương pháp mới; có được phản hồi của người<br />
các mẫu điều trong dàn mẫu của CPI để giảm sử dụng về phương pháp xây dựng chỉ số giá. Qua<br />
thiểu công tác thu thập thông tin tại địa bàn. đó, cộng đồng người sử dụng số liệu sẽ hiểu, hỗ<br />
Khắc phục sự thay đổi về chất lượng hàng trợ và ủng hộ việc ứng dụng khai thác dữ liệu giao<br />
hóa và hàng hóa thay thế, trên thị trường hàng tiêu dịch vào biên soạn CPI.<br />
<br />
<br />
SỐ 03 – 2017 35<br />
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch…<br />
<br />
3. Phương pháp tính toán chỉ số giá tiêu dùng phẩm phù hợp hoặc giống với các sản phẩm có<br />
sẵn trong danh mục hàng hóa để tính CPI. Ví dụ,<br />
Tổng quan về phương pháp tính toán CPI<br />
các hàng hóa bị trùng nhau do khác mã SKUs<br />
của ABS<br />
hoặc do mã SKUs của hàng bị loại không được<br />
Dữ liệu giao dịch thu thập được từ các nhà loại ra mà vẫn tính vào danh mục hàng hóa để tính<br />
bán lẻ chủ yếu, được ABS sử dụng để tính toán CPI. Nhìn chung, ABS xác định được chính xác<br />
CPI theo quý bắt đầu từ tháng 1 năm 2014. ABS 80% các mặt hàng trong mẫu hàng hóa để tính<br />
sử dụng phương pháp lấy mẫu trực tiếp thu được toán CPI.<br />
từ dữ liệu giao dịch để thay thế cho phương pháp<br />
Thành phần của rổ hàng hóa trong CPI<br />
lấy mẫu thu thập dữ liệu từ địa bàn. Khoảng<br />
phản ánh sự ưa thích tiêu dùng của hộ gia đình.<br />
20.000 mặt hàng được lấy giá từ dữ liệu giao dịch<br />
Dữ liệu giao dịch cung cấp số lượng hàng hóa đã<br />
và thay thế cho các nhóm trong rổ hàng hóa để<br />
được bán của doanh nghiệp theo thời gian thực.<br />
tính toán CPI.<br />
Thông tin về số lượng hàng đã bán của doanh<br />
Giá của mỗi mặt hàng từ dữ liệu giao dịch nghiệp trước đây không được ABS thu thập trong<br />
được tính bằng cách lấy tổng doanh thu của từng quá trình tính toán CPI. Tiếp cận được các thông<br />
mặt hàng chia cho tổng số lượng mặt hàng đó đã tin này, cho phép ABS nâng cao được tính phù<br />
được bán. Giá này được gọi là giá trị đơn vị (giá hợp/phổ biến của các sản phẩm để tính CPI. Mỗi<br />
đơn vị) của hàng hóa/sản phẩm và đại diện cho sản phẩm hoặc hàng hóa được lựa chọn trong<br />
giá thanh toán (giao dịch) của người mua trong 1 mẫu để tính CPI đều được kiểm tra và đánh giá rất<br />
tuần hoặc 1 tháng. Như vậy, giá đơn vị của hàng chặt chẽ theo từng quý về doanh thu và tính nhất<br />
hóa/sản phẩm là giá bình quân của hàng hóa quán. Với những hàng hóa này, nếu quá trình kiểm<br />
hoặc sản phẩm đó được người mua thanh toán tra phát hiện không đạt thì sẽ bị thay thế bằng các<br />
cho một thời kỳ (thường là tuần, tháng), không<br />
sản phẩm khác phù hợp từ một nhóm các hàng<br />
phải là giá tại thời điểm mua. Giá đơn vị hàng hóa<br />
tương tự.<br />
được thu thập từ một lượng lớn các cửa hàng kinh<br />
doanh ở từng tỉnh, thành phố. Giá đơn vị hàng hóa Tính giá đơn vị<br />
thu được từ dữ liệu giao dịch được sử dụng để tính Một trong những ưu điểm của việc sử dụng<br />
toán và biên soạn chỉ số CPI theo danh mục chi dữ liệu giao dịch là có nhiều lựa chọn về giá linh<br />
tiêu hàng hóa. hoạt hơn so với phương pháp truyền thống điều tra<br />
Chọn và duy trì mẫu đại diện từ dữ liệu tại địa bàn. Lý tưởng nhất là lấy tối đa số lượng dữ<br />
giao dịch liệu giao dịch để tính giá đơn vị. Tuy nhiên, trong<br />
thực tế phương pháp này có nhược điểm là cần<br />
Dữ liệu thu thập được từ bộ dữ liệu giao dịch<br />
phải có thời gian để tính toán.<br />
có chất lượng rất đa dạng và khác nhau tùy thuộc<br />
vào các nhà cung cấp dữ liệu. Các files dữ liệu có Đối với các sản phẩm trước đây được xác<br />
chất lượng kém (đặc biệt là danh sách các sản định giá theo quý. Giá đơn vị có thể được tính theo<br />
phẩm) rất khó xác định được chính xác các sản 5 cách sau:<br />
<br />
<br />
36 SỐ 03 – 2017<br />
Khai thác dữ liệu giao dịch… Thống kê Quốc tế và Hội nhập<br />
<br />
(1) Xác định giá đơn vị dựa trên tháng giữa thay đổi về lượng (như thay đổi về kích thước) và<br />
của quý (thời gian này giống như phương pháp thu thay đổi về mã hàng hóa; (3) Hàng hóa có sự thay<br />
thập số liệu tại địa bàn); đổi về lượng, nhưng không thay đổi mã hàng hóa.<br />
<br />
(2) Xác định giá đơn vị dựa trên 2 tháng đầu Trường hợp thứ nhất là đơn giản nhất, chỉ<br />
tiên của quý; cần tính giá hàng hóa của kỳ trước. Trường hợp<br />
thứ hai và ba, do có yếu tố điều chỉnh về chất<br />
(3) Xác định giá đơn vị dựa trên 2 tháng đầu<br />
lượng hàng hóa dẫn đến sự thay đổi về số lượng<br />
tiên của quý cộng với 2 tuần đầu của tháng thứ ba;<br />
hàng hóa. ABS đã nghiên cứu phương pháp kết<br />
(4) Xác định giá đơn vị dựa trên 3 tháng nối giữa những sản phẩm mới với sản phẩm bị<br />
của quý; biến mất trên thị trường. Ví dụ, có một lô hàng<br />
(5) Xác định giá đơn vị dựa trên mức di thay đổi về kích thước thường sẽ dẫn đến thay đổi<br />
chuyển giá trung bình của 3 tháng (tính giá trung về mã SKUs. Quy trình kết nối sẽ sử dụng các<br />
bình từ giá của tháng cuối cùng của quý trước và thông tin về mô tả sản phẩm như: Giá, doanh thu,<br />
giá của 2 tháng đầu tiên của quý hiện tại). thời gian (xuất hiện và biến mất trên thị trường) và<br />
số lượng hàng bán ra trên thị trường. Quy trình này<br />
Để đánh giá sự khác nhau giữa các phương<br />
sẽ giúp tìm được sản phẩm mới giống hoặc gần<br />
pháp tính giá, ABS quan sát mức độ chênh lệch<br />
giống với sản phẩm cũ (nhưng khác về mã sản<br />
tuyệt đối của giá đơn vị của 5 phương pháp trên.<br />
phẩm) và điều chỉnh sự thay đổi về số lượng.<br />
Độ lệch của phần lớn các sản phẩm là rất nhỏ và<br />
những thay đổi tương đối về giá của hàng hóa có Hàng hóa theo mùa vụ sẽ có sự biến động<br />
thể giải thích do chiết khấu sản phẩm. Cách thứ ba về số lượng hàng hóa trên thị trường tùy theo từng<br />
được lựa chọn vì điều này cho phép sử dụng tối đa mùa, vụ của hàng hóa đó trong năm. Những thay<br />
thời gian thu thập dữ liệu mà không làm ảnh hưởng đổi theo mùa vụ sẽ dẫn đến thay đổi về sản lượng<br />
đến thời gian biên soạn số liệu. và giá cả hàng hóa, do đó dẫn đến sự thay đổi về<br />
nhu cầu của người tiêu dùng trên thị thường. Đối<br />
Xử lý vấn đề thay đổi về chất lượng hàng<br />
với các loại hàng hóa này, ABS quyết định lấy<br />
hóa và sản phẩm mới xuất hiện<br />
doanh thu lớn nhất (hoặc thời điểm bán tốt nhất)<br />
Đối với phương pháp điều tra truyền thống, của hàng hóa của mỗi thời kỳ. Phương pháp này<br />
thu thập dữ liệu tại địa bàn, các điều tra viên có thể sẽ lựa chọn những hàng hóa đại diện nhất cho<br />
dễ dàng phát hiện được sự thay đổi của hàng hóa mỗi chu kỳ tính giá, đồng thời tránh được việc<br />
do mẫu điều tra nhỏ. Tuy nhiên, đối với hình thức chọn hàng thanh lý (hàng loại) hoặc hàng không<br />
thu thập thông tin sử dụng dữ liệu giao dịch, việc phù hợp, tùy theo ngưỡng doanh thu tối thiểu<br />
phát hiện ra những thay đổi của từng loại hàng hàng tháng.<br />
hóa trong quá trình tính toán và biên soạn CPI là<br />
Chọn giá cơ sở<br />
không khả thi, do dữ liệu rất lớn. Sự thay đổi về<br />
hàng hóa chủ yếu là do: (1) Hàng hóa mới được Khi chuyển phương pháp tính CPI từ thu<br />
đưa vào mẫu tính giá (xuất hiện hàng hóa mới thập thông tin tại địa bàn sang phương pháp tính<br />
thay thế cho hàng hóa cũ); (2) Hàng hóa có sự giá từ dữ liệu giao dịch sẽ có sự thay đổi về cơ sở<br />
<br />
SỐ 03 – 2017 37<br />
Thống kê Quốc tế và Hội nhập Khai thác dữ liệu giao dịch…<br />
<br />
tính giá và sẽ ảnh hưởng tới mức giá của mẫu 4. Kết luận và khuyến nghị<br />
điều tra. Sự biến động về giá trong tháng 3 năm<br />
Tiềm năng của dữ liệu giao dịch là nguồn<br />
2014 của hàng hóa trong dàn mẫu để tính CPI sẽ<br />
dữ liệu đầu vào quan trọng không thể bỏ qua đối<br />
được sử dụng để tính giá cơ sở khi áp dụng dữ<br />
với các cơ quan thống kê quốc gia, trong đó có<br />
liệu giao dịch vào tính CPI. Việc thay đổi cách tính<br />
Việt Nam. Nguồn dữ liệu này có thể thay thế cho<br />
giá từ phương pháp lấy giá tại thời điểm điều tra<br />
các nguồn dữ liệu truyền thống và có ảnh hưởng<br />
theo phương pháp truyền thống sang phương<br />
rất lớn đến phương thức sản xuất số liệu thống kê<br />
pháp tính giá đơn vị sản phẩm không ảnh hưởng<br />
nhà nước trong tương lai. Vì vậy, cần khuyến khích<br />
đến sự thay đổi kết quả tính toán giá hàng hóa.<br />
và tiếp tục nghiên cứu, triển khai các biện pháp để<br />
Những cơ hội khác khi sử dụng dữ liệu tăng cường khả năng tiếp cận, truy cập, sử dụng<br />
giao dịch và khai thác dữ liệu từ nguồn dữ liệu lớn nói chung<br />
và dữ liệu giao dịch nói riêng vào công tác sản<br />
Việc sử dụng dữ liệu giao dịch cho phép<br />
xuất số liệu thống kê một cách hiệu quả.<br />
ABS kiểm tra và tính toán CPI thường xuyên và kịp<br />
thời hơn trong tương lai. Những người sử dụng CPI Để thực hiện được vấn đề này, trước hết, cơ<br />
có thể yêu cầu tính toán và cung cấp CPI hàng quan thống kê cần thí điểm sử dụng dữ liệu giao<br />
tháng ở các vùng trong cả nước. Dữ liệu giao dịch dịch để tính toán và biên soạn CPI. Tuy nhiên, để<br />
sẵn có và cập nhật ở tần suất cao sẽ cho phép khai thác được hết tính phong phú và đa dạng của<br />
các cơ quan thống kê dễ dàng thực hiện được các cơ sở dữ liệu này đòi hỏi phải có sự thống nhất về<br />
mục tiêu tính toán CPI. Dữ liệu giao dịch cũng có phương pháp luận thống kê. Mặc dù việc nghiên<br />
thể giúp việc so sánh sự thay đổi về giá giữa các cứu phương pháp luận là rất quan trọng, nhưng đó<br />
khu vực thành thị và nông thôn, từ đó có thể cung mới là những thách thức ban đầu trong quá trình<br />
cấp thông tin quan trọng về việc CPI có cần thiết sử dụng và khai thác dữ liệu này. Việc trích xuất dữ<br />
phải tính toán trên phạm vi tất cả các khu vực trên liệu và thông tin từ dữ liệu giao dịch phục vụ cho<br />
cả nước hay không? Hay chỉ cần tính cho các khu sản xuất số liệu thống kê là việc làm không hề đơn<br />
vực thành thị? giản. Bài viết này đã đưa ra một số những khó<br />
khăn trong quá trình sử dụng dữ liệu giao dịch để<br />
ABS đã tiến hành các công việc để tiến<br />
biên soạn CPI, tuy nhiên, còn nhiều vấn đề khác<br />
hành ứng dụng rộng rãi dữ liệu giao dịch đối với<br />
vẫn chưa được giải quyết một cách thỏa đáng cần<br />
thống kê nhà nước. Các thông tin về doanh thu, số<br />
tiếp tục nghiên cứu thêm.<br />
lượng, giá cả hàng hóa là nguồn thông tin rất tiềm<br />
năng phục vụ cho các mục đích thống kê kinh tế, Đối với Thống kê Việt Nam, một trong<br />
như: Điều tra bán lẻ hàng hóa, đo lường và xác những nhiệm vụ trọng tâm của Tổng cục Thống kê<br />
định các yêu tố chi tiêu dùng cuối cùng của hộ gia trong giai đoạn 2016-2021 là: Ứng dụng phương<br />
đình trong tài khoản quốc gia, giúp hiệu chỉnh cơ pháp thống kê tiên tiến, công nghệ thông tin và<br />
sở dữ liệu điều tra chi tiêu hộ gia đình. truyền thông. Cụ thể là nghiên cứu, triển khai thí<br />
điểm sử dụng dữ liệu hành chính, dữ liệu lớn trong<br />
sản xuất số liệu thống kê chính thức ở một số lĩnh<br />
<br />
38 SỐ 03 – 2017<br />
Khai thác dữ liệu giao dịch… Thống kê Quốc tế và Hội nhập<br />
<br />
vực khả thi. Nghiên cứu, khai thác và sử dụng dữ phương pháp thống kê mới, về ứng dụng công<br />
liệu lớn nói chung, dữ liệu giao dịch nói riêng phục nghệ thông tin trong khai thác dữ liệu giao dịch để<br />
vụ sản xuất số liệu thống kê nhà nước một cách có sản xuất chỉ số giá tiêu dùng.<br />
hiệu quả, Tổng cục Thống kê cần thực hiện một số<br />
Tài liệu tham khảo:<br />
nhiệm vụ sau:<br />
1. Khanh Moore (2014), Dữ liệu giao dịch:<br />
Thứ nhất, Tiến hành nghiên cứu một cách<br />
Từ lý thuyết đến thực tế, Cơ quan Thống kê quốc<br />
hệ thống về Big data, trong đó có dữ liệu giao dịch.<br />
gia Úc;<br />
Trước hết, thí điểm khai thác nguồn dữ liệu giao<br />
dịch phục vụ sản xuất số liệu thống kê nhà nước 2. Tổng cục Thống kê (2017), Báo cáo<br />
trong các lĩnh vực như: Thống kê giá, thống kê những nhiệm vụ trọng tâm của Tổng cục Thống kê<br />
thương mại,... và đề xuất ưu tiên hỗ trợ giai đoạn 2017-2021;<br />
<br />
Thứ hai, Nghiên cứu kinh nghiệm quốc tế về 3. Tổ chức Lao động quốc tế, Quỹ Tiền tệ<br />
phương pháp khai thác nguồn dữ liệu giao dịch quốc tế, Tổ chức Hợp tác và Phát triển Kinh tế, Cơ<br />
phục vụ thống kê nhà nước; quan Thống kê châu Âu, Tổ chức Liên hợp quốc và<br />
Ngân hàng Thế giới (2004), Sổ tay chỉ số giá tiêu<br />
Thứ ba, Rà soát, đánh giá thực trạng các<br />
dùng: Từ lý thuyết đến thực tế;<br />
văn bản pháp lý về sản xuất số liệu thống kê nhà<br />
nước hiện nay; các văn bản pháp lý về ứng dụng, 4. Van der Grient, H.A. (2010), Phương<br />
khai thác dữ liệu giao dịch phục vụ sản xuất số liệu pháp phân tích sự thay đổi của chỉ số giá khi áp<br />
thống kê nhà nước; dụng công thức tính giá RYGEKS, Cơ quan Thống<br />
kê Hà Lan;<br />
Thứ tư, Xây dựng và trình cấp có thẩm<br />
quyền phê duyệt các văn bản pháp lý về khai thác 5. Van der Grient, H.A. và de Haan, J.<br />
nguồn dữ liệu giao dịch phục vụ sản xuất số liệu (2010), Sử dụng dữ liệu scanner từ siêu thị để tính<br />
thống kê nhà nước; toán chỉ số giá tiêu dùng, bài trình bày tại hội thảo<br />
về dữ liệu scanner tại Geneva, Thụy Sĩ, ngày 10<br />
Thứ năm, Khảo sát, đánh giá hạ tầng công<br />
tháng 5 năm 2010.<br />
nghệ thông tin và đào tạo nguồn nhân lực về<br />
<br />
------------------------------------------------------------<br />
Tiếp theo trang 48<br />
Các quy trình lưu trữ quá nhiều, cả những https://statswiki.unece.org/pages/viewpage.action<br />
tài liệu có thành phần thống kê, và những quy tắc ?pageId=129172757<br />
chung, có thể áp dụng cho bất kỳ loại tổ chức nào, Anh Tuấn (dịch)<br />
được đề cập trong GSBPM, nhưng không bao gồm<br />
Nguồn: https://statswiki.unece.org/pages/viewpage<br />
trong Sản xuất liên quan đến các bộ phận khác .action?pageId=129171865, truy cập ngày<br />
của GAMSO. 20/6/2017.<br />
Xem thêm Phụ lục tại địa chỉ:<br />
SỐ 03 – 2017 39<br />