<br />
KINH NGHIỆM VÀ THÁCH THỨC VỀ VIỆC SỬ DỤNG<br />
CÁC NGUỒN DỮ LIỆU MỚI Ở CƠ QUAN THỐNG KÊ HÀN QUỐC<br />
Tóm tắt:<br />
Bài viết trình bày chiến lược và các dự án về các nguồn dữ liệu mới ở Cơ quan Thống kê<br />
Hàn Quốc (KOSTAT) kể từ khi ra mắt một bộ phận mới về dữ liệu lớn vào tháng 10/2015.<br />
Chiến lược này tập trung vào liên kết dữ liệu giữa dữ liệu khu vực công (tức là dữ liệu của<br />
KOSTAT như dữ liệu hành chính và điều tra dân số) và dữ liệu lớn khu vực tư nhân (ví dụ: Dữ<br />
liệu điện thoại di động, dữ liệu mạng xã hội) cũng như tạo lập khung thể chế và hợp tác.<br />
KOSTAT đã thực hiện thành công các dự án như liên kết dữ liệu đánh giá tín dụng cá nhân<br />
cũng như dữ liệu điện thoại di động với dữ liệu của KOSTAT, tổ chức các diễn đàn dữ liệu lớn<br />
và thiết lập hợp tác quốc tế. Tuy nhiên, KOSTAT vẫn phải đối mặt với những thách thức cần<br />
khắc phục: Tiếp cận hạn chế thông tin cá nhân trong dữ liệu khu vực tư nhân do luật bảo vệ<br />
quyền riêng tư mạnh mẽ, thiếu sự hợp tác từ các nhà cung cấp dữ liệu khu vực tư nhân, thiếu<br />
chuyên gia như nhà khoa học dữ liệu, và chất lượng thấp của dữ liệu lớn khu vực tư nhân.<br />
Trước mọi thách thức, KOSTAT nên tiếp tục trao đổi nhiều hơn với các bên liên quan từ chính<br />
trị, các nhà hoạch định chính sách, doanh nghiệp, học thuật và các tổ chức phi chính phủ<br />
(NGO) để họ hiểu tầm quan trọng của các nguồn dữ liệu mới cho thống kê nhà nước, và nâng<br />
cao năng lực nội bộ trên cơ sở hạ tầng dữ liệu lớn. Ngoài ra, việc liên lạc với các tổ chức quốc<br />
tế để giải quyết các vấn đề dữ liệu lớn cũng quan trọng. Bài viết này được trình bày tại Hội<br />
nghị các nhà thống kê châu Âu 2019.<br />
I. Tổng quan 2. Gần đây, dữ liệu lớn đã nhận được sự<br />
1. Để thay đổi mô hình sản xuất thống quan tâm lớn như một nguồn dữ liệu mới<br />
kê từ điều tra truyền thống sang các phương trong thống kê cũng như trong kinh doanh.<br />
pháp thu thập dữ liệu mới, KOSTAT đã tiếp Về khía cạnh thống kê, dữ liệu lớn có thể<br />
tục nỗ lực sử dụng dữ liệu hành chính để cung cấp dữ liệu phù hợp và kịp thời hơn cho<br />
tổng hợp số liệu thống kê nhà nước. Do đó, việc ra quyết định thông qua việc liên kết các<br />
điều tra dân số dựa trên đăng ký đã được dữ liệu khác nhau và giảm chi phí sản xuất<br />
tiến hành lần đầu tiên vào năm 2015. 12 biến thống kê mà không cần điều tra để thu thập<br />
cơ bản của dân số như tên, tuổi, giới tính và dữ liệu. Về khía cạnh kinh doanh, dữ liệu lớn<br />
đặc điểm hộ gia đình đã được thu thập bằng tạo ra động cơ tăng trưởng mới như là cốt lõi<br />
cách sử dụng 24 nguồn dữ liệu hành chính từ của cuộc cách mạng công nghiệp lần thứ 4<br />
13 cơ quan chính phủ. 52 biến không thu như phân tích dữ liệu lớn cho các công nghệ<br />
được từ dữ liệu hành chính được thu thập vạn vật kết nối internet (IoT) và trí tuệ nhân<br />
bằng phương pháp điều tra mẫu - 20% tổng tạo (AI). Trong bối cảnh này, KOSTAT đã<br />
thể. Ngoài ra, KOSTAT đã thực hiện dự án cơ thành lập bộ phận mới về dữ liệu lớn vào<br />
sở dữ liệu đăng ký thống kê toàn diện để tháng 10/2015 và thực hiện nhiều dự án để<br />
thiết lập 4 cơ sở dữ liệu từng lĩnh vực sử phát triển số liệu thống kê nhà nước theo<br />
dụng dữ liệu hành chính: Dân số/hộ gia đình, chiến lược dữ liệu lớn mới. Tuy nhiên, vẫn<br />
nhà ở/xây dựng, kinh doanh/doanh nghiệp và còn nhiều hạn chế để sử dụng dữ liệu lớn<br />
hoạt động kinh tế. cho thống kê nhà nước. Do đó, bài viết này<br />
<br />
32<br />
<br />
nghiên cứu kinh nghiệm của KOSTAT trong điều tra (khoảng 42 loại) bao gồm cả điều tra<br />
việc tạo điều kiện sử dụng dữ liệu lớn và các dân số và kinh doanh. Để sử dụng và liên kết<br />
thách thức liên quan. dữ liệu hành chính với các dữ liệu khác, đăng<br />
3. Cấu trúc của bài viết như sau: Phần II ký thường trú (RRN) trong dữ liệu hành chính<br />
trình bày chiến lược của KOSTAT về dữ liệu được chuyển đổi thành mã định danh thống<br />
lớn và các dự án. Phần III trình bày những kê (SIN). Mã định danh này bị xóa khỏi cơ sở<br />
thách thức phải đối mặt trong việc sử dụng dữ liệu đăng ký của KOSTAT để bảo vệ<br />
dữ liệu lớn trong thống kê nhà nước. Phần quyền riêng tư. Vì mỗi người có SIN riêng, do<br />
cuối cùng trình bày tóm tắt và kết luận. đó, dữ liệu trong cơ sở dữ liệu đăng ký có<br />
thể được sử dụng để tạo dữ liệu mới hoặc cải<br />
II. Kinh nghiệm của KOSTAT về<br />
thiện số liệu thống kê nhà nước thông qua<br />
nguồn dữ liệu mới<br />
liên kết với dữ liệu lớn của khu vực tư nhân<br />
A. Chiến lược về dữ liệu lớn<br />
như dữ liệu điện thoại di động, dữ liệu thẻ tín<br />
4. Mặc dù không có định nghĩa thống dụng, dữ liệu nợ cá nhân,…<br />
nhất về dữ liệu lớn, nhưng nó thường đề cập<br />
7. Tuy nhiên, không dễ để có được dữ<br />
đến các nguồn dữ liệu được mô tả là có khối<br />
liệu của khu vực tư nhân vì các công ty tư<br />
lượng, vận tốc và sự đa dạng, đòi hỏi các<br />
nhân không bắt buộc phải cung cấp dữ liệu<br />
hình thức xử lý hiệu quả về chi phí, sáng tạo<br />
cho KOSTAT cho các mục đích khác ngoài<br />
để tăng cường nhận thức và ra quyết định<br />
việc sản xuất số liệu thống kê nhà nước.<br />
(UNECE, 2013).<br />
Trong trường hợp sản xuất số liệu thống kê<br />
5. KOSTAT đã ra mắt một bộ phận mới nhà nước, KOSTAT có thể lấy dữ liệu của khu<br />
về dữ liệu lớn vào tháng 10/2015 để tạo điều vực tư nhân theo Luật Thống kê. Vì các<br />
kiện sử dụng các nguồn dữ liệu mới, tức là nghiên cứu thí điểm trong các dự án dữ liệu<br />
dữ liệu lớn cho thống kê nhà nước. Sau khi lớn không nhằm mục đích đưa ra số liệu<br />
xác định dữ liệu lớn là “thông tin thống kê”, thống kê nhà nước được phê duyệt theo quy<br />
liên quan đến dữ liệu hữu ích thông qua liên trình chính thức, rất khó để có được dữ liệu<br />
kết và phân tích dữ liệu, KOSTAT đã lập từ khu vực tư nhân.<br />
chiến lược dữ liệu lớn bao gồm hai cách tiếp<br />
8. Về vấn đề này, KOSTAT đã thiết lập<br />
cận: Tạo các thông tin thống kê khác nhau<br />
một khung hợp tác thông qua việc ký một<br />
và tạo lập khung thể chế và hợp tác. Chiến<br />
biên bản ghi nhớ (MOU) với các nhà cung<br />
lược gồm 4 nhiệm vụ: (1) Liên kết dữ liệu lớn<br />
cấp dữ liệu khu vực tư nhân và thực hiện<br />
của khu vực công và tư nhân; (2) Cung cấp<br />
các dự án liên kết dữ liệu cùng với họ. Cách<br />
các số liệu thống kê mới và bổ sung các số<br />
tiếp cận này có thể có lợi cho cả hai bên vì<br />
liệu thống kê hiện có; (3) Xây dựng khung<br />
khu vực tư nhân có thể đóng góp cho lợi ích<br />
pháp lý và thể chế; (4) Tăng cường hợp tác<br />
công và cải thiện phương pháp tổng hợp dữ<br />
bên ngoài. Theo chiến lược này, nhiều dự án<br />
liệu lớn của họ. Để bảo vệ quyền riêng tư<br />
đã được thực hiện.<br />
trong quá trình liên kết dữ liệu, một phương<br />
B. Các dự án pháp khử nhận dạng thông tin cá nhân đã<br />
Liên kết dữ liệu lớn của khu vực được phát triển. Mô-đun khử nhận dạng<br />
công và tư nhân (DI) tương tự được sử dụng tại KOSTAT để<br />
6. KOSTAT có rất nhiều dữ liệu hành tạo ra SIN được áp dụng cho dữ liệu lớn của<br />
chính (khoảng 89 loại) được thu thập từ các khu vực tư nhân để tạo cùng khóa liên kết<br />
cơ quan chính phủ khác cũng như dữ liệu (Hình 1).<br />
<br />
33<br />
<br />
Hình1: Quá trình khử nhận dạng<br />
<br />
Phương pháp biến đổi đặc<br />
Mã hóa mô-đun DI biệt Cube one + KOSTAT Làm khớp bảng A<br />
<br />
<br />
KOSTAT Danh sách mẫu (DI) Mã hóa chính Mã hóa phụ<br />
(64 chữ số) (10 chữ số) (10 chữ số)<br />
<br />
Mô- Làm khớp bảng B<br />
Danh<br />
đun<br />
sách<br />
DI đã<br />
đã<br />
cung<br />
cung Liên kết dữ liệu<br />
cấp<br />
cấp trong máy chủ<br />
<br />
Tổ chức Tất cả các dữ Danh sách mẫu Vùng giới hạn của<br />
tư nhân liệu mã hóa (DI) tải máy chủ KOSTAT<br />
<br />
<br />
Mã hóa mô-đun DI Trích xuất danh sách mẫu<br />
<br />
<br />
9. Các dự án liên kết bao gồm xây dựng đầu tiên, cơ sở dữ liệu nợ của 5.000 hộ mới<br />
số liệu thống kê nợ hộ gia đình sử dụng dữ cưới (được xác định là chưa đủ 5 năm sau<br />
liệu đánh giá tín dụng cá nhân từ Cục Tín khi kết hôn) từ tháng 10/2010 đến tháng<br />
dụng Hàn Quốc (KCB) và đo lường mới về 11/2014 được xây dựng và phân tích thông<br />
thời gian nhàn rỗi và làm việc thông qua sử qua liên kết dữ liệu KCB với dữ liệu KOSTAT.<br />
dụng dữ liệu định vị điện thoại di động từ 11. Trong số các nguồn dữ liệu lớn khác,<br />
Cục Viễn thông Hàn Quốc (KT). dữ liệu điện thoại di động có được sự quan<br />
10. Mục tiêu của dự án về nợ hộ gia đình tâm cao từ cộng đồng thống kê vì tỷ lệ thâm<br />
là cung cấp số liệu thống kê nợ chính xác nhập cao và đặc tính thời gian thực của<br />
theo các đặc điểm của hộ gia đình (ví dụ: Hộ chúng. Sự sẵn có của chúng ở các khu vực<br />
gia đình độc thân, tự làm chủ,…) cho các nhà địa lý nhỏ cùng với tính kịp thời tạo cơ hội<br />
hoạch định chính sách do nợ hộ gia đình ở thu thập các số liệu thống kê phân tách về<br />
Hàn Quốc đang gia tăng. Có số liệu thống kê dòng dân số, du lịch, quản lý thảm họa,...<br />
nợ hộ gia đình vĩ mô và vi mô ở Hàn Quốc. Trong bối cảnh này, KOSTAT đã triển khai<br />
Các số liệu thống kê vĩ mô được thu thập từ một dự án điện thoại di động để kiểm tra khả<br />
ngành tài chính phản ánh toàn bộ khối lượng năng và tính hữu ích của việc sử dụng dữ liệu<br />
nợ hộ gia đình nhưng chúng không cung cấp điện thoại di động để lập các số liệu thống kê<br />
thông tin về các loại hộ gia đình khác nhau. mới đo lường chất lượng cuộc sống như thời<br />
Mặt khác, các số liệu thống kê vi mô từ khảo gian nhãn rỗi, thời gian đi lại, nghèo thời gian<br />
sát hộ gia đình cung cấp tình hình nợ theo thông qua liên kết dữ liệu KOSTAT và dữ liệu<br />
các đặc điểm của hộ gia đình nhưng ước điện thoại di động. Có 3 nhà khai thác mạng<br />
lượng thấp tổng số nợ. Do đó, rất hữu ích khi di động (MNO) tại Hàn Quốc là SKT, KT và<br />
kết hợp dữ liệu nợ hộ gia đình vĩ mô với dữ LGU+. Trong số đó, KT có thị phần khoảng<br />
liệu của KOSTAT, chẳng hạn như điều tra 31% đã tham gia dự án KOSTAT. Trong dự<br />
dân số để lấy thông tin hộ gia đình. Bước án này, chỉ có hai quận ở Seoul (là Gangnam-<br />
<br />
<br />
34<br />
<br />
gu và Dobong-gu) theo Tổng sản phẩm nội 14. Ngoài ra, chỉ số kinh tế truyền thông<br />
địa khu vực được chọn để so sánh mức độ xã hội được tính bằng dữ liệu truyền thông<br />
hạnh phúc giữa các khu vực giàu và nghèo. xã hội (ví dụ: Tin tức, blog, bảng thông báo<br />
Do khối lượng lớn dữ liệu điện thoại di động, và Twitter) liên quan đến tình hình kinh tế<br />
dữ liệu KOSTAT đã được lưu trữ trong hệ trong bốn lĩnh vực: Điều kiện sống, tình hình<br />
thống phân tích dữ liệu lớn KT sau khi được kinh tế, thu nhập hộ gia đình và chi tiêu tiêu<br />
khử nhận dạng và liên kết với dữ liệu điện dùng. Sau khi thu thập tài liệu có chứa các từ<br />
thoại di động. Các bộ dữ liệu được liên kết đã khóa (138) từ các blog, quán cà phê<br />
được nhân viên KOSTAT truy cập và phân Internet, tin tức và Twitter bằng cách thu<br />
tích chỉ tại một địa điểm được chỉ định trong thập dữ liệu trên web hàng ngày, đếm các tài<br />
văn phòng KT. Các kết quả ước lượng không liệu tích cực và tiêu cực, và tính toán các chỉ<br />
đại diện cho toàn bộ dân số ở hai quận vì dữ số tiêu chuẩn cho 4 tên miền. Cuối cùng, một<br />
liệu KT chỉ chiếm khoảng 30% tổng dân số. chỉ số tổng hợp được đưa ra.<br />
Do đó, các bảng tổng hợp được tổng hợp Xây dựng khung pháp lý và thể chế<br />
bằng phương pháp “Trọng số theo hạng”,<br />
15. KOSTAT liên tục cố gắng sửa đổi<br />
xem xét bốn biến số (vùng, giới tính, tuổi,<br />
“Luật Thống kê” để có cơ sở pháp lý truy cập<br />
tình trạng hôn nhân, loại nhà) thông qua sắp<br />
dữ liệu lớn ở của khu vực tư nhân. Luật hiện<br />
đặt dữ liệu KT với dân số dựa trên đăng ký.<br />
hành cho phép cơ quan thống kê thu thập dữ<br />
Cung cấp các số liệu thống kê mới liệu của khu vực tư nhân chỉ để sản xuất số<br />
và bổ sung các số liệu thống kê hiện có liệu thống kê nhà nước. Do đó, việc sửa đổi<br />
12. Các nhà hoạch định chính sách có bao gồm quyền hợp pháp để thu thập dữ liệu<br />
nhu cầu cao hơn về dữ liệu kinh tế kịp thời vì từ khu vực tư nhân trong trường hợp thí<br />
hầu hết các dữ liệu kinh tế đang được phát điểm các dự án dữ liệu lớn để kiểm tra khả<br />
hành hàng tháng hoặc hàng quý. Để đáp ứng năng tổng hợp số liệu thống kê nhà nước.<br />
nhu cầu, KOSTAT đã phát triển 14 “chỉ số KOSTAT đã xây dựng cơ sở hạ tầng dữ<br />
kinh tế kịp thời” sử dụng nhiều nguồn dữ liệu liệu mở và chia sẻ được gọi là “Trung tâm dữ<br />
khác nhau: Chỉ số giá, phí điện quá hạn… liệu lớn thống kê (SBDC)”, với mục đích hỗ<br />
Các chỉ số được phát hành mỗi tuần. trợ liên kết dữ liệu lớn khu vực công và tư<br />
13. Để bổ sung số liệu thống kê hiện có, nhân, và cung cấp dịch vụ khử nhận dạng.<br />
các chỉ số giá trực tuyến hàng ngày và hàng Chức năng chính là thực hiện kiểm tra chất<br />
tháng dựa trên 284 mặt hàng sản phẩm được lượng dữ liệu hành chính; để cung cấp cơ sở<br />
tính từ dữ liệu giá từ 6 trang web trung tâm dữ liệu đăng ký theo đối tượng (dân số, nhà<br />
mua sắm trực tuyến không bao gồm giá dịch ở, hoạt động kinh tế,…) và cơ sở dữ liệu điều<br />
vụ. Tuy nhiên, có một số hạn chế: i) Không tra thống kê; và để cung cấp các dịch vụ liên<br />
thể thu thập dữ liệu khi liên kết web bị thay kết theo yêu cầu như khử nhận dạng. Khách<br />
đổi do sửa đổi trang web, hoặc danh mục bị hàng có thể liên kết dữ liệu của họ với dữ<br />
thay đổi mà không có thông báo, ii) Cắt bỏ liệu KOSTAT ở một nơi được chỉ định, và trích<br />
tập hợp trong trường hợp sản phẩm theo xuất dữ liệu dưới dạng bảng tổng hợp. Hiện<br />
mùa, iii) Không thực hiện điều chỉnh chất tại, trung tâm được đặt tại 3 thành phố:<br />
lượng như đối với CPI do đó giá điện tử, Seoul, Busan và Daejeon. Quá trình xử lý dữ<br />
quần áo,... giảm. liệu được trình bày trong Hình 2.<br />
<br />
<br />
<br />
35<br />
<br />
Hình 2: Lưu đồ xử lý dữ liệu SBDC<br />
Chia sẻ Dữ liệu<br />
<br />
Dịch vụ CSDL tích<br />
Xử lý khử nhận dạng cụ thể thống hợp<br />
kê (tạo khóa liên kết)<br />
Liên kết và hợp nhất<br />
Cung cấp dữ liệu đã tinh chỉnh dữ liệu<br />
chẳng hạn như chuẩn hóa dữ liệu,<br />
kiểm tra chất lượng, v.v.<br />
Cung cấp mạng truy cập hạn chế<br />
Cung cấp CSDL theo đề tài và<br />
chủ đề<br />
Tạo và phân tích dữ liệu thông<br />
qua ủy quyền truy cập<br />
<br />
Xuất dữ liệu dưới dạng một bảng<br />
tổng hợp<br />
CSDL thống kê CSDL liên kết CSDL hành chính Dữ liệu riêng tư<br />
<br />
<br />
<br />
việc chọn lọc dữ liệu lớn và xử lý dữ liệu, iv)<br />
Tăng cường hợp tác bên ngoài Học trực tuyến, v) Trao đổi nhân viên, vi) Chia<br />
sẻ các kinh nghiệm trong liên kết dữ liệu lớn<br />
16. Trao đổi và thảo luận với các bên liên<br />
khu vực công và tư nhân, vii) Dữ liệu lớn và<br />
quan từ giới học thuật, doanh nghiệp và chính<br />
quyền riêng tư.<br />
phủ là rất quan trọng để giải quyết các vấn đề<br />
liên quan đến việc tạo điều kiện sử dụng dữ III. Các thách thức<br />
liệu lớn. Trong bối cảnh này, KOSTAT tổ chức 18. Bất chấp nhiều câu chuyện thành công<br />
“Diễn đàn Thống kê - chiến lược” hàng quý kể trong việc tạo điều kiện sử dụng các nguồn dữ<br />
từ năm 2015. Ngoài ra, KOSTAT đã đồng tổ liệu mới, KOSTAT vẫn phải đối mặt với nhiều<br />
chức một “Diễn đàn dữ liệu lớn” với 2 Bộ liên thách thức, cả bên trong và bên ngoài.<br />
quan đến dữ liệu lớn: Bộ Nội An và Bộ Khoa<br />
19. Thứ nhất, vẫn khó tiếp cận thông tin<br />
học và công nghệ thông tin và truyền thông.<br />
cá nhân ở khu vực tư nhân do Luật bảo vệ<br />
17. KOSTAT cũng đang tham gia hợp tác quyền riêng tư mạnh mẽ ở Hàn Quốc. Luật<br />
quốc tế liên quan đến dữ liệu lớn: Nhóm làm Bảo vệ thông tin cá nhân (PPIA) là Luật Bảo<br />
việc toàn cầu của Liên hợp quốc về dữ liệu lớn vệ dữ liệu chung chi phối việc thu thập và xử<br />
và với Cơ quan Thống kê Hà Lan. Cơ quan lý dữ liệu cá nhân. Có các luật cụ thể theo<br />
Thống kê Hà Lan (CBS) và KOSTAT đã xây ngành: Luật Mạng, Luật Thông tin tín dụng và<br />
dựng hợp tác song phương kể từ khi thỏa Luật Thông tin địa điểm. Trong PPIA, định<br />
thuận về dữ liệu lớn được ký kết trong Hội nghĩa về dữ liệu cá nhân quá rộng. Việc sử<br />
nghị thượng đỉnh thương mại Hà Lan- Hàn dụng dữ liệu cá nhân cần có sự đồng ý trước,<br />
Quốc vào tháng 9/2016. Trong thỏa thuận đó, tức là phương pháp chọn tham gia. Dữ liệu cá<br />
các hoạt động chung trong 7 lĩnh vực: i) Thu nhân được định nghĩa là dữ liệu về một người<br />
thập các nguồn dữ liệu lớn, ii) Phát triển các sống có thể xác định cá nhân đó cũng như dữ<br />
kỹ thuật để khám phá dữ liệu lớn, chẳng hạn liệu có thể xác định nhận dạng bằng cách dễ<br />
như các kỹ thuật dựa trên trí tuệ nhân tạo dàng kết hợp với các thông tin khác. Do đó,<br />
hoặc kỹ thuật khai thác dữ liệu và văn bản, iii) luật này gây khó khăn cho việc sử dụng dữ<br />
Chuyên môn về phương pháp/phân tích trong liệu lớn để liên kết sử dụng thông tin cá nhân.<br />
<br />
<br />
36<br />
<br />
20. Thứ hai, các nhà cung cấp dữ liệu liệu lớn cho thống kê nhà nước tập trung vào<br />
khu vực tư nhân có nhận thức thấp về hợp tác liên kết dữ liệu của khu vực công (ví dụ: Dữ<br />
dữ liệu. Họ không sẵn lòng chia sẻ dữ liệu do liệu của KOSTAT như dữ liệu hành chính và<br />
Luật bảo vệ quyền riêng tư mạnh mẽ cũng điều tra dân số) và dữ liệu lớn khu vực tư<br />
như cách tiếp cận thụ động của họ về chia sẻ nhân (ví dụ: Dữ liệu điện thoại di động, dữ<br />
dữ liệu. liệu truyền thông xã hội). Ngoài ra, KOSTAT<br />
đã nỗ lực trong việc xây dựng khung pháp lý<br />
21. Thứ ba, dữ liệu lớn có thể có chất<br />
và thể chế để hợp tác với các bên liên quan<br />
lượng thấp vì chúng không được thu thập<br />
trong nước và quốc tế.<br />
bằng các phương pháp điều tra truyền thống<br />
theo các hướng dẫn thống kê nhà nước hoặc 24. KOSTAT đã thực hiện thành công các<br />
khung chất lượng mà bằng các phương pháp dự án như liên kết dữ liệu đánh giá tín dụng<br />
dựa trên công nghệ thông tin như kiểm duyệt cá nhân cũng như dữ liệu điện thoại di động<br />
từ điện thoại di động, nhà cung cấp dữ liệu,… với dữ liệu KOSTAT, phát triển khuôn khổ hợp<br />
Do đó, thiếu các yếu tố chất lượng như: Tính tác như tổ chức các diễn đàn dữ liệu lớn để<br />
đại diện, tính nhất quán và tính đầy đủ. tăng cường liên lạc với các bên liên quan, và<br />
thiết lập hợp tác quốc tế với Liên hợp quốc và<br />
22. Cuối cùng, thiếu các chuyên gia như<br />
Hà Lan.<br />
các nhà khoa học dữ liệu và cơ sở hạ tầng<br />
công nghệ thông tin để xử lý dữ liệu lớn trong Tuy nhiên, KOSTAT vẫn phải đối mặt với<br />
KOSTAT. Để phân tích dữ liệu lớn đòi hỏi các những thách thức sau: Tiếp cận hạn chế<br />
kỹ năng và cơ sở hạ tầng công nghệ thông tin thông tin cá nhân trong dữ liệu khu vực tư<br />
khác so với phân tích thống kê và xử lý dữ liệu nhân do Luật bảo vệ quyền riêng tư mạnh<br />
truyền thống. Các nhà khoa học dữ liệu cần có mẽ, thiếu sự hợp tác từ các nhà cung cấp dữ<br />
kiến thức về nhiều lĩnh vực như: Hadoop, liệu khu vực tư nhân, thiếu chuyên gia như<br />
NoQuery, trực quan hóa dữ liệu, học máy và nhà khoa học dữ liệu, và chất lượng dữ liệu<br />
khai thác văn bản,… KOSTAT có khả năng hạn lớn khu vực tư nhân con thấp. Trước tất cả<br />
chế tuyển dụng nhân viên mới có kỹ năng các thách thức trên, KOSTAT dự định trao đổi<br />
phân tích cao theo hệ thống tuyển dụng của nhiều hơn với các bên liên quan từ chính trị,<br />
chính phủ hiện tại, tức là hạn chế về ngân các nhà hoạch định chính sách, doanh nghiệp,<br />
sách và quy trình tuyển dụng không linh hoạt. tổ chức học thuật và các tổ chức phi chính<br />
Đào tạo nhân viên hiện tại để phát triển kỹ phủ (NGO) để giải thích tầm quan trọng của<br />
năng của họ mất nhiều thời gian. Về cơ sở hạ các nguồn dữ liệu mới cho thống kê nhà nước,<br />
tầng công nghệ thông tin, yêu cầu các khoản và nâng cao năng lực nội bộ trên cơ sở hạ<br />
đầu tư lớn vào kho dữ liệu và phần mềm để tầng dữ liệu lớn. Ngoài ra, việc liên lạc với các<br />
thu thập dữ liệu, lưu trữ dữ liệu, phân tích dữ tổ chức quốc tế để giải quyết các vấn đề dữ<br />
liệu và trực quan hóa dữ liệu. Do đó, KOSTAT liệu lớn cũng quan trọng.<br />
không thể xây dựng hệ thống phân tích dữ Thái Học (dịch)<br />
liệu lớn của riêng mình do ngân sách hạn chế. Nguồn:<br />
IV. Kết luận http://www.unece.org/fileadmin/DAM/stats/do<br />
cuments/ece/ces/2019/CES_30_Sem1_Ses1_K<br />
23. Theo chiến lược dữ liệu lớn từ năm<br />
oreaE.pdf<br />
2016, KOSTAT đã triển khai các dự án để<br />
kiểm tra khả năng tạo điều kiện sử dụng dữ<br />
<br />
<br />
37<br />