intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Kinh nghiệm và thách thức về việc sử dụng các nguồn dữ liệu mới ở Cơ quan Thống kê Hàn Quốc

Chia sẻ: Dai Ca | Ngày: | Loại File: PDF | Số trang:6

25
lượt xem
2
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết trình bày chiến lược và các dự án về các nguồn dữ liệu mới ở Cơ quan Thống kê Hàn Quốc (KOSTAT) kể từ khi ra mắt một bộ phận mới về dữ liệu lớn vào tháng 10/2015. Chiến lược này tập trung vào liên kết dữ liệu giữa dữ liệu khu vực công (tức là dữ liệu của KOSTAT như dữ liệu hành chính và điều tra dân số) và dữ liệu lớn khu vực tư nhân (ví dụ: Dữ liệu điện thoại di động, dữ liệu mạng xã hội) cũng như tạo lập khung thể chế và hợp tác.

Chủ đề:
Lưu

Nội dung Text: Kinh nghiệm và thách thức về việc sử dụng các nguồn dữ liệu mới ở Cơ quan Thống kê Hàn Quốc

<br /> KINH NGHIỆM VÀ THÁCH THỨC VỀ VIỆC SỬ DỤNG<br /> CÁC NGUỒN DỮ LIỆU MỚI Ở CƠ QUAN THỐNG KÊ HÀN QUỐC<br /> Tóm tắt:<br /> Bài viết trình bày chiến lược và các dự án về các nguồn dữ liệu mới ở Cơ quan Thống kê<br /> Hàn Quốc (KOSTAT) kể từ khi ra mắt một bộ phận mới về dữ liệu lớn vào tháng 10/2015.<br /> Chiến lược này tập trung vào liên kết dữ liệu giữa dữ liệu khu vực công (tức là dữ liệu của<br /> KOSTAT như dữ liệu hành chính và điều tra dân số) và dữ liệu lớn khu vực tư nhân (ví dụ: Dữ<br /> liệu điện thoại di động, dữ liệu mạng xã hội) cũng như tạo lập khung thể chế và hợp tác.<br /> KOSTAT đã thực hiện thành công các dự án như liên kết dữ liệu đánh giá tín dụng cá nhân<br /> cũng như dữ liệu điện thoại di động với dữ liệu của KOSTAT, tổ chức các diễn đàn dữ liệu lớn<br /> và thiết lập hợp tác quốc tế. Tuy nhiên, KOSTAT vẫn phải đối mặt với những thách thức cần<br /> khắc phục: Tiếp cận hạn chế thông tin cá nhân trong dữ liệu khu vực tư nhân do luật bảo vệ<br /> quyền riêng tư mạnh mẽ, thiếu sự hợp tác từ các nhà cung cấp dữ liệu khu vực tư nhân, thiếu<br /> chuyên gia như nhà khoa học dữ liệu, và chất lượng thấp của dữ liệu lớn khu vực tư nhân.<br /> Trước mọi thách thức, KOSTAT nên tiếp tục trao đổi nhiều hơn với các bên liên quan từ chính<br /> trị, các nhà hoạch định chính sách, doanh nghiệp, học thuật và các tổ chức phi chính phủ<br /> (NGO) để họ hiểu tầm quan trọng của các nguồn dữ liệu mới cho thống kê nhà nước, và nâng<br /> cao năng lực nội bộ trên cơ sở hạ tầng dữ liệu lớn. Ngoài ra, việc liên lạc với các tổ chức quốc<br /> tế để giải quyết các vấn đề dữ liệu lớn cũng quan trọng. Bài viết này được trình bày tại Hội<br /> nghị các nhà thống kê châu Âu 2019.<br /> I. Tổng quan 2. Gần đây, dữ liệu lớn đã nhận được sự<br /> 1. Để thay đổi mô hình sản xuất thống quan tâm lớn như một nguồn dữ liệu mới<br /> kê từ điều tra truyền thống sang các phương trong thống kê cũng như trong kinh doanh.<br /> pháp thu thập dữ liệu mới, KOSTAT đã tiếp Về khía cạnh thống kê, dữ liệu lớn có thể<br /> tục nỗ lực sử dụng dữ liệu hành chính để cung cấp dữ liệu phù hợp và kịp thời hơn cho<br /> tổng hợp số liệu thống kê nhà nước. Do đó, việc ra quyết định thông qua việc liên kết các<br /> điều tra dân số dựa trên đăng ký đã được dữ liệu khác nhau và giảm chi phí sản xuất<br /> tiến hành lần đầu tiên vào năm 2015. 12 biến thống kê mà không cần điều tra để thu thập<br /> cơ bản của dân số như tên, tuổi, giới tính và dữ liệu. Về khía cạnh kinh doanh, dữ liệu lớn<br /> đặc điểm hộ gia đình đã được thu thập bằng tạo ra động cơ tăng trưởng mới như là cốt lõi<br /> cách sử dụng 24 nguồn dữ liệu hành chính từ của cuộc cách mạng công nghiệp lần thứ 4<br /> 13 cơ quan chính phủ. 52 biến không thu như phân tích dữ liệu lớn cho các công nghệ<br /> được từ dữ liệu hành chính được thu thập vạn vật kết nối internet (IoT) và trí tuệ nhân<br /> bằng phương pháp điều tra mẫu - 20% tổng tạo (AI). Trong bối cảnh này, KOSTAT đã<br /> thể. Ngoài ra, KOSTAT đã thực hiện dự án cơ thành lập bộ phận mới về dữ liệu lớn vào<br /> sở dữ liệu đăng ký thống kê toàn diện để tháng 10/2015 và thực hiện nhiều dự án để<br /> thiết lập 4 cơ sở dữ liệu từng lĩnh vực sử phát triển số liệu thống kê nhà nước theo<br /> dụng dữ liệu hành chính: Dân số/hộ gia đình, chiến lược dữ liệu lớn mới. Tuy nhiên, vẫn<br /> nhà ở/xây dựng, kinh doanh/doanh nghiệp và còn nhiều hạn chế để sử dụng dữ liệu lớn<br /> hoạt động kinh tế. cho thống kê nhà nước. Do đó, bài viết này<br /> <br /> 32<br /> <br /> nghiên cứu kinh nghiệm của KOSTAT trong điều tra (khoảng 42 loại) bao gồm cả điều tra<br /> việc tạo điều kiện sử dụng dữ liệu lớn và các dân số và kinh doanh. Để sử dụng và liên kết<br /> thách thức liên quan. dữ liệu hành chính với các dữ liệu khác, đăng<br /> 3. Cấu trúc của bài viết như sau: Phần II ký thường trú (RRN) trong dữ liệu hành chính<br /> trình bày chiến lược của KOSTAT về dữ liệu được chuyển đổi thành mã định danh thống<br /> lớn và các dự án. Phần III trình bày những kê (SIN). Mã định danh này bị xóa khỏi cơ sở<br /> thách thức phải đối mặt trong việc sử dụng dữ liệu đăng ký của KOSTAT để bảo vệ<br /> dữ liệu lớn trong thống kê nhà nước. Phần quyền riêng tư. Vì mỗi người có SIN riêng, do<br /> cuối cùng trình bày tóm tắt và kết luận. đó, dữ liệu trong cơ sở dữ liệu đăng ký có<br /> thể được sử dụng để tạo dữ liệu mới hoặc cải<br /> II. Kinh nghiệm của KOSTAT về<br /> thiện số liệu thống kê nhà nước thông qua<br /> nguồn dữ liệu mới<br /> liên kết với dữ liệu lớn của khu vực tư nhân<br /> A. Chiến lược về dữ liệu lớn<br /> như dữ liệu điện thoại di động, dữ liệu thẻ tín<br /> 4. Mặc dù không có định nghĩa thống dụng, dữ liệu nợ cá nhân,…<br /> nhất về dữ liệu lớn, nhưng nó thường đề cập<br /> 7. Tuy nhiên, không dễ để có được dữ<br /> đến các nguồn dữ liệu được mô tả là có khối<br /> liệu của khu vực tư nhân vì các công ty tư<br /> lượng, vận tốc và sự đa dạng, đòi hỏi các<br /> nhân không bắt buộc phải cung cấp dữ liệu<br /> hình thức xử lý hiệu quả về chi phí, sáng tạo<br /> cho KOSTAT cho các mục đích khác ngoài<br /> để tăng cường nhận thức và ra quyết định<br /> việc sản xuất số liệu thống kê nhà nước.<br /> (UNECE, 2013).<br /> Trong trường hợp sản xuất số liệu thống kê<br /> 5. KOSTAT đã ra mắt một bộ phận mới nhà nước, KOSTAT có thể lấy dữ liệu của khu<br /> về dữ liệu lớn vào tháng 10/2015 để tạo điều vực tư nhân theo Luật Thống kê. Vì các<br /> kiện sử dụng các nguồn dữ liệu mới, tức là nghiên cứu thí điểm trong các dự án dữ liệu<br /> dữ liệu lớn cho thống kê nhà nước. Sau khi lớn không nhằm mục đích đưa ra số liệu<br /> xác định dữ liệu lớn là “thông tin thống kê”, thống kê nhà nước được phê duyệt theo quy<br /> liên quan đến dữ liệu hữu ích thông qua liên trình chính thức, rất khó để có được dữ liệu<br /> kết và phân tích dữ liệu, KOSTAT đã lập từ khu vực tư nhân.<br /> chiến lược dữ liệu lớn bao gồm hai cách tiếp<br /> 8. Về vấn đề này, KOSTAT đã thiết lập<br /> cận: Tạo các thông tin thống kê khác nhau<br /> một khung hợp tác thông qua việc ký một<br /> và tạo lập khung thể chế và hợp tác. Chiến<br /> biên bản ghi nhớ (MOU) với các nhà cung<br /> lược gồm 4 nhiệm vụ: (1) Liên kết dữ liệu lớn<br /> cấp dữ liệu khu vực tư nhân và thực hiện<br /> của khu vực công và tư nhân; (2) Cung cấp<br /> các dự án liên kết dữ liệu cùng với họ. Cách<br /> các số liệu thống kê mới và bổ sung các số<br /> tiếp cận này có thể có lợi cho cả hai bên vì<br /> liệu thống kê hiện có; (3) Xây dựng khung<br /> khu vực tư nhân có thể đóng góp cho lợi ích<br /> pháp lý và thể chế; (4) Tăng cường hợp tác<br /> công và cải thiện phương pháp tổng hợp dữ<br /> bên ngoài. Theo chiến lược này, nhiều dự án<br /> liệu lớn của họ. Để bảo vệ quyền riêng tư<br /> đã được thực hiện.<br /> trong quá trình liên kết dữ liệu, một phương<br /> B. Các dự án pháp khử nhận dạng thông tin cá nhân đã<br /> Liên kết dữ liệu lớn của khu vực được phát triển. Mô-đun khử nhận dạng<br /> công và tư nhân (DI) tương tự được sử dụng tại KOSTAT để<br /> 6. KOSTAT có rất nhiều dữ liệu hành tạo ra SIN được áp dụng cho dữ liệu lớn của<br /> chính (khoảng 89 loại) được thu thập từ các khu vực tư nhân để tạo cùng khóa liên kết<br /> cơ quan chính phủ khác cũng như dữ liệu (Hình 1).<br /> <br /> 33<br /> <br /> Hình1: Quá trình khử nhận dạng<br /> <br /> Phương pháp biến đổi đặc<br /> Mã hóa mô-đun DI biệt Cube one + KOSTAT Làm khớp bảng A<br /> <br /> <br /> KOSTAT Danh sách mẫu (DI) Mã hóa chính Mã hóa phụ<br /> (64 chữ số) (10 chữ số) (10 chữ số)<br /> <br /> Mô- Làm khớp bảng B<br /> Danh<br /> đun<br /> sách<br /> DI đã<br /> đã<br /> cung<br /> cung Liên kết dữ liệu<br /> cấp<br /> cấp trong máy chủ<br /> <br /> Tổ chức Tất cả các dữ Danh sách mẫu Vùng giới hạn của<br /> tư nhân liệu mã hóa (DI) tải máy chủ KOSTAT<br /> <br /> <br /> Mã hóa mô-đun DI Trích xuất danh sách mẫu<br /> <br /> <br /> 9. Các dự án liên kết bao gồm xây dựng đầu tiên, cơ sở dữ liệu nợ của 5.000 hộ mới<br /> số liệu thống kê nợ hộ gia đình sử dụng dữ cưới (được xác định là chưa đủ 5 năm sau<br /> liệu đánh giá tín dụng cá nhân từ Cục Tín khi kết hôn) từ tháng 10/2010 đến tháng<br /> dụng Hàn Quốc (KCB) và đo lường mới về 11/2014 được xây dựng và phân tích thông<br /> thời gian nhàn rỗi và làm việc thông qua sử qua liên kết dữ liệu KCB với dữ liệu KOSTAT.<br /> dụng dữ liệu định vị điện thoại di động từ 11. Trong số các nguồn dữ liệu lớn khác,<br /> Cục Viễn thông Hàn Quốc (KT). dữ liệu điện thoại di động có được sự quan<br /> 10. Mục tiêu của dự án về nợ hộ gia đình tâm cao từ cộng đồng thống kê vì tỷ lệ thâm<br /> là cung cấp số liệu thống kê nợ chính xác nhập cao và đặc tính thời gian thực của<br /> theo các đặc điểm của hộ gia đình (ví dụ: Hộ chúng. Sự sẵn có của chúng ở các khu vực<br /> gia đình độc thân, tự làm chủ,…) cho các nhà địa lý nhỏ cùng với tính kịp thời tạo cơ hội<br /> hoạch định chính sách do nợ hộ gia đình ở thu thập các số liệu thống kê phân tách về<br /> Hàn Quốc đang gia tăng. Có số liệu thống kê dòng dân số, du lịch, quản lý thảm họa,...<br /> nợ hộ gia đình vĩ mô và vi mô ở Hàn Quốc. Trong bối cảnh này, KOSTAT đã triển khai<br /> Các số liệu thống kê vĩ mô được thu thập từ một dự án điện thoại di động để kiểm tra khả<br /> ngành tài chính phản ánh toàn bộ khối lượng năng và tính hữu ích của việc sử dụng dữ liệu<br /> nợ hộ gia đình nhưng chúng không cung cấp điện thoại di động để lập các số liệu thống kê<br /> thông tin về các loại hộ gia đình khác nhau. mới đo lường chất lượng cuộc sống như thời<br /> Mặt khác, các số liệu thống kê vi mô từ khảo gian nhãn rỗi, thời gian đi lại, nghèo thời gian<br /> sát hộ gia đình cung cấp tình hình nợ theo thông qua liên kết dữ liệu KOSTAT và dữ liệu<br /> các đặc điểm của hộ gia đình nhưng ước điện thoại di động. Có 3 nhà khai thác mạng<br /> lượng thấp tổng số nợ. Do đó, rất hữu ích khi di động (MNO) tại Hàn Quốc là SKT, KT và<br /> kết hợp dữ liệu nợ hộ gia đình vĩ mô với dữ LGU+. Trong số đó, KT có thị phần khoảng<br /> liệu của KOSTAT, chẳng hạn như điều tra 31% đã tham gia dự án KOSTAT. Trong dự<br /> dân số để lấy thông tin hộ gia đình. Bước án này, chỉ có hai quận ở Seoul (là Gangnam-<br /> <br /> <br /> 34<br /> <br /> gu và Dobong-gu) theo Tổng sản phẩm nội 14. Ngoài ra, chỉ số kinh tế truyền thông<br /> địa khu vực được chọn để so sánh mức độ xã hội được tính bằng dữ liệu truyền thông<br /> hạnh phúc giữa các khu vực giàu và nghèo. xã hội (ví dụ: Tin tức, blog, bảng thông báo<br /> Do khối lượng lớn dữ liệu điện thoại di động, và Twitter) liên quan đến tình hình kinh tế<br /> dữ liệu KOSTAT đã được lưu trữ trong hệ trong bốn lĩnh vực: Điều kiện sống, tình hình<br /> thống phân tích dữ liệu lớn KT sau khi được kinh tế, thu nhập hộ gia đình và chi tiêu tiêu<br /> khử nhận dạng và liên kết với dữ liệu điện dùng. Sau khi thu thập tài liệu có chứa các từ<br /> thoại di động. Các bộ dữ liệu được liên kết đã khóa (138) từ các blog, quán cà phê<br /> được nhân viên KOSTAT truy cập và phân Internet, tin tức và Twitter bằng cách thu<br /> tích chỉ tại một địa điểm được chỉ định trong thập dữ liệu trên web hàng ngày, đếm các tài<br /> văn phòng KT. Các kết quả ước lượng không liệu tích cực và tiêu cực, và tính toán các chỉ<br /> đại diện cho toàn bộ dân số ở hai quận vì dữ số tiêu chuẩn cho 4 tên miền. Cuối cùng, một<br /> liệu KT chỉ chiếm khoảng 30% tổng dân số. chỉ số tổng hợp được đưa ra.<br /> Do đó, các bảng tổng hợp được tổng hợp Xây dựng khung pháp lý và thể chế<br /> bằng phương pháp “Trọng số theo hạng”,<br /> 15. KOSTAT liên tục cố gắng sửa đổi<br /> xem xét bốn biến số (vùng, giới tính, tuổi,<br /> “Luật Thống kê” để có cơ sở pháp lý truy cập<br /> tình trạng hôn nhân, loại nhà) thông qua sắp<br /> dữ liệu lớn ở của khu vực tư nhân. Luật hiện<br /> đặt dữ liệu KT với dân số dựa trên đăng ký.<br /> hành cho phép cơ quan thống kê thu thập dữ<br /> Cung cấp các số liệu thống kê mới liệu của khu vực tư nhân chỉ để sản xuất số<br /> và bổ sung các số liệu thống kê hiện có liệu thống kê nhà nước. Do đó, việc sửa đổi<br /> 12. Các nhà hoạch định chính sách có bao gồm quyền hợp pháp để thu thập dữ liệu<br /> nhu cầu cao hơn về dữ liệu kinh tế kịp thời vì từ khu vực tư nhân trong trường hợp thí<br /> hầu hết các dữ liệu kinh tế đang được phát điểm các dự án dữ liệu lớn để kiểm tra khả<br /> hành hàng tháng hoặc hàng quý. Để đáp ứng năng tổng hợp số liệu thống kê nhà nước.<br /> nhu cầu, KOSTAT đã phát triển 14 “chỉ số KOSTAT đã xây dựng cơ sở hạ tầng dữ<br /> kinh tế kịp thời” sử dụng nhiều nguồn dữ liệu liệu mở và chia sẻ được gọi là “Trung tâm dữ<br /> khác nhau: Chỉ số giá, phí điện quá hạn… liệu lớn thống kê (SBDC)”, với mục đích hỗ<br /> Các chỉ số được phát hành mỗi tuần. trợ liên kết dữ liệu lớn khu vực công và tư<br /> 13. Để bổ sung số liệu thống kê hiện có, nhân, và cung cấp dịch vụ khử nhận dạng.<br /> các chỉ số giá trực tuyến hàng ngày và hàng Chức năng chính là thực hiện kiểm tra chất<br /> tháng dựa trên 284 mặt hàng sản phẩm được lượng dữ liệu hành chính; để cung cấp cơ sở<br /> tính từ dữ liệu giá từ 6 trang web trung tâm dữ liệu đăng ký theo đối tượng (dân số, nhà<br /> mua sắm trực tuyến không bao gồm giá dịch ở, hoạt động kinh tế,…) và cơ sở dữ liệu điều<br /> vụ. Tuy nhiên, có một số hạn chế: i) Không tra thống kê; và để cung cấp các dịch vụ liên<br /> thể thu thập dữ liệu khi liên kết web bị thay kết theo yêu cầu như khử nhận dạng. Khách<br /> đổi do sửa đổi trang web, hoặc danh mục bị hàng có thể liên kết dữ liệu của họ với dữ<br /> thay đổi mà không có thông báo, ii) Cắt bỏ liệu KOSTAT ở một nơi được chỉ định, và trích<br /> tập hợp trong trường hợp sản phẩm theo xuất dữ liệu dưới dạng bảng tổng hợp. Hiện<br /> mùa, iii) Không thực hiện điều chỉnh chất tại, trung tâm được đặt tại 3 thành phố:<br /> lượng như đối với CPI do đó giá điện tử, Seoul, Busan và Daejeon. Quá trình xử lý dữ<br /> quần áo,... giảm. liệu được trình bày trong Hình 2.<br /> <br /> <br /> <br /> 35<br /> <br /> Hình 2: Lưu đồ xử lý dữ liệu SBDC<br /> Chia sẻ Dữ liệu<br /> <br /> Dịch vụ CSDL tích<br /> Xử lý khử nhận dạng cụ thể thống hợp<br /> kê (tạo khóa liên kết)<br /> Liên kết và hợp nhất<br /> Cung cấp dữ liệu đã tinh chỉnh dữ liệu<br /> chẳng hạn như chuẩn hóa dữ liệu,<br /> kiểm tra chất lượng, v.v.<br /> Cung cấp mạng truy cập hạn chế<br /> Cung cấp CSDL theo đề tài và<br /> chủ đề<br /> Tạo và phân tích dữ liệu thông<br /> qua ủy quyền truy cập<br /> <br /> Xuất dữ liệu dưới dạng một bảng<br /> tổng hợp<br /> CSDL thống kê CSDL liên kết CSDL hành chính Dữ liệu riêng tư<br /> <br /> <br /> <br /> việc chọn lọc dữ liệu lớn và xử lý dữ liệu, iv)<br /> Tăng cường hợp tác bên ngoài Học trực tuyến, v) Trao đổi nhân viên, vi) Chia<br /> sẻ các kinh nghiệm trong liên kết dữ liệu lớn<br /> 16. Trao đổi và thảo luận với các bên liên<br /> khu vực công và tư nhân, vii) Dữ liệu lớn và<br /> quan từ giới học thuật, doanh nghiệp và chính<br /> quyền riêng tư.<br /> phủ là rất quan trọng để giải quyết các vấn đề<br /> liên quan đến việc tạo điều kiện sử dụng dữ III. Các thách thức<br /> liệu lớn. Trong bối cảnh này, KOSTAT tổ chức 18. Bất chấp nhiều câu chuyện thành công<br /> “Diễn đàn Thống kê - chiến lược” hàng quý kể trong việc tạo điều kiện sử dụng các nguồn dữ<br /> từ năm 2015. Ngoài ra, KOSTAT đã đồng tổ liệu mới, KOSTAT vẫn phải đối mặt với nhiều<br /> chức một “Diễn đàn dữ liệu lớn” với 2 Bộ liên thách thức, cả bên trong và bên ngoài.<br /> quan đến dữ liệu lớn: Bộ Nội An và Bộ Khoa<br /> 19. Thứ nhất, vẫn khó tiếp cận thông tin<br /> học và công nghệ thông tin và truyền thông.<br /> cá nhân ở khu vực tư nhân do Luật bảo vệ<br /> 17. KOSTAT cũng đang tham gia hợp tác quyền riêng tư mạnh mẽ ở Hàn Quốc. Luật<br /> quốc tế liên quan đến dữ liệu lớn: Nhóm làm Bảo vệ thông tin cá nhân (PPIA) là Luật Bảo<br /> việc toàn cầu của Liên hợp quốc về dữ liệu lớn vệ dữ liệu chung chi phối việc thu thập và xử<br /> và với Cơ quan Thống kê Hà Lan. Cơ quan lý dữ liệu cá nhân. Có các luật cụ thể theo<br /> Thống kê Hà Lan (CBS) và KOSTAT đã xây ngành: Luật Mạng, Luật Thông tin tín dụng và<br /> dựng hợp tác song phương kể từ khi thỏa Luật Thông tin địa điểm. Trong PPIA, định<br /> thuận về dữ liệu lớn được ký kết trong Hội nghĩa về dữ liệu cá nhân quá rộng. Việc sử<br /> nghị thượng đỉnh thương mại Hà Lan- Hàn dụng dữ liệu cá nhân cần có sự đồng ý trước,<br /> Quốc vào tháng 9/2016. Trong thỏa thuận đó, tức là phương pháp chọn tham gia. Dữ liệu cá<br /> các hoạt động chung trong 7 lĩnh vực: i) Thu nhân được định nghĩa là dữ liệu về một người<br /> thập các nguồn dữ liệu lớn, ii) Phát triển các sống có thể xác định cá nhân đó cũng như dữ<br /> kỹ thuật để khám phá dữ liệu lớn, chẳng hạn liệu có thể xác định nhận dạng bằng cách dễ<br /> như các kỹ thuật dựa trên trí tuệ nhân tạo dàng kết hợp với các thông tin khác. Do đó,<br /> hoặc kỹ thuật khai thác dữ liệu và văn bản, iii) luật này gây khó khăn cho việc sử dụng dữ<br /> Chuyên môn về phương pháp/phân tích trong liệu lớn để liên kết sử dụng thông tin cá nhân.<br /> <br /> <br /> 36<br /> <br /> 20. Thứ hai, các nhà cung cấp dữ liệu liệu lớn cho thống kê nhà nước tập trung vào<br /> khu vực tư nhân có nhận thức thấp về hợp tác liên kết dữ liệu của khu vực công (ví dụ: Dữ<br /> dữ liệu. Họ không sẵn lòng chia sẻ dữ liệu do liệu của KOSTAT như dữ liệu hành chính và<br /> Luật bảo vệ quyền riêng tư mạnh mẽ cũng điều tra dân số) và dữ liệu lớn khu vực tư<br /> như cách tiếp cận thụ động của họ về chia sẻ nhân (ví dụ: Dữ liệu điện thoại di động, dữ<br /> dữ liệu. liệu truyền thông xã hội). Ngoài ra, KOSTAT<br /> đã nỗ lực trong việc xây dựng khung pháp lý<br /> 21. Thứ ba, dữ liệu lớn có thể có chất<br /> và thể chế để hợp tác với các bên liên quan<br /> lượng thấp vì chúng không được thu thập<br /> trong nước và quốc tế.<br /> bằng các phương pháp điều tra truyền thống<br /> theo các hướng dẫn thống kê nhà nước hoặc 24. KOSTAT đã thực hiện thành công các<br /> khung chất lượng mà bằng các phương pháp dự án như liên kết dữ liệu đánh giá tín dụng<br /> dựa trên công nghệ thông tin như kiểm duyệt cá nhân cũng như dữ liệu điện thoại di động<br /> từ điện thoại di động, nhà cung cấp dữ liệu,… với dữ liệu KOSTAT, phát triển khuôn khổ hợp<br /> Do đó, thiếu các yếu tố chất lượng như: Tính tác như tổ chức các diễn đàn dữ liệu lớn để<br /> đại diện, tính nhất quán và tính đầy đủ. tăng cường liên lạc với các bên liên quan, và<br /> thiết lập hợp tác quốc tế với Liên hợp quốc và<br /> 22. Cuối cùng, thiếu các chuyên gia như<br /> Hà Lan.<br /> các nhà khoa học dữ liệu và cơ sở hạ tầng<br /> công nghệ thông tin để xử lý dữ liệu lớn trong Tuy nhiên, KOSTAT vẫn phải đối mặt với<br /> KOSTAT. Để phân tích dữ liệu lớn đòi hỏi các những thách thức sau: Tiếp cận hạn chế<br /> kỹ năng và cơ sở hạ tầng công nghệ thông tin thông tin cá nhân trong dữ liệu khu vực tư<br /> khác so với phân tích thống kê và xử lý dữ liệu nhân do Luật bảo vệ quyền riêng tư mạnh<br /> truyền thống. Các nhà khoa học dữ liệu cần có mẽ, thiếu sự hợp tác từ các nhà cung cấp dữ<br /> kiến thức về nhiều lĩnh vực như: Hadoop, liệu khu vực tư nhân, thiếu chuyên gia như<br /> NoQuery, trực quan hóa dữ liệu, học máy và nhà khoa học dữ liệu, và chất lượng dữ liệu<br /> khai thác văn bản,… KOSTAT có khả năng hạn lớn khu vực tư nhân con thấp. Trước tất cả<br /> chế tuyển dụng nhân viên mới có kỹ năng các thách thức trên, KOSTAT dự định trao đổi<br /> phân tích cao theo hệ thống tuyển dụng của nhiều hơn với các bên liên quan từ chính trị,<br /> chính phủ hiện tại, tức là hạn chế về ngân các nhà hoạch định chính sách, doanh nghiệp,<br /> sách và quy trình tuyển dụng không linh hoạt. tổ chức học thuật và các tổ chức phi chính<br /> Đào tạo nhân viên hiện tại để phát triển kỹ phủ (NGO) để giải thích tầm quan trọng của<br /> năng của họ mất nhiều thời gian. Về cơ sở hạ các nguồn dữ liệu mới cho thống kê nhà nước,<br /> tầng công nghệ thông tin, yêu cầu các khoản và nâng cao năng lực nội bộ trên cơ sở hạ<br /> đầu tư lớn vào kho dữ liệu và phần mềm để tầng dữ liệu lớn. Ngoài ra, việc liên lạc với các<br /> thu thập dữ liệu, lưu trữ dữ liệu, phân tích dữ tổ chức quốc tế để giải quyết các vấn đề dữ<br /> liệu và trực quan hóa dữ liệu. Do đó, KOSTAT liệu lớn cũng quan trọng.<br /> không thể xây dựng hệ thống phân tích dữ Thái Học (dịch)<br /> liệu lớn của riêng mình do ngân sách hạn chế. Nguồn:<br /> IV. Kết luận http://www.unece.org/fileadmin/DAM/stats/do<br /> cuments/ece/ces/2019/CES_30_Sem1_Ses1_K<br /> 23. Theo chiến lược dữ liệu lớn từ năm<br /> oreaE.pdf<br /> 2016, KOSTAT đã triển khai các dự án để<br /> kiểm tra khả năng tạo điều kiện sử dụng dữ<br /> <br /> <br /> 37<br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1