intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Báo cáo đề tài nghiên cứu khoa học cấp trường: Giải pháp truy vấn trực tiếp trên dữ liệu mã hóa nhằm nâng cao tính bảo mật cơ sở dữ liệu trực tuyến

Chia sẻ: Tieuduongchi Duongchi | Ngày: | Loại File: PDF | Số trang:69

32
lượt xem
12
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đề tài "Giải pháp truy vấn trực tiếp trên dữ liệu mã hóa nhằm nâng cao tính bảo mật cơ sở dữ liệu trực tuyến" nhằm tổng quan về bảo mật cơ sở dữ liệu trên môi trường trực tuyến, vấn đề truy vấn trực tiếp trên cơ sở dữ liệu mã hóa và tình hình nghiên cứu trong và ngoài nước về vấn đề này; đề xuất giải pháp hỗ trợ truy vấn dữ liệu dạng số và văn bản đã được mã hóa. Mời các bạn cùng tham khảo!

Chủ đề:
Lưu

Nội dung Text: Báo cáo đề tài nghiên cứu khoa học cấp trường: Giải pháp truy vấn trực tiếp trên dữ liệu mã hóa nhằm nâng cao tính bảo mật cơ sở dữ liệu trực tuyến

  1. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG GIẢI PHÁP TRUY VẤN TRỰC TIẾP TRÊN DỮ LIỆU MÃ HÓA NHẰM NÂNG CAO TÍNH BẢO MẬT CƠ SỞ DỮ LIỆU TRỰC TUYẾN MÃ SỐ ĐỀ TÀI: CS20-41 Chủ nhiệm đề tài: ThS. Hoàng Ngọc Cảnh Thành viên tham gia: ThS. Vũ Quang Huy ThS. Trần Lê Kim Danh Hà Nội, 3/2021
  2. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI BÁO CÁO TỔNG KẾT ĐỀ TÀI NGHIÊN CỨU KHOA HỌC CẤP TRƯỜNG GIẢI PHÁP TRUY VẤN TRỰC TIẾP TRÊN DỮ LIỆU MÃ HÓA NHẰM NÂNG CAO TÍNH BẢO MẬT CƠ SỞ DỮ LIỆU TRỰC TUYẾN MÃ SỐ ĐỀ TÀI: CS20-41 Chủ nhiệm đề tài: ThS. Hoàng Ngọc Cảnh Thành viên tham gia: ThS. Vũ Quang Huy ThS. Trần Lê Kim Danh Xác nhận của Trường Đại học Thương mại Chủ nhiệm đề tài Hà Nội, 3/2021
  3. MỤC LỤC DANH MỤC BẢNG BIỂU, HÌNH VẼ ..................................................................... 1 DANH MỤC CHỮ VIẾT TẮT.................................................................................. 2 THÔNG TIN KẾT QUẢ NGHIÊN CỨU.................................................................. 3 MỞ ĐẦU .................................................................................................................... 4 1. Đặt vấn đề........................................................................................................... 4 2. Tình hình nghiên cứu trong và ngoài nước ........................................................ 7 2.1. Tình hình nghiên cứu trên thế giới .............................................................. 7 2.1.1. Giải pháp tìm kiếm trực tiếp trên dữ liệu mã hóa ................................ 7 2.1.2. Giải pháp tìm kiếm dựa trên chỉ mục mã hóa ...................................... 9 2.1.3. Một số sản phẩm SE được đã được xây dựng.................................... 10 2.2. Tình hình nghiên cứu trong nước .............................................................. 11 2.3. Nhận xét về tình hình nghiên cứu các giải pháp hỗ trợ truy vấn trên dữ liệu mã .............................................................................................................. 12 3. Mục tiêu nghiên cứu ......................................................................................... 13 4. Đối tượng nghiên cứu....................................................................................... 13 5. Phạm vi nghiên cứu của đề tài ......................................................................... 13 6. Phương pháp nghiên cứu.................................................................................. 14 7. Nội dung nghiên cứu ........................................................................................ 14 CHƯƠNG 1. BÀI TOÁN BẢO MẬT CƠ SỞ DỮ LIỆU TRỰC TUYẾN............. 15 1. Yêu cầu đối với bài toán bảo mật Cơ sở dữ liệu .............................................. 15 1.1. Hệ quản trị CSDL...................................................................................... 15 1.2. Vấn đề an toàn CSDL ............................................................................... 16 1.2.1. Một số biện pháp an toàn trong môi trường máy tính ....................... 17 1.2.2. Các biện pháp an toàn ngoài môi trường máy tính ............................ 18 1.2.3. Bảo mật CSDL bằng mật mã ............................................................. 18 1.2.4. Các phương pháp mã hóa tại mức ứng dụng và tại mức CSDL ........ 21 2. Một số phương pháp bảo mật trên các hệ quản trị Cơ sở dữ liệu .................... 23 2.1. Bảo mật trên hệ quản trị CSDL MS SQLSERVER .................................. 23
  4. 2.1.1. Phương pháp mã hóa mức ô ............................................................... 23 2.1.2. Phương pháp mã hóa TDE ................................................................. 24 2.1.3. Phương pháp luôn luôn mã hóa (Always Encrypted) ........................ 25 2.2. Bảo mật trên hệ quản trị CSDL Oracle ..................................................... 27 CHƯƠNG 2. BẢO MẬT CƠ SỞ DỮ LIỆU DỰA TRÊN TRUY VẤN TRỰC TIẾP TRÊN DỮ LIỆU MÃ ..................................................................................... 32 1. Mô hình triển khai máy chủ Proxy................................................................... 32 2. Các nguyên tắc thiết kế Framework cho máy chủ Proxy................................. 34 2.1. Nguyên tắc thiết kế 1................................................................................. 35 2.2. Nguyên tắc thiết kế 2................................................................................. 37 2.3. Nguyên tắc thiết kế 3................................................................................. 46 2.4. Nguyên tắc thiết kế 4................................................................................. 49 3. Thực nghiệm và đánh giá ................................................................................. 51 KẾT LUẬN VÀ KIẾN NGHỊ.................................................................................. 60 1. Kết luận ............................................................................................................ 60 2. Kiến nghị .......................................................................................................... 60 TÀI LIỆU THAM KHẢO ........................................................................................ 61 Tài liệu tham khảo nước ngoài ............................................................................. 61 Tài liệu tham khảo trong nước ............................................................................. 62 PHỤ LỤC ................................................................................................................. 62
  5. DANH MỤC BẢNG BIỂU, HÌNH VẼ Bảng/Hình Tên Bảng/Hình Bảng 1 Bộ lệnh thử nghiệm Bảng 2 Kết quả thử nghiệm các câu lệnh Hình 1 Nhu cầu sử dụng điện toán đám mây tại các tổ chức – doanh nghiệp Hình 2 Vấn đề rủi ro khi sử dụng điện toán đám mây Hình 3 Xử lý câu lệnh truy vấn trên dữ liệu mã hóa với mô hình DAS Hình 4 Mối quan hệ giữa các tiêu chí phải đạt được của hệ thống SE Hình 5 Phân loại các kỹ thuật Searchable Encryption (SE) Hình 6 Một số hệ quản trị CSDL dạng SQL và NoSQL điển hình Hình 7 Thị phần hệ quản trị CSDL quan hệ, Hadoop & NoSQL và các CSDL không quan hệ khác Hình 8 Thị phần của các hệ quản trị CSDL thương mại năm 2016 Hình 9 Các phương pháp mã hóa bảo mật CSDL – a. Mã hóa mức lưu trữ; b. Mã hóa mức CSDL; c. Mã hóa mức ứng dụng. Hình 10 Các giải pháp bảo mật CSDL sử dụng các module tin cậy Hình 11 Mô hình giải pháp bảo mật được thực hiện bên trong hệ quản trị Hình 12 Mô hình giải pháp bảo mật được thực hiện bên ngoài hệ quản trị Hình 13 Mô hình giải pháp bảo mật dựa trên các khả năng mở rông của các hệ quản trị Hình 14 Mô hình mã/giải mã CSDL sử dụng tầng chuyển đổi trung gian Hình 15 Mô hình mã/giải mã CSDL sử dụng cơ chế sẵn có trong CSDL Hình 16 Kiến trúc mã hóa CSDL trong suốt Hình 17 Kiến trúc mã hóa kiểu luôn luôn mã hóa Hình 18 Kết quả kiểm tra hiệu năng mã hóa AE của SQL Server Hình 19 Kiến trúc an toàn của Oracle Hình 20 Mã hóa dữ liệu trong suốt Hình 21 Mô hình ngữ cảnh chung hệ thống bảo mật CSDL Hình 22 Mô tả các bước truy vấn trên CSDL mã Hình 23 Mô tả mô hình triển khai các thành phần trong hệ thống bảo mật CSDL Hình 24 Mô tả cấu trúc CSDL thử nghiệm Hình 25 Giao diện phần mềm SQL_Proxy_Framework Hình 26 Giao diện Demo thực thi 1 câu lệnh SQL 1
  6. DANH MỤC CHỮ VIẾT TẮT Chữ viết tắt Diễn giải CSDL Cơ sở dữ liệu DAS Database As a Services DCL Data Control Language DDL Data Definition Language DEK Database Encryption Key DMK Database Master Key DML Data Manipulation Language DSP Database Services Provider FHE Fully Homomorphic Encryption ODBS Oursource Database Services OLTP On-line transactional processing PEKS Public Key with Keyword Search PKCS Public Key Cryptography Standards SE Searchable Encryption SMK Service Master Key SSE Searchable Symmetric Encryption TCL Transaction Control Language TDE Transparent Data Encryption 2
  7. BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC THƯƠNG MẠI THÔNG TIN KẾT QUẢ NGHIÊN CỨU ĐỀ TÀI NCKH CẤP TRƯỜNG 1. Thông tin chung: - Tên đề tài: Giải pháp truy vấn trực tiếp trên dữ liệu mã hóa nhằm nâng cao tính bảo mật cơ sở dữ liệu trực tuyến. - Mã số: CS20 - 41 - Chủ nhiệm: ThS. Hoàng Ngọc Cảnh - Cơ quan chủ trì: ĐH Thương mại - Thời gian thực hiện: 7/2020 - 3/2021 2. Mục tiêu: - Tổng quan về bảo mật cơ sở dữ liệu (CSDL) trên môi trường trực tuyến, vấn đề truy vấn trực tiếp trên CSDL mã hóa và tình hình nghiên cứu trong và ngoài nước về vấn đề này. - Đề xuất giải pháp hỗ trợ truy vấn dữ liệu dạng số và văn bản đã được mã hóa. 3. Tính mới và sáng tạo: - Nghiên cứu tập trung vào xây dựng mô hình Proxy hỗ trợ truy vấn hiệu quả, kết hợp với kỹ thuật xây dựng chỉ mục bảo mật hỗ trợ truy vấn, cơ chế mã hóa dữ liệu hiện tại không bị ảnh hưởng bởi các thuật toán đề xuất. Đề tài không trùng lắp với các giải pháp SE trước đó, có lợi thế về mặt mô hình và khả năng triển khai thực tiễn, đặc biệt dễ dàng triển khai hiệu quả trên các CSDL quan hệ mã hóa. 4. Kết quả nghiên cứu: - Báo cáo tổng quan về tình hình nghiên cứu trong và ngoài nước liên quan tới lĩnh vực của đề tài. Xây dựng mô hình và các nguyên tắc thiết kế chỉ mục bảo mật hỗ trợ truy vấn cho các dạng dữ liệu số và văn bản; xây dựng kỹ thuật chuyển đổi lệnh truy vấn từ dạng rõ sang dạng mã. - Thực nghiệm mô hình, thuật toán đề xuất trên CSDL mẫu hơn 20 triệu bản ghi 5. Công bố sản phẩm khoa học từ kết quả nghiên cứu của đề tài: - Đã đăng 01 bài báo trong hội thảo quốc gia “Phát triển TMĐT Việt Nam trong kỷ nguyên số”. (Mã số ISBN: 978-604-311-091-3). Tên bài báo: Tăng cường bảo mật cơ sở dữ liệu với giải pháp truy vấn trực tiếp trên dữ liệu văn bản mã hóa. (p583-p591) 6. Hiệu quả, phương thức chuyển giao kết quả nghiên cứu và khả năng áp dụng: - Báo cáo đề tài là tài liệu hữu ích cho các nhà nghiên cứu, sinh viên khi tìm hiểu về lĩnh vực bảo mật và CSDL. Ngày tháng năm Chủ nhiệm đề tài 3
  8. MỞ ĐẦU 1. Đặt vấn đề Ngày nay, việc ứng dụng các hệ thống thông tin quản lý tại các tổ chức, doanh nghiệp đã trở thành xu hướng tất yếu và ngày càng phổ biến. Trái tim của các hệ thống này chính là cơ sở dữ liệu (CSDL), nơi mà người chủ sở hữu dữ liệu (Data Owner - DO) có thể dễ dàng lưu trữ, quản lý và phân phối thông cho các hoạt động của tổ chức, doanh nghiệp. Có hai hình thức triển khai CSDL: là triển khai trong hạ tầng của nội bộ tổ chức (in house database) và triển khai trên nền tảng hạ tầng thuê ngoài của các nhà cung cấp dịch vụ (Database Service Provider – DSP) như Amazon RDS, Microsoft SQL Azure, Heroku PostegreSQL, VNPT, Mắt bão, … Với hình thức triển khai nội bộ, DO phải đầu tư hệ thống máy chủ gồm: máy tính, hệ điều hành, hệ quản trị CSDL và nhân viên vận hành hệ thống. Khi nhu cầu lưu trữ và xử lý dữ liệu tăng đòi hỏi DO phải tốn chi phí cho nâng cấp phần cứng, cập nhập bản quyền phần mềm, phát triển đội ngũ nhân viên... Vì vậy hình thức triển khai CSDL trên hạ tầng thuê ngoài từ các nhà cung cấp dịch vụ (DSP) hay còn gọi là CSDL thuê ngoài (Outsourced Database Service – ODBS) ngày càng được các tổ chức, doanh nghiệp quan tâm lựa chọn [1] (Hình 1 mô tả xu hướng sử dụng điện toán đám mây trong đó bao gồm cả ODBS) nhằm tối ưu chi phí và nâng cao hiệu quả hoạt động. Trong trường hợp này, chủ sở hữu dữ liệu không phải quan tâm tới vấn đề quản trị và đầu tư phần cứng, phần mềm, đường mạng, đội ngũ nhân viên…, tất cả đều được đảm bảo tốt bởi DSP. Hình 1. Nhu cầu sử dụng điện toán đám mây tại các tổ chức – doanh nghiệp (Nguồn: https://www.quest.com/whitepaper/2017-spotlight-report-cloud- security8123195/) Theo nghiên cứu trong tài liệu [2], các đối tượng tham gia mô hình quản lý CSDL thuê ngoài cũng như CSDL nội bộ đều bao gồm: - Server/CloudServer: lưu trữ dữ liệu, cũng là nơi cài đặt hệ quản trị cơ sở dữ liệu và các dịch vụ hỗ trợ quản lý dữ liệu. - Người sở hữu dữ liệu (Data Owner – DO): là người có quyền kiểm soát, quản lý dữ liệu, cấp và phân quyền truy cập dữ liệu tới người dùng. - Người khai thác dữ liệu/ Người dùng cuối (Data User -DU): là đối tượng được 4
  9. DO cấp quyền truy vấn hoặc cập nhật CSDL thuê ngoài nằm trên DSP thông qua các hệ thống phần mềm quản lý. Để đảm bảo an toàn thông tin tin cho cơ sở dữ liệu, DO thường sử dụng các phương pháp- kỹ thuật – chức năng bảo mật được cung cấp sẵn trên các Hệ quản trị CSDL quan hệ phổ biến như Oracle, SQL Server, My SQL, ... Cụ thể, sử dụng khả năng kiểm soát truy nhập (access control) để giới hạn quyền tiếp cận dữ liệu của người dùng cuối; sử dụng mã hóa dữ liệu nhiều mức như mã ô, dòng, cột, ...; hoặc mã hóa trong suốt (TDE - Transparent Data Encryption) để mã toàn bộ các bảng, tệp dữ liệu, tệp sao lưu ở trạng thái nghỉ [3]. Tuy nhiên, các giải pháp mã hóa dữ liệu truyền thống nêu trên đã để lộ ra nhiều điểm yếu khi áp dụng vào CSDL thuê ngoài (ODBS), bởi nhà cung cấp dịch vụ có thể truy nhập vào máy chủ, hay hệ quản trị CSDL thông qua quyền quản trị cao nhất. Khi đó bài toán đảm bảo an toàn, ngăn cấm sự truy cập bất hợp pháp của các tổ chức/cá nhân không có thẩm quyền, kể cả nhà cung cấp dịch vụ lên các ODBS trở nên vô cùng quan trọng. Hình 2 đã chỉ ra các tổ chức - doanh nghiệp khi triển khai CSDL thuê ngoài luôn đặt các rủi ro liên quan tới bảo mật dữ liệu là yếu tố quan tâm hàng đầu [1]. Hình 2. Vấn đề rủi ro khi sử dụng điện toán đám mây (Nguồn: https://www.quest.com/whitepaper/2017-spotlight-report-cloud- security8123195/) Rõ ràng ODBS nói riêng và DSP nói chung là một môi trường không tin cậy về mặt an toàn dữ liệu (untrusted model), lúc này cách tốt nhất để bảo mật thông tin là DO cần phải có các chính sách bảo vệ dữ liệu trên môi trường mạng, bảo vệ người dùng khi truy xuất dữ liệu của mình. Đặc biệt DO cần phải có biện pháp che giấu nội dung dữ liệu (bằng phương pháp mã hóa dữ liệu) trong tất cả các khâu: lưu trữ, truyền tải và truy vấn, để thông tin chứa trong dữ liệu luôn trong suốt trên máy chủ và đường truyền. Việc này đồng nghĩa: DO sẽ mã hóa dữ liệu trước khi lưu trữ tại trên ODBS phải không tồn tại các khóa hay hàm mã – giải mã, mọi yêu cầu truy vấn dữ liệu rõ từ người dùng cuối sẽ được biến đổi thành truy vấn trên dữ liệu đã mã hóa tại ODBS. Tuy nhiên dữ liệu (dạng số, chữ, logic, ngày tháng …) sau khi mã hóa (bởi các thuật toán mật mã tiêu chuẩn như AES, DES, Blowfish, RSA …) [4] sẽ không còn giữ được các tính chất vốn có ban đầu như: thứ tự, so sánh, tính toán, … nên việc thực thi truy vấn 5
  10. trên dữ liệu mã trở thành một thách thức lớn khi triển khai CSDL thuê ngoài mã hóa. Vì vậy, các mô hình-lược đồ hỗ trợ tìm kiếm/truy vấn trên dữ liệu mã (Searchable Encryption-SE) được quan tâm nghiên cứu, đề xuất và liên tục cải tiến trong nhiều năm qua với mục tiêu thỏa mãn các yêu cầu sau [2][5]: - Yêu cầu chung: tồn tại khu vực độc lập với ODBS và có tin cậy cao (có thể là Client hoặc Proxy) để quản lý khóa, thực hiện các thao tác mã – giải mã, biến đổi câu lệnh truy vấn một cách an toàn. - Yêu cầu với dữ liệu lưu trên CSDL thuê ngoài: dữ liệu nhạy cảm phải được mã hóa bằng các giải thuật an toàn, hỗ trợ tìm kiếm được trên các bản mã này. Bên cạnh đó dữ liệu mã nói trên phải đảm bảo tối đa khả năng chống tấn công suy diễn, tấn công dựa trên thống kê tần suất, …cũng như đảm bảo hiệu năng truy vấn. - Yêu cầu với câu truy vấn khi gửi lên DSP: các thành phần nhạy cảm trong câu truy vấn rõ (ví dụ các từ khóa trong mệnh đề điều kiện) phải được biến đổi hoàn toàn về dạng mã hỗ trợ tìm kiếm khi gửi về ODBS. Bên cạnh đó, câu truy vấn sau khi biến đổi cũng phải chống được DSP suy diễn nội dung mà người dùng muốn tìm kiếm dựa trên các kỹ thuật: thống kê tần suất thực thi một mẫu câu truy vấn nào đó, hay dò đoán từ khóa truy vấn dựa trên số lượng bản ghi trả về. Một yêu cầu khác nữa là việc biến đổi câu truy vấn phải được thực hiện ở một khu vực an toàn dưới sự kiểm soát của DO. - Yêu cầu với dữ liệu trả về sau khi truy vấn trên DSP: dữ liệu trả về phải ở dạng mã hóa sao cho DSP khó có thể biết được kết quả người dùng đang truy vấn là gì, cũng như không thể suy luận được thông tin gì từ tập dữ liệu trả về. Vì vậy, tập dữ liệu này đôi khi phải chấp nhận sự dư thừa sau đó sẽ được giải mã và thực hiện truy vấn lại tại khu vực an toàn do DO giám sát. Mô hình thực thi truy vấn CSDL quan hệ mã hóa trên DAS (Database As a Services) [6] được Hacigimus đề xuất như một khuôn mẫu trong việc mô tả các thành phần và giai đoạn xử lý dữ liệu của lược đồ SE. Trong mô hình đã thể hiện khu vực ServerSite tương ứng với CSDL thuê ngoài nằm trên DSP; khu vực ClientSite tương ứng với vùng an toàn do DO kiểm soát; và thành phần User tương ứng với người dùng cuối. Hình 3. Xử lý câu lệnh truy vấn trên dữ liệu mã hóa với mô hình DAS [6] Dựa vào các phân tích ở trên chúng ta có thể thấy tính cấp thiết và ý nghĩa thực tiễn 6
  11. của việc phát triển các phương pháp hỗ trợ tìm kiếm trên mã (thuật ngữ gọi là SE) khi triển khai CSDL thuê ngoài (trong đó CSDL quan hệ thuê ngoài là khá phổ biến). Có hàng loạt các yêu cầu phức tạp đặt ra với các mô hình SE, vì vậy để thiết kế mô hình SE đảm bảo mọi tiêu chí là vô cùng khó khăn. Từ đầu những năm 2000 tới nay, SE luôn được các nhà nghiên cứu quan tâm và cải tiến dưới nhiều cách tiếp cận khác nhau để nâng cao một số tiêu chí trong các tiêu chí sau: “Mức độ bảo mật - Hiệu năng – Đa dạng biểu thức truy vấn – Khả năng triển khai”, nhằm đáp ứng phù hợp từng bài toán cụ thể. Hình 4. Mối quan hệ giữa các tiêu chí phải đạt được của hệ thống SE (Nguồn: Secure Search Over Encrypted Data (cossacklabs.com)) Chính vì vậy, nhóm nghiên cứ lựa chọn đề tài “Giải pháp truy vấn trực tiếp trên dữ liệu mã hóa nhằm nâng cao tính bảo mật cơ sở dữ liệu trực tuyến” với mục đích nghiên cứu và phát triển các mô hình truy vấn, các giải pháp tính toán vừa đảm bảo được an toàn dữ liệu vừa cải thiện thời gian truy vấn cũng như tính phù hợp khi triển khai thực tiễn CSDL quan hệ trên hạ tầng thuê ngoài. Nội dung đề tài sẽ đóng góp về cơ sở lý thuyết, giải pháp và mô hình ứng dụng, tài liệu tham khảo đảm bảo được tính khoa học, phục vụ nhu cầu nghiên cứu cùng lĩnh vực ở Việt Nam và trên thế giới. 2. Tình hình nghiên cứu trong và ngoài nước 2.1. Tình hình nghiên cứu trên thế giới Tìm kiếm trên dữ liệu mã (Searchable Encryption - SE) nhận được rất nhiều sự quan tâm của các nhà nghiên cứu trên thế giới với hàng loạt các công trình và sản phẩm liên quan trong suốt giai đoạn từ đầu những năm 2000 đến nay. Có rất nhiều cách phân loại các giải pháp/lược đồ SE, trong đó có thể chia làm hai nhóm giải pháp chính: 1. Giải pháp tìm kiếm trực tiếp trên dữ liệu mã hóa; 2. Giải pháp tìm kiếm dựa trên chỉ mục mã hóa. 2.1.1. Giải pháp tìm kiếm trực tiếp trên dữ liệu mã hóa Những giải pháp này nghiên cứu các thuật toán mã hóa mới cho phép người dùng có thể truy vấn trực tiếp trên bản dữ liệu mã. Năm 2000, Song và cộng sự [7] đã đề xuất lược đồ SE đầu tiên hỗ trợ tìm kiếm trên dữ liệu mã, sau đó C.Bosh cùng cộng sự [8][9] đã phân loại chi tiết hơn thành sáu giải pháp SE hỗ trợ truy vấn trên mã bao gồm Searchable Symmetric Encryption (SSE), Public Key with Keyword Search (PEKS), Identity-Based Encryption (IBE), Hidden Vector Encryption (HVE), Predicate Encryption (PE), and Inner Product Encryption (IPE). Những nghiên cứu gần đây [10] còn thêm các giải pháp mới như Multi- Keyword Rank Searchable Encryption (MRSE) và Private Information Retrieval (PIR) 7
  12. [11] and Fully Homomorphic Encryption (FHE) [12], Hình 5 chỉ ra cách phân loại các lược đồ SE nói trên. Hình 5. Phân loại các kỹ thuật Searchable Encryption (SE) Trong các kỹ thuật SE ở Hình 5 thì Searchable Symmetric Encryption (SSE) [13][14] và Public Key Encryption With Keywords Search (PEKS) [15] được đề xuất sớm nhất và được các nhà nghiên cứu quan tâm phân tích, kế thừa khá nhiều. Các lược đồ dựa trên SSE sử dụng các khóa nguyên thủy đối xứng và cho phép người dùng tạo các bản mã và thực hiện tìm kiếm an toàn, lược đồ dạng này dễ dàng triển khai, tuy nhiên việc phân phối khóa bí mật cũng trở thành một điểm yếu khi hệ thống phục vụ quá nhiều người dùng. Trong các lược đồ PEKS, khóa công khai được sử dụng để tạo (ghi) các bản mã và khóa riêng được sử dụng để tìm kiếm (đọc). Do đó, các lược đồ như PEKS cho phép nhiều người dùng có thể thêm dữ liệu, nhưng chỉ một người dùng (người đang giữ khóa cá nhân) có thể đọc dữ liệu được thêm bởi những người dùng khác. Cả hai lược đồ trên đều có những hạn chế nhất định, chỉ tập trung vào việc tìm kiếm chính xác theo từ khóa đối với dữ liệu dạng văn bản mà chưa hỗ trợ các truy vấn trên dữ liệu dạng số (so sánh, tính toán); lược đồ SSE do Song và cộng sự [13] đề xuất mới chỉ hỗ trợ tìm kiếm theo từ khóa đơn, dữ liệu mã hóa có độ dài phụ thuộc vào dữ liệu rõ, thời gian tìm kiếm tuyến tính với quy mô của tập bản ghi và độ lớn của từng bản ghi, dữ liệu khi xử lý được chia thành các chuỗi nhỏ với độ dài cố định dẫn đến từ khóa tìm kiếm cũng phải có độ dài tương ứng, điều này là không phù hợp với ngôn ngữ tự nhiên mà con người sử dụng. Trong khi đó lược đồ PEKS do Bonel và cộng sự đề xuất [15] lại có hạn chế do việc xử lý tính toán phức tạp, tiêu tốn nhiều tài nguyên. Ngoài ra, Fully Homomorphic Encryption (FHE) [12][16] cũng được quan tâm trong các nghiên cứu gần đây, hoạt động dựa trên cơ chế mã hóa đồng cấu cho phép dữ liệu sau mã bảo toàn thứ tự, hỗ trợ được các phép toán so sánh, sắp xếp, tìm kiếm và thậm chí tính toán trực tiếp (Sum, Avg, Max, Min, …) trên chính dữ liệu mã. Tuy nhiên, cơ chế mã hóa đồng cấu quá phức tạp, hiệu năng thấp sẽ không phù hợp với CSDL lớn, đồng thời việc giữ nguyên lại một số tính chất của dữ liệu rõ trên dữ liệu mã cũng sẽ tăng nguy cơ rò rỉ thông tin từ DSP. Về cơ bản, các lược đồ SE hỗ trợ truy vấn trực tiếp trên dữ liệu mã giúp tối ưu không gian lưu trữ CSDL trên DSP, tuy nhiên cũng tồn tại nhiều vấn đề, đặc biệt các vấn đề liên quan tới hiệu năng và sự hỗ trợ đa dạng các truy vấn còn hạn chế. Bên cạnh đó, 8
  13. khi triển khai vào thực tiễn cũng sẽ gặp nhiều băn khoăn từ phía các tổ chức/doanh nghiệp, bởi các hệ thống của họ thường sử dụng các hệ mật tiêu chuẩn và tin cậy trong mã hóa dữ liệu (như AES, DES, Blowfish, RSA, …) nên việc yêu cầu chuyển đổi sang sử dụng một thuật toán mã hóa mới cần được cân nhắc. 2.1.2. Giải pháp tìm kiếm dựa trên chỉ mục mã hóa Ý tưởng từ dữ liệu rõ biến đổi thành “dữ liệu mã” cùng “chỉ mục mã hóa” tương ứng sao cho các chỉ mục này được thiết kế hỗ trợ tìm kiếm mà không cần giải mã dữ liệu (thuật ngữ thường gọi là searchable index hoặc blind indexing). Như vậy việc tìm kiếm hoàn toàn diễn ra trên chỉ mục, kết quả nhận về sẽ là tập dữ liệu mã tương ứng với chỉ mục. Có thể thấy việc tạo chỉ mục sẽ làm tăng không gian lưu trữ nhưng không ảnh hưởng nhiều tới cấu trúc lưu trữ dữ liệu ban đầu của CSDL. Khác với phương pháp tìm kiếm trực tiếp trên dữ liệu mã hóa, khi đó dữ liệu mã lưu trên CSDL vừa phải hỗ trợ tính chất mã/giải mã vừa phải hỗ trợ tìm kiếm, trong khi đó chỉ mục mã hóa giống như các mục đại diện cho dữ liệu được sinh ra bởi các hàm băm độc lập với dữ liệu mã hóa, khi đó quá trình truy vấn trên chỉ mục sẽ có tốc độ và sự chính xác được cải thiện đáng kể. Với giải pháp tìm kiếm dữ liệu dựa trên chỉ mục mã hóa, các kỹ thuật sinh chỉ mục sẽ phụ thuộc nhiều vào kiểu dữ liệu rõ (số, ký tự, logic, …), trong đó hai kỹ thuật tạo chỉ mục cho dạng dữ liệu số (numerical data) và dạng dữ liệu ký tự (character data) được nghiên cứu nhiều hơn cả. Hakan [6] đã xây dựng phương pháp truy vấn dữ liệu số trong CSDL mã dựa trên kỹ thuật tạo khoảng dữ liệu và sinh chỉ mục cho giá trị đại diện cho khoảng, nghiên cứu cũng làm rõ cách thức biến đổi lệnh truy vấn với nhiều dạng thức khác nhau (các dạng điều kiện so sánh, truy vấn khoảng, nối giữa các bảng, …) thành truy vấn trên CSDL mã. Đây là một trong những giải pháp lượng tử hóa (quantization) dữ liệu tiêu biểu nhưng còn tồn tại nhiều vấn đề hạn chế như: kiểm soát dữ liệu mã dư thừa trả về sau truy vấn do vấn đề tạo khoảng sinh ra, hiệu năng thấp do phải thực hiện truyền và giải mã lượng dữ liệu dư thừa lớn, tấn công suy diễn dựa trên việc thống kê tần suất chỉ mục xuất hiện, …[17][18] Zheng-Fei và cộng sự, đã đề xuất phương pháp hỗ trợ truy vấn mờ (fuzzy query) trên dữ liệu dạng ký tự được mã hóa. Phương thức này thực hiện chuyển đổi từng nhóm 2 ký tự liền kề trong một chuỗi và sau đó chuyển đổi chuỗi ban đầu một cách trực tiếp sang chuỗi ký tự khác thông qua hàm băm. Nhược điểm cách tiếp cận này không có khả năng xử lý một số ký tự và có thể hoạt động kém đối với các chuỗi ký tự dài. Alhanjouri và Al Derawi đã đề xuất sử dụng Hash Maps cho cải thiện hiệu suất truy vấn trên cơ sở dữ liệu được mã hóa. Họ tuyên bố đã nghĩ ra một phương pháp tăng cường tốc độ phản hồi cho các truy vấn trên cơ sở dữ liệu được mã hóa dựa trên việc xây dựng một lớp bổ sung cho CSDL nhằm quản lý việc lưu trữ bảng băm, biến đổi câu lệnh, ánh xạ kết quả truy vấn từ bảng băm sang bản ghi tương ứng,… Tuy nhiên nhóm tác giả chỉ tập trung tới vấn đề hiệu suất truy vấn mà không chỉ ra các phương pháp bảo vệ an toàn lớp bổ sung nêu trên, đây chính là điểm yếu để tin tặc tấn công và khai thác dữ liệu. Sharma cùng cộng sự đã đề xuất giải pháp cho phép người dùng trực tiếp truy vấn dữ liệu mã hóa nằm trên một cột mà không cần giải mã. Ý tưởng của phương pháp này là 9
  14. xây dựng 2 bảng là Encrypted_Data_Table (chứa toàn bộ dữ liệu mã hóa) và bảng Query_Search_Table (chứa các điều kiện truy vấn cố định cùng kết quả danh sách ID của các bản ghi thuộc Encrypted_Data_Table mà thỏa mãn điều kiện truy vấn đó). Cách làm này hiển nhiên sẽ giúp tăng hiệu năng nhưng lại chỉ phù hợp cho những hệ thống với yêu cầu truy vấn đơn giản và cố định, không phù hợp khi triển khai trên CSDL lớn với nhu cầu khai thác dữ liệu đa dạng. Một số nghiên cứu nêu trên hướng tới tìm kiếm chính xác với từ khóa đơn, bên cạnh đó còn rất nhiều các nghiên cứu khác liên quan tới truy vấn dữ liệu kiểu ký tự dựa trên từ khóa (keyword)[5] như: Ranked single keyword search; Multikeyword search; Fuzzy keyword search; Conjunctive keyword search; Synonym-based search; Semantic-based search. Các kỹ thuật này tạo nên sự đa dạng trong tìm kiếm, đáp ứng được nhiều nhu cầu truy vấn dữ liệu của người dùng, tuy nhiên phải sử dụng một cấu trúc định nghĩa trước các tập từ khóa và biến thể của chúng, dẫn đến quá trình tiền xử lý dữ liệu rõ mất rất nhiều chi phí đồng thời cũng gặp nhiều khó khăn khi phải cập nhật lại bảng từ khóa khi có sự thay đổi qua các thao tác thêm, sửa, xóa trên CSDL. 2.1.3. Một số sản phẩm SE được đã được xây dựng Bên cạnh các công trình nghiên cứu mang tính lý thuyết thì một số giải pháp SE được hiện thực hóa thành các công cụ, tuy nhiên khả năng ứng dụng của các sản phẩm này chưa thực sự cao và còn nhiều hạn chế. Cụ thể: CryptDB là một giải pháp được xây dựng bởi Raluca Ada Popa cùng các cộng sự tại MIT Computer Science & Artificial Intelligence Lab (MIT CSAIL). Đây là sản phẩm đầu tiên hỗ trợ khá đầy đủ các dạng thức truy vấn (tìm kiếm từ khóa, so sánh, truy vấn khoảng, tính toán thống kê, …) đối với CSDL quan hệ (cụ thể CSDL được nhắc đến trong tài liệu giới thiệu về CrypDB là MySQL). CryptDB sử dụng nhiều cơ chế mã hóa khác nhau và chia thành nhiều mục tiêu truy vấn, theo đó với mỗi mục đích truy vấn khác nhau hệ thống cung cấp một loạt các lớp chức năng mã hóa khác nhau (DET, OPE, HOM, RND, …) với mức độ hỗ trợ bảo mật cùng hiệu năng tương ứng. Do đó, việc người quản trị lựa chọn cấu hình tìm kiếm theo cơ chế bảo mật nào là một vấn đề không đơn giản, bởi nếu sử dụng DET, OPE hay HOM để hỗ trợ được nhiều kiểu truy vấn khác nhau thì lại làm suy yếu khả năng bảo mật của hệ thống, còn nếu sử dụng RND để tăng cường bảo mật thì lại hạn chế trong việc thực hiện các điều kiện truy vấn đa dạng. CipherSweet là một thư viện do Paragon Initiative Enterprises phát triển và sử dụng chủ yếu trong các dự án sử dụng ngôn ngữ lập trình PHP. Sản phẩm này sử dụng cơ chế tạo chỉ mục hỗ trợ tìm kiếm (blind index) dạng phi tất định (non-deterministic: một bản tin, một khóa nhưng sẽ cho ra các bản mã khác nhau giữa các lần mã hóa khác nhau) nên độ bảo mật rất cao và hiệu năng tìm kiếm tốt, tuy nhiên CipherSweet chỉ hỗ trợ điều kiện tìm kiếm bằng (Equality). Một sản phẩm khác được phát triển trên nền tảng của CipherSweet là Acra, bên cạnh việc thừa hưởng các ưu nhược điểm của CipherSweet, mô hình này còn thêm một thành phần trung gian là máy chủ trung gian AcraServer giúp tăng độ an toàn trong việc kiểm soát khóa mã/giải mã của hệ thống. Một sản phẩm nổi tiếng khác là SQL Server Always Encrypted được Microsoft phát 10
  15. triển và tích hợp vào hệ quản trị MS SQL Server từ phiên bản 2016 trở về sau. Nhược điểm của sản phẩm này là chỉ hỗ trợ được duy nhất điều kiện so sánh bằng trong truy vấn với một số câu lệnh đơn giản, cũng như chỉ giới hạn triển khai trong riêng hệ quản trị CSDL của Microsoft. 2.2. Tình hình nghiên cứu trong nước Tại Việt Nam, có ít nhóm nghiên cứu tập trung chuyên sâu tìm hiểu phát triển các giải pháp và sản phẩm hỗ trợ truy vấn trên mã cho các CSDL thuê ngoài. Hiện tại có một số công trình liên quan như sau: “Giải pháp đảm bảo an toàn cơ sở dữ liệu trong môi trường Outsource” [16] của tác giả Nguyễn Hiếu Minh cùng các cộng sự đã đề xuất giải pháp hỗ trợ truy vấn dữ liệu mã trên môi trường Outsource trên cơ sở tìm kiếm chỉ mục trên cấu trúc dữ liệu chỉ mục dạng XML. Tuy nhiên, việc thiết kế, lưu trữ, cập nhật chỉ mục XML sẽ phức tạp và đặt gánh nặng cho máy chủ Webserver của DO, nói cách khác DSP lúc này chỉ có nhiệm vụ lưu trữ dữ liệu mà không tận dụng được các thế mạnh tính toán của Server Cloud. Hơn nữa, giải pháp của nhóm tác giả cũng không hỗ trợ được nhiều dạng thức truy vấn trên dữ liệu dạng số và ký tự. Văn Thế Thành cùng cộng sự đã đề xuất giải pháp “Truy vấn dữ liệu dựa trên cây chữ ký của khối văn bản” [18], nghiên cứu này thực chất là tổng hợp từ một số tài liệu liên quan trên thế giới về phương pháp tìm kiếm dữ liệu trên CSDL hướng đối tượng dựa vào việc xây dựng cây chữ ký SD-Tree. Luận án tiến sĩ của tác giả Nguyễn Anh Tuấn [15] tập trung xây dựng mô hình bảo mật CSDL ứng dụng trong nội bộ tổ chức (in house database). Nghiên cứu dùng các thuật toán mã hóa để bảo vệ dữ liệu và sử dụng các đối tượng bảng ảo, view, triger được cung cấp trong hệ quản trị CSDL phục vụ quá trình giải mã. Theo đó quá trình mã/giải mã đều thực hiện trên chính CSDL mã, việc đảm bảo an toàn khóa phụ thuộc vào vấn đề kiểm soát truy nhập của hệ quản trị CSDL cũng như của máy chủ. Hơn nữa, việc sử dụng cơ chế bảng ảo, view để tải toàn bộ dữ liệu giải mã lên trước rồi mới thực hiện truy vấn rõ trên các đối tượng này sẽ ảnh hưởng lớn tới hiệu năng hoạt động của CSDL khi cần truy vấn lượng dữ liệu lớn. Luận án tiến sĩ của tác giả Nguyễn Thị Bạch Huệ [17] tập trung nghiên cứu các vấn đề về: Bảo vệ tính riêng tư người dùng (user privacy); Bảo vệ tính riêng tư dữ liệu (data privacy); Xác thực (authentication); Ghi nhật ký hệ thống (auditing). Như vậy, phương pháp tổ chức mã hóa và truy vấn hiệu quả trên dữ liệu mã không được đề cập nhiều trong tài liệu này. Hiện tại, đề tài cấp nhà nước “Nghiên cứu, xây dựng giải pháp bảo mật cơ sở dữ liệu quan hệ phục vụ phát triển Chính phủ điện tử” đang triển khai của tác giả Trần Công Mạnh có thể nói là công trình tiêu biểu có nghiên cứu liên quan tới việc truy vấn trên dữ liệu mã. Tuy nhiên mô hình truy vấn xây dựng trong đề tài tập trung chủ yếu vào sự giả định tồn tại nhiều Proxy an toàn và đủ mạnh để hỗ trợ triển khai lưu trữ và truy vấn các chỉ mục mã hóa thay vì thực hiện truy vấn trực tiếp toàn phần trên dữ liệu chỉ mục mã hóa phía Server. 11
  16. 2.3. Nhận xét về tình hình nghiên cứu các giải pháp hỗ trợ truy vấn trên dữ liệu mã Trước sự ra đời và ngày càng phổ biến của điện toán đám mây, tìm kiếm trên dữ liệu mã (SE) đã nhận được sự quan tâm đông đảo của các nhà nghiên cứu trên thế giới từ nhiều năm qua và bắt đầu có sự gia tăng các công trình nghiên cứu liên quan trong nước những năm gần đây. Các giải pháp SE khá đa dạng, trong đó tập chung chủ yếu vào hai nhóm: truy vấn trực tiếp trên dữ liệu mã hóa và truy vấn trên chỉ mục mã hóa. Mỗi giải pháp đều có ưu nhược điểm riêng, tuy nhiên truy vấn trên chỉ mục mã hóa vẫn có những ưu điểm nổi trội như: tốc độ cao, dễ triển khai, không phụ thuộc vào thuật toán mã hóa cho dữ liệu rõ mà doanh nghiệp/tổ chức đang sử dụng, có thể hỗ trợ nhiều dạng thức truy vấn trên nhiều kiểu dữ liệu khác nhau, … Hiện tại, không có một nghiên cứu SE nào có thể tối ưu đồng thời các yêu cầu: “Mức độ bảo mật - Hiệu năng – Đa dạng biểu thức truy vấn – Khả năng triển khai” [5]. Chính vì vậy, các xu hướng nghiên cứu của lĩnh vực này trong tương lai vẫn tiếp tục hướng tới tăng khả năng hiệu quả truy vấn dữ liệu mã dựa trên việc tập trung vào cải thiện một nhóm tiêu chí hoặc cân bằng hài hòa tất cả các tiêu chí đã nói tùy vào bài toán cụ thể. Hầu hết các tài liệu nghiên cứu đều tập trung vào việc tìm giải pháp truy vấn dữ liệu trên các văn bản mã hóa, còn ít các tài liệu tiếp cận theo hướng truy vấn dữ liệu trên CSDL và đặc biệt là CSDL quan hệ (Relational Database Management System - RDBMS), khi đó thay vì dữ liệu được cấu trúc lưu trữ trong các văn bản (document) thì sẽ được tổ chức thành các bản ghi (row) và các cột (column) theo các thực thể được liên kết chặt chẽ với nhau. Việc kết hợp các công cụ quản trị, kỹ thuật truy vấn, lệnh truy vấn (T- SQL, PS/SQL, …) trên từng loại RDBMS với các giải pháp SE sao cho hiệu quả thực sự là một hướng nghiên cứu còn nhiều tiềm năng trong tương lai. Trong các kiểu dữ liệu được quản lý trên RDBMS thì phổ biến hơn cả là kiểu dữ liệu số (numerical) và kiểu dữ liệu ký tự (characterial), do đó nghiên cứu truy vấn trên dữ liệu mã đối với hai kiểu dữ liệu này sẽ là trọng tâm khi triển khai CSDL quan hệ trên môi trường hạ tầng thuê ngoài (DSP). Cụ thể những khoảng trống còn tồn tại và tiếp tục được quan tâm đẩy mạnh nghiên cứu như: tối ưu trong việc chia khoảng dữ liệu số; tối ưu biến đổi lệnh truy vấn khoảng (range query); tìm kiếm chính xác/gần đúng dựa trên tập từ khóa xác định trước; tìm kiếm chuỗi con độ dài tùy ý; … Bên cạnh vấn đề nghiên cứu các giải pháp truy vấn CSDL mã hóa thì việc xây dựng các lược đồ/mô hình để triển khai các giải pháp đó cho hiệu quả cũng được quan tâm trình bày trong các tài liệu. Có rất nhiều mô hình, nhưng nổi tiếng hơn cả là mô hình truy vấn dữ liệu mã hóa trên DAS, mô hình đã phân biệt rõ ràng các thành phần như DSP, DO, DU và vai trò cũng như quan hệ của chúng. Một trong những cải tiến dựa trên DAS được quan tâm nhiều đó là sử dụng máy chủ Proxy để: hỗ trợ hiệu quả quá trình phân quyền; bảo mật; biến đổi điều kiện truy vấn từ dạng rõ sang dạng mã; thực hiện giải mã rồi truy vấn lại dữ liệu; … Vì vậy, phương pháp truy vấn dữ liệu mã sử dụng máy chủ trung gian Proxy cũng là một nội dung quan trọng khi nghiên cứu các lược đồ SE. 12
  17. Một số sản phẩm hỗ trợ truy vấn dữ liệu mã đã được xây dựng trong thời gian gần đây, nhưng chưa thực sự đáp ứng được hoàn hảo các yêu cầu cần có của một giải pháp SE và cũng chưa nhận được sự tin tưởng hoàn toàn từ các tổ chức/doanh nghiệp có CSDL triển khai trên hạ tầng thuê ngoài. Từ tình hình nghiên cứu trong và ngoài nước về các vấn đề liên quan tới tìm kiếm trên dữ liệu mã (SE), nhóm nghiên cứu nhận thấy đề tài “Giải pháp truy vấn trực tiếp trên dữ liệu mã hóa nhằm nâng cao tính bảo mật cơ sở dữ liệu trực tuyến” là một hướng nghiên cứu vẫn được sự quan tâm lớn của các học giả cũng như các tổ chức/doanh nghiệp có nhu cầu triển khai CSDL quan hệ thuê ngoài. 3. Mục tiêu nghiên cứu Mục tiêu của đề tài tập trung vào việc lựa chọn mô hình, xây dựng phương pháp truy vấn hiệu quả trên dữ liệu dạng số và ký tự đã mã hóa trong cơ sở dữ liệu quan hệ thuê ngoài. Tính hiệu quả được thể hiện ở sự cải thiện một số yếu tố: - Mức độ bảo mật: có khả năng giảm được một số tấn công suy diễn và thống kê tần suất. - Hiệu năng: cải thiện tốc độ truy vấn trên cơ sở lọc kép, giảm thời gian giải mã trên cơ sở giảm bớt dữ liệu dư thừa. - Đa dạng biểu thức truy vấn: đáp ứng được một số lệnh truy vấn hay sử dụng - Khả năng triển khai: mô hình, thuật toán dễ ứng dụng và triển khai trong thực tiễn 4. Đối tượng nghiên cứu - Đối tượng nghiên cứu của đề tài tập trung vào: lựa chọn và tùy biến mô hình máy chủ trung gian Proxy hỗ trợ truy vấn dữ liệu mã, phát triển các phương pháp – kỹ thuật truy vấn hiệu quả trên dữ liệu mã dạng số và ký tự trong cơ sở dữ liệu quan hệ được triển khai trên CSDL thuê ngoài. Vấn đề truy vấn hiệu quả được thể hiện qua các tiêu chí: + Đảm bảo về tiêu chí bảo mật: tăng cường chống rò rỉ dữ liệu tại máy chủ cài đặt CSDL mã, bảo mật điều kiện truy vấn, quản trị an toàn metadata lưu tại Proxy. + Đảm bảo về hiệu năng: cải thiện tốc độ truy vấn trên dữ liệu mã, giảm thiểu dữ liệu dư thừa trả về sau khi truy vấn trên mã, tăng tốc giải mã tại Proxy. + Đảm bảo sự đa dạng của lệnh truy vấn: hỗ trợ hầu hết câu lệnh truy vấn dữ liệu căn bản (ngôn ngữ T-SQL), hỗ trợ điều kiện truy vấn phổ biến như: so sánh, truy vấn khoảng, tìm kiếm theo từ khóa, tìm kiếm chính xác chuỗi con có độ dài bất kỳ… + Đảm bảo khả năng triển khai: có khả năng áp dụng được trên các hệ quản trị CSDL quan hệ khác nhau, dễ dàng thiết kế chỉ mục và cài đặt thuật toán tìm kiếm. Cho phép người sở hữu dữ liệu tự do trong việc lựa chọn các thuật toán mã hóa dữ liệu trước khi triển khai trên CSDL quan hệ thuê ngoài. 5. Phạm vi nghiên cứu của đề tài - Triển khai CSDL quan hệ mã hóa thuê ngoài. - Sử dụng máy chủ trung gian Proxy hỗ trợ truy vấn trên dữ liệu mã dựa trên mô hình DAS. - Phương pháp, kỹ thuật truy vấn hiệu quả dữ liệu mã dựa trên việc truy vấn trên chỉ mục mã hóa. 13
  18. - Tăng tốc giải mã tập dữ liệu trả về tại Proxy sau khi truy vấn CSDL mã. 6. Phương pháp nghiên cứu - Xác định lĩnh vực nghiên cứu của đề tài, hoạch định các chủ đề trong lĩnh vực thông qua các từ khóa. Thực hiện tìm kiếm các tài liệu, công trình khoa học trong và ngoài nước có liên quan tới các từ khóa đã nêu. - Đọc phần mô tả của các tài liệu, sắp xếp và trích lọc các tài liệu không trùng lắp theo từng nhóm, thời gian, … - Đọc hiểu nội dung của các tài liệu, phân tích các đóng góp cũng như hạn chế của từng tài liệu, sau đó hệ thống hoá cơ sở lý thuyết và xác định đối tượng nghiên cứu. - Trao đổi với thầy hướng dẫn và các đồng nghiệp cùng lĩnh vực nghiên cứu. - Trao đổi thông qua seminar hoặc tham gia báo cáo tại các hội thảo khoa học nhằm nâng cao khả năng nghiên cứu, cách trình bày. Bài báo cáo khoa học là một trong những tiêu chí kiểm chứng đánh giá các kết quả nghiên cứu. - Thực nghiệm lý thuyết nghiên cứu và đánh giá. 7. Nội dung nghiên cứu Với mục tiêu nghiên cứu đã đưa ra, đề tài sẽ tập trung vào các vấn đề sau: - Tìm hiểu các yêu cầu đặt ra với bài toán truy vấn trên dữ liệu mã trong CSDL quan hệ thuê ngoài. - Tìm hiểu tổng quan về các giải pháp hỗ trợ tìm kiếm trên dữ liệu mã (SE). - Tìm hiểu mô hình DAS sử dụng máy chủ trung gian (Proxy) nhằm hỗ trợ truy vấn dữ liệu trên mã. - Tìm hiểu phương pháp truy vấn dữ liệu mã thông qua chỉ mục mã hóa cùng các kiến thức liên quan như: thuật toán mã hóa, hàm băm, hàm sinh số giả ngẫu nhiên, bộ lọc Bloom, … - Nghiên cứu phương pháp truy vấn hiệu quả trên dữ liệu dạng số được mã hóa lưu trong CSDL quan hệ thuê ngoài. Sự hiệu quả thể hiện qua việc hỗ trợ đa dạng điều kiện truy vấn như: truy vấn bằng, truy vấn khoảng, truy vấn so sánh; hạn chế lộ thông tin bản rõ từ chỉ mục; giảm thời gian giải mã dựa trên giảm số bản ghi dư thừa; ... - Nghiên cứu phương pháp truy vấn hiệu quả trên dữ liệu dạng ký tự được mã hóa lưu trong CSDL quan hệ thuê ngoài. Sự hiệu quả thể hiện qua khả năng hỗ trợ các thao tác tìm kiếm phổ biến như tìm kiếm bằng, like, wildcard, …đối với từ khóa hoặc chuỗi con có độ dài bất kỳ; hạn chế một số loại tấn công như: suy diễn nội dung, thống kê tần suất trùng lặp chỉ mục, …; cải thiện thời gian tìm kiếm dựa trên truy vấn kép; … - Nghiên cứu kỹ thuật phân tích và biến đổi lệnh truy vấn (ngôn ngữ T-SQL) trên dữ liệu rõ sang lệnh truy vấn trên chỉ mục mã hóa. - Đánh giá tính hiệu quả của các phương pháp truy vấn đã đề xuất dựa trên thực nghiệm trên CSDL mẫu là TPC-H. 14
  19. CHƯƠNG 1. BÀI TOÁN BẢO MẬT CƠ SỞ DỮ LIỆU TRỰC TUYẾN 1. Yêu cầu đối với bài toán bảo mật Cơ sở dữ liệu 1.1. Hệ quản trị CSDL Trên thực tế, các hệ quản trị CSDL ngày nay thường được chia thành hai dạng chính: CSDL quan hệ (Relational database): Một số hệ quản trị CSDL quan hệ điển hình là SQL Server, Oracle, DB2, MySQL, … CSDL không quan hệ (Non-relational database hay NoSQL): Một số hệ quản trị CSDL NoSQL điển hình là MongoDB, Cassandra, Hbase, Redis, … Trên hình 6 mô tả một số hệ quản trị CSDL dạng SQL và NoSQL điển hình. Hình 6. Một số hệ quản trị CSDL dạng SQL và NoSQL điển hình Thị phần trên thị trường của các hệ quản trị CSDL được mô tả trên hình 7 Hình 7. Thị phần hệ quản trị CSDL quan hệ, Hadoop & NoSQL và các CSDL không quan hệ khác Dễ dàng nhận thấy rằng, trên thực tế các hệ quản trị CSDL quan hệ được sử dụng nhiều nhất trên thực tế. Trên hình 8, mô tả thị phần trên thị trường của các hệ quản trị CSDL thương mại. 15
  20. Hình 8. Thị phần của các hệ quản trị CSDL thương mại năm 2016 Có thể thấy rằng hai hệ quản trị CSDL chiếm thị phần lớn nhất trên thực tế là Oracle và Microsoft SQL Server. 1.2. Vấn đề an toàn CSDL Trong phần này sẽ trình bày về phạm vi của an toàn CSDL và cũng xác định các loại đe dọa và các hậu quả của chúng trên các hệ thống máy tính. An toàn CSDL (Database security): Là việc bảo vệ CSDL chống lại các đe dọa vô tình hay cố ý sử dụng các kiểm soát dựa trên máy tính và không dựa trên máy tính. Nó liên quan đến việc sử dụng một loạt các biện pháp kiểm soát an ninh thông tin để bảo vệ CSDL (bao gồm dữ liệu, các ứng dụng CSDL hoặc các chức năng được lưu trữ, các hệ thống CSDL, các máy chủ CSDL và các liên kết mạng liên quan) để chống lại các nguy cơ xâm phạm đến tính bí mật, tính toàn vẹn và tính sẵn sàng. Nó bao gồm nhiều biện pháp kiểm soát, như kỹ thuật, thủ tục/hành chính và vật lý. Việc nghiên cứu độ an toàn không chỉ được áp dụng cho CSDL được lưu trong CSDL. Các lỗ hổng của sự an toàn có thể ảnh hưởng đến các phần khác trên hệ thống mà quay lại ảnh hưởng đến CSDL. Dẫn đến, an toàn CSDL bao gồm phần cứng, phần mềm, con người và dữ liệu. Để áp dụng hiệu quả việc an toàn đòi hỏi các kiểm soát thích hợp được xác định trong các điều khoản của một chính sách phù hợp với yêu cầu của hệ thống. Nguyên nhân của các yêu cầu này là do sự gia tăng nhanh của các dữ liệu quan trọng được lưu trên máy tính và mất mát hay không sẵn sàng của dữ liệu này dẫn đến thảm họa không thể dự đoán được. Trong thực tế, tồn tại nhiều lớp và các biện pháp kiểm soát an ninh thông tin dành cho CSDL, bao gồm:  Kiểm soát truy nhập (Access control).  Kiểm toán (Auditing)  Xác thực (Authentication).  Mã hóa (Encryption).  Kiểm soát tính toàn vẹn (Integrity controls).  Sao lưu (Backups)  An toàn ứng dụng (Application security). Đối với CSDL thường tồn tại các nguy cơ rủi ro như sau:  Nguy cơ 1: Bị mất trộm hệ thống CSDL hoặc phương tiện lưu trữ. 16
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2