Tóm tắt Luận án Tiến sĩ Kỹ thuật điều khiển và tự động hóa: Nghiên cứu giải pháp nâng cao an toàn thông tin trong các hệ thống điều khiển công nghiệp

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:28

Thêm vào BST

Báo xấu

10
lượt xem 4
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Mục đích nghiên cứu của tóm tắt luận án "Nghiên cứu giải pháp nâng cao an toàn thông tin trong các hệ thống điều khiển công nghiệp" là nghiên cứu về ảnh hưởng của tấn công tuyến tính tới tính toàn vẹn dữ liệu trong hệ thống điều khiển công nghiệp, từ đó đề xuất các phương pháp dò tìm, phát hiện tấn công tuyến tính trong trường hợp vượt qua phương pháp K-L. Mời các bạn cùng tham khảo!

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt Luận án Tiến sĩ Kỹ thuật điều khiển và tự động hóa: Nghiên cứu giải pháp nâng cao an toàn thông tin trong các hệ thống điều khiển công nghiệp

BỘ GIÁO DỤC VÀ ĐÀO TẠO ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN ĐỨC DƯƠNG NGHIÊN CỨU GIẢI PHÁP NÂNG CAO AN TOÀN THÔNG TIN TRONG CÁC HỆ THỐNG ĐIỀU KHIỂN CÔNG NGHIỆP Ngành: Kỹ thuật điều khiển và Tự động hóa Mã số: 9520216 TÓM TẮT LUẬN ÁN TIẾN SĨ KỸ THUẬT ĐIỀU KHIỂN VÀ TỰ ĐỘNG HÓA HÀ NỘI - 2024
Công trình được hoàn thành tại Đại học Bách Khoa Hà Nội Người hướng dẫn khoa học: 1. TS. Cung Thành Long 2. PGS.TS. Lê Minh Thùy Phản biện 1: PGS.TS. Trương Xuân Tùng Phản biện 2: PGS.TS. Trần Đức Tân Phản biện 3: TS. Phạm Ngọc Minh Luận án được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Đại học Bách khoa Hà Nội họp tại Đại học Bách khoa Hà Nội Vào hồi ……giờ, ngày ….. tháng ….. năm 2024 Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam
MỞ ĐẦU Các hệ thống điều khiển giám sát và thu thập dữ liệu SCADA (Supervisory Control and Data Acquisition) nói riêng, hay tổng quát hơn là các hệ thống điều khiển phân tán công nghiệp (DCS – Distributed Control System), là các hệ thống được sử dụng để giám sát, điều khiển các trạm, hay nhà máy xí nghiệp công nghiệp với nhiều quy mô khác nhau. Để thực hiện các chức năng của hệ thống, việc thu thập, truyền nhận và kiểm soát, đảm bảo tính toàn vẹn của dữ liệu là rất quan trọng. Các hệ thống điều khiển công nghiệp có thể bị tấn công phối hợp không chỉ trên cơ sở hạ tầng vật chất mà còn trên lớp truyền thông và trung tâm điều khiển, với nhiều điểm tấn công khác nhau [1]–[12]. Vì vậy, vấn đề đảm bảo an toàn dữ liệu cho các hệ thống điều khiển công nghiệp đang được quan tâm lớn. Hiện nay, có hai hướng nghiên cứu chính về đảm bảo an toàn thông tin trong các hệ thống điều khiển công nghiệp. Hướng thứ nhất tập trung vào các thuật toán/ phương pháp phát hiện điểm bất thường của chuỗi dữ liệu truyền trong hệ thống. Các phương pháp có thể kể đến bao gồm CHI2, CUSUM, FSS (Fixed-Size Sample), WL CUSUM (Window Limited Cumulative SUM), FMA (Finite Moving Average) – áp dụng khi biết thông số kỳ vọng, phương sai của hệ thống khi có thay đổi bất thường; hoặc GLR (Generalized Likelihood Ratio), WLR (Weighted Likelihood Ratio) khi chưa biết kỳ vọng, phương sai của hệ thống khi có thay đổi bất thường [13]. Hướng thứ hai tập trung nâng cao khả năng phát hiện sai lệch dữ liệu trong cấp điều khiển, giám sát của các hệ thống điều khiển công nghiệp, sử dụng bộ dữ liệu mẫu mô phỏng các trường hợp bị tấn công điển hình. Vấn đề này hiện đang nhận được nhiều sự quan tâm [14]. Đối với vấn đề phát hiện xâm nhập dữ liệu, các phương pháp học máy truyền thống [15]–[19] và các kiến trúc mạng nơ ron học sâu (đối với các mảng dữ liệu lớn) [20]–[24] đang được nghiên cứu khá rộng rãi. Ngoài ra, nhiều nhóm cũng nỗ lực nghiên cứu xây dựng các bộ dữ liệu để phát hiện xâm nhập của các dạng tấn công trong hệ thống SCADA [22], [25]–[27]. LATS này trình bày các nghiên cứu về ảnh hưởng của tấn công tuyến tính tới tính toàn vẹn dữ liệu trong hệ thống điều khiển công nghiệp, từ đó đề xuất các phương pháp dò tìm, phát hiện tấn công tuyến tính trong trường hợp vượt qua phương pháp K-L. Ngoài ra, tác giả cũng đề xuất một dạng mô hình xếp chồng để cải thiện chất lượng trong việc phát hiện sự xâm nhập của một số dạng tấn công trong các hệ thống SCADA. Mô hình đề xuất đã được tối ưu hóa và thử nghiệm trên bộ dữ liệu quốc tế (bộ dữ liệu đường ống dẫn khí Turnipseed). Bố cục luận án gồm phần mở đầu, bốn chương nội dung nghiên cứu và kết luận, kiến nghị. Toàn bộ nội dung trình bày trong 116 trang (không gồm phụ lục), trong đó có 22 bảng và 66 hình. 1
CHƯƠNG 1 TỔNG QUAN VẤN ĐỀ AN TOÀN THÔNG TIN TRONG HỆ THỐNG ĐIỀU KHIỂN CÔNG NGHIỆP 1.1. Tổng quan về hệ thống điều khiển công nghiệp Kiến trúc của một hệ thống điều khiển công nghiệp bao gồm ba cấp chính: cấp giám sát điều khiển, cấp điều khiển tự động và cấp chấp hành . 1.2. Vấn đề an toàn thông tin trong hệ thống điều khiển công nghiệp 1.2.1. Một số cuộc tấn công hệ thống điều khiển công nghiệp Cuộc tấn công vào Hệ thống trạm biến áp cao áp, máy tính, thiết bị mạng ở Ukraine (2022) Cuộc tấn công vào nhà máy sản xuất nhôm ở Mỹ Norsk Hydro (2019) Cuộc tấn công vào nhà máy sản xuất chip lớn nhất ở Đài Loan TSMC (2018) Cuộc tấn công vào nhà máy công nghiệp ở Trung Đông (2017 Cuộc tấn công vào Telvent ở Canada (2012) Virus Stuxnet (2010) 1.2.2. Các điểm tấn công Hình 1.3. Các điểm có khả năng bị tấn công trong hệ thống điều khiển Các điểm có khả năng bị tấn công trong hệ thống điều khiển công nghiệp được mô tả ở hình 1.3. Trong đó các phương thức tấn công ở điểm A1, A2, A3 là một số thủ đoạn tấn công nhằm vào lớp điều khiển giám sát, thông qua việc chiếm quyền truy cập vào trung tâm điều khiển từ các ứng dụng trên web server; lan truyền virus phá hoại cấu hình mạng điều khiển, giám sát của nhà máy; A4 là chiếm quyền truy cập vào các kênh truyền thông giữa trung tâm điều khiển và các trạm; A5, A6 là tấn công vào liên kết truyền thông giữa MTU và PLC /RTU; A7 là tấn công đường kết nối mạng giữa nhà máy và nhà thầu; A8 là tấn công các thiết bị đầu cuối hiện trường; A9 là tấn công đường tín hiệu gửi từ bộ điều khiển cho các thiết bị truyền động; A10 là tấn công các tín hiệu phản hồi được truyền từ các bộ cảm biến để điều khiển; A0 2
là tấn công cơ học trực tiếp vào các thiết bị ở lớp vật lý của các hệ thống điều khiển công nghiệp. Vì vậy, các nghiên cứu đảm bảo an toàn dữ liệu cho các hệ thống điều khiển công nghiệp đang được quan tâm lớn. 1.2.3. Một số lỗ hổng dễ bị tấn công Các sự cố mạng gần đây cho thấy việc khai thác các lỗ hổng của hệ thống điều khiển công nghiệp hiện đại đang được thực hiện rất tốt để từ đó nhằm vào các cuộc tấn công trên cơ sở hạ tầng mạng quan trọng. Để cải thiện sự an toàn của hệ thống, việc cần thiết là phải kiểm tra các lỗ hổng của toàn hệ thống điều khiển công nghiệp để từ đó đưa ra các biện pháp bảo vệ. 1.3. Các dạng tấn công điển hình và phân loại Hình 1.4. Một số dạng tấn công điển hình 1.4. Kết luận chương 1 Các hệ thống điều khiển công nghiệp (tập trung hoặc phân tán) là các hệ thống được sử dụng để giám sát, điều khiển các trạm, hay nhà máy xí nghiệp công nghiệp với nhiều quy mô khác nhau. Để thực hiện các chức năng của hệ thống, việc thu thập, truyền nhận và kiểm soát, đảm bảo tính toàn vẹn của dữ liệu là rất quan trọng. Cùng với sự phát triển của công nghệ thông tin và truyền thông, các hệ thống điều khiển công nghiệp dễ bị tấn công phối hợp không chỉ trên các cơ sở hạ tầng vật chất mà còn trên lớp truyền thông và trung tâm điều khiển. Vì vậy, các nghiên cứu đảm bảo an toàn dữ liệu cho các hệ thống điều khiển công nghiệp đang được quan tâm lớn. Hiện nay, có hai hướng nghiên cứu chính. Đó là nghiên cứu các thủ đoạn tấn công mới nhằm đánh giá khả năng của các phương pháp bảo mật thông tin, và hướng nghiên cứu thứ hai là tập trung xây dựng các phương pháp phát hiện dữ liệu bị tấn công. Theo hướng nghiên cứu thứ nhất, hiện có thể phân loại một số phương pháp tấn công như tấn công từ chối dịch vụ – DoS, tấn công tính toàn vẹn dữ liệu truyền nhận giữa các lớp, hoặc trong các lớp mạng của hệ thống điều khiển, bằng các hình thức như làm sai lệch thông tin, chèn thông tin giả, ...[4]. Gần đây, có công bố về phương pháp tấn công tuyến tính của nhóm nghiên cứu tại Đại học Công nghệ Hồng Kông [6]. Đây là phương pháp tấn công vào 3
tính toàn vẹn dữ liệu ở cấp hiện trường với độ nguy hiểm cao, tập trung vào điểm tấn công A9 và A10 (hình 1.3). Nhóm nghiên cứu đã chỉ ra rằng, thuật toán phát hiện tấn công K-L hoàn toàn có thể bị vượt qua với kiểu tấn công này [5], [6]. Nội dung này sẽ được trình bày chi tiết hơn trong chương 2 của luận án. Hướng nghiên cứu thứ hai, về đảm bảo an toàn thông tin, hiện nhận được nhiều sự quan tâm và có nhiều công trình được công bố. Một nhóm nghiên cứu ở học viện Kỹ thuật mật mã áp dụng phương pháp CUSUM để phát hiện một số dạng tấn công điển hình (tấn công đột ngột (surge attack), tấn công phân cực (bias attack), tấn công hình học (geometric attack) trên đối tượng một vào một ra – SISO [45]. Trong luận án này, kế thừa các kết quả của hướng nghiên cứu thứ nhất, NCS sẽ tập trung vào hướng nghiên cứu thứ hai, cụ thể nghiên cứu các phương pháp phát hiện tấn công tuyến tính tại các điểm tấn công A9 và A10 trong hệ thống điều khiển công nghiệp (hình 1.3) và kiểm chứng khả năng phát hiện tấn công tuyến tính của các phương pháp này (chương 3). Đồng thời, NCS cũng sẽ tiến hành nghiên cứu đề xuất mô hình cho phép nâng cao khả năng phát hiện tấn công tính toàn vẹn dữ liệu trong các hệ thống điều khiển công nghiệp, sử dụng bộ dữ liệu quốc tế đã công bố [4] (chương 4). CHƯƠNG 2 TỔNG QUAN TẤN CÔNG TUYẾN TÍNH VÀ MỘT SỐ PHƯƠNG PHÁP TẤN CÔNG TÍNH TOÀN VẸN DỮ LIỆU 2.1. Tổng quan về tấn công tuyến tính 2.1.1. Mô hình đối tượng Xét hệ thống điều khiển với điểm chịu tấn công tuyến tính được mô tả như hình 2.1, làm thay đổi dữ liệu truyền không dây tại đầu ra của các cảm biến.  zk  yk xk yk  xk Hình 2.1. Sơ đồ minh họa vị trí chịu tấn công tuyến tính Trong đó, phương trình mô tả tín hiệu tại đầu vào và đầu ra của cảm biến được viết như trong (2.1) và (2.2) [5]: xk 1  Axk  k (2.1) yk  Cxk  vk (2.2) 4
2.1.2. Bộ ước lượng từ xa Để ước lượng trạng thái hệ thống, dùng bộ lọc Kalman [6], được minh họa ở (2.3)÷(2.7) xk  Axk 1 ˆ ˆ (2.3) Pk  APk 1 AT  Q  (2.4) K k  Pk C T (CPk C T  R )1 (2.5) xk  xk  K k zk ˆ ˆ (2.6) Pk  ( I  K k C ) Pk (2.7) Trường hợp không bị tấn công, ước lượng sai lệch tín hiệu đầu ra của cảm biến có thể viết như trong (2.8): zk  yk  yk  yk  Cxk ; zk  N  0;   ˆ ˆ (2.8)   CPC T  R; E  zi , z Tj   0 i  j   với R là ma trận hiệp phương sai của nhiễu ồn trắng, P là ước lượng hiệp phương sai (biến trạng thái của hệ thống) ở trạng thái ổn định, E  zi , zT  là kỳ vọng các thành phần phần dư z k [13].  j   Trường hợp bị tấn công, tín hiệu ra của cảm biến bị thay đổi như mô tả trong công thức (2.9):    yk  zk  Cx  k (2.9) 2.1.3. Chiến lược tấn công tuyến tính Tấn công tuyến tính là tấn công kiểu mới được mô tả theo phương trình (2.13):  z T z b k k k k (2.13) với Tk   mm - ma trận tấn công tuyến tính bk  N  0,  k  - biến ngẫu nhiên dạng Gaussian Theo [51], dưới tác động của tấn công tuyến tính, tín hiệu cảm biến yk  bị biến đổi thành y k thỏa mãn (2.9) và (2.13). Nếu phần dư z k  N  0;   thì zk  N  0;Tk T  k T   k , trong đó:   CPC T  R (2.14) Giả sử tấn công tuyến tính vượt qua phương phát phát hiện lỗi thì   zk  zk  zk  N  0;      Tk TkT  k (2.15) do đó:  k    Tk Tk  0 T (2.16) Thông thường có hai dạng tấn công tuyến tính: 5
+ Tấn công tuyến tính với hệ thống biết đủ thông số, + Tấn công tuyến tính với hệ thống không biết đủ thông số. 2.2. Đánh giá mức độ ảnh hưởng của tấn công tuyến tính lên hệ thống so với một số dạng tấn công khác 2.2.1. Đánh giá mức độ ảnh hưởng của tấn công tuyến tính thông qua hiệp phương sai của sai số ước lượng trong bộ ước lượng từ xa Xét hệ thống vô hướng (Scalar) với thành phần m = 1, tấn công tuyến  tính z k  T k z k  bk có Tk là đại lượng vô hướng. Hiệp phương sai của sai số ước lượng trong hệ thống khi không có tấn công P được xác định từ phương trình (2.40) [6]: n 1  A Q  I  KC  n i P  A n P   I  KC  AT   AT  T i T     (2.40) i 0 Hiệp phương sai của sai số ước lượng trong bộ ước lượng từ xa khi có tấn công [6], ta có:   Pk  APk 1 A  Q  PC T ( S  TkT STk )CP T (2.41)   1 trong đó S  CPC T  R   1 (2.42) Từ phương trình (2.40), ta chọn:   Pk  A Pk 1 AT  Q  1  2Tk   (2.43)   1 với:   PC T CPC T  R CP  PC T SCP (2.44) Giả sử hệ thống vô hướng trên chịu sự tác tộng của kiểu tấn công được mô tả như trong (2.45)  zk k   0; T1  v T2 ; T3  v T4 ; T5    0 k  T1 ; T2   zk     zk k  T3 ; T4   N  0;    k  T5 ; T6   zk  zk k   0; T1  v T2 ; T3  v T4 ; T5  , Trường hợp này xảy ra khi Tk  1 bk  0 ; Từ phương trình (2.43), ta có:   Pk  APk 1 AT  Q   (2.46) với điểm đầu thỏa mãn (2.47)  P   I  KC  P  P   (2.47) 0 Từ (2.4) và (2.7), ta có hiệp phương sai của hệ thống tính theo bộ lọc Kalman: 6
Pk  ( I  K k C ) Pk   I  K k C   APk 1 AT  Q  (2.48) I  KkC  P  P   Pk   Trường hợp 2: z  0 nếu k  T ; T  , k 1 2 (tấn công từ chối dịch vụ - DoS) Từ phương trình (2.43), ta có:   Pk  APk 1 A T  Q  0.  Trường hợp 3: zk   zk nếu k  T3 ; T4  , điểm tấn công tối ưu của tấn công tuyến tính. Trường hợp này xảy ra khi Tk  1; bk  0, từ phương trình (2.43),   ta có: Pk  A Pk 1 A T  Q  3  Trường hợp 4: z k  N  0;   nếu k  T5 ; T6  , tấn công có dạng phân bố  chuẩn, với   CPC T  R trường hợp này xảy ra khi T  0; b  N  0;   k k Từ phương trình (2.43), ta có:   Pk  APk 1 A T  Q   (2.51) Với tấn công tuyến tính minh họa ở trường hợp 3 thì làm tăng hiệp phương sai ước lượng sai một lượng 3  (lớn nhất), đây là điểm tấn công tối ưu, gây ra thiệt hai nhiều nhất cho hệ thống. Với hệ thống có nhiều đầu ra (m>1) thì tấn công tuyến tính sẽ tối ưu, khi T k   I [6] . 2.2.2. Kiểm chứng bằng mô phỏng a) Xét hệ thống Scalar ổn định b) Xét hệ thống Scalar không ổn định 2.3. Phương pháp phát hiện tấn công Kullback - Leibler Các tác giả trong [5] đã nghiên cứu khả năng tấn công tuyến tính vượt qua phương pháp phát hiện sai lệch dữ liệu K-L. Đây là một phương pháp phát hiện lỗi được đánh giá cao, dựa trên nguyên tắc tính độ chênh giữa hai  chuỗi giá trị ngẫu nhiên z k và z k . Giả sử f zk    và f zk    là hàm mật độ của   z k và z k ta có độ chênh D giữa z k và z k như công thức (2.52) [5]: f z    D  z k || z k    f z    log  k d (2.52) k k fz   Khi độ chênh vượt ngưỡng, dữ liệu được đánh giá là bị tấn công làm sai lệch giá trị, và ngược lại, như thể hiện trong (2.53):  D  zk || zk         D  zk || zk       với  là ngưỡng phát hiện đặt trước của phương pháp K-L.  max Tr P    (Tk , bk )  k  (2.54)     D zk || zk   , k  7
Tấn công tuyến tính sẽ vượt qua phương pháp phát hiện K-L khi xác định được Tk , k thoả mãn (2.54) [5]:    với Tr Pk là vết của ma trận hiệp phương sai khi dữ liệu bị tấn công. Trong đó ma trận  P được tính như công thức (2.55) [5]: k    Pk  APk 1 AT  Q  K  k K T  PC T TkT K T  KTk CP (2.55) Theo [53], ta có nghiệm tối đa  z *k của (2.55), thỏa mãn: 1   2   k    1  K T K  (2.56)    với   2 min i và 1 , 2 ,..., m là các giá trị riêng của KT K 1i  m Theo quy hoạch lồi Karush Kuhn Tucker, từ (2.56), ta có mối quan hệ giữa các ngưỡng  và  thoả mãn phương trình (2.57) [5]: 1 m 1     Tr  1k     log    0 (2.57) 2 2 2  k    Ma trận Tk thỏa mãn (2.54) được xác định từ việc giải phương trình tối ưu quy hoạch lồi (2.58) [5]:  min Tr CPPC T  1Tk  (Tk )       Tk  (2.58)  T 1  0  Tk     và ma trận  k được xác định từ mối quan hệ:  k   k  Tk  TkT (2.59) Như vậy, với mỗi ngưỡng  của phương pháp K-L đều có thể tìm ra các ma trận tấn công Tk , k . Hay nói cách khác, luôn tồn tại khả năng để tấn công tuyến tính có thể vượt qua phương pháp phát hiện sai lệch dữ liệu K-L. Trong trường hợp này, phần dư của ước lượng từ xa (bộ lọc Kalman) thỏa mãn công thức (2.60):  N  0, 0   1  k  k0 hay k  k0  L, zk    N  0, 1   k0  k  k 0  L , Trong đó các ma trận 0 , 1 được tính theo công thức (2.61): 0    CPCT  R; 1  Tk TkT  k Dưới ảnh hưởng của tấn công tuyến tính, thành phần hiệp phương sai (covariance) của phần dư hệ thống bị thay đổi rõ ràng. Các dạng tấn công khác thông thường chỉ làm thay đổi thành phần giá trị trung bình (mean). 8
Điều này cho thấy tính nguy hiểm của dạng tấn công tuyến tính. 2.4. Tổng quan một số phương pháp phát hiện tấn công tính toàn vẹn dữ liệu Hình 2.11. Các phương pháp phát hiện tấn công 2.4.1. Phương pháp FSS zi xk  P  xk  P  0 1 J yk y k  P1   y k  P 0  0 k* gk L L L L L L L h 0 k0 k k g k   ziT 1 zi1 i k  J 1 dm  1 d1  0 d2  0 dm 1  0 0 k* 0 k0 T k k  J 1 k Hình 2.12. Phương pháp phát hiện Hình 2.13. Minh họa phương pháp mẫu cố định (FSS) CHI2 phát hiện dữ liệu bị tấn công 2.4.2. Phương pháp CHI-SQUARED Phương pháp CHI-SQUARED (CHI2) có khác biệt so với phương pháp K-L ở điểm là phương pháp này dùng dạng bình phương của chuỗi giá trị zk để kiểm tra độ sai lệch đáng kể giữa hiệp phương sai và giá trị mong muốn của sai số giữa các đầu ra quan sát và đầu ra ước lượng như công thức (2.67) [5], [54]:  k  z kT  1 z k (2.67) Các giá trị tổng sai lệch g k của phương pháp CHI2 được xác định theo nguyên tắc trong công thức (2.68): k k gk   k   z iT   1 z i (2.68) i  k  J 1 i  k  J 1 Khi tổng sai lệch vượt ngưỡng, dữ liệu được đánh giá là bị tấn công làm sai lệch giá trị, và ngược lại, được thể hiện trong (2.69) và hình 2.13: 9
 gk  h   (2.69)  gk  h  và thời điểm cảnh báo tấn công TCHI 2 được xác định từ điều kiện (2.70): TCHI 2  min  k : g k  h  (2.70) trong đó h là ngưỡng phát hiện tấn công (đặt trước) theo phương pháp CHI2. 2.4.3. Phương pháp CUSUM Phương pháp CUSUM có khác biệt so với phương pháp K-L và CHI2 ở điểm là: phương pháp này áp dụng lý thuyết Wald phân tích tính bất thường trong dữ liệu [13], [55]. Xét hệ ngẫu nhiên X   x1 , x 2 , ... x k T  N   ,   . Giả sử khi chưa bị tấn công thì X  N   ,  0  và khi bị tấn công thì X  N   , 1  . Phương pháp CUSUM xét tỷ lệ thay đổi thực sự Sik (likelihood ratio – LLR), (như được minh họa ở hình 2.14, xác định theo công thức (2.72) và (3.20) [13], [55]. Tỷ lệ Sik có xu hướng biến thiên đơn điệu khi không có thay đổi bất thường trong tín hiệu, và đổi chiều biến thiên tại thời điểm xảy ra thay đổi bất thường. Thuật toán CUSUM được minh họa qua công thức (2.71) và (2.72).  TCS  min k  1: max Si  h 1i k k  (2.71) f1  xt  k k f1  xt  St  ln f0  xt  ; Sik   t i St   ln f t i  xt  (2.72) 0 với 1 là chỉ số các điểm khi có thay đổi bất thường, 0 là chỉ số các điểm khi không có thay đổi bất thường. xk xk  P  xk xk  P  1  H1 : xk  P 1   0  H 0 : xk  P 0    H 0 : xk  P 0   0 0 k k0 k k SL k0 k0  L S1 k0  L 0 S  k 1 k0 k 0   k SL kL k0 k 1 gk  i g k   g k 1  sk  ; k  L k Sk gk  min1i k S1 g k   gk 1  sk  k S k  L 1 Sik 0 k0 TWL k0  L 0 k0 T k L Hình 2.14. Minh họa phương pháp Hình 2.15. Minh họa phương pháp WL- CUSUM phát hiện dữ liệu bị tấn công CUSUM phát hiện dữ liệu bị tấn công Tiêu chuẩn để xác định dữ liệu có bị tấn công hay không được tính như công thức (2.73): 10
  f  xk   g k   g k 1  ln 1  , g0 =0 (2.73)   f0  xk    Như vậy, phương pháp CHI2 chỉ sử dụng dữ liệu trước thời điểm thay đổi bất thường, còn phương pháp CUSUM sử dụng dữ liệu trước và sau khi có thay đổi bất thường. 2.4.4. Phương pháp WL CUSUM Phương pháp WL CUSUM (Window Limited Cumulative SUM) là một trường hợp đặc biệt của phương pháp CUSUM. Xu hướng biến thiên của k tỷ lệ thay đổi thực sự (LLR) S L   kL được minh qua ở hình 2.15. Dễ thấy trước điểm thay đổi k0 và sau điểm thay đổi k0  L 1 , đạo hàm của tỷ lệ thay đổi thực sự (LLR) có giá trị âm, còn trong khoảng k0 và k0  L 1 thì đạo hàm này có giá trị dương. Thời điểm cảnh báo tấn công được xác định từ điều kiện [13], [34], [57]:  TWL  min k  L : max k  L 1i  k Sik  h  (2.86) Lập luận tương tự như ở phương pháp CUSUM, từ (3.26), ta có tỷ lệ thay đổi (LLR) của phương pháp WL CUSUM tính được theo công thức (2.90): 1 det  0 1   x    1 1   0 1   x    T   sk  ln (2.90) 2 det 1 2   và thời điểm cảnh báo tấn công của phương pháp WL CUSUM TWL được xác định từ điều kiện (2.91) và được minh họa ở hình 2.15 [42]: TWL  min  k  L : gk  h (2.91) 2.4.5. Phương pháp FMA Phương pháp FMA (Finite moving average) là một thuật toán trong đó: ứng với mỗi thời điểm tức thời k1 luôn kiểm tra giữa trường hợp giả định có thay đổi bất thường H1 và trường hợp giả định bình thường H0 trong khoảng L các phần tử quan sát xk  L 1 ,..., xk (được minh họa ở hình 3.7). Đối với thời điểm k  1, quá trình sẽ chuyển dịch một bước bằng cách xóa phần tử xk  L1 và bổ sung phần tử x k 1 để tạo thành bộ L các phần tử quan sát xk  L  2 ,..., xk 1 [10], [11], [42], [58], [59]. Thời gian cảnh báo tấn công của phương pháp FMA được xác định theo công thức (2.92).   L f1  xk i 1    TFMA  min k  L : gk   i   ln f0  xk i 1   h  (2.92)  i 1  11
trong đó, h là ngưỡng cảnh báo được chọn trước;  i  0 với i  1,.., L là các trọng số tương thích các bộ lọc hệ quả hay là các hệ số được xác định trước. xk  H 1 : xk  P 1    H 0 : xk  P 0   L 0 k0 L f1  xk i 1  g k    i log i 1 f0  xk i 1  0 k  L 1 k k0 TFMA Hình 2.16. Minh họa phương pháp FMA Hình 3.4. Sơ đồ công nghệ hệ thống bình phát hiện dữ liệu bị tấn công trộn nhiệt Lập luận tương tự như ở phương pháp CUSUM, từ (2.95), ta có tỷ lệ thay đổi (LLR) của phương pháp FMA tính được theo công thức (2.96): 1  det 0    xt    1 1  01   xt     T   Stk   ln (2.96) 2  det 1    Thời điểm cảnh báo tấn công của phương pháp FMA TFMA được xác định từ điều kiện (2.97):  k  TFMA  min  k  L : g k   Stk  h   (2.97)   t  k  L 1  2.5. Kết luận chương 2 Tấn công tuyến tính là loại tấn công mới vào tính toàn vẹn dữ liệu trong các hệ thống truyền tin nói chung, làm thay đổi hành vi của hệ thống điều khiển công nghiệp. Tấn công tuyến tính được mô tả bằng phương trình:  zk Tk z bk k trong đó: Tk  mm : ma trận tùy ý bk  N  0,  k  : biến ngẫu nhiên dạng Gaussian Tấn công tuyến tính sẽ tối ưu khi Tk   I , bk  0 , gây ra sai lệch tín hiệu lớn hơn nhiều so với với tấn công từ chối dịch vụ DoS và một số kiểu tấn công khác. Với mỗi ngưỡng  của phương pháp phát hiện sai lệch dữ liệu K-L đều có thể tìm ra các ma trận tấn công Tk , k . Hay nói cách khác, luôn tồn tại khả năng để tấn công tuyến tính có thể vượt qua phương pháp K-L. Đây cũng là mảng nghiên cứu chính của nhóm nghiên cứu ở Đại học Khoa học và Công nghệ Hong Kong vả Đại học Đông Bắc, Thẩm Dương, Trung Quốc. Hiện nay, chưa có nhóm nghiên cứu nào trong nước nghiên cứu về mảng tấn công tuyến tính. Các nhóm nghiên cứu trên thế giới hiện chỉ tập 12
trung nghiên cứu, chứng minh tấn công tuyến tính có khả năng vượt qua một phương pháp phát hiện tấn công, chưa nghiên cứu các phương pháp dò tìm, phát hiện dạng tấn công này. Do đó, tìm hiểu các phương pháp dò tìm, phát hiện loại tấn công này là hướng nghiên cứu có ý nghĩa và cần thiết. Tổng quan một số phương pháp phát hiện tấn công toàn vẹn dữ liệu đã được trình bày ở cuối chương 2, và các kết quả nghiên cứu về khả năng phát hiện tấn công tuyến tính của các phương pháp này sẽ được trình bày trong chương 3 của luận án. CHƯƠNG 3 NGHIÊN CỨU KHẢ NĂNG PHÁT HIỆN TẤN CÔNG TUYẾN TÍNH CỦA CÁC PHƯƠNG PHÁP CHI-SQUARED, CUSUM, WL CUSUM, FMA 3.1. Đối tượng chịu tác động tấn công 3.1.1. Đối tượng thứ nhất - Khảo sát tác động của tấn công tuyến tính và phương pháp K-L Trong luận án này, để kiểm tra khả năng phát hiện tấn công tuyến tính của các phương pháp CHI2 và CUSUM, WL CUSUM, FMA, tác giả thử nghiệm trên cùng mô hình của một hệ thống điều khiển quá trình MIMO với hai cảm biến, đã được các tác giả trong [5] công bố. x k 1  A x k   k yk  C xk  vk  0,7 0,2  0,5 0,8 0,5 0  1 0  A ; C   ; Q   ; R    (3.1)  0,05 0,64  0 0,7   0 0,7  0 0,8 3.1.2. Đối tượng thứ hai - Khảo sát tác động của tấn công tuyến tính và phương pháp K-L a) Tổng quan đối tượng thứ hai Trong luận án này, tác giả xét thêm mô hình tổng quát của quá trình trộn nhiệt trong các nhà máy sản xuất thực phẩm nói chung, và trong các nhà máy sản xuất bia nói riêng. Sơ đồ công nghệ của quá trình này được minh họa như trong hình 3.11. Xét bình trộn nhiệt với các thông số: Fmax  160m 3 / h; H  0, 5 H max ; T1  80O C ; T2  37O C T3  39O C; F1  F2  F3  0,5 Fmax ; K1  0, 5; K 2  0, 7 và chu kỳ lấy mẫu TS  0 .1( s ). Ta có mô hình trạng thái không liên tục của đối tượng bình trộn nhiệt:  xk 1  Axk  Buk  (3.14)  yk  Cxk với A   1 0  0, 0 03 1 0, 0 0 3 1   0, 5 0   ; B   ; C    0 1  -0, 0 15 7 0, 3 2 2 5   0 0, 7  13
Do ở đây ta không quan tâm tín hiệu điều khiển, giả sử u k  0, đối tượng có thể được mô tả dưới dạng phương trình (2.1) và (2.2). Trong đó, các ma trận hiệp phương sai của nhiễu trắng được chọn trong các mô phỏng là:  0, 5 1 0  1 0  Q   ; R    (3.15)  0 0, 5 0 5  0 0, 8  3.2. Kết quả mô phỏng và thảo luận với đối tượng thứ nhất - hệ thống MIMO 3.2.1. Đánh giá khả năng phát hiện tấn công tuyến tính của phương pháp CHI2, CUSUM, WL CUSUM, FMA với đối tượng thứ nhất Nhằm xem xét khả năng áp dụng các phương pháp CHI2, CUSUM, WL CUSUM, FMA (với trọng số  1), trước hết tác giả xét trường hợp tấn công tuyến tính vượt qua phương pháp K-L ở ngưỡng thấp  1  0,5. Bien do phan du Bien do phan du Dac tinh gk Dac tinh gk Dac tinh gk Dac tinh gk Hình 3.9. Khả năng phát hiện tấn công tuyến tính với ngưỡng   0,5 và h  0,1 Bằng các ma trận Tk , k đã xác định vượt qua phương pháp K-L, xây dựng bộ dữ liệu giả lập có tấn công tuyến tính xảy ra trong khoảng thời gian từ 20s đến 40s với tổng thời gian mô phỏng dài 50s. Chúng ta phân tích một số kết quả mô phỏng dưới đây. Tại ngưỡng phát hiện của bốn phương pháp này h =0.1, áp dụng các công thức (2.40; 2.44; 2.65; 2.77; 2.78; 2.80; 2.87; 2.85; 2.86; 2.90; 2.92; 2.93) tính thời điểm cảnh báo tấn công, ta có kết quả mô phỏng như trong hình 3.9. Kết quả này cho thấy, trong khoảng thời gian xảy ra tấn công tuyến tính đã giả lập, phương pháp WL CUSUM đã phát hiện ra loại tấn công này tại thời điểm TWL  21s , nu  1 (phát hiện đúng) và phương pháp FMA cũng phát hiện được tấn công tuyến tính tại thời điểm TFMA  25s, nu  1 . Bên cạnh đó, phương pháp CUSUM và CHI2 đã cảnh báo sai do nu  1, TCS  4s, TCHI 2  2s , không nằm trong khoảng thời gian xảy ra tấn công. 14
Các hình 3.9, 3.10 và 3.11 cho thấy rằng: dù vượt qua phương pháp K-L ở bất kỳ ngưỡng  nào, nhưng tấn công tuyến tính vẫn có thể được phát hiện bằng phương pháp CHI2, CUSUM, WL CUSUM hay FMA (thể hiện qua xác suất cảnh báo sai P fa thấp và xác suất phát hiện sai thời điểm P m d thấp). Thứ hai, phương pháp FMA, WL CUSUM, CUSUM có khả năng phát hiện tấn công tuyến tính tốt hơn phương pháp phi tham số truyền thống CHI2 (với cùng điều kiện mô phỏng, xác suất cảnh báo sai Pfa của phương pháp CHI2 lớn hơn nhiều xác suất cảnh báo sai Pfa của phương pháp WL CUSUM, FMA). Điều này có thể được giải thích rằng phương pháp CHI2 chỉ sử dụng dữ liệu trước thời điểm thay đổi bất thường, còn các phương pháp CUSUM, WL CUSUM, FMA sử dụng dữ liệu trước và sau khi có thay đổi bất thường. Thứ ba, cùng với dải xác suất cảnh báo sai Pfa thích hợp (từ10-5 tới 100), xác suất phát hiện sai thời điểm P m d của phương pháp FMA thấp hơn xác suất phát hiện sai thời điểm P m d của các phương pháp CHI2, CUSUM, WL CUSUM. Hay nói cách khác, phương pháp FMA có khả năng phát hiện tấn công tuyến tính tốt hơn các phương pháp còn lại. Hình 3.12. Đánh giá khả năng phát hiện tấn công tuyến tính bằng các phương pháp khi K-L bị vượt qua với ngưỡng   2.5 Probablility of missed detection Pmd Probablility of missed detection Pmd h  15 h  10.1 h  10 h6 h4 h 1 Hình 3.13. Đánh giá hiệu suất phát hiện tấn công tuyến tính với các ngưỡng  bằng phương pháp CHI2 và CUSUM 15
h  10 h  6.5 h6 h  3.7 h 1 h  0.1 Hình 3.14. Đánh giá hiệu suất phát hiện tấn công tuyến tính với các ngưỡng  bằng phương pháp WL CUSUM và FMA 3.2.2. Các yếu tố ảnh hưởng đến khả năng phát hiện tấn công tuyến tính của phương pháp FMA với đối tượng thứ nhất h  10 h  6.7 h  0.1 Hình 3.15. Ảnh hưởng của khoảng thời gian tấn công trong phương pháp FMA Hình 3.16. Ảnh hưởng của các trọng số trong phương pháp FMA 3.3. Phát hiện tấn công trên đối tượng thứ hai – bình trộn nhiệt Tương tự mục 3.2. 16
3.4. Khảo sát khoảng ngưỡng phát hiện tấn công tuyến tính của một số phương pháp 3.4.1. Khảo sát khoảng ngưỡng phát hiện tấn công tuyến tính trên đối tượng thứ hai - bình trộn nhiệt  h Hình 3.28. Khả năng phát hiện tấn công tuyến tính bằng phương pháp CUSUM 3.4.2. Khảo sát khoảng ngưỡng phát hiện tấn công tuyến tính trên đối tượng thứ nhất  h  h Hình 3.29. Khả năng phát hiện tấn công tuyến tính bằng phương pháp CHI2 và CUSUM 3.5. Tổng kết chương 3 Trong chương này, tác giả tập trung nghiên cứu, phân tích khả năng phát hiện tấn công tuyến tính của bốn phương pháp CHI2, CUSUM, WL CUSUM, FMA trong trường hợp phương pháp K-L bị vượt qua. Các phân tích trong chương 3 đã chỉ ra khả năng phát hiện tấn công tuyến tính của phương pháp WL CUSUM, FMA, CUSUM và CHI2, khi nó vượt qua phương pháp độ chênh K – L. Đối tượng thử nghiệm là các mô hình không gian trạng thái trong miền rời rạc với các thông số chưa biết và nhiễu ngẫu nhiên. Phương pháp tạo phần dư truyền thống (Bộ lọc Kalman) cũng được sử dụng. Các phương pháp WL CUSUM và FMA sử dụng chuỗi các phần dư này để xác định thời điểm phát hiện tấn công tuyến tính. Các kết quả mô phỏng cũng đồng thời chỉ ra rằng, có thể sử dụng phương pháp WL CUSUM, FMA, CUSUM hay CHI2 như một tầng phát hiện phía sau trong chuỗi các kỹ thuật được áp dụng để đảm bảo tính toàn vẹn dữ liệu của các hệ thống điều khiển công nghiệp. Phân tích các kết quả mô phỏng cho thấy khả năng phát hiện tấn công tuyến tính của phương pháp FMA tốt hơn so với phương pháp CHI2, CUSUM, 17
WL CUSUM. Ngoài ra, luận án cũng cũng phân tích ảnh hưởng của các trọng số  và khoảng thời gian tấn công L đến khả năng phát hiện tấn công tuyến tính của phương pháp FMA. Thêm nữa, trong các kết quả trình bày ở chương 3, tác giả cũng tìm ra ngưỡng phát hiện tấn công tuyến tính của các phương pháp CUSUM (Cumulative Sum), CHI2 (Chi-squared). Các nội dung nghiên cứu trong chương này đã được công bố trong hai bài Tạp chí trong nước, trên Tạp chí Khoa học & Công nghệ các trường Đại học Kỹ thuật, số 145, 2020, Tạp chí Nghiên cứu Khoa học và Công nghệ Quân sự, số 73, tháng 6-2021, và một bài báo quốc tế trên tạp chí Bulletin of Electrical Engineering and Informatics, thuộc danh mục Scopus Q3 (SNIP: 0.730, CiteScore: 2.4, and SJR: 0.357), (vol. 12, no. 1, Art. no. 1, Feb. 2023). CHƯƠNG 4 NGHIÊN CỨU, ÁP DỤNG KỸ THUẬT HỌC MÁY NHẰM NÂNG CAO CHẤT LƯỢNG NHẬN DẠNG XÂM NHẬP, TẤN CÔNG TÍNH TOÀN VẸN DỮ LIỆU VÀO HỆ THỐNG ĐIỀU KHIỂN CÔNG NGHIỆP 4.1. Bộ dữ liệu Đường ống dẫn khí của Turnipseed Kiến trúc hệ thống SCADA mà trên đó các tác giả xây dựng bộ dữ liệu này được minh họa ở hình 4.1. Bộ dữ liệu đường ống dẫn khí (gas pipeline) của Turnipseed bao gồm 274.628 mẫu (instance), và mỗi mẫu bao gồm 17 trường đặc trưng. Các mẫu này thể hiện các thông số và trạng thái của khung truyền thông Modbus trong một hệ thống SCADA đường ống dẫn khí, với ba loại nhãn khác nhau thể hiện trạng thái của hệ thống mạng truyền thông. Mười bảy trường đặc trưng của mỗi mẫu biểu diễn hệ thống mạng truyền thông theo (Địa chỉ, CRC, C/R, …) và được minh họa bằng bảng thông số (bảng 4.1 và bảng 4.3). Thông tin trạng thái mạng này được chia làm ba nhóm nhãn phân loại: nhóm nhãn nhị phân, nhóm nhãn phân loại và nhóm kết quả cụ thể (Binary result, Categorical result, Specific result). Trong LATS này chỉ dùng nhóm nhãn nhị phân và nhóm nhãn phân loại. Nhóm nhãn nhị phân bao gồm hai trạng thái: trạng thái bình thường (không bị tấn công) và trạng thái bị tấn công. Nhóm nhãn phân loại bao gồm bảy trường hợp tấn công và một trường hợp bình thường (bảng 4.2). Bộ dữ liệu này hiện được đánh giá là mất cân bằng nghiêm trọng với 78.1% số lượng mẫu bình thường và số lượng mẫu bị tấn công chiếm 21.9%. Hình 4.1. Kiến trúc hệ thống tạo ra bộ dữ liệu của Turnipseed 18