intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Nghiên cứu phương pháp xử lý tín hiệu số hỗ trợ dự báo dữ liệu cho ngành tài nguyên môi trường

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:11

13
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết Nghiên cứu phương pháp xử lý tín hiệu số hỗ trợ dự báo dữ liệu cho ngành tài nguyên môi trường phân tích và đề xuất sử dụng mạng nơron MLP. Các phương pháp xử lý tín hiệu số nêu trên sẽ hỗ trợ cho việc chỉnh biên dữ liệu trong quá khứ và dự báo dữ liệu trong tương lai cho một số lĩnh vực của ngành tài nguyên môi trường với một sai số cho phép.

Chủ đề:
Lưu

Nội dung Text: Nghiên cứu phương pháp xử lý tín hiệu số hỗ trợ dự báo dữ liệu cho ngành tài nguyên môi trường

  1. NGHIÊN CỨU PHƯƠNG PHÁP XỬ LÝ TÍN HIỆU SỐ HỖ TRỢ DỰ BÁO DỮ LIỆU CHO NGÀNH TÀI NGUYÊN MÔI TRƯỜNG Trần Cảnh Dương Trường Đại học Tài nguyên và Môi trường Hà Nội Tóm tắt Hiện nay, ngành tài nguyên môi trường có rất nhiều công cụ và phần mềm dự báo hiện đại, tuy nhiên, dữ liệu tại một số lĩnh vực còn thiếu, đặc biệt trong thời gian trước. Nội dung bài báo đề cập đến việc phân tích, lập trình trong phương pháp nội suy hai chiều, nội suy ba chiều và phương pháp làm nhẵn tín hiệu. Khi sử dụng phương pháp bình phương sai phân bé nhất, ta xác định được hàm số từ các điểm đo rời rạc. Nội dung bài báo bao gồm việc phân tích và đề xuất sử dụng mạng nơron MLP. Các phương pháp xử lý tín hiệu số nêu trên sẽ hỗ trợ cho việc chỉnh biên dữ liệu trong quá khứ và dự báo dữ liệu trong tương lai cho một số lĩnh vực của ngành tài nguyên môi trường với một sai số cho phép. Từ khóa: Dự báo dữ liệu; Làm nhẵn tín hiệu; Mạng nơron; MLP; Ngoại suy; Nội suy; Trọng số; Xử lý tín hiệu số; Sai số cho phép. Abstract Research for data signal processing methods supporting data forecast for resources and enviromental field Nowadays, the field of natural resources and environment has a lot of modern forecasting tools and software. However, data in some areas is still lacking, especially in the previous period. The content of the article deals with the analysis and programming in two-dimensional interpolation, three-dimensional interpolation and signal smoothing method. When using the method of least squares, we can determine the function from discrete measurement points. The result includes the analysis and proposal of using the MLP neural network. The above- mentioned digital signal processing methods will support the correction of past data and forecast data in the future for some areas of the natural resources and environment field with an allowed error. Keywords: Forecast data; Smooth the signal; Neural network; MLP (Multiplayer Perceptron); Extrapolaion; Interpolation; Weight; Process digital signal; Allowed error. 1. Đặt vấn đề Ngày nay, các phương pháp dự báo đã được đưa ra dựa trên mô hình vật lý và toán học. Jason Brownlee đã đề cập phương pháp thiết kế bộ thử nghiệm để đánh giá mô hình MLP cho dự báo chuỗi thời gian; các thiết kế thử nghiệm có hệ thống cho các tế bào thần kinh và cấu hình độ trễ khác nhau; cách diễn giải kết quả và sử dụng chẩn đoán để tìm hiểu thêm về các mô hình hoạt động tốt [4]. Mạng nơron nhân tạo (ANN), cây quyết định (DT), rừng ngẫu nhiên (RF) và máy vectơ hỗ trợ (SVM) là những phương pháp được sử dụng để nghiên cứu điển hình về upo đất ngập nước ở Hàn Quốc [3]. Phương pháp ô vuông, phương pháp Rosenbrock, phương pháp Nelder-Mead, phương pháp Hooke-Jeeves, giải thuật di truyền, phương pháp SCE để tìm thông số tối ưu, được đề cập trong một đề tài cơ sở cấp Viện Cơ học - Viện Hàn lâm Khoa học và Công nghệ Việt Nam. Tác giả đã xây dựng phần mềm dự báo lũ bằng mô hình thủy văn, thông số tập trung có sử dụng phương pháp ước tính thông số tối ưu [5]. Mạng MLP (Multiplayer perceptron) có nhiều ứng dụng để dự báo. Trữ lượng gió, đỉnh và đáy đồ thị phụ tải có thể được ước lượng bằng mạng MLP [7]. Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, 217 bảo vệ môi trường và phát triển bền vững
  2. Ta có thể ước lượng thông số tài nguyên và môi trường theo thời gian đối với các địa điểm có dữ liệu tương quan bằng cách ứng dụng mạng nơron để xử lý tín hiệu số [8]. Hiện nay, ngành tài nguyên môi trường có nhiều công cụ và phần mềm dự báo hiện đại, tuy nhiên, dữ liệu của một số lĩnh vực còn thiếu, đặc biệt là trong khoảng thời gian trước. Để thực hiện dự báo tốt cần có đầy đủ dữ liệu hiện tại và quá khứ. Bài báo này đề xuất phương pháp xử lý tín hiệu số để xác định dữ liệu trong quá khứ và dự báo dữ liệu trong tương lai cho ngành tài nguyên môi trường với một sai số cho phép. 2. Cơ sở lý thuyết và phương pháp nghiên cứu 2.1. Phương pháp nội suy Các phép đo thông thường được thực hiện tại những thời điểm gián đoạn nhưng khi chúng ta cần sử dụng chúng thì cần cả các giá trị nằm giữa các giá trị đo. Phương pháp nội suy (interpolation) sẽ cung cấp các giá trị nằm giữa 02 thời điểm [6]. Trong MATLAB, lệnh interpi (x_value, y_value, x_processing, method) với i = 1,2,3 tương ứng với phép nội suy một chiều, hai chiều hoặc ba chiều. Khi tiến hành phép nội suy, số liệu cần được sắp xếp theo trình tự tọa độ tăng dần. 2.2. Làm nhẵn tín hiệu Trong quá trình đo đạc các tham số kỹ thuật dữ liệu, các lần đo có thể khác nhau do sự ảnh hưởng của các yếu tố khách quan của môi trường. Do đó, việc chuẩn hóa kết quả đo là điều cần thiết. Ta cần loại bỏ các yếu tố khách quan, gây ảnh hưởng đến kết quả đo. Việc làm nhẵn tín hiệu sẽ đáp ứng được yêu cầu thực tế. Giả sử tín hiệu S (n) bị ảnh hưởng bởi các yếu tố khách quan mà ta có thể gọi nó là tạp âm ngẫu nhiên d (n). Như vậy, kết quả đo được sẽ là tín hiệu x (n) được xác định như sau: x(n)=S(n)+d(n) Ta cần tìm tín hiệu y (n) có dạng và giá trị gần nhất với tín hiệu ban đầu S (n). Ta xác định một đầu ra có giá trị trung bình của một số mẫu đo xung quanh mẫu tại thời điểm n. Ví dụ, ta có thể lấy trung bình 04 mẫu đầu vào để tạo một đầu ra y (n). y(n)=[x(n-1)+x(n)+x(n+1)+x(n+2)]/4 2.3. Phương pháp bình phương sai phân bé nhất Khái niệm bình phương sai phân bé nhất (Least squares - LQ) gồm nhiều phương pháp tìm tối ưu khác nhau. Ta cần tìm giá trị cực tiểu của tổng các giá trị sai số bình phương. Bằng cách sử dụng phương pháp LQ tuyến tính, ta có thể tìm một đa thức xấp xỉ cho các giá trị đo. Các giá trị đầu vào được đặt trong véc tơ u = [u1, u2... un], các giá trị đo được yi đặt trong véc tơ y = [y1, y2... yn]. Quan hệ y = f (u) được gần đúng bằng đa thức bậc m (trong đó m < n) như sau: y=a0+a1u1 +a2u2+...+amum Mỗi cặp giá trị của điểm đo trên đồ thị cần nằm gần đường biểu diễn đa thức bậc m theo một mức cho phép. Ma trận tổng quát như sau [6]: 1 u1 u12 ... u1m   a0   y0   2  a  y   1 u u ... u m 2  = 1  1 =C  2 2 =  ;x ;d ...  ...  ... ... ... ... ...      1 un un2 ... unm   an   yn  218 Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, bảo vệ môi trường và phát triển bền vững
  3. 2.4. Khái niệm về mạng MLP Mạng MLP là một trong những mạng nơron kinh điển nhất, có một số ưu điểm và sử dụng thuận tiện. Cấu trúc mạng MLP được sử dụng rộng rãi để tái tạo các ánh xạ đầu vào với đầu ra trên cơ sở bộ số liệu mẫu. Các hàm số thể hiện quan hệ dữ liệu đầu vào với đầu ra của các tham số kỹ thuật ngành tài nguyên môi trường, là các hàm phi tuyến bậc cao. Số liệu quan trắc không đầy đủ, không thường xuyên và không liên tục lại chứa nhiều nhiễu. Do đó, để hạn chế các nhược điểm nêu trên thì tác giả chọn mô hình xấp xỉ bằng mạng nơron trở nên hữu hiệu, đặc biệt, sử dụng mô hình mạng MLP có hiệu quả cao với sai số cho phép. Chúng ta cần chọn phương pháp thiết kế thích hợp để đánh giá mô hình MLP cho dự báo chuỗi thời gian được cấu hình với độ trễ khác nhau [4]. Sau khi có kết quả học máy của mạng MLP, chuyên gia dự báo cần biết cách diễn giải kết quả và sử dụng chẩn đoán để điều chỉnh các tham số nhằm đảm bảo các các mô hình hoạt động tốt. Mạng MLP là một mạng truyền thẳng với các khối cơ bản là các nơron McCulloch - Pits. Các nơron được sắp xếp thành các lớp (layer) [7]. Một lớp nối đến các kênh tín hiệu đầu vào (Input layer), một lớp nối đến các kênh tín hiệu đầu ra (Out layer) và có thể thêm một số lớp trung gian (lớp ẩn - Hidden layer) [1]. Ta có thể mô hình hóa một hàm phi tuyến với độ chính xác được chọn trước bằng cách dùng nhiều nhất 02 lớp ẩn. Đối với mạng MLP có một lớp ẩn, N đầu vào, M nơron trên lớp ẩn và K đầu ra, ta có hàm truyền đạt là một hàm phi tuyến. Wjk là trọng số ghép giữa lớp đầu vào và lớp ẩn, Vij là trọng số ghép giữa lớp ẩn và lớp đầu ra. Hàm truyền đạt được biểu diễn như sau [7]:  M   N    y1 = f 2 ∑  f1  ∑ xkW jk  Vij   =  k 0  j 0=    Quan hệ giữa dữ liệu vào và dữ liệu ra được xác định dựa theo số liệu mẫu được mạng MLP xử lý. Tập hợp p cặp mẫu được biểu thị dưới dạng véc tơ đầu vào, véc tơ đầu ra tương ứng {xi, di} với i = 1, 2,… p, xi ϵ RN, di ϵ RK. Trong đó, N là số đầu vào và K là số đầu ra của mạng nơron. Thành phần di là véc tơ nhiều thành phần do mạng MLP có thể có nhiều đầu ra cùng thời điểm [7]. Sai số tổng cộng được xác định theo biểu thức sau: 1 p ∑ MLP( xi ) − di 2 =E 2 i =1 Giá trị E cần đạt cực tiểu. Hàm truyền đạt lớp ra của mạng MLP phụ thuộc nhiều vào dải tín hiệu của giá trị đích. Tương tự, đối với một nơron, nếu đầu ra được giới hạn trong đoạn [0,1] hoặc [- 1,1], ta nên dùng hàm Logsig hoặc Tansig một cách tương ứng. Nếu đầu ra có giá trị nằm ngoài đoạn [- 1,1] thì ta có thể dùng hàm tuyến tính. Ta có thể chọn hàm Tansig để xác định hàm truyền đạt cho lớp vào và các lớp ẩn bởi vì tín hiệu dương và âm có trong đoạn [- 1,1], theo yêu cầu thực tế của ngành tài nguyên môi trường. Các thông số tham gia vào quá trình học máy (quá trình điều chỉnh thích nghi) của mạng MLP là các trọng số nối giữa các lớp. Khi mạng có một lớp ẩn ta có hai ma trận trọng số, đó là: ma trận trọng số W ghép giữa lớp vào và lớp ẩn; ma trận trọng số V ghép giữa lớp ẩn và lớp ra. Để điều chỉnh thích nghi các trọng số kết nối, ta có thể dùng thuật toán bước giảm cực đại. Các công trình nghiên cứu khoa học đã chứng minh rằng, với một tập số liệu bất kỳ và một mức sai số bất kỳ cho trước, ta có thể xây dựng được một mạng nơron, sao cho có thể đạt được sai số cho trước này [7]. Có nhiều thuật toán học cho mạng MLP, như: thuật toán học theo bước giảm cực đại, thuật toán Levenberg - Marquardt, thuật toán học của Hebb,... Các thuật Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, 219 bảo vệ môi trường và phát triển bền vững
  4. toán thông dụng nhất để điều chỉnh thích nghi trọng số của một mạng nơron là các thuật toán sử dụng Gradien. Khởi tạo các giá trị trọng số bằng giá trị ngẫu nhiên, sau đó, ta xác lập công thức lặp để điều chỉnh liên tục các giá trị này sao cho hàm sai số tiến dần đến giá trị cực tiểu. Ta có các công thức thay đổi các trọng số trong 02 ma trận W và V để xác định điểm cực tiểu của hàm mục tiêu sai số E:  (t +l ) ∂E Wαβ= Wαβ − η ∂W t  αβ  V (t= ∂E αβ +l ) Vαβt − η  ∂Vαβ 3. Kết quả và thảo luận 3.1. Thực hiện dự báo theo phương pháp nội suy Ngành tài nguyên môi trường có nhiều loại dữ liệu. Tuy nhiên, dữ liệu thu được bằng các phép đo tại các thời điểm gián đoạn. Các thời điểm này có thể cách đều hoặc không cách đều. Nhu cầu sử dụng thực tế có khi đòi hỏi sử dụng các giá trị nằm giữa các thời điểm đo. Ta thực hiện chùm lệnh sau để ví dụ. >> x_rough = - 0.7 : 2.5; x_fine = - 1 : 0.1 : 3; data = exp (-x_rough.^3/2); >> inter_linear = interp1(x_rough, data, x_fine, ‘linear’); inter_cubic = interp1(x_rough, data, x_fine, ‘PCHIP’); inter_spline = interp1(x_rough, data, x_fine, ‘spline’); figure >> plot(x_rough, data,’k*’); hold on; plot(x_fine, exp(-x_fine.^2/2), ‘k:’); >> plot(x_fine, inter_linear, ‘g-’); plot(x_fine, inter_cubic, ‘b--’); plot(x_fine, inter_spline, ‘r.’); >> grid on; legend(‘Test Points’,’ideal’,’linear’,’cubic’,’spline’); >> title(‘interp1 (Đồ thị biểu diễn các dữ liệu nội suy)’,’FontSize’,11); Bước nội suy được chọn theo lệnh x_fine = - 1 : 0.1 : 3; kết quả được đồ thị biểu diễn dữ liệu theo phương pháp nội suy. Phương pháp Splines và Cubic cho phép ngoại suy (Extrapolaion) nằm ngoài khoảng bị chặn bởi các bước thô đã được chọn là [- 0.6, 2.5]. Hình 1: Đồ thị của tín hiệu nội suy 220 Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, bảo vệ môi trường và phát triển bền vững
  5. Trên thực tế ngành tài nguyên môi trường có nhiều loại dữ liệu nhưng trong quá khứ không được đo đạc, cập nhật một cách đầy đủ. Thiếu dữ liệu quá khứ nên khi đánh giá dữ liệu quá khứ và hiện tại để thực hiện dự báo gặp rất nhiều khó khăn. Phương pháp nội suy sẽ hỗ trợ việc xác định dữ liệu quá khứ với một sai số cho phép. Ví dụ về nội suy 3 chiều: >> x = rand (100,1)* 4 - 2; y = rand (100,1) * 4 - 2; z = 0.2 + x. * exp (-x.^2-y.^3); >> [XI, YI] = meshgrid (- 2 : 0.25 : 2, - 2 : 0.25 : 2); ZI = griddata (x,y,z,XI,YI,’v4’); >> mesh (XI,YI,ZI); hold on; plot3 (x,y,z,’o’); title (‘griddata(nội suy ba chiều))’, ‘FontSize’,12); >> hold off; Hình 2: Đồ thị biểu diễn tín hiệu nội suy 3 chiều Nếu ta thay đổi tham số thì sẽ có kết quả khác được biểu diễn ở Hình 3. Hình 3: Đồ thị biểu diễn tín hiệu nội suy 3 chiều nếu tham số được thay đổi 3.2. Thực hiện dự báo theo phương pháp làm nhẵn tín hiệu Ta có thể lập trình bằng Matlab như sau: >> clf; R = 55; d = 0.8 * (rand(R,1) - 0.5); m = 0 : R - 1; s = 3 * m * (0.9.^m); x = s + d’; Figure (1) subplot (2,1,1); plot (m,d’,’r-’,m,s,’g--’,m,x,’b-’); Xlabel (‘Chỉ số thời gian n’); ylabel (‘Giá trị của tham số đo’); >> legend (‘d[n]’,’s[n]’, ‘x [n]’); x 1 = [0 0 x]; x2 = [0 x 0]; x 3 = [x 0 0]; y = (x1 + x2 + x 3)/3; Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, 221 bảo vệ môi trường và phát triển bền vững
  6. >> subplot (2,1,2); plot (m,y (2:R + 1),’r-’,m,s,’g--’); legend (‘y[n]’,’s[n]’); >> xlabel (‘Chỉ số thời gian n’); ylabel (‘Giá trị của tham số đo’); figure (2) subplot (2,1,1); >> plot (m,d’,’r-’,m,s,’g--’,m,x,’b-.’); x label (‘Chỉ số thời gian n’); ylabel (‘Giá trị của tham số đo’); >> legend (‘d[n]’,’s[n]’,’x[n]’); y1 = [0 0 0 x]; y 2 = [0 0 x 0]; y 3 = [0 x 0 0]; y4 = [x 0 0 0]; >> y = (y1 + y2 + y3 + y4)/4; subplot (2,1,2); plot (m,y(2 : R + 1),’r-’,m,s,’g--’); legend (‘y[n]’,’s[n]’); >> xlabel (‘Chỉ số thời gian n’); ylabel (‘Giá trị của tham số đo’); Sau khi chạy chương trình, ta có các đồ thị biểu diễn giá trị của tham số đo đối với trường hợp trung bình 03 mẫu ở Hình 4 và 04 mẫu ở Hình 5. Hình 4: Đồ thị biểu diễn giá trị của tham số đo đối với trường hợp trung bình 3 mẫu Hình 5: Đồ thị biểu diễn giá trị của tham số đo đối với trường hợp trung bình 4 mẫu 3.3. Sử dụng phương pháp bình phương sai phân bé nhất để xác định hàm số từ các điểm đo rời rạc Căn cứ vào phương trình trên, tác giả lập trình để tìm đa thức tối ưu như sau: >> u = [0.1 0.2 0.3 0.4 0.5 0.6 0.7 0.8 0.9 1.0 1.1]’; 222 Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, bảo vệ môi trường và phát triển bền vững
  7. y = [80.1 90.2 100.3 154.2 172.1 170.6 155 140.3 132 116.2 100]’; d = y; C = [ones(length(u),1) u u.^2 u.^3 u.^4]; x = C\d Khi đó trên cửa sổ lệnh có kết quả của các hệ số như sau: x = 33.2259, 381.5647, -205.7911, -199.0205, 111.6829 Tiếp tục lập trình: >> plot (0.1, 80.1, ‘*r’, 0.2, 90.2, ‘*r’, 0.3’, 100.3, 0.4, 154.2, ‘*r’, 0.5, 172.1, ‘*r’, 0.6, 170.6, ‘*r’,0.7, 155, ‘*r’,0.8, 140.3,’*r’, 0.9, 132,’*r’, 1.0, 116.2, ‘*r’, 1.1, 100); >> hold on fplot(@(x)33.2259+381.5647.*x-205.7911.*x.^2 199.0205.*x.^3+111.6829.*x.^4, 0:1.5, ‘k-’); hold off >> title (‘Giá trị đo Ls = Ls (Isd)’, ‘FontSize’, 12); xlabel (‘Isd[x IsN]’, ‘FontSize’, 12); >> ylabel (‘Ls [mH]’, ‘FontSize’, 12); grid on Sau khi chạy chương trình ta có đồ thị biểu diễn giá trị đo và đa thức tối ưu bậc m. Hình 6: Đồ thị biểu diễn giá trị đo và đa thức tối ưu bậc m Khi dùng phương pháp này, ta sẽ xác định được giá trị tối ưu sau khi tổng hợp các giá trị đo được đối với các tham số tài nguyên môi trường. 3.4. Sử dụng mạng MLP để dự báo dữ liệu Căn cứ các dữ liệu thống kê có sẵn, mạng MLP có thể dự báo tương đối chính xác cho các tham số chính của ngành tài nguyên môi trường, chẳng hạn như: mực nước sông, mực nước hồ, tốc độ gió, cấp độ rũi ro thiên tai do bão và áp thấp nhiệt đới gây ra,... cho các ngày tiếp theo. Để dự báo bằng mạng nơron được chính xác, việc quan trọng nhất là tìm các dữ liệu thích hợp. Các dữ liệu này cần được biểu diễn theo quy ước để mạng MLP có thể xử lý. Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, 223 bảo vệ môi trường và phát triển bền vững
  8. Giả sử ta muốn sử dụng giá trị của một tham số tài nguyên, môi trường của k×m ngày đã qua để dự đoán giá trị của k ngày tới thì tạo một hàng (row) gồm m+1 dữ liệu, trong đó m dữ liệu đầu của hàng này là giá trị của m ngày liên tiếp, mà hai ngày gần nhau nhất cách nhau k ngày. Dữ liệu thứ m + 1 (cuối cùng) là giá trị của ngày tiếp theo ngày thứ m. Như vậy, ta sẽ dùng mạng MLP có m đầu vào và một đầu ra. Giá trị k có thể bằng 1,2,3,... tùy theo nhu cầu dự báo trên thực tế. Dữ liệu được lập thành bảng như ví dụ sau: Ngày Ngày ......... Ngày (-2k) Ngày (-k) Ngày 0 Ngày k Nhãn k(1 - m) k(2 - m) 253.465 256.431 ......... 256.569 255.457 262.378 2531.505 y-z-2021 256.782 256.538 ......... 257.223 256.324 263.112 2530.235 t-x-2021 264.108 256.679 ......... 258.531 255.459 258.286 2523.73 r-s-2021 ............. ............. ............. ............. ............. ............. ............. ............. 389.241 3575.03 ......... 372.2898 370.8699 372.2998 372.4099 e-f-2021 356.378 364.1099 ......... 364.1099 364.1099 372.3999 384.4367 c-d-2021 379.413 372.2898 ......... 370.8699 372.2898 372.2998 379.236 a-b-2021 Ta có thể chọn số đầu vào và số đầu ra tùy thuộc theo yêu cầu của thực tế, chẳng hạn, chọn mạng MLP có 15 đầu vào, 01 đầu ra hoặc 20 đầu vào, 03 đầu ra. Ví dụ, số lượng tập dữ liệu (Datasets) là 5.020. Trong đó, 80 % dữ liệu tương ứng 4.016 datasets được dùng để học, 20 % dữ liệu tương ứng 1.004 datasets được dùng để kiểm tra. Số lần lặp khi học là 1.000. Sau quá trình học máy bằng phần mềm Spice [2], mạng MLP sẽ đưa ra kết quả như được biểu diễn ở Hình 6. Đây là đồ thị biểu diễn dữ liệu vào, dữ liệu ra đào tạo và dữ liệu mạng MLP đối với một ví dụ. Các tham số kỹ thuật khác trong lĩnh vực tài nguyên môi trường có thể được chỉnh biên hoặc dự báo một cách tương tự. Hình 7: Đồ thị biểu diễn dữ liệu vào, dữ liệu ra đào tạo và dữ liệu mạng MLP đối với một ví dụ học máy Quá trình điều khiển thích nghi của mạng MLP xác định các trọng số ghép nối giữa các lớp. Hình 8 biểu diễn đồ thị trọng số cho một ví dụ học máy. 224 Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, bảo vệ môi trường và phát triển bền vững
  9. Hình 8: Đồ thị biểu diễn trọng số cho một ví dụ học máy Các thông số liên quan đến học máy, ví dụ từ bước 01 đến bước 1.000 được thể hiện qua Hình 9. Hình 9: Mô tả các thông số liên quan đến học máy, ví dụ từ bước 1 đến bước 1.000 Ta có thể biểu diễn các dạng dữ liệu vào, dữ liệu ra và dữ liệu học máy theo dạng 3D. Hình 10 chỉ ra ví dụ về đồ thị dữ liệu 3D của mạng gồm 03 đầu vào, 01 đầu ra. Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, 225 bảo vệ môi trường và phát triển bền vững
  10. Hình 10. Đồ thị dữ liệu 3D của mạng gồm 3 đầu vào, một đầu ra Trong quá trình thực hiện dự báo ta cần tìm các thông số thích hợp cho mạng nơron MLP. Thông số thích hợp thường phụ thuộc nhiều vào dữ liệu có sẵn, một thông số có thể tốt cho dữ liệu này nhưng không phù hợp khi sử dụng ở dữ liệu khác. Ta sử dụng phương pháp thay đổi một thông số để tìm giá trị tối ưu tương đối, với cùng dữ liệu học và kiểm tra. Mặt khác, trước khi đào tạo mạng, dữ liệu vào và ra cần được chuẩn hóa. Ta có thể dùng các hàm để chuẩn hóa, chẳng hạn như hàm Linear. Đào tạo mạng được thực hiện vài lần để chọn lần đào tạo có lỗi đào tạo (training error) và lỗi kiểm tra (testing error) nhỏ nhất. Thông tin về mạng học và đồ thị lỗi của bạn sẽ gồm thông tin của lần học cuối cùng. Ta chọn hàm biến đổi cho lớp ẩn (ví dụ hàm HyperTanh), hàm biến đổi cho lớp ra (ví dụ hàm Identity), tỷ lệ học cuối cùng (ví dụ 0.03309628), giá trị MSE của dữ liệu học (ví dụ 4.137238E-05), giá trị MSE của dữ liệu kiểm tra (ví dụ 3.425868E-05), số lượng dữ liệu đã học (ví dụ 4.016), số lượng dữ liệu đã kiểm tra (ví dụ 1.004), số lần lặp (1.000). Sau khi mạng học xong, ta cần kiểm tra dữ liệu học được mô hình hóa (modeling) trong phần “Xem dữ liệu”. Đầu ra của dữ liệu học (training data) được mạng MLP đưa ra (NN Outputs). Phương pháp PML được dùng để dự báo mực nước. Căn cứ tập dữ liệu, từ 13 - 6 - 2013 đến 30 - 12 - 2016, ta có mực nước dự báo của một dòng sông ngày 12-01-2017 là 126,583 cm. Mực nước theo thống kê ngày 12 - 01 - 2017 là 128,667 cm. Như vậy, sai số mực nước giữa trường hợp dự báo so với thực tế chỉ khác nhau cỡ 2 cm. 4. Kết luận Bài báo đề cập việc phân tích, lập trình trong phương pháp nội suy hai chiều, nội suy ba chiều. Phương pháp này có thể được sử dụng để điều chỉnh biên dữ liệu đo đạc trong quá khứ. Phương pháp làm nhẵn tín hiệu sẽ được dùng để xác định tập dữ liệu tối ưu trong điều kiện các phép đo bị nhiễu do các yếu tố khách quan. Khi sử dụng phương pháp bình phương sai phân bé nhất, ta xác định được hàm số từ các điểm đo rời rạc. Nội dung bài báo bao gồm việc phân tích và đề xuất sử dụng mạng nơron MLP. Các phương pháp xử lý tín hiệu số nêu trên sẽ hỗ trợ cho việc chỉnh biên dữ liệu trong quá khứ và dự báo dữ liệu trong tương lai. Căn cứ nhu cầu thực tế của các lĩnh vực trong ngành tài nguyên môi trường ta có thể xây dựng phần mềm để dự báo một cách hiệu quả và chủ động, đồng thời, tự động hóa được nhiều bước thực hiện, đảm bảo kết quả với sai số cho phép. 226 Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, bảo vệ môi trường và phát triển bền vững
  11. TÀI LIỆU THAM KHẢO [1]. Boger B, Guyon I (1997). Knowledge extraction from artifi cial neural network models. IEEE Systems, Man, and Cybernetics Conference. [2]. Cao Thang (2007). Intructions for using Spice-MLP software. Soft Intelligence Laboratory, Ritsumeikan University, Japan. [3]. Changhyun Choi, Jungwook Kim, Heechan Han, Daegun Han, Hung Soo Kim (2019). Development of water level prediction models using machine learning in wetlands: A case study of upo wetland in South Korea. [4]. Jason Brownlee (2017). How to configure multilayer perceptron network for time series forecasting. Deep learning for time series. [5]. Nguyễn Chính Kiên (2020). Nghiên cứu xây dựng mô hình thủy văn thông số tập trung trong dự báo lũ cho các lưu vực sông ở Việt Nam. Đề tài cơ sở cấp Viện Cơ học - Viện Hàn lâm Khoa học và Công nghệ Việt Nam. [6]. Nguyễn Phùng Quang (2008). Matlab & Simulink dành cho kỹ sư điều khiển tự động. Nhà xuất bản Khoa học và Kỹ thuật. [7]. Trần Hoài Linh (2019). Mạng nơron và ứng dụng trong xử lý tín hiệu số. Nhà xuất bản Bách Khoa, Hà Nội. [8]. Trần Cảnh Dương (2020). Ước lượng thông số tài nguyên và môi trường theo thời gian đối với các địa điểm có dữ liệu tương quan bằng cách ứng dụng mạng nơron để xử lý tín hiệu số. Tạp chí Khoa học Tài nguyên và Môi trường, số 30. Ngày chấp nhận đăng: 10/11/2021. Người phản biện: TS. Lê Phú Hưng Nghiên cứu chuyển giao, ứng dụng khoa học công nghệ trong sử dụng hợp lý tài nguyên, 227 bảo vệ môi trường và phát triển bền vững
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
14=>2