intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Điều khiển bám tối ưu bền vững dựa trên ADP cho tay máy robot

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:7

2
lượt xem
0
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất một sơ đồ điều khiển bám tối ưu bền vững dựa trên ADP (Adaptive Dynamic Programming) cho tay máy robot. Đầu tiên, luật điều khiển truyền thẳng được thiết kế để chuyển đổi bài toán điều khiển bám tối ưu bền vững cho tay máy robot thành bài toán điều khiển tối ưu bền vững cho hệ phi tuyến affine.

Chủ đề:
Lưu

Nội dung Text: Điều khiển bám tối ưu bền vững dựa trên ADP cho tay máy robot

  1. KHOA HỌC CÔNG NGHỆ https://jst-haui.vn P-ISSN 1859-3585 E-ISSN 2615-9619 ĐIỀU KHIỂN BÁM TỐI ƯU BỀN VỮNG DỰA TRÊN ADP CHO TAY MÁY ROBOT ADP-BASED ROBUST OPTIMAL CONTROL OF ROBOT MANIPULATORS Nguyễn Đức Điển1,*, Lại Khắc Lãi2 DOI: http://doi.org/10.57001/huih5804.2024.287 TÓM TẮT CHỮ VIẾT TẮT Bài báo đề xuất một sơ đồ điều khiển bám tối ưu bền vững dựa trên ADP ADP Quy hoạch động thích nghi (Adaptive Dynamic Programming) cho tay máy robot. Đầu tiên, luật điều PD Bộ điều khiển PD khiển truyền thẳng được thiết kế để chuyển đổi bài toán điều khiển bám tối NN Mạng nơ-ron ưu bền vững cho tay máy robot thành bài toán điều khiển tối ưu bền vững cho RBF Mạng RBF (Radial Basis Function) hệ phi tuyến affine. Sau đó, luật điều khiển phản hồi được thiết kế để xác định luật điều khiển tối ưu và luật bù nhiễu. Thuật toán đảm bảo rằng các sai số HJB Phương trình Hamilton-Jacobi-Bellman bám là ổn định UUB (Uniformly Ultimately Bounded), trong khi hàm chi phí HJI Phương trình Hamilton-Jacobi-Issac hội tụ đến giá trị tối ưu. Cuối cùng, hiệu quả bộ điều khiển đề xuất được kiểm HOTC Bộ điều khiển bám tối ưu H∞ chứng thông qua kết quả mô phỏng. SRBF Bộ điều khiển trượt thích nghi sử dụng Từ khoá: Tay máy robot; học tăng cường; quy hoạch động thích nghi; điều mạng RBF khiển bám; điều khiển tối ưu bền vững. ABSTRACT 1. GIỚI THIỆU This article proposes a robust optimal tracking control scheme for robot Tay máy robot đã trở thành thiết bị quan trọng và manipulators based on ADP (Adaptive Dynamic Programming). First, the mang lại hiệu quả vượt trội trong dây chuyền sản xuất, feedforward control law is designed to convert the problem of robust optimal lĩnh vực y tế, và dịch vụ. Vì vậy, việc thiết kế bộ điều khiển tracking control for the robot manipulator into a robust optimal control để nâng cao chất lượng điều khiển cho tay máy robot problem for an affine nonlinear system. Then, the feedback control algorithm luôn nhận được sự quan tâm của các nhà nghiên cứu [1]. is designed to determine the optimal control and disturbance compensation Trong quá trình làm việc, tay máy robot bị ảnh hưởng bởi laws. The algorithm ensures that the tracking errors are UUB (Uniformly nhiễu bên ngoài, thay đổi trọng lượng tải, ma sát phi Ultimately Bounded) while the cost function converges to the optimal value. tuyến, những thay đổi không mong muốn về thông số Finally, the effectiveness of the proposed controller is verified through mô hình của hệ thống. Do đó, thuật toán PD (Proportional simulation results. Derivative) bù trọng trường [1] truyền thống không đảm Keywords: Robot manipulators; Reinforcement Learning (RL); Adaptive bảo hiệu suất điều khiển. Các bộ điều khiển nâng cao đã Dynamic Programming (ADP); Tracking control; Robust optimal control. được nghiên cứu và áp dụng cho tay máy robot [2-4]. Trong [2], bộ điều khiển trượt được thiết kế cho tay máy robot với các tham số bất định và nhiễu ngoài. Bộ điều 1 Trường Đại học Kinh tế Kỹ thuật - Công nghiệp khiển trượt đầu cuối dựa trên kỹ thuật cuốn chiếu đã được 2 Khoa Điện, Trường Đại học Kỹ thuật Công nghiệp Thái Nguyên đề xuất trong [3,4]. Các bộ điều khiển thông minh dựa * trên điều khiển mờ, điều khiển mạng nơron (NN - Neural Email: nddien@uneti.edu.vn Network) kết hợp với bộ điều khiển trượt cũng đã được Ngày nhận bài: 15/4/2024 ứng dụng cho tay máy robot [5, 6]. Van và Ge [5] đã sử Ngày nhận bài sửa sau phản biện: 05/6/2024 dụng bộ điều khiển trượt mờ thích nghi, Jie và các cộng Ngày chấp nhận đăng: 27/9/2024 sự [6] đã đề xuất bộ điều khiển trượt đầu cuối kết hợp với 12 Tạp chí Khoa học và Công nghệ Trường Đại học Công nghiệp Hà Nội Tập 60 - Số 9 (9/2024)
  2. P-ISSN 1859-3585 E-ISSN 2615-9619 https://jst-haui.vn SCIENCE - TECHNOLOGY mạng RBF (Radial Basis Function). Nói chung, các bộ điều  Thuộc tính 1: M(ψ) , C(ψ,ψ) , G(ψ)  b G là bị chặn bởi khiển trên đã đảm bảo hiệu quả chất lượng bám quỹ đạo  m1  M(ψ)  m2 , C(ψ,ψ)  bC , G(ψ)  b G , trong đó m1, cho tay máy robot với các tham số bất định và nhiễu ngoài. Tuy nhiên, chúng không tối thiểu hàm bất kỳ hàm m2, bC, bG là hằng số dương. chi phí nào, tức là chúng không tối ưu. Thuộc tính 2: τ0 có năng lượng hữu hạn, nghĩa là Đối với bài toán điều khiển tối ưu, ta cần giải được τ d  L 2  0, T  , 0  T   . phương trình HJB (Hamilton-Jacobi-Bellman). Một giải Để thuận lợi cho việc thiết kế bộ điều khiển, động lực pháp cho điều khiển tối ưu bền vững là điều khiển tối ưu học (1) được biến đổi thành một hệ thống phi tuyến phản H∞, ta cần giải được phương trình HJI (Hamilton-Jacobi- hồi nghiêm ngặt như sau: Issac). Tuy nhiên, vấn đề giải phương trình HJB/HJI phi tuyến là một thách thức. Gần đây, ADP, một phiên bản    ψ  fψ (ψ)  gψ (ψ)υ   (2) của học tăng cường là một phương pháp hữu ích được sử υ  fv (ψ,υ)  gv (ψ,υ)τ  k v ψ,υ τ 0   dụng để xấp xỉ trực tuyến nghiệm của phương trình trong đó, υ là vector vận tốc góc của biến khớp, HJB/HJI [7, 8]. Trong [9], một bộ điều khiển bám tối ưu được thiết kế cho tay máy robot, trong đó bộ điều khiển fq (ψ)  0nx1 ,gψ (ψ)  In , fv (ψ,υ)  M1 Cυ  G  F   n1 , sử dụng cấu trúc ADP với hai hàm xấp xỉ sử dụng 2 NN, gv (ψ,υ)  M1  nn , k v ψ,υ  M1   nn . nhưng nhiễu ngoài chưa được loại bỏ. Trong [10], một bộ điều khiển bám tối ưu bền vững đã được đề xuất, thuật Thuộc tính 3: fv (ψ,υ) bị chặn bởi fv (ψ,υ)  b f υ , toán bao gồm bộ điều khiển tối ưu và bộ ước lượng nhiễu, gυ (ψ,υ) và k υ (ψ,υ) là bị chặn, tức là gυ (ψ ,υ)  m1 , min trong đó bộ điều khiển tối ưu sử dụng cấu trúc ADP với 2 k υ (ψ ,υ)  m1 , trong đó bf là một hằng số dương. min NN. Trong [11], bộ điều khiển bám tối ưu H∞ được xây dựng, trong đó bộ điều khiển sử dụng cấu trúc ADP với Giả thiết 1: Quỹ đạo vị trí tham chiếu ψ d (t) là trơn và ba hàm xấp xỉ sử dụng 3 NN. Để giảm chi phí tính toán, bị chặn. trong [12], một thuật toán điều khiển bám tối ưu chỉ sử Mục tiêu chính của bài toán là thiết kế luật điều khiển dụng một NN duy nhất đã được đề xuất, tuy nhiên nhiễu bám tối ưu cho hệ thống (2), sao cho ngoài lại không được đề cập. Bài báo này giới thiệu một lim ψ(t)  ψd (t)  0 khi nhiễu ngoài bằng 0. Tuy nhiên, bộ điều khiển bám tối ưu H∞ (HOCT - H∞ optimal tracking t  controller) cho tay máy robot trên cơ sở ADP, luật điều các nhiễu ngoài là khác không; do đó, mục tiêu là thiết kế khiển truyền thẳng mới được đề xuất để chuyển đổi bài luật điều khiển để làm cho các sai số bám bị chặn bởi độ toán điều khiển bám cho tay máy robot thành bài toán lợi L2 [13]. điều khiển tối ưu H∞ cho một hệ phi tuyến affine và luật 2.2. Thiết kế bộ điều khiển bám tối ưu bền vững điều khiển tối ưu H∞ được thiết kế trên cơ sở ADP, trong đó luật điều khiển chỉ sử dụng một NN duy nhất thay vì Bộ điều khiển bám tối ưu bền vững cho tay máy robot ba để giảm chi phí tính toán. gồm hai thành phần, đó là luật điều khiển truyền thẳng và luật điều khiển tối ưu bền vững. Luật điều khiển truyền 2. CƠ SỞ LÝ THUYẾT thẳng được thiết kế để xây dựng động lực học sai số bám 2.1. Động lực học tay máy robot cho tay máy robot, sau đó bài toán điều khiển bám tối ưu Xem xét tay máy robot n bậc tự do với phương trình bền vững cho tay máy robot được chuyển thành bài toán động lực học được trình bày như sau [1]: điều khiển tối ưu bền vững cho hệ phi tuyến affine. Luật     M(ψ)ψ  C(ψ,ψ)ψ  G(ψ)  F(ψ)  τ  τ 0 (1) điều khiển tối ưu bền vững được thiết kế trên cơ sở ADP,  bao gồm luật điều khiển tối ưu và luật bù nhiễu. trong đó ψ   n1 là vector vị trí góc khớp, ψ n1 là  2.2.1. Thiết kế luật điều khiển truyền thẳng vector vận tốc góc, ψ n1 là vector gia tốc góc, Trong phần này trình bày các bước chuyển đổi hệ (2) M(ψ)   nn là ma trận quán tính đối xứng xác định sang hệ phi tuyến affine tương đương bằng cách áp dụng  dương, C(ψ,ψ) nn là ma trận Coriolis và ly tâm, kỹ thuật cuốn chiếu [14]. Đầu tiên ta định nghĩa các biến  n G(ψ)   n là vector lực trọng trường, F(ψ) là vector mới như sau: υd  υ *  υ a , τ  τ *  τ a , trong đó υ d là d d ma sát, τ   n1 là vector mô-men tác động lên các khớp vector đầu vào điều khiển ảo, υ * là vector đầu vào điều d τ 0  n1 là vector nhiễu ngoài. khiển ảo tối ưu, v a là vector đầu vào điều khiển ảo truyền d Vol. 60 - No. 9 (Sep 2024) HaUI Journal of Science and Technology 13
  3. KHOA HỌC CÔNG NGHỆ https://jst-haui.vn P-ISSN 1859-3585 E-ISSN 2615-9619 thẳng, τ là vector đầu vào điều khiển thực, τ* là vector đầu 1 V2  z T z (9) vào điều khiển thực tối ưu, τa là vector đầu vào điều khiển 2 thực truyền thẳng. Định nghĩa các sai số là eψ  ψ  ψd , Lấy đạo hàm (9) dọc theo (6), ta thu được: eυ  υ  υ d . Lấy đạo hàm eψ và e υ chúng ta có: V  z T  f  g u*  k d  2 ψυ ψυ ψυ (10) eψ ψd  gψ (ψ)υd  gψ (ψ)υd  gψ (ψ)eυ   * a  So sánh (8) và (10), có thể thấy rằng nếu luật điều  (3)  e υ  f (ψ,υ)  g (ψ,υ)τ  g (ψ,υ)τa k (ψ,υ)τ  υ d υ khiển u* làm cho hệ thống (10) ổn định, tức là V  0 thì  υ υ υ 0 1 Các đầu vào điều khiển truyền thẳng được thiết kế  V2  0 . Do đó, hệ thống (2) cũng ổn định. Hay nói cách như sau: khác, bài toán điều khiển bám tối ưu H∞ cho hệ thống (2) υ g1(ψ) e ψ f (e ) d ψ ψ và bài toán điều khiển tối ưu H∞ cho hệ thống (6) là tương  da ψ   1 ψ đương.  (4) τ g1(ψ,υ)f (e ,e ) υ f (ψ,υ)gT (ψ)e  e  a υ    υ ψ υ  d v ψ ψ 2 υ  2.2.2. Thiết kế luật điều khiển tối ưu H∞ Phần này trình bày vấn đề thiết kế luật điều khiển tối Thay (4) vào (3), động học sai số bám trở thành ưu H∞ cho hệ thống (6). Luật điều khiển tối ưu H∞ được e  f (e ,e )  g (ψ,υ)τ *  k (ψ,υ)τ  gT (ψ)e υ υ ψ υ thiết kế dựa trên phương pháp ADP kết hợp với lý thuyết  υ v 0 ψ ψ  (5) trò chơi [11]. e  f (e ,e )  g (ψ)υ*  g (ψ)e  ψ ψ ψ υ   ψ d ψ υ Định nghĩa 1 [15]: Hệ thống (6) có độ lợi L 2  ξ trong đó fψ (e ψ ,e υ )  fψ (e ψ )  1e υ , d  L 2  0,   nếu fυ (eψ ,eυ )  fυ (eψ ,e υ )  2 e υ    (z Qz  u Ru)dτ  ξ  (d d)dτ, T T 2 T (11) Bổ đề 1: Xem xét động lực sai số bám sau 0 0  z  fψυ  gψυu*  k ψυ d (6) trong đó, Q   nn  0 , R  mm  0 là ma trận đối trong đó, xứng,u là xấp xỉ của u* tại thời điểm t, ξ  ξ *  0 là mức suy z  [eψ ,eυ ]T 2n1 , fψυ  [fψT (eψ ,eυ ), fυT (eψ ,eυ )]T 2n2n , T T giảm nhiễu, ξ * là giá trị nhỏ nhất để (6) ổn định. Trên cơ sở điều kiện (11), hàm chi phí được chọn như u*  [υ* T , τ * T ]   2n1 , d ua  [υda , τ a ]T   2n1 , T T sau: gψυ diaggψ (ψ),gυ (ψ,υ) 2n2n , kψυ diagkψ (ψ),kυ (ψ,υ) 2n2n ,   2n1 Jz,u,d   r(τ)dt   z T Qz  uTRu  ξ 2 dT ddt (12) d  [01n , τ ]   T T 0 . Giả sử luật điều khiển tối ưu u* được t t thiết kế ổn định hệ thống (6). Trong trường hợp này, bài toán trong đó, r(τ)  z T Qz  uT Ru  ξ 2 dT d . Định nghĩa hàm điều khiển bám tối ưu H∞ cho hệ thống (2) được chuyển đổi Hamilton cho hệ thống (10) như sau: thành bài toán điều khiển tối ưu H∞ cho hệ thống (6) là tương đương. Hz,u,d,Jz   r  Jz  fψυ  gψυu*  kψυ d T (13) Chứng minh: Chọn một hàm Lyapunov cho hệ thống trong đó, Jz  J z . Lý thuyết trò chơi kết hợp với (2) như sau: ADP được sử dụng để xác định hàm giá trị tối ưu bền vững 1 T 1 T J*(z) thỏa mãn điều kiện Nash: V1  e ψ eψ  e υ eυ (7) 2 2   Lấy đạo hàm (7) dọc theo (5), ta có được: J* (z)  minmax  r(τ)dτ  maxmin  r(τ)dτ. (14) u d d u 0 0  V1  eψ fψ (eψ )  eψ gψ (ψ)υ*  eψ gψ (ψ)eυ  eυ fυ (eψ ,eυ ) T T T T d Khi đó, tồn tại điểm yên ngựa (u*, d*), trong đó u* là luật  eυ gυ (ψ,υ)τ *  e v gψ (ψ)eψ  eυ k υ (ψ,υ)τ 0 T T T T điều khiển tối ưu, d* là luật bù nhiễu. Điểm yên ngựa  f (e ,e )  (8)  (u*, d*) được xác định bằng cách áp dụng các điều kiện T υ  eψ  fψ (eψ )  gψ (ψ)υ*   eυ   T ψ υ    dừng cho (13). d g (ψ,υ)τ *  k (ψ,υ)τ   υ  v 0 Do đó, luật u* và d* được xác định như sau:  z T  fψυ  gψυ u*  k ψυ d 1 u*  R1gψυ J* , T (15) Chọn một hàm Lyapunov cho hệ thống (6) như sau: 2 z 14 Tạp chí Khoa học và Công nghệ Trường Đại học Công nghiệp Hà Nội Tập 60 - Số 9 (9/2024)
  4. P-ISSN 1859-3585 E-ISSN 2615-9619 https://jst-haui.vn SCIENCE - TECHNOLOGY d*  1 T * k ψυ Jz (16)  ˆ ˆ ˆ ˆ H z,u,d,W T z  2ξ 2 (24) Thay (15) và (16) vào (13), ta có phương trình HJI ˆ ˆ ˆ  ˆ  r z,u,d  W T z fψυ  gψυ u  k ψυ d  e1 ˆ  như sau:  ˆ Định nghĩa W  W  W là sai số xấp xỉ trọng số NN. 1 Từ (20) và (24), ta có 0  z T Qz  J* T fψυ  (J* )T gψυR1gψυ Jz z z T * 4 1 * T 1 T *   ˆ e1  W T z fψυ  gψυu  k ψυ d  εH ˆ  (25)  2 (Jz ) k ψυR k ψυ Jz (17) 4ξ ˆ ˆ Để W  W , ta cần điều chỉnh W để tối thiểu sai số J (0 )  0. * bình phương E  (1 2)e1 e1 . Sử dụng thuật toán suy giảm T Để tìm giải pháp điều khiển tối ưu H , người ta cần ˆ độ dốc chuẩn hóa, luật cập nhật trọng số W được xác giải phương trình HJI (17). Tuy nhiên, việc giải phương định như sau [17]: trình HJI phi tuyến là không thể. Hàm đánh giá J*(z) được xấp xỉ như sau: Nếu  ˆ ˆ  z T fψυ  gψυ u  k ψυ d  0 thì J(z)  W T (z)  ε(z), (18)  σ ˆ ˆ ˆ W  α1 ˆ (σ T W  z T Qz  uT Ru  γ 2 dT d). ˆ ˆ (26) trong đó, W  N là vector trọng số NN, (σ σ  1)2 T  (z) :  n   N là một vector của N hàm trơn, N số tế bào Nếu  ˆ  z T fψυ  gψυ u  k ψυ d  0 , ˆ thì nơ-ron lớp ẩn, ε(z) là sai số xấp xỉ hàm. Có thể chọn một   W  W  α 2 z G  K  z, ˆ ˆ (27) tập cơ sở hoàn toàn độc lập (z) thỏa mãn Giả thiết 2. 1 Giả thiết 2 [16]: Có thể chọn (z) thỏa mãn z  b , ˆ ˆ  trong đó, σ  z fψυ  gψυu  k ψυ d , G  gψυR1gψυ , 2 T    z / z  b , εz  bε , εz  εz / z  bε , z 1 K  2 k ψυk ψυ , α1  0 , α 2  0 . T trong đó b ,b ,bε ,bε là các hằng số dương. 2ξ Lấy đạo hàm (18), ta thu được Định lý 1: Xem xét động lực của sai số bám được xác định bởi (6). Giả thiết 1, 2 được thỏa mãn. Hàm giá trị được xác (z) ε(z) J*  W T   W T z  εz . (19) định bởi (21), luật điều khiển tối ưu được đưa ra bởi (22), luật z z z bù nhiễu được đưa ra bởi (23), trong đó các trọng số NN được Thay thế (19) vào (13), phương trình Hamilton (13) điều chỉnh trực tuyến bởi (26) và (27). Khi đó, HOCT đảm bảo trở thành: rằng các sai số bám và sai số xấp xỉ là ổn định UUB. H* z,u* ,d* ,W T z  Chứng minh: Chọn hàm Lyapunov cho hệ thống (6) (20)  rz,u ,d   W z  fψυ  gψυu  k ψυ d  εH  0 * * T * * như sau: 1 1 trong đó, εH  ε z  fψυ  gψυu*  k ψυ d*  . Trọng số lý V3  α2 z T z  traceW T W   (28) 2 2 tưởng xấp xỉ hàm (18) là chưa biết, do đó J*(z) được xấp xỉ Thực hiện đạo hàm V3 theo thời gian, ta có bởi  ˆ V31  α 2 z T fψυ  α2 z T (G  K)zT W ˆ  W T (z), J(z) ˆ (21) (29) ˆ    W T α1σσ T W  εH    trong đó, W  N là vector trọng số xấp xỉ hàm. Luật điều khiển (15) và luật bù nhiễu (16) trở thành: trong đó, σ  σ (σ T σ  1) , εH  εH (σ T σ  1) . Bởi 1 ˆ Thuộc tính 5, ta có α 2 z T fψυ là bị chặn bởi (β3 z ) , tức là, 2 u  R1gψυzT W, ˆ T (22) 2 2 α2 z T fψυ β1 z , trong đó β1  α 2b f , fψυ  b f . Áp ˆ 1 T ˆ d  2 k ψυzT W. (23) 2ξ dụng bất đẳng thức Young, (29) trở thành Định nghĩa e1 là sai số gây ra bởi xấp xỉ hàm. Sử dụng   2 2 V31  β1 z  β 2 W  β3 , trong đó ψ  σσ , b εH  0 T (21), (22), (23) cho phương trình Hamilton (20), ta thu là chặn trên của εH , β 2  (α1  1)λ min (ψ) , được: Vol. 60 - No. 9 (Sep 2024) HaUI Journal of Science and Technology 15
  5. KHOA HỌC CÔNG NGHỆ https://jst-haui.vn P-ISSN 1859-3585 E-ISSN 2615-9619 α12 2 mong muốn Ed = (Xd, Yd) được chọn là β 3  α 2 Gmax  K min b b W  b εH , α1  1 . Do đó 4 X d  1 0,5sin(0,5t  π 2) , Yd  1 0,5cos(0,5t  π 2) .  V3  0 , nếu và chỉ nếu z  β3 β1  b z hoặc Quỹ đạo vị trí tham chiếu qd được xác định bởi phương  trình động học ngược qd2  arccos(X2  Yd2  l1  l2 ) (2l1l2 ) 2 2  W  β3 β2  bW . Ta có thể thấy rằng z hay W vượt  d , ψd1  arctanYd X d  arctan(l2 sin(ψd2 )) (l1  l2 cos(ψd2 )) ,  qua tập đóng bz hay bW , thì V3  0 . Như vậy các sai số  trong đó l1 = l2 = 1m. Quỹ đạo thực tế của E được xác định bám và sai số xấp xỉ là UUB. bởi phương trình động học thuận Dựa trên Bổ đề 1 và Định lý 1, sơ đồ cấu trúc của thuật X  l1cos(ψ1 )  l2 cos(ψ1  ψ2 ) , Y  l1sin(q1 )  l2 sin(ψ1  ψ2 ) . toán đề xuất có thể được trình bày như Hình 1. Bộ điều  Chọn ψ(0)   0,5,  0,5 , ψ(0)   0, 0  , τd có giá trị ngẫu T T khiển gồm 2 thành phần: Luật điều khiển truyền thẳng và nhiên trong khoảng [-1, 1]Nm. Chọn các tham số của luật điều khiển tối ưu bền vững. Trước tiên, luật điều khiển truyền thẳng được xác định như (4), sau đó động HOTC như sau: 1   2  diag[1,1] , lực học sai số bám được xây dựng như (6), hàm chi phí (z) [eψ1,eψ1eψ2 ,eψ1eυ1,eψ1eυ2 ,e2 ,eψ2eυ1,eψ2eυ2 ,e2 ,eυ1eυ2 ,e2 ] , 2 ψ2 υ1 υ2 được xấp xỉ bởi NN với luật cập nhật trọng số như (26), Q = I4, R = I4, α1  50 , α 2  0,01 , ξ  0,1 . (27) và luật điều khiển tối ưu được xác định như (22) và luật điều khiển bù nhiễu xác định như (23). Thực hiện mô phỏng trên Matlab với thời gian mô phỏng 50s, thời gian tắt ˆ ˆ J z  W T z  nhiễu PE là 20s, thời gian lấy Wˆ mẫu T = 0,1s. Hình 2 là trình Luật bù nhiễu dˆ W ˆ (23) bày sự hội tụ của các trọng Luật cập nhật z  ˆ ˆ T số, nó cho thấy rằng các (26), (27) Wˆ J W   trọng sộ hội tụ sau khoảng Luật điều khiển  * thời gian 12s. Hiệu suất điều tối ưu (22) ˆ u Demux * khiển bám được thể hiện vd +  Mô hình robot  q, q trên hình 3, 4 và các sai số + (1) vd bám được thể hiện trên hình + + 5. Chúng cho thấy rằng sau  qd , qd Luật điều khiển truyền vd , a Động lực học eq , ev a khi thuật toán hội tụ, HOTC sai số bám thẳng (4) (6) cung cấp hiệu suất điều a khiển bám tốt, với sai số vd Demux  a bám không vượt quá 4.10- 3 rad. Hình 6 trình bày kết Hình 1. Sơ đồ cấu trúc điều khiển bám tối ưu bền vững cho tay máy robot quả của các đầu vào điều khiển tối ưu và hình 7 trình bày trên cơ sở ADP kết quả của mô-men điều khiển. Quỹ đạo bám trong 3. KẾT QUẢ MÔ PHỎNG VÀ THẢO LUẬN không gian làm việc được thể hiện trên hình 8. Xét một một robot 2 bậc tự do [11] với các ma trận của Thực hiện mô phỏng so sánh HOTC với bộ điều khiển phương trình động lực học là: trượt thích nghi sử dụng RBF (SRBF) [18], các kết quả mô phỏng so sánh được thể hiện trên các hình 9, 10 và 11. h  2h3 c 2 h2  h3 c2  M(ψ)   1 , Quan sát các hình con trong hình 9, ta thấy các sai số bám  h2  h3 c 2 h2    của SRBF có giá trị lớn hơn HOTC. Quỹ đạo bám trong h3 s2 ψ2 h3 s2 (ψ1  ψ2 )    không gian làm việc của HOTC và SRBF được trình bày C(ψ,ψ)     (30) hsψ  0  trên hình 10. Mô-men điều khiển của SRBF được trình bày  3 2 1  trên hình 11, cho thấy rằng các giá trị mô-men điều khiển G(ψ)  8, 45tanh(ψ1 ) 2,35tanh(ψ2 )   T bị dao động mạnh, trong khi đó HOTC cung các mô-men trong đó, c 2  cos(ψ2 ) , s2  sin(ψ2 ) , h1  3,473 kgm2, điều khiển trơn hơn, không bị dao động khi hội tụ (hình 7). Thông qua các kết quả mô phỏng, ta thấy rằng HOTC h2  0,196 kgm2, h3  0,242 kgm2. Gọi E = (X, Y) là tọa cung cấp hiệu suất điều khiển tốt hơn SRBF. Như vậy, hiệu độ của khâu cuối trong không gian làm việc. Quỹ đạo quả của HOTC được xác minh. 16 Tạp chí Khoa học và Công nghệ Trường Đại học Công nghiệp Hà Nội Tập 60 - Số 9 (9/2024)
  6. P-ISSN 1859-3585 E-ISSN 2615-9619 https://jst-haui.vn SCIENCE - TECHNOLOGY Hình 2. Sự hội tụ của các trọng số Hình 7. Mô-men điều khiển Hình 3. Quỹ đạo bám ψ1 Hình 8. Quỹ đạo E trong không gian làm việc khi các trọng số hội tụ 1.5 1 0.5 0 10 -3 10 -3 10 2 -0.5 5 0 0 -5 -1 -2 10 15 20 25 10 15 20 25 -1.5 0 5 10 15 20 25 Time (s) Hình 4. Quỹ đạo bám ψ 2 Hình 9. So sánh các sai số bám của HOTC và SRBF Hình 5. Các sai số bám Hình 10. Quỹ đạo bám trong không gian làm việc của HOTC và SRBF Hình 6. Đầu vào điều khiển tối ưu Hình 11. Mô-men điều khiển của SRBF Vol. 60 - No. 9 (Sep 2024) HaUI Journal of Science and Technology 17
  7. KHOA HỌC CÔNG NGHỆ https://jst-haui.vn P-ISSN 1859-3585 E-ISSN 2615-9619 4. KẾT LUẬN [10]. V. T. Vu, P. N. Dao, P. T. Loc, T. Q. Huy, "Sliding variable-based online Bài báo đã đề xuất một sơ đồ điều khiển bám tối ưu H∞ adaptive reinforcement learning of uncertain/disturbed nonlinear mechanical dựa trên ADP cho tay máy robot với các nhiễu ngoài. Luật systems," Journal of Control, Automation Electrical Systems, 32, 2, 281-290, điều khiển truyền thẳng đã được thiết kế để chuyển đổi 2021. bài toán điều khiển bám tối ưu bền vững cho tay máy [11]. H. Modares, F. L. Lewis, Z. P. Jiang, "H∞ tracking control of robot thành bài toán điều khiển tối ưu bền vững cho hệ completely unknown continuous-time systems via off-policy reinforcement phi tuyến affine. Sau đó, luật điều khiển phản hồi đã được learning," IEEE Transactions on Neural Networks and Learning Systems, 26, 10, đề xuất để xác định luật điều khiển tối ưu và luật bù nhiễu. 2550-62, 2015. Thuật toán đảm bảo rằng các sai số bám là ổn định UUB. [12]. X. Long, Z. He, Z. Wang, "Online optimal control of robotic systems Kết quả mô phỏng đã cho thấy bộ điều khiển đề xuất đảm with single critic NN-based reinforcement learning," Complexity, 1-7, 2021. bảo các yêu cầu đặt ra. Công việc tiếp theo, HOTC sẽ được [13]. Q. Jiao, H. Modares, S. Xu, F. L. Lewis, K. G. Vamvoudakis, "Multi- cài đặt thử nghiệm trên tay máy robot thực. agent zero-sum differential graphical games for disturbance rejection in distributed control," Automatica, 69, 24-34, 2016. [14]. H. Zargarzadeh, T. Dierks, S. Jagannathan, "Adaptive neural TÀI LIỆU THAM KHẢO network‐based optimal control of nonlinear continuous‐time systems in strict‐feedback form," International Journal of Adaptive Control and Signal [1]. F. L.Lewis, D. M.Dawson, C. T.Abdallah, Robot Manipulator Control Processing, 28, 3-5, 305-324, 2014. Theory and Practice. CRC Press, 2003. [15]. A. J. Van Der Schaft, "L2-gain analysis of nonlinear systems and [2]. D. Chwa, H. Kwon, "Nonlinear Robust Control of Unknown Robot nonlinear state feedback H∞ control," IEEE Transactions on Automatic Control, Manipulator Systems With Actuators and Disturbances Using System 37, 6, 770-784, 1992. Identification and Integral Sliding Mode Disturbance Observer," IEEE Access, 10, 35410-35421, 2022. [16]. L. N. Tan, T. C. Pham, "Optimal Tracking Control for PMSM With Partially Unknown Dynamics, Saturation Voltages, Torque, and Voltage [3]. M. Van, M. Mavrovouniotis, S. S. Ge, "An adaptive backstepping Disturbances," IEEE Transactions on Industrial Electronics, 69, 4, 3481-3491, nonsingular fast terminal sliding mode control for robust fault tolerant control 2021. of robot manipulators," IEEE Transactions on Systems, Man, and Cybernetics: Systems, 49, 7, 1448-1458, 2018. [17]. N. T. Luy, N. T. Thanh, H. M. Tri, "Reinforcement learning-based intelligent tracking control for wheeled mobile robot," Transactions of the [4]. T. N. Truong, A. T. Vo, H. J. Kang, "A backstepping global fast terminal Institute of Measurement Control, 36, 7, 868-877, 2014. sliding mode control for trajectory tracking control of industrial robotic manipulators," IEEE Access, 9, 31921-31931, 2021. [18]. J. Liu, Intelligent Control Design and MATLAB Simulation. Springer, 2018. [5]. M. Van, S. S. Ge, "Adaptive fuzzy integral sliding-mode control for robust fault-tolerant control of robot manipulators with disturbance observer," IEEE Transactions on Fuzzy Systems, 29, 5, 1284-1296, 2021. [6]. W. Jie, L. M. Cheol, K. Jaehyung, K. H. Hee, "Fast fractional-order AUTHORS INFORMATION terminal sliding mode control with rbfnn based sliding perturbation observer Nguyen Duc Dien1, Lai Khac Lai2 for 7-dof robot manipulator," IEEE Access, 9, 67117-67128, 2021. 1 University of Economics - Technology for Industries, Vietnam [7]. K. G. Vamvoudakis, F. L. Lewis, N. Control, "Online solution of 2 Faculty of Electrical Engineering, Thainguyen University of Technology, nonlinear two‐player zero‐sum games using synchronous policy iteration," Vietnam International Journal of Robust, 22, 13, 1460-1483, 2012. [8]. K. G. Vamvoudakis, F. L. Lewis, "Online actor–critic algorithm to solve the continuous-time infinite horizon optimal control problem," Automatica, 46, 5, 878-888, 2010. [9]. R. Kamalapurkar, H. Dinh, S. Bhasin, Warren E Dixon, "Approximate optimal trajectory tracking for continuous-time nonlinear systems," Automatica, 51, 40-48, 2015. 18 Tạp chí Khoa học và Công nghệ Trường Đại học Công nghiệp Hà Nội Tập 60 - Số 9 (9/2024)
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2