Luận án Tiến sĩ: Nâng cao chất lượng điều khiển dựa trên mô hình bằng phương pháp học lặp

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:117

Thêm vào BST

Báo xấu

20
lượt xem 10
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án "Nâng cao chất lượng điều khiển dựa trên mô hình bằng phương pháp học lặp" thực hiện nghiên cứu, đề xuất nguyên tắc hiệu chỉnh hợp lý tín hiệu điều khiển từ kinh nghiệm quá khứ cho bộ điều khiển học lặp. Sẽ là tốt nhất nếu việc hiệu chỉnh lại tín hiệu điều khiển này không phụ thuộc vào mô hình toán của quá trình.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Luận án Tiến sĩ: Nâng cao chất lượng điều khiển dựa trên mô hình bằng phương pháp học lặp

Lời cam đoan Tôi xin cam đoan đây là công trình nghiên cứu của cá nhân tôi dưới sự hướng dẫn của tập thể giáo viên hướng dẫn và các nhà khoa học. Các tài liệu tham khảo đã được trích dẫn đầy đủ. Kết quả nghiên cứu là trung thực và chưa từng được ai công bố trên bất cứ một công trình nào khác. Hà Nội, ngày 20 tháng 9 năm 2023 Tập thể hướng dẫn Nghiên cứu sinh Cao Thành Trung i
Lời cảm ơn Trong quá trình làm luận án với đề tài “Nâng cao chất lượng điều khiển dựa trên mô hình bằng phương pháp học lặp” tôi đã nhận được rất nhiều sự ủng hộ về công tác tổ chức và chuyên môn của Nhóm Cơ sở Điều khiển Tự động, của Khoa Tự động hóa, Trường Điện-Điện tử, Đại học Bách khoa Hà Nội. Tôi xin trân trọng gửi lời cảm ơn tới cơ sở đào tạo này, nơi đã luôn tạo điều kiện giúp đỡ tôi trong suốt quá trình học tập, nghiên cứu và hoàn thành luận án. Với lòng kính trọng và biết ơn sâu sắc, tôi cũng xin chân thành cảm ơn tập thể hướng dẫn là TS. Nguyễn Thu Hà và GS.TS. Nguyễn Doãn Phước, những Thầy/Cô đã dành nhiều thời gian hướng dẫn, tận tình chỉ bảo và định hướng chuyên môn cho tôi trong suốt quá trình nghiên cứu để hoàn thành luận án. Cuối cùng, tôi xin chân thành cảm ơn gia đình, đồng nghiệp, những người bạn thân thiết đã luôn giúp đỡ, động viên, khích lệ, chia sẻ khó khăn trong thời gian tôi học tập để hoàn thành khóa học. Tác giả Cao Thành Trung ii
Mục lục DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT vi DANH MỤC CÁC BẢNG vi DANH MỤC CÁC HÌNH VẼ vii MỞ ĐẦU 1. Ý nghĩa thực tiễn và tính cấp thiết của đề tài 1 2. Mục đích và nhiệm vụ của luận án 1 3. Đối tượng và phạm vi nghiên cứu của luận án 2 4. Phương pháp nghiên cứu 2 5. Bố cục của luận án 3 CHƯƠNG 1: TỔNG QUAN VỀ ĐIỀU KHIỂN HỌC LẶP VÀ TÍNH HỘI TỤ CỦA QUÁ TRÌNH HỌC 4 1.1 Điều khiển học lặp và lý do nên kết hợp với truyền thống 4 1.1.1 Về nguyên lý điều khiển học lặp 6 1.1.2 Về hàm Q-learning và hàm học 7 1.1.3 Về khả năng hội tụ của luật chỉnh định 8 1.1.4 Về việc nên kết hợp với phương pháp điều khiển truyền thống 11 1.2 Tổng quan về tình hình nghiên cứu và các vấn đề còn tồn tại 12 1.3 Một số bài toán đặt ra cho luận án 15 1.3.1 Nghiên cứu lý thuyết 15 1.3.2 Nghiên cứu thực nghiệm: Hai quá trình công nghiệp được sử dụng để kiểm chứng kết quả lý thuyết 16 1.3.2.1 Robot công nghiệp 16 1.3.2.2 Hệ phản ứng khuấy trộn liên tục 18 1.4 Tổng kết chương 1 19 CHƯƠNG 2: NHỮNG ĐỀ XUẤT LÝ THUYẾT BỔ SUNG CHO ĐIỀU KHIỂN HỌC LẶP 21 2.1 Xác định tham số hàm học dựa trên mô hình trong miền phức 22 2.1.1 Điều kiện đủ cho hàm học kiểu P khi sử dụng hàm truyền hệ thống (quá trình SISO) 23 2.1.1.1 Khi quá trình là liên tục 23 2.1.1.2 Khi quá trình là rời rạc 24 2.1.2 Điều kiện đủ cho hàm học kiểu P khi sử dụng ma trận hàm truyền (quá trình MIMO) 24 2.1.3 Kiểm chứng chất lượng hội tụ nhờ mô phỏng 25 2.2 Xác định online tham số hàm học theo tiêu chuẩn tối ưu bằng cách cực tiểu hóa tổng bình phương sai lệch bám 27 iii
2.2.1 Chứng minh tính cần và đủ cho điều kiện (2.15) 27 2.2.2 Xác định online tham số hàm học tối ưu theo tổng bình phương sai lệch bám ở đầu ra 29 2.2.3 Kiểm chứng chất lượng hội tụ của tham số hàm học tối ưu online bằng mô phỏng 30 2.3 Xác định online tham số hàm học không dựa vào mô hình (giải pháp thông minh) 32 2.3.1 Nguyên tắc xác định online tham số hàm học 32 2.3.1.1 Trường hợp hệ là SISO 33 2.3.1.2 Trường hợp hệ là MIMO 34 2.3.2 Khảo sát tính hội tụ 35 2.3.3 Kiểm chứng chất lượng hội tụ thông qua mô phỏng 35 2.4 Ổn định hóa và tuyến tính hóa không cần sử dụng mô hình 39 2.4.1 Ước lượng đạo hàm của vector hàm số từ các dữ liệu đo được nhờ phép phân tích Taylor 39 2.4.2 Ứng dụng vào tuyến tính hóa ổn định hệ phi tuyến mà không cần sử dụng mô hình toán 39 2.4.3 Ví dụ minh họa 41 2.5 Tổng kết chương 2 43 CHƯƠNG 3: ỨNG DỤNG VÀO ĐIỀU KHIỂN CÁC HỆ ROBOT CÔNG NGHIỆP 45 3.1 Tổng quan về các phương pháp điều khiển đã có 46 Phương pháp điều khiển rõ 3.1.1 46 Phương pháp điều khiển thích nghi sử dụng nghịch đảo mô hình 3.1.2 46 Phương pháp điều khiển thích nghi Li-Slotine 3.1.3 47 Phương pháp điều khiển trượt 3.1.4 48 Bù bất định bằng mạng neural 3.1.5 48 Điều khiển học lặp 3.1.6 49 Xác nhận qua mô phỏng khả năng không đảm bảo được chất lượng của 3.1.7 điều khiển truyền thống khi trong hệ xuất hiện lỗi 50 3.2 Đề xuất cấu trúc điều khiển hai mạch vòng không sử dụng mô hình toán của robots (điều khiển thông minh) 53 3.2.1 Nhiệm vụ của bộ điều khiển vòng trong 53 3.2.2 Ước lượng đạo hàm của vector hàm số từ các dữ liệu đo được 54 3.3 Điều khiển robot công nghiệp nhờ học lặp với tham số hàm học tối ưu online đã đề xuất 55 3.3.1 Điều khiển vòng trong bằng bộ điều khiển tuyến tính hóa thông minh nhờ phản hồi trạng thái 56 3.3.2 Điều khiển vòng ngoài bằng bộ điều khiển học lặp 58 3.3.3 Thuật toán điều khiển 59 iv
3.4 Điều khiển robot công nghiệp nhờ học lặp với tham số hàm học online thông minh đã đề xuất 60 3.4.1 Thiết kế bộ điều khiển 60 3.4.1.1 Nội dung của hai mạch vòng điều khiển 60 3.4.1.2 Thuật toán điều khiển 61 3.4.2 Kiểm chứng chất lượng bằng mô phỏng 62 3.5 Tổng kết chương 3 66 CHƯƠNG 4: ỨNG DỤNG VÀO ĐIỀU KHIỂN HỆ PHẢN ỨNG HÓA HỌC KHUẤY TRỘN LIÊN TỤC 67 4.1 Sơ lược về bài toán điều khiển hệ CSTR và các phương pháp điều khiển hiện có 67 4.2 Đề xuất hai giải pháp điều khiển 69 4.3 Triển khai cấu trúc điều khiển theo đề xuất thứ nhất 71 Thiết kế bộ điều khiển vòng trong 4.3.1 71 Thiết kế bộ ước lượng thành phần bất định hàm 4.3.2 73 Thiết kế bộ điều khiển học lặp 4.3.3 75 Thuật toán điều khiển 4.3.4 76 Kiểm chứng chất lượng bằng mô phỏng 4.3.5 76 4.3.5.1 Khi đầu ra là nhiệt độ 77 4.3.5.2 Khi đầu ra là nồng độ 80 4.4 Triển khai cấu trúc điều khiển theo đề xuất thứ hai 82 Thiết kế bộ ước lượng thành phần bất định hàm 4.4.1 84 Thiết kế bộ điều khiển học lặp 4.4.2 85 Thuật toán điều khiển 4.4.3 85 Kiểm chứng chất lượng bằng mô phỏng 4.4.4 86 4.4.4.1 Kết quả mô phỏng khi đầu ra là nhiệt độ 87 4.4.4.2 Kết quả mô phỏng khi đầu ra là nồng độ 89 4.5 Tổng kết chương 4 92 KẾT LUẬN VÀ KIẾN NGHỊ 94 Các đóng góp mới của luận án 94 Những vấn đề còn tồn tại và hướng giải quyết 94 Danh mục các công trình đã công bố của luận án 96 Tài liệu tham khảo 97 Phụ lục chương trình 102 v
DANH MỤC CÁC KÝ HIỆU VÀ CHỮ VIẾT TẮT Từ viết tắt Dạng đầy đủ bằng tiếng Ý nghĩa Anh SISO Single Input Single Output Hệ một vào một ra MIMO Multiple Input Multiple Hệ nhiều vào nhiều ra Output CSTR Continuous stirred tank Hệ phản ứng hóa học reactor khuấy trộn liên tục ILC Iterative learning control Điều khiển học lặp NCS Nghiên cứu sinh LA Luận án UB Ultimate bounded UUB Uniformly ultimately bounded đ.p.c.m điều phải chứng minh BIBO bounded input – bounded output ISS Input to state stable DANH MỤC CÁC BẢNG vi
DANH MỤC CÁC HÌNH VẼ Hình 1.1: Nguyên lý làm việc của điều khiển học lặp với hệ truyền thống 6 Hình 1.2: Mô tả quá trình huấn luyện bộ điều khiển học lặp 9 Hình 1.3: Nguyên lý điều khiển học lặp truyền thẳng 12 Hình 1.4: Một số dạng robots công nghiệp 17 Hình 1.5: Cấu trúc vật lý cơ bản của một hệ CSTR 19 Hình 2.1: Đề xuất cấu trúc điều khiển truyền thẳng thông minh 22 Hình 2.2: Kết quả mô phỏng sau 2 lần thử 26 Hình 2.3: Kết quả mô phỏng sau 5 lần thử. 26 Hình 2.4: Kết quả điều khiển bám sau 2 lần thử. 31 Hình 2.5: Kết quả điều khiển bám sau 4 lần thử. 31 Hình 2.6: Kết quả điều khiển bám sau 2 lần thử khi sử dụng (2.26) 36 Hình 2.7: Kết quả điều khiển bám sau 5 lần thử khi sử dụng (2.26) 36 Hình 2.8: Tham số học và sai lệch bám thay đổi theo số lần thử với (2.26) 37 Hình 2.9: Tham số học và sai lệch bám thay đổi theo số lần thử với (2.29) 37 Hình 2.10: Kết quả điều khiển bám khi sử dụng (2.29) 38 Hình 2.11: Kết quả tuyến tính hóa phản hồi cho 2 trường hợp có sử dụng 43 và không sử dụng mô hình toán của đối tượng Hình 3.1: Robot planar hai bậc tự do 51 Hình 3.2: Điều khiển truyền thống bằng bộ điều khiển rõ 52 Hình 3.3: Điều khiển truyền thống với nghịch đảo mô hình 52 Hình 3.4: Điều khiển truyền thống với thích nghi Li-Slotine 52 Hình 3.5: Đề xuất cấu trúc 2 vòng điều khiển 53 Hình 3.6: Các thời điểm ước lượng thông minh giá trị đạo hàm trạng thái 56 Hình 3.7: Đáp ứng vị trí của khớp thứ nhất khi sử dụng (2.26) 63 Hình 3.8: Đáp ứng vị trí của khớp thứ hai khi sử dụng (2.26) 63 Hình 3.9: Sự thay đổi tham số hàm học thứ nhất khi sử dụng (2.26) 64 Hình 3.10: Sự thay đổi tham số hàm học thứ hai khi sử dụng (2.26) 64 Hình 3.11: Sự thay đổi tham số hàm học thứ nhất khi sử dụng (2.29) 65 Hình 3.12: Sự thay đổi tham số hàm học thứ hai khi sử dụng (2.29) 65 Hình 4.1: Hệ CSTR 67 Hình 4.2: Đề xuất giải pháp điều khiển thứ nhất 70 Hình 4.3: Đề xuất giải pháp điều khiển thứ hai 70 Hình 4.4: Đáp ứng của kênh nhiệt độ sau 20 lần thử 78 Hình 4.5: Đáp ứng của kênh nhiệt độ sau 150 lần thử 78 Hình 4.6: Sự thay đổi tương ứng của kênh nồng độ sau 150 lần thử 79 Hình 4.7: Kết quả ước lượng nhiễu d cho điều khiển bù 79 Hình 4.8: Đáp ứng của kênh nồng độ sau 30 lần thử 80 Hình 4.9: Đáp ứng của kênh nồng độ sau 200 lần thử 81 Hình 4.10: Sự thay đổi tương ứng của kênh nhiệt độ sau 200 lần thử 81 Hình 4.11: Kết quả ước lượng nhiễu d cho điều khiển bù 82 Hình 4.12: Đáp ứng của kênh nhiệt độ sau 10 lần thử 87 Hình 4.13: Đáp ứng của kênh nhiệt độ sau 100 lần thử 88 Hình 4.14: Sự thay đổi tương ứng của kênh nồng độ sau 100 lần thử 88 Hình 4.15: Kết quả ước lượng nhiễu cho điều khiển bù (1s đầu tiên) 89 vii
Hình 4.16: Đáp ứng của kênh nồng độ sau 15 lần thử 90 Hình 4.17: Đáp ứng của kênh nồng độ sau 150 lần thử 90 Hình 4.18: Sự thay đổi tương ứng của kênh nhiệt độ sau 150 lần thử 91 Hình 4.19: Nhiễu tổng  và kết quả ước lượng sau 1s 91 Hình 4.20: Kết quả ước lượng nhiễu tổng  sau 5s 92 viii
MỞ ĐẦU 1. Ý nghĩa thực tiễn và tính cấp thiết của đề tài Rất nhiều hệ thống sản xuất trong công nghiệp hiện đang hoạt động bởi bộ điều khiển được thiết kế dựa trên mô hình toán của quá trình, của đối tượng điều khiển (gọi là hệ điều khiển truyền thống). Ở những hệ điều khiển truyền thống này thì sau một khoảng thời gian làm việc đủ lâu, chắc chắn trong các vật liệu chế tạo thiết bị điều khiển, đối tượng sẽ sinh ra thay đổi về cơ cấu vật lý, dẫn đến chất lượng điều khiển không còn được đảm bảo như thủa ban đầu. Giải pháp đơn giản để hỗ trợ cho hệ truyền thống mà ở đó xuất hiện những lỗi tương tự như trên, là phương pháp điều khiển học lặp. Với điều khiển học lặp, người ta không cần phải chỉnh định lại bộ điều khiển truyền thống, không cần can thiệp sâu vào hệ thống đã có. Bởi vậy đề tài là có ý nghĩa thực tiễn. Tuy nhiên, điều khiển học lặp không áp dụng thành công cho mọi lớp hệ, nhất là những hệ mất ổn định. Chất lượng mà bộ điều khiển học lặp mang lại phụ thuộc rất nhiều vào tính chất động học và vào việc chọn hợp lý luật chỉnh định. Vì vậy việc nghiên cứu, tìm ra giải pháp thông minh để can thiệp sơ bộ trước vào hệ, tạo khả năng áp dụng được điều khiển học lặp cho nó, cũng như xác định được luật chỉnh định áp dụng được cho nhiều lớp hệ. 2. Mục đích và nhiệm vụ của luận án Mục đích của luận án là sử dụng bộ điều khiển học lặp có hàm học tuyến tính để điều khiển các quá trình phi tuyến. Để thực hiện được mục đích đề ra này, luận án đặt ra ba nhiệm vụ chính sau:  Xác định được nguyên tắc hiệu chỉnh hợp lý tín hiệu điều khiển từ kinh nghiệm quá khứ cho bộ điều khiển học lặp. Sẽ là tốt nhất nếu nguyên tắc hiệu chỉnh này áp dụng được cho một lớp rộng các đối tượng khác nhau (có cấu trúc vật lý khác nhau, mô tả bởi các mô hình toán khác nhau). Nói cách khác, sẽ là tốt nhất nếu việc hiệu chỉnh lại tín hiệu điều khiển, kể cả việc chọn tham số hội tụ cho hàm học, không phụ thuộc vào mô hình toán của quá trình.  Nếu xem sai lệch mô hình toán của quá trình và sai lệch của cơ cấu chấp hành như nhiễu tổng (lumped disturbances) thì luận án cần phải ước lượng thông minh được thành phần nhiễu tổng này, kể cả các thành phần bất định hàm, mà không sử dụng đến mô hình toán của hệ. Điều này, thông qua việc điều khiển bù nhiễu tổng, sẽ mở rộng được phạm vi ứng dụng của phương pháp điều khiển kết hợp giữa ILC và các phương pháp truyền thống.  Thiết kế thuật toán điều khiển dựa trên hai mục tiêu trước để điều khiển hai đối tượng làm việc theo mẻ trong công nghiệp là robots và hệ phản ứng hóa học khuấy trộn liên tục. 1
3. Đối tượng và phạm vi nghiên cứu của luận án Đối tượng nghiên cứu của luận án là các quá trình công nghiệp có tính phi tuyến. Luận án sẽ tập trung vào 2 đối tượng điển hình với hai đặc tính động học hoàn toàn khác nhau là robot công nghiệp và hệ phản ứng hóa học khuấy trộn liên tục. Phạm vi nghiên cứu của luận án là sử dụng các hàm học tuyến tính để điều khiển các quá trình phi tuyến. Điều này là không thể nếu chỉ áp dụng trực tiếp các hàm học tuyến tính. Bởi vậy phạm vi nghiên cứu đề ra của luận án gồm: Dựa trên những kết quả nghiên cứu đã có về điều khiển học lặp, về các công thức hiệu chỉnh tín hiệu điều khiển để đánh giá ưu nhược điểm của chúng, những vấn đề còn tồn tại và nhất là phân tích, đánh giá khả năng có thể khắc phục được các vấn đề còn tồn tại đó.  Dựa vào kết quả phân tích trên, luận án cần xây dựng được phương pháp cụ thể để triển khai việc khắc phục các vấn đề còn tồn tại. Trong phần này luận án sẽ đề cao những phương pháp giải quyết thông minh. Luận án xây dựng thuật toán chỉnh định thích nghi tham số hàm học tuyến tính để điều khiển các quá trình phi tuyến  Không dừng lại ở việc chỉ sử dụng học lặp để nâng cao chất lượng cho các hệ điều khiển truyền thống hiện có, luận án (LA) còn hướng tới bài toán xây dựng bộ điều khiển học lặp cho những hệ chưa có bộ điều khiển truyền thống. Do điều khiển học lặp không áp dụng được cho mọi lớp hệ, nên để giải quyết bài toán đặt ra này, LA sẽ nghiên cứu can thiệp sơ bộ trước vào các quá trình phi tuyến bằng bộ điều khiển bù thông minh sao cho nó thích hợp với hàm học tuyến tính có tham số thay đổi thích nghi, sao cho sau đó bộ điều khiển học lặp lại là áp dụng được (học lặp gián tiếp), đặc biệt là với học lặp tuyến tính. 4. Phương pháp nghiên cứu Để đạt được mục tiêu đặt ra của đề tài, luận án sử dụng hai phương pháp nghiên cứu chính sau:  Nghiên cứu lý thuyết: 1) Xác định điều kiện hội tụ cho cho các quá trình học tuyến tính, từ đó chọn được tham số học tối ưu cho hàm học của điều khiển học lặp. 2) Xây dựng phương pháp nhận dạng nhiễu nói riêng và các thành phần bất định hàm nói chung có trong đối tượng điều khiển mà không cần sử dụng đến mô hình toán của đối tượng điều khiển, phục vụ điều khiển bù sai lệch mô hình, tiến tới mở rộng được được phạm vi ứng dụng của bộ điều khiển học lặp cho nhiều lớp đối tượng khác nhau, bao gồm cả những đối tượng, các quá trình không ứng dụng trực tiếp được điều khiển học lặp.  Kiểm chứng kết quả lý thuyết bằng mô phỏng với những đối tượng công nghiệp có tính chất động học khác xa nhau, bản chất vật lý cũng khác nhau. 2
5. Bố cục của luận án Nội dung của luận án được trình bày trong 4 chương và một chương kết luận, được phân chia theo chủ đề phải nghiên cứu như sau:  Chương 1 nêu tổng quan các kết quả đã có liên quan đến điều khiển học lặp, đánh giá tính hội tụ của quá trình học. Từ đó phân tích, đưa ra các nhận xét về những vấn đề còn tồn tại, chưa được xử lý.  Chương 2 trình bày một số kết quả bổ sung về việc xác định tham số cho hàm học tuyến tính, đảm bảo tính hội tụ cho quá trình học. Cũng ở chương này, các phương pháp được trình bày gồm có cả phương pháp sử dụng mô hình, kể cả phương pháp tối ưu nhằm tăng tốc độ hội tụ cho quá trình học và phương pháp không sử dụng mô hình.  Chương 3 trình bày một ứng dụng các kết quả lý thuyết nêu lên ở chương 2 cho đối tượng robots công nghiệp và phân tích kết quả đạt được.  Chương 4 trình bày ứng dụng kết quả lý thuyết của luận án, đã được trình bày ở chương 2, cho đối tượng lò phản ứng hóa học liên tục (CSTR). Khác với đối tượng robots công nghiệp được sử dụng ở chương 3, hệ CSTR là một quá trình chậm và không thể đảo ngược được, nên việc chọn nó làm đối tượng kiểm tra, đánh giá tính hiệu quả của các kết quả lý thuyết của luận án, đã được nêu ở chương 2 là có ý nghĩa.  Cuối cùng, ở phần Kết luận, luận án tổng kết lại các đóng góp mới, cũng như những định hướng cho nghiên cứu tiếp theo. 3
CHƯƠNG 1: TỔNG QUAN VỀ ĐIỀU KHIỂN HỌC LẶP VÀ TÍNH HỘI TỤ CỦA QUÁ TRÌNH HỌC 1.1 Điều khiển học lặp và lý do nên kết hợp với truyền thống Nhiệm vụ cốt lõi của Điều khiển-Tự động hóa luôn là phải làm cho đầu ra của hệ thống bám theo được tín hiệu đặt mong muốn. Điều đó có nghĩa rằng, khi ký hiệu các đầu ra của hệ và tín hiệu đặt, gồm các vector y (t )  y1 (t ),  , yn (t )  , r (t )  r1 (t ),  , rn (t )  T T (1.1) thì nhiệm vụ của Điều khiển-Tự động hóa là tạo ra được y  r hoặc ít nhất thì cũng làm cho y càng gần tới r càng tốt, mà ở đó khái niệm gần được đánh giá theo một chuẩn nào đó thích hợp của vector sai lệch bám e (t )   , t  Te có Te là hằng số dương hữu hạn đủ lớn cho trước, trong đó e (t )  r (t )  y (t ) là sai lệch bám và   0 là hằng số dương rất nhỏ cũng cho trước. Đã có vô vàn các phương pháp giúp thực hiện nhiệm vụ trên của bài toán Điều khiển-Tự động hóa ở trên và chủ yếu chúng được xây dựng trên nền tảng lý thuyết Lyapunov, như Lyapunov II, backstepping, backstepping thích nghi, trượt, trượt thích nghi, tuyến tính hóa chính xác, tuyến tính hóa chính xác thích nghi, dynamic surface control. Phần lớn các phương pháp này là dựa vào mô hình toán mô tả hệ thống, tức là dựa vào mô hình toán mô tả ánh xạ vào ra f p u (t )  của hệ u (t ) y (t )  f p u (t )  . (1.2) trong đó u (t )  u1 (t ), , um (t )  T là ký hiệu của vector gồm tất cả các tín hiệu đầu vào. Các phương pháp dựa vào mô hình (1.2) của hệ được gọi là phương pháp điều khiển truyền thống. Tuy nhiên, cho dù đã có vô vàn các phương pháp như vậy, song không phải lúc nào cũng có được chất lượng bám e  r  y  0 hoặc e (t )   , t  Te , như yêu cầu, đặc biệt là cho mọi bài toán. Nguyên nhân cơ bản, theo tài liệu [5], là do độ chính xác của mô hình (1.2) không đủ chính xác hoặc do nhiều tác động không thể mô tả được tác động vào hệ thống. Chúng xuất phát có thể là do sự thiếu hụt về mặt lý luận, hiểu biết của con người, phục vụ mô hình hóa, để có được mô hình chính xác [1] (hiểu biết của con người là rất nhiều, song vẫn chưa đủ để mô tả được mọi 4
hiện tượng tự nhiên), hoặc dạng mô hình toán có được lại không thích hợp với phương pháp điều khiển truyền thống đã có, và thậm chí cũng có thể còn do những tác động không ngờ xảy ra với hệ thống sau khi đã có mô hình toán. Mặt khác, kể cả trong trường hợp mô hình toán là đủ chính xác, giúp cho ta thiết kế được bộ điều khiển truyền thống đạt được chất lượng mong muốn, thì sau một khoảng thời gian làm việc lâu dài, sẽ sinh ra thay đổi về cơ cấu vật lý trong các vật liệu chế tạo thiết bị điều khiển, trong cơ cấu chấp hành. Điều này dẫn tới mô hình toán có ban đầu để mô tả đối tượng sẽ không còn đủ chính xác, làm cho chất lượng điều khiển của bộ điều khiển truyền thống đã được thiết kế cũng không còn được đảm bảo. Để khôi phục lại chất lượng điều khiển, tất nhiên theo phương pháp truyền thống, người ta phải xây dựng lại mô hình toán mới cho đối tượng điều khiển (bao gồm cả cơ cấu chấp hành), rồi dựa vào đó mà hiệu chỉnh lại tham số cho bộ điều khiển, nếu như không muốn thay thế thiết bị mới. Đối với các quá trình làm việc theo chu kỳ tuần hoàn (robots, bình phản ứng hóa học) thì rõ ràng việc làm trên, tức là việc thay thế thiết bị hay thiết kế lại bộ điều khiển truyền thống, là một sự lãng phí thông tin có từ đối tượng mà trong đó chứa đựng sự mệt mỏi của vật liệu, về lỗi của thiết bị. Những thông tin này đều có thể thu thập, phục vụ chẩn đoán lỗi hệ thống, vì những dữ liệu đo được đó cũng mang tính chu kỳ. Sự lãng phí thông tin này sẽ dẫn đến việc đội thêm chi phí sửa chữa, bảo hành hệ thống. Do đó vấn đề đặt ra là làm thế nào sử dụng được thông tin chẩn đoán lỗi thiết bị để hiệu chỉnh lại tín hiệu điều khiển mà không cần phải thiết kế mới bộ điều khiển hay thay thế mới thiết bị. Rõ ràng đây là bài toán mang ý nghĩa thực tiễn, cả về mặt rút ngắn thời gian bảo trì thiết bị và cả về hiệu quả hoạt động lâu dài của quá trình sản xuất. Câu trả lời cụ thể sẽ nằm ở việc cần phải nghiên cứu kết hợp như thế nào cho hiệu quả phương pháp điều khiển thông minh (xử lý thông tin thu thập trong quá khứ để hiệu chỉnh lại tín hiệu điều khiển cho tương lai) với bộ điều khiển truyền thống đã có. Nguyên gốc thì có ba phương pháp điều khiển thông minh thích hợp cho các quá trình làm việc tuần hoàn nêu trên, gồm điều khiển qua các phép thử (control peer trials), repetitive (tạm dịch là lặp đi lặp lại) và run to run (R2R). Chúng hình thành từ yêu cầu thực tiễn của nhiều lĩnh vực tự động hóa khác nhau, được đề xuất bởi nhiều nhóm tác giả khác nhau, có những định hướng ứng dụng khác nhau, song đều thích hợp cho giải pháp điều khiển kết hợp đặt ra. Tất cả ba phương pháp điều khiển thông minh này có chung một đặc điểm là sử dụng những kết quả đo được từ quá trình trong các chu kỳ làm việc trước đó để hiệu chỉnh lại tín hiệu điều khiển cho chu kỳ làm việc tiếp theo. Nguyên tắc điều khiển như vậy được gọi là học trên cơ sở kinh nghiệm của quá khứ nhằm nâng cao chất lượng điều khiển hiện tại và tương lai, hay còn gọi là điều khiển thông qua quá trình học hỏi tự động. Từ đặc điểm chung này mà phương pháp tổng quát, có tên là điều khiển học lặp, được hình thành (gọi tắt là ILC - Iterative learning control). Đây cũng là phương pháp điều khiển thông minh thường được lựa chọn đầu tiên để khắc phục lỗi thiết bị và lỗi hệ thống làm việc theo chu kỳ, đảm bảo được chất lượng điều khiển là vẫn bám tín 5
hiệu đầu ra như mong muốn (output regulations). Hình 1.1 dưới đây mô tả nguyên tắc điều khiển kết hợp này. Hình 1.1: Nguyên lý làm việc của điều khiển học lặp với hệ truyền thống Tất nhiên chất lượng điều khiển bởi ILC phụ thuộc chủ yếu vào việc xác định được nguyên tắc hiệu chỉnh lại tín hiệu điều khiển từ kinh nghiệm trong quá khứ một cách hợp lý, theo nghĩa sử dụng được tốt nhất kinh nghiệm có từ những chu kỳ quá khứ của quá trình. Do đó, bài toán nghiên cứu kết hợp một cách hợp lý giữa điều khiển học lặp trên cơ sở xác định nguyên tắc hiệu chỉnh hợp lý tín hiệu điều khiển từ kinh nghiệm quá khứ, với hệ điều khiển truyền thống, nhằm cải thiện chất lượng điều khiển mà không cần phải thay thế mới thiết bị cũng như rút ngắn thời gian bảo dưỡng hệ thống, là cần thiết. 1.1.1 Về nguyên lý điều khiển học lặp Điều khiển học lặp là một hướng của điều khiển thông minh, vì chúng không sử dụng mô hình toán, áp dụng cho các hệ làm việc theo chu trình tuần hoàn nói chung và theo mẻ nói riêng, tức là cho hệ làm việc theo chu kỳ T cho trước. Ở những hệ như vậy thì tín hiệu đặt r (t ) cũng phải là tín hiệu đặt dạng tuần hoàn với cùng chu kỳ T . Điều khiển học lặp làm việc theo nguyên tắc là dựa vào tín hiệu điều khiển u (t ) và sai lệch bám e (t )  r (t )  y (t ) trong quá khứ để chỉnh định lại tín hiệu điều khiển u (t ) ở chu kỳ làm việc hiện tại, gọi là chu kỳ thứ k , mà không cần đến mô hình toán, sao cho sai lệch bám ở chu kỳ k hiện tại nhỏ hơn ở các chu kỳ trước và tiến tới e  0 hoặc e (t )   sau một vài chu kỳ làm việc nào đó. Các dữ liệu quá khứ cũng sẽ được thu thập trong toàn bộ một chu kỳ làm việc. Vậy, nếu ký hiệu u (t ) và e (t ) ở chu kỳ hiện tại, ký hiệu là chu kỳ thứ k , bởi u k ( ), ek ( ) , trong đó t  kT   và 0    T thì bản chất của điều khiển học lặp là hiệu chỉnh lại u k ( ) từ các giá trị u j1 ( ), e j2 ( ) trong quá khứ, tức là phải có k  j1 và k  j 2 , được thể hiện tổng quát qua công thức [5] u k ( )  f Q u j1 (1 )   f L e j2 ( 2 )      (1.3) 6
với 0  1 , 2  T . Hàm f Q [ ] có tên gọi là Q-learning và f L [ ] có tên gọi là hàm học. Hai hàm này đều phải được chọn trước một cách phù hợp. Công thức (1.3) ở trên thường được gọi là luật chỉnh định hay công thức chỉnh định. Hình 1.1, lấy từ tài liệu [1], minh họa nguyên tắc cập nhật, thay đổi tín hiệu điều khiển từ chu kỳ k  1 sang chu kỳ thứ k của điều khiển học lặp. Trong quá trình hiệu chỉnh tín hiệu điều khiển từ chu kỳ này sang chu kỳ khác như vậy, và mỗi chu kỳ như vậy sẽ được gọi là lần thử. Quá trình học sẽ chỉ kết thúc sau một số lần thử hữu hạn M , nếu đã đạt được sai lệch bám đủ nhỏ theo yêu cầu ek ( )   ,   [0,T ) . Tuy nhiên, việc thu thập u j1 ( ), e j2 ( ) trong quá khứ có 1 , 2 là toàn bộ số thực thuộc khoảng [0,T ) là không thể, vì sẽ có vô số các giá trị cần lưu giữ, nên ở điều khiển học lặp người ta đã thay công thức chỉnh định liên tục (1.3) bằng công thức chỉnh định rời rạc như sau u k (i )  f Q u j1 (i1 )   f L e j2 (i2 )      (1.4) với   iTs , 1  i1Ts và  2  i2Ts , trong đó 0  Ts 1 là hằng số dương chia hết bởi T và phải rất nhỏ được chọn trước, gọi là tần số thu thập dữ liệu. Như vậy, nếu ký hiệu N  T Ts thì cũng sẽ phải có i , i1 , i2  0,1,  , N  1 mẫu tín hiệu cần thu thập cho mỗi chu kỳ, hay lần thử. 1.1.2 Về hàm Q-learning và hàm học Mặc dù được nghiên cứu nhiều, song cho đến nay thực sự vẫn chưa có một công trình nào đưa ra được cấu trúc chung của f Q [ ] mang ưu điểm vượt trội và trong tương lai chắc cũng sẽ không có câu trả lời cho mọi lớp hệ. Kiểu hàm Q- learning f Q [ ] được nghiên cứu và áp dụng vào thực tế nhiều nhất vẫn là kiểu hàm tuyến tính f Q u j1 (i1 )    0 u j1 (i1  1)  1u j1 (i1 )   2 u j1 (i1  1)   (1.5) Các tài liệu [7]-[12] cho thấy, thông qua những ví dụ ứng dụng thực tế khác nhau, rằng khi (1.5) thỏa mãn  0  1   2  1 thì tính bền vững của hệ học lặp ứng với thành phần bất định tần số cao sẽ được cải thiện, song không phải lúc nào cũng có được tính tiệm cận e k  0 của sai lệch bám. Phổ cập, và cũng đủ mang lại được e k  0 cho một lớp hệ nhất định, chẳng hạn như tuyến tính, là kiểu hàm (1.5) có  0  1  0,  2  1 . Thống kê trong các công trình ứng dụng của điều khiển học lặp vào các quá trình làm việc theo mẻ ở [5]-[15] thì hàm Q-learning chủ đạo, đơn giản song vẫn hiệu quả, là hàm đồng nhất với j1  k  1 và i1  i , tức là f Q u j1 (i1 )   u k 1 (i ) .   (1.6) 7
Tính hiệu quả của hàm Q-learning đồng nhất (1.6) khi kết hợp với hàm học f L [ ] cũng ở dạng tuyến tính đã được chứng minh thông qua mô phỏng hoặc các ứng dụng thực tế nêu trong các tài liệu [CT1],[CT4],[CT5],[1],[5]-[15]. Tương tự như vậy là các nghiên cứu về cấu trúc hàm học f L [ ] . Nhiều nghiên cứu về cấu trúc phi tuyến của f L [ ] và ảnh hưởng của nó tới chất lượng hội tụ, song cũng không có được một khẳng định nào, trong số các công trình đã được công bố ở [1],[5]-[15] chỉ được rõ ràng rằng hàm học f L [ ] phi tuyến sẽ tốt hơn tuyến tính. Cấu trúc hàm học phổ cập nhất vẫn là cấu trúc tuyến tính với f L e j2 (i2 )   K1e j2 (i2  1)  K 2e j2 (i2 )  K 3e j2 (i2  1)   (1.7) có các tham số K1 , K 2 , K 3 cần phải được chọn thích hợp. 1.1.3 Về khả năng hội tụ của luật chỉnh định Mặc dù điều khiển học lặp, là một hình thức của điều khiển thông minh, hoàn toàn không sử dụng tới mô hình toán của đối tượng cho việc thiết kế bộ điều khiển (model free control approach), song để phân tích được tính hội tụ của quá trình học theo nghĩa có đạt được chất lượng bám e k (i )  0, i  0,1, , N  1 hay không, hoặc ek ( )   ,   [0,T ) và k  M với M là một giá trị hữu hạn, thì cho tới ngày nay, người ta vẫn phải sử dụng tới mô hình toán (1.2) của hệ. Chẳng hạn, khi cả hai ánh xạ vào-ra (1.2) của hệ và hàm học f L [ ] là tuyến tính, hàm Q-learning có dạng đồng nhất (1.6), tức là khi công thức chỉnh định có dạng u k 1 (i )  u k (i )  f L ek (i )  (1.8) thì các tài liệu [1],[68] đã chỉ ra rằng sẽ có được e k (i )  0, i  0,1, , N  1 nếu điều kiện sau được thỏa mãn: 1e  f p f L  1 (1.9) trong đó 1e là ký hiệu của ánh xạ đồng nhất và là ký hiệu của hàm hợp. Rõ ràng, để chọn được hàm học tuyến tính f L [ ] thỏa mãn (1.9) nhằm đảm bảo tính hội tụ cho quá trình học người ta cần phải biết mô hình f p [ ] của hệ. Điều này làm cho tính thông minh của phương pháp chưa thực sự trọn vẹn, vì vẫn cần phải có mô hình toán để chọn được công thức chỉnh định phù hợp (mặc dù mô hình toán là không cần cho việc thiết kế bộ điều khiển sau khi đã có công thức chỉnh định, như được thể hiện ở hình 1.2 dưới đây). 8
Hình 1.2: Mô tả quá trình huấn luyện bộ điều khiển học lặp Để thuận tiện cho việc chọn được hàm học (1.9) thỏa mãn điều kiện hội tụ e k (i )  0, i  0,1, ,N 1 (1.10) hoặc ek ( )   ,   [0,T ) khi k  M (1.11) người ta thường chỉ tập trung triển khai (1.7) cho ba dạng tuyến tính cơ bản sau  Hàm học kiểu P: f ek ( j )   Kek (i ) Khi đó luật học và chỉnh định (1.3) với hàm Q-learning đồng nhất (1.6), tức là công thức chỉnh định (1.8) trở thành u k 1 (i )  u k (i )  Ke k (i ) . (1.12)  Hàm học kiểu D: f ek ( j )   Kek (i  1) Tương ứng, công thức chỉnh định (1.3) với hàm Q-learning đồng nhất (1.6) trở thành u k 1 (i )  u k (i )  Ke k (i  1), i  0,1,  , N  1 . (1.13) Với hàm học kiểu D này, ở thời điểm cuối của chu trình làm việc i  N  1 nó trở thành kiểu P, tức là u k 1 (N  1)  u k (N  1)  Ke k (N  1) do tại đó không tồn tại e k (N ) .  Hàm học kiểu PD: 9
f ek ( j )   K1ek (i )  K 2ek (i  1) Vậy, công thức chỉnh định (1.3) với hàm Q-learning đồng nhất (1.6) trở thành u k 1 (i )  u k (i )  K1e k (i )  K 2e k (i  1), i  0,1,  , N  1 . (1.14) Tương ứng, ở thời điểm cuối của chu trình làm việc i  N  1 nó trở thành u k 1 (N  1)  u k (N  1)  K1  K 2 ek (N  1)  Hàm học kiểu PID: f ek ( j )   K1ek (i  1)  K 2ek (i )  K 3ek (i  1) . Khi đó công thức chỉnh định (1.3) với hàm Q-learning đồng nhất (1.6) trở thành u k 1 (i )  u k (i )  K1e k (i  1)  K 2e k (i )  K 3e k (i  1) . (1.15) Ở thời điểm đầu i  0 và cuối i  N  1 của chu trình làm việc, nó có dạng u k 1 (0)  u k (0)   K1  K 2 e k (0)  K 3e k (1) u k 1 (N  1)  u k (N  1)  K1e k (N  2)  K 2  K 3 e k (N  1) do tại những thời điểm đó không tồn tại e k (1) và e k (N ) . Bên cạnh ba dạng hàm học tuyến tính ở trên thì các tài liệu [8]-[15] còn đưa ra nhiều dạng khác nhau nữa, gồm cả cả các hàm học phi tuyến, song chất lượng điều khiển mà những hàm học này mang lại cho hệ là chưa rõ ràng, nhất là sự cải tiến về tính hội tụ cho quá trình học và lớp các hệ sử dụng được chúng cũng không được phân tích chi tiết. Với những dạng hàm học tuyến tính cơ bản này, các tài liệu [1],[5]-[15] đã chỉ ra được điều kiện đủ để chọn tham số K1 , K 2 , K 3 đảm bảo tính hội tụ (1.11) cho trường hợp hệ ban đầu là tuyến tính mô tả bởi ánh xạ vào-ra (1.2) có dạng cụ thể trong không gian trạng thái là x  Ax  Bu y  C x (1.16)  trong đó:  A  Rnn , B  Rnm , C  Rmn lần lượt là các ma trận hệ thống, ma trận điều khiển và ma trận đầu ra,  x (t )  Rn , u (t )  Rm , y (t )  Rm là vector các tín hiệu trạng thái, đầu vào và đầu ra.  Nếu sử dụng công thức chỉnh định kiểu D (1.13) thì điều kiện đủ để đảm bảo tính hội tụ cho quá trình học, tham số học K cần thỏa mãn ˆˆ I  CBK  1, (1.17) m trong đó I m là ký hiệu của ma trận đơn vị kiểu m  m và 10
Ts ˆ ˆ ˆ A  e ATs , B   e At Bdt , C  C . (1.18) 0 Có thể thấy đây là dạng riêng của (1.9) và nó sẽ không sử dụng được khi hệ có ˆˆ CB  0 (ma trận có tất cả các phần tử bằng 0). Tuy nhiên, nhiều ứng dụng thực ˆˆ tế cho thấy ngay cả khi hệ tuyến tính (1.16) có CB  0 vẫn tồn tại bộ điều khiển học lặp với công thức chỉnh định kiểu D (1.13). Điều này đặt ra cho luận án ˆˆ nhiệm vụ xác định được điều kiện cho tham số học K khi hệ có CB  0 ,  Nếu sử dụng công thức chỉnh định kiểu PD (1.14) thì điều kiện đủ để đảm bảo tính hội tụ cho quá trình học, các tham số học K1 , K 2 cần thỏa mãn ˆˆ ˆˆ I m CBK 2  CBK1  1 . (1.19) Tương tự, có thể thấy sẽ không sử dụng được điều kiện đủ (1.19) nếu hệ có ˆˆ CB  0 . Bởi vậy, tương tự như ở trường hợp sử dụng công thức chỉnh định kiểu D, nhiệm vụ của luận án ở đây cũng là là xác định được điều kiện cho hai tham ˆˆ số học K1 , K 2 khi hệ có CB  0 để quá trình học là hội tụ.  Nếu sử dụng công thức chỉnh định kiểu PID (1.15) thì điều kiện đủ để đảm bảo tính hội tụ cho quá trình học, các tham số học K1 , K 2 , K 3 cần thỏa mãn I m CBK 3  CB K 2  K1   1. ˆˆ ˆˆ (1.20) Một lần nữa ta lại thấy điều kiện đủ (1.20) là không sử dụng được khi hệ có ˆˆ CB  0 . Bởi vậy, nhiệm vụ xác định được một điều kiện tổng quát hơn để có được các tham số học K1 , K 2 , K 3 hội tụ khi mô hình của hệ không thỏa mãn ˆˆ điều kiện CB  0 , là cần thiết. 1.1.4 Về việc nên kết hợp với phương pháp điều khiển truyền thống Theo [1],[10],[12],[14],[16]-[20] thì có hai lý do cơ bản cho việc nên kết hợp điều khiển học lặp với điều khiển truyền thống. Đó là: 1) Tránh phải xác định lại tham số điều khiển cho các bộ điều khiển truyền thống đã có sau một thời gian làm việc lâu dài của hệ. Điều này là hữu ích vì sau một khoảng thời gian làm việc hệ truyền thống không còn đảm bảo được chất lượng đề ra ban đầu, do cơ cấu thiết bị trong hệ bị mỏi mệt, phát sinh lỗi mô hình, không còn chính xác như ban đầu, như khi ta thiết kế bộ điều khiển. Ở các trường hợp như vậy, nếu muốn chỉnh định lại bộ điều khiển truyền thống, ta thường phải bắt đầu từ việc xây dựng lại tham số mô hình toán của hệ, đến thiết kế lại bộ điều khiển rồi cài đặt. Nhằm giảm bớt những công việc trên, thì theo [1],[12],[14],[18] một giải pháp đơn giản là áp dụng học lặp để bổ sung thêm cho bộ điều khiển truyền thống đã có. Bộ điều khiển ghép chung học lặp và truyền thống này thường được gọi là điều khiển học lặp truyền thẳng, như đã được mô tả ở hình 1.1. 11
2) Điều khiển học lặp không áp dụng trực tiếp được cho tất cả các quá trình, nhất là các quá trình không ổn định BIBO [10]. Do đó, để áp dụng được học lặp cho các hệ này, người ta thường phải làm cho nó ổn định BIBO trước bằng bộ điều khiển truyền thống [1],[16]-[20]. Xu hướng ổn định hóa để áp dụng được học lặp này có tên gọi là điều khiển học lặp gián tiếp, (tên tiếng Anh là indirect iterative learning control). Có thể thấy bộ điều khiển kết hợp học lặp và truyền thống nêu ở trên không còn mang ý nghĩa thông minh thuần túy nữa, vì dù sao nó vẫn phải cần tới mô hình toán của hệ thống. Do đó, luận án cũng đặt ra một nhiệm vụ nữa là ổn định hóa BIBO (bound input – bound output) hoặc ISS (input to state stable) hoặc UB/UUB (ultimately bounded / uniformly ultimately bounded) một cách thông minh cho hệ, tức là không sử dụng mô hình toán của hệ, rồi sau đó mới áp dụng học lặp cho nhiệm vụ điều khiển bám ở đầu ra. Ngoài ra, khi nghiên cứu về tính hội tụ của quá học cũng như chất lượng bám tín hiệu đặt, NCS sẽ sử dụng thống nhất phương pháp phân tích của lý thuyết hệ thống kết hợp 1 chiều và 2 chiều (một chiều theo k và chiều còn lại theo i ). Hình 1.3: Nguyên lý điều khiển học lặp truyền thẳng. 1.2 Tổng quan về tình hình nghiên cứu và các vấn đề còn tồn tại Tư tưởng của điều khiển học lặp được ra đời từ năm 1978 với bài báo viết bằng tiếng Nhật của Uchiyama [6]. Cho tới khi có những công bố tương tự bằng tiếng Anh như của Arimoto năm 1984 [7], hay Furuta [8] năm 1987 thì giới học giả trên thế giới mới được biết đến tư tưởng điều khiển thông minh này. Và từ đó nó đã được nghiên cứu, bổ sung với tốc độ rất nhanh, như được nhận định ở [5],[9] với hơn 4000 bài báo được công bố cho đến năm 2016 [11],[15] gồm nhiều ứng dụng thực tế khác nhau [9],[10]. Cũng theo những tài liệu này thì thực ra trước đó đã có nhiều công trình nghiên cứu độc lập, có bản chất giống như học lặp, chẳng hạn như điều khiển hệ repetitive hay điều khiển run to run [14], song chỉ từ khoảng giữa thập niên 1980-1990 chúng mới được kết nối lại với nhau thành một trường phái chung 12