intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Điều khiển robot di động sáu chân thông qua âm thanh

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:3

15
lượt xem
8
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Đối với việc chuyển đổi âm thanh giọng nói thành tín hiệu điều khiển, có thể sử dụng nền tảng có sẵn hoặc mô hình được huấn luyện để nhận dạng giọng nói. Nghiên cứu này sử dụng phương pháp xây dựng mô hình mạng CNN (Convolution Neural Network) để tiến hành nhận dạng các từ khóa cơ bản có trong tiếng nói thu được.

Chủ đề:
Lưu

Nội dung Text: Điều khiển robot di động sáu chân thông qua âm thanh

  1. Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 ĐIỀU KHIỂN ROBOT DI ĐỘNG SÁU CHÂN THÔNG QUA ÂM THANH Nguyễn Tuấn Anh1, Nguyễn Tiến Thịnh1, Nguyễn Huy Thế1 1 Trường Đại học Thủy lợi, email: nguyehuythe@tlu.edu.vn 1. GIỚI THIỆU CHUNG 2.1.1. Thu thập dữ liệu âm thanh Việc chế tạo và vận hành robot di động sáu Dữ liệu âm thanh được lựa chọn cho quá chân có ý nghĩa khoa học, góp phần phát triển trình huấn luyện mô hình là Google Speech lĩnh vực nghiên cứu robot có cấu trúc chuỗi Command datasets [1]. Tệp dữ liệu này bao động học song song, đồng thời phục vụ đào tạo gồm hơn 105.000 file audio ở định dạng .wav các môn học chuyên ngành thuộc lĩnh vực kỹ của hơn 30 từ tiếng Anh khác nhau. Với mục thuật cơ điện tử, kỹ thuật robot. Tuy nhiên, các tiêu là điều khiển robot, các từ khóa gần gũi nghiên cứu về robot sáu chân hầu hết tập trung với phương hướng chuyển động của robot vào bài toán thiết kế và điều khiển cơ bản, được sử dụng, bao gồm “yes”, “up”, “down”, chưa có sự tương tác với môi trường xung “left”, “right”, “stop”, “go”, “off”. quanh. Do đó, bài toán điều khiển robot sáu 2.1.2. Xử lý dữ liệu chân thông qua tương tác trực tiếp với người dùng rất cần thiết, đặc biệt là ứng dụng công Các tệp dữ liệu âm thanh nêu trên bao gồm nghệ nhận dạng và xử lý âm thanh. chuỗi số liệu về biên độ của tín hiệu âm Đối với việc chuyển đổi âm thanh giọng nói thanh tại thời điểm trích mẫu tương ứng. thành tín hiệu điều khiển, có thể sử dụng nền Hình 1 biểu diễn dữ liệu theo thời gian của tảng có sẵn hoặc mô hình được huấn luyện để file âm thanh của từ “left”. nhận dạng giọng nói. Nghiên cứu này sử dụng phương pháp xây dựng mô hình mạng CNN (Convolution Neural Network) để tiến hành nhận dạng các từ khóa cơ bản có trong tiếng nói thu được. Mô hình nhận dạng được xây dựng bởi thư viện mã nguồn mở Tensorflow trong Hình 1. Dữ liệu file âm thanh ngôn ngữ Python, sau đó sẽ được huấn luyện với các tệp dữ liệu âm thanh có đánh nhãn và Chuỗi tín hiệu tuy dài nhưng hàm lượng được kiểm nghiệm bằng cách triển khai thực thi thông tin không nhiều nên thường không trên máy tính nhúng Raspberry Pi với âm thanh được sử dụng trực tiếp trong việc phân tích, thu trực tiếp để từ đó điều khiển robot. thay vào đó là các thông tin đặc trưng thu được từ việc chuyển sang miền tần số bởi 2. PHƯƠNG PHÁP NGHIÊN CỨU phép biến đổi Fourier. Các kỹ thuật để trích 2.1. Xây dựng mô hình xuất đặc trưng (feature extraction) của giọng nói hay được sử dụng là MFCC - Mel Quy trình huấn luyện mô hình nhận dạng Frequency Cepstral Coefficients và PLP - giọng nói bao gồm các bước sau: thu thập dữ Perceptual Linear Predictive [2]. Trong liệu, xử lý dữ liệu, huấn luyện - kiểm tra mô nghiên cứu này, MFCC được lựa chọn bởi sự hình và kết xuất mô hình. thuận tiện trong cả quá trình tính toán và thực 286
  2. Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 thi. Quá trình sử dụng MFCC để tính toán tương tự như thông tin của một bức ảnh nên các hệ số đặc trưng của âm thanh được tóm mạng tích chập CNN được sử dụng để phân tắt như ở Hình 2 [3]: loại các bộ dữ liệu này. Cấu trúc chung mạng được thể hiện ở trên Hình 4 [4]: Trong đó, cấu trúc mạng CNN được chia thành hai lớp chính: lớp trích xuất đặc trưng ảnh (feature extraction) và lớp phân loại (classification layer). Lớp trích xuất này bao gồm nhiều lớp con khác nhau. Lớp tích chập Hình 2. Thuật toán MFCC (convolution) có nhiệm vụ chính là trích xuất Trong hình 2, ADC đại diện cho quá trình các tính năng từ hình ảnh đầu vào thông qua chuyển đổi âm thanh thành tín hiệu số, pre- phép nhân chập từng phần của ảnh với một emphasis là quá trình kích hoạt các tín hiệu ở bộ lọc (filter/kernel). Lớp ReLu (Rectified tần số cao. Windows là bước chia nhỏ tín Linear Unit) có vai trò là khử tính tuyến tính hiệu âm thanh thành nhiều khung dữ liệu con có trong dữ liệu. Lớp gộp Pooling có chức (frame) để thuận tiện cho áp dụng biến đổi năng làm giảm số lượng tham số khi dữ liệu Fourier rời rạc tại bước DFT. Mel filterbank ảnh đầu vào lớn mà vẫn giữ lại các thông tin được xây dựng giống với cơ chế cảm nhận quan trong. Số lượng các lớp con này và vị trí âm thanh tai người (cảm nhận tốt với tín hiệu của chúng trong lớp tích chập là không giống tần số thấp và kém đối với tần số cao), sau đó nhau và sẽ linh hoạt theo từng bài toán. Dữ đi qua khâu Log sẽ thu được các hệ số mel. liệu sau khi đi qua lớp tích chập sẽ được dàn Khâu IDFT (Fourier ngược) có vai trò loại bỏ phẳng để có thể đưa vào lớp phân loại. Lớp tần số f0 - đặc trưng cho cao độ của giọng này về bản chất là một mạng nơron suy luận nói. Từ đây sẽ thu được các hệ số đặc trưng tiến (feedforward) và áp dụng phương pháp cho mỗi frame xác định phía trên. Lặp lại lan truyền ngược (back propagation) cho quá việc này cho các frame tiếp theo từ đó thu trình huấn luyện. Qua một loạt lần lặp, mô được một bộ dữ liệu hai chiều, điều này được hình có thể phân biệt dữ liệu bằng kỹ thuật minh họa bởi kết quả tính toán cho file âm phân loại Softmax (softmax classification): thanh “left” được thể hiển trong Hình 3.   z i  e zi  K j 1 z e j  Khi đó, đầu ra của lớp phân loại này chính là xác xuất của hình ảnh đầu vào có đặc tính đã được phân loại tương ứng. Sai lệch mô hình (Loss Function) được xây dựng bởi hàm Sparse Categorical Cross - Entropy như sau: Hình 3. Đặc trưng âm thanh từ MFCC Output size 2.1.3. Huấn luyện và kiểm tra mô hình Loss   yi  log  ˆyi  i 1 Thuật toán sử dụng để tối thiểu hóa sai lệch là giải thuật Adam. Sau khi có được thông tin về các lớp của mạng CNN cũng với các tham số mạng đề cập bên trên, mô hình nhận dạng được xây dựng và huấn luyện bởi module TensorFlow. Khi đáp ứng các yêu cầu về độ chính xác, mô hình được lưu lại và Hình 4. Cấu trúc mạng CNN sẵn sàng triển khai. Dữ liệu đầu vào cho mô hình mạng nơron Trong nghiên cứu này, đầu vào của mô (neural network) là các bộ dữ liệu hai chiều hình là dữ liệu đặc trưng âm thanh MFCC có 287
  3. Tuyển tập Hội nghị Khoa học thường niên năm 2022. ISBN: 978-604-82-7001-8 kích thước là 16  99 . Khi qua lớp trích xuất validation set. Độ chính xác với mô hình bao gồm 3 lớp tích chập kết hợp lớp Pooling, đạt kết quả rất tốt (tầm 90%), hai đường mô dữ liệu còn kích thước 4  4 và sau đó được tả cho quá trình huấn luyện đối với các tập làm phẳng. Lớp phân loại có số nút là 1024. dữ liệu đều hội tụ đến nhau. Hình bên phải Đầu ra của mạng CNN bằng với số lượng từ là kết quả khá tốt khi chạy mô hình trên với khóa cần nhận dạng. một file âm thanh của từ “up”, khi từ “up” 2.1.4. Kết xuất mô hình và từ “off” có cách đọc khá gần giống nhau. Mô hình sau khi huấn luyện có khối lượng tính toán lớn, cần được kết xuất và thu gọn nhờ sử dụng gói TensorFlow Lite để có thể chạy trên các nền tảng có phần cứng giới hạn. Thiết bị được lựa chọn để triển khai mô hình thu gọn là máy tính nhúng Raspberry Pi sử dụng hệ điều hành Linux và ngôn ngữ lập trình Python. Hình 6. Kết quả huấn luyện mô hình Đó là ngôn ngữ lập trình được sử dụng để xây Hình 7 mô tả kết quả nhận dạng khi thu dựng mô hình nhận dạng nêu trên nên giúp âm thanh trực thanh trực tiếp, các từ khóa giảm thời gian triển khai mô hình trong thực tế. được phát hiện với độ chính xác cao. 2.2. Điều khiển robot sáu chân Thuật toán điều khiển chuyển động của robot sáu chân thông qua nhận dạng và xử lý giọng nói được thể hiện trong Hình 5. Hình 7. Kết quả nhận dạng trực tiếp 4. KẾT LUẬN Từ kết quả huấn luyện và triển khai mô hình đã cho thấy được tính khả thi của Hình 5. Thuật toán điều khiển robot phương pháp sử dụng mạng CNN để nhận Ở đây, tín hiệu âm thanh được thu âm trực dạng từ khóa trong giọng nói. Bên cạnh đó, tiếp và đưa vào trong bộ đệm. Khung dữ liệu phương pháp tiếp cận này cũng còn một số âm thanh 1 giây được đưa vào khâu tính toán hạn chế. Thứ nhất, việc thiết kế lớp tích chập đặc trưng MFCC. Dữ liệu được đưa qua mô của mạng CNN cần rất nhiều thời gian để cho hình nhận dạng để đưa ra dự đoán xem đó có được kết quả tốt. Thứ hai, quá trình nhận phải là một trong các từ khóa đã lựa chọn. dạng từ khóa vẫn chịu ảnh hưởng bởi nhiễu Nếu đúng, mạch sẽ gửi tín hiệu điều khiển của môi trường hoặc của các từ khóa khác do chuyển động tương ứng tới bộ điều khiển trên chưa có bộ lọc nhiễu và tiếng Anh phát âm robot sáu chân và ngược lại. Khung dữ liệu chưa chuẩn. Từ đây, các hướng phát triển tiếp tiếp theo cách đó 0.5 giây được đưa vào mô theo bao gồm tìm hiểu các cấu trúc mạng hình và quá trình diễn ra tương tự. CNN cho hiệu quả huấn luyện cao, huấn luyện với dữ liệu có nhiễu, huấn luyện mô 3. KẾT QUẢ NGHIÊN CỨU hình nhận dạng các từ khóa tiếng Việt. Kết quả huấn luyện mô hình nhận dạng 5. TÀI LIỆU THAM KHẢO với mẫu dữ liệu thu gọn được thể hiện trong [1] P. Warden. 2018. A dataset for limited- Hình 6. Hình bên trái mô tả độ chính xác vocabulary speech recognition. arXiv khi huấn luyện với tập training set và tập preprint arXiv:1804.03209. 288
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1