intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Thiết kế hệ thống điều khiển camera nội soi dựa trên mạng nơron học sâu

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

24
lượt xem
1
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Bài viết đề xuất một hệ thống tự động điều khiển vị trí của camera mà không cần tới sự tham gia của người trợ lý. Hệ thống của chúng tôi gồm có một bộ Kit Jetson AGX Xavier và một cánh tay robot sáu bậc tự do có vai trò giữ camera nội soi.

Chủ đề:
Lưu

Nội dung Text: Thiết kế hệ thống điều khiển camera nội soi dựa trên mạng nơron học sâu

  1. Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIV về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), TP. HCM, ngày 23-24/12/2021 DOI: 10.15625/vap.2021.0047 THIẾT KẾ HỆ THỐNG ĐIỀU KHIỂN CAMERA NỘI SOI DỰA TRÊN MẠNG NƠRON HỌC SÂU Nguyễn Văn Thiện1, Kim Đình Thái2, Lê Xuân Hải2, Nguyễn Lê Hoàng3 Khoa Công nghệ thông tin, Trường Đại học Công nghiệp Hà Nội 1 2 Viện Công nghệ HaUI, Trường Đại học Công nghiệp Hà Nội 3 Khoa Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Email: thiennv@haui.edu.vn, thaikd@haui.edu.vn, hailx@haui.edu.vn, hoangnl20002@gmail.com TÓM TẮT: Để thực hiện mổ nội soi, bác sĩ cần có sự giúp đỡ của người trợ lý giữ camera trong suốt quá trình thực hiện phẫu thuật. Tuy nhiên, do sự không hiểu ý giữa bác sĩ và trợ lý, cũng như sự run của tay, dẫn đến góc quan sát thường không tối ưu và không ổn định. Để giải quyết vấn đề này, chúng tôi đề xuất một hệ thống tự động điều khiển vị trí của camera mà không cần tới sự tham gia của người trợ lý. Hệ thống của chúng tôi gồm có một bộ Kit Jetson AGX Xavier và một cánh tay robot sáu bậc tự do có vai trò giữ camera nội soi. Từ những hình ảnh thu được bởi camera, một thuật toán xử lý ảnh dựa trên mạng nơ ron học sâu được đề xuất để phát hiện vị trí của dụng cụ phẫu thuật có trong bức ảnh đó. Sau đó, một thuật toán điều khiển cánh tay robot được đề xuất để đảm bảo vị trí của dụng cụ luôn nằm ở khu vực trung tâm của hình ảnh. Kết quả thực nghiệm trên mô hình cho thấy, khả năng phát hiện dụng cụ của mô hình (recall) là khoảng 68.15% và tỉ lệ dự đoán chính xác của mô hình (precision) là khoảng 65.85%, tốc độ khung hình là 10.4 (FPS), và hệ thống có thể tự động điều khiển vị trí của camera theo sự di chuyển của dụng cụ nhằm đảm bảo vùng quan sát là tối ưu và ổn định Từ khóa: Phẫu thuật nội soi, dụng cụ phẫu thuật, điều khiển, xử lý ảnh, mạng nơron học sâu. I. GIỚI THIỆU Ngày nay, phương pháp mổ nội soi đang dần thay thế phương pháp mổ hở truyền thống nhờ những ưu điểm vượt trội của nó, chẳng hạn như chẳng hạn như: ít đau sau mổ hơn, hồi phục nhanh hơn, thời gian nằm viện ngắn hơn, vết sẹo nhỏ hơn và nguy cơ nhiễm trùng thấp hơn so với mổ mở [1, 2]. Trong phẫu thuật nội soi, các bác sĩ sẽ tạo ra các vết rạch “đủ nhỏ” lên cơ thể bệnh nhân để cho phép các dụng cụ phẫu thuật và ống nội soi đi qua. Sau đó, nhà phẫu thuật sẽ thực hiện các thao tác cắt hoặc đốt bởi các dụng cụ cầm tay thông qua việc quan sát những hình ảnh trên một màn hình được cung cấp bởi camera gắn trên ống nội soi, như trong hình 1. Bên cạnh đó, nhà phẫu thuật luôn cần có sự giúp đỡ của một người trợ lý giữ camera trong suốt quá trình thực hiện. Khi nhà phẫu thuật thay đổi vị trí cắt hoặc đốt thì người trợ lý cũng cần di chuyển vị trí của camera tương ứng để đảm bảo vùng quan sát là tốt nhất. Tuy nhiên, do sự không hiểu ý giữa nhà phẫu thuật và người trợ lý, cũng như sự run của tay do phải cầm giữ camera trong thời gian dài, dẫn đến góc quan sát thường không tối ưu và không ổn định. Hình 1. Phẫu thuật nội soi Trong những năm gần đây, thị giác máy tính đã có những phát triển vượt bậc và do đó việc tích hợp kỹ thuật thị giác máy tính đã trở thành một phần quan trọng trong computer-assisted interventions (CAI) cho phẫu thuật nội soi [3]. Một trong những thách thức được đặt ra đó là phát hiện dụng cụ phẫu thuật trong những hình ảnh thu được từ camera nội soi. Từ đó có thể phát triển một công cụ đánh giá tự động hiệu quả của một quá trình mổ nội soi thông qua việc theo dõi dụng cụ phẫu thuật [4]. Hơn nữa, việc phát hiện dụng cụ phẫu thuật có thể cung cấp những thông tin phản hồi về vị trí của các dụng cụ đang sử dụng và do đó, có thể điều khiển tự động camera nội soi tới vị trí mong muốn [5].
  2. Nguyễn Văn Thiện, Kim Đình Thái, Lê Xuân Hải, Nguyễn Lê Hoàng 93 Đã có một số nghiên cứu dựa trên thị giác máy tính cho việc phát hiện dụng cụ phẫu thuật nội soi được xuất bản. Cách tiếp cận thứ nhất dựa trên những đặc trưng hình ảnh cho việc phát hiện, chẳng hạn như: dựa trên màu [5, 6], gradients [7] và texture [8]. Tuy nhiên, hầu hết các nghiên cứu này không đủ mạnh mẽ để phát hiện các dụng cụ phẫu thuật trong bụng bệnh nhân, nơi thường có sự xuất hiện của khói, máu, độ chói hoặc độ bóng. Vì vậy, trong những năm gần đây đã có một số nghiên cứu dựa trên convolutional neural network (CNN). Puta et al. [9] là người đầu tiên sử dụng CNN cho nhiều nhiệm vụ nhận dạng trên video nội soi. Một vài nghiên cứu [10-12] đã được đề xuất trong thách thức phát hiện sự xuất hiện công cụ trong M2CAI 2016 [13]. Jin et al. [4] sau đó đã phát triển công việc này bằng việc dựa vào Fast Region-based Convolutional Network (Faster R-CNN) [14] để nhận ra không chỉ sự xuất hiện mà còn định vị trí của đầu dụng cụ trong những video cắt túi mật. Tuy nhiên, hầu hết các nghiên cứu này chủ yếu tập trung vào việc phát hiện dụng cụ phẫu thuật mà chưa quan tâm đến việc ứng dụng kết quả đó vào một nhiệm vụ cụ thể trong mổ nội soi. Vì vậy, trong nghiên cứu này, chúng tôi trước hết đề xuất một thuật toán dựa trên mạng nơron học sâu cho việc phát hiện dụng cụ phẫu thuật trong những hình ảnh thu được từ camera nội soi. Sau đó, một hệ thống tự động điều khiển vị trí của camera được đề xuất để đảm bảo vùng quan sát khu vực mổ là tối ưu và ổn định, nhằm hướng đến loại bỏ sự tham gia của người trợ lý giữ camera. II. PHƯƠNG PHÁP A. Thuật toán phát hiện dụng cụ phẫu thuật 1. Mô hình mạng nơron học sâu YOLOv3-tiny YOLO (Only Look Once) [15-17] là một kiến trúc CNN nổi tiếng được sử dụng cho những bài toán phát hiện vật thể nói chung vì cân đối được cả yêu cầu về chất lượng cũng như tốc độ thực hiện. Kiến trúc này không chỉ phát hiện được sự xuất hiện của vật thể mà còn định được vị trí của vật thể đó trong một bức ảnh. Như được biểu diễn trong hình 2, kiến trúc mạng YOLO bao gồm phần trích xuất đặc trưng (Feature Extractor) và phần phát hiện (Detector). Với đầu vào là một bức ảnh, sau khi qua khâu trích xuất đặc trưng, đầu ra là các bản đồ đặc trưng (feature map) ở nhiều tỉ lệ khác nhau (multi-scale features). Sau đó, những bản đồ đặc trưng này sẽ được đưa đến khâu phát hiện để lấy được các thông tin về loại (class) và hộp bao quanh vật thể (bounding box). Hình 2. Sơ đồ kiến trúc tổng quát của YOLO Hình 3. Kiến trúc mô hình YOLOv3-tiny
  3. 94 THIẾT KẾ HỆ THỐNG ĐIỀU KHIỂN CAMERA NỘI SOI DỰA TRÊN MẠNG NƠRON HỌC SÂU Trong ba phiên bản chính thức YOLO [15-17] thì YOLOv3 [17] là phiên bản nâng cấp của hai phiên bản trước đó (YOLOv1 và YOLOv2) nhằm tăng độ chính xác của việc phát hiện vật thể. Với máy tính có cấu hình đủ mạnh và được trang bị card màn hình, YOLOv3 có thể đạt được sự thực hiện trong thời gian thực. Tuy nhiên, với những thiết bị nhúng có cấu hình tương đối thấp, chẳng hạn như Nvidia SoM, Jetson nano hoặc Jetson AGX Xavier, YOLOv3 chạy rất chậm. Do đó, YOLOv3-tiny cũng được đề xuất bởi by Joseph Redmon [17] đã được phát triển nhằm đáp ứng yêu cầu thời gian thực trên những thiết bị phần cứng có cấu hình thấp. Kiến trúc YOLOv3-tiny được biểu diễn trong hình 3. Nó sử dụng kiến trúc darknet-19 thay vì darknet-53 của YOLOv3, do đó độ chính xác giảm đi, nhưng tốc độ nhanh hơn 10 lần so với YOLOv3 và hơn 4 lần so với YOLOv1, YOLOv2. Đối với ảnh đầu vào kích thước 416 × 416 thì đầu ra của YOLOv3-tiny là hai output map có các kích thước 13 × 13 và 26 × 26. Output map có kích thước nhỏ được sử dụng để dự đoán những vật thể có kích thước lớn và những output map có kích thước lớn được sử dụng để dự đoán những vật thể có kích thước nhỏ. Do đó, YOLOv3-tiny tăng độ chính xác phát hiện vật thể so với các phiên bản trước đây. 2. Phát hiện dụng cụ phẫu thuật Phát hiện dụng cụ phẫu thuật bao gồm việc nhận dạng loại dụng cụ và định vị trí của dụng cụ đó trong một bức ảnh hoặc một video. Trong nghiên cứu này, YOLOv3-tiny được sử dụng cho việc phát hiện một loại dụng cụ phẫu thuật, như được minh họa trong hình 4. Với mỗi hình ảnh đầu vào, sau khi đi qua mô hình YOLOv3-tiny, đầu ra là vị trí của hộp bao quanh đầu dụng cụ đó cùng với điểm số dự đoán (objectness score). Hình 4. Phát hiện dụng cụ phẫu thuật dựa trên YOLOv3-tiny Trước hết, mô hình YOLOv3-tiny cần được huấn luyện cho tập dữ liệu các hình ảnh phẫu thuật nội soi (có sự xuất hiện của các dụng cụ). Để thực hiện công việc này, chúng tôi tiến hành ghi sáu video khác nhau với độ phân giải 640×480 và tốc độ khung hình 30 FPS (frame per second). Sau đó, chúng tôi lấy ra 200 ảnh từ mỗi video này và được tổng cộng 1200 ảnh. Tiếp theo, chúng tôi thực hiện chú thích về vị trí của đầu dụng cụ (annotation) cho các hình ảnh này. Cuối cùng chúng tôi chia tập dữ liệu như sau: 600 ảnh (kèm chú thích) của các video 1, 2, 3 được sử dụng làm tập dữ liệu huấn luyện (training data), 200 ảnh của video 4 làm tập dữ liệu xác nhận (validation data) và 400 ảnh của video 5, 6 làm tập dữ liệu kiểm tra (testing data). Quá trình huấn luyện được thực hiện với việc sử dụng tập dữ liệu huấn luyện và tập dữ liệu xác nhận. Các tham số lựa chọn cho mô hình YOLOv3-tiny như sau: width=416, height=416 (kích thước ảnh đầu vào); classes=1 (một loại dụng cụ) và filters=(classes + 5)×3=18. Sau khi quá trình huấn luyện kết thúc, các trọng số của mô hình được lưu trong một file “yolov3-tiny-tool.weights” để sử dụng cho việc phát hiện dụng cụ phẫu thuật sau này. B. Hệ thống điều khiển đề xuất 1. Thuật toán điều khiển vị trí camera Xét trường hợp chỉ có một dụng cụ phẫu thuật được sử dụng như trong hình 5. Có thể thấy rằng vị trí của dụng cụ nằm khá lệch so với vùng quan sát của camera nội soi. Khi đó, nhà phẫu thuật cần yêu cầu người trợ lý dịch chuyển vị trí camera sao cho vị trí của dụng cụ nằm ở vùng trung tâm của hình ảnh, nhằm đảm bảo góc quan sát là tốt nhất. Có thể hiểu rằng, vùng trung tâm hình ảnh là một vùng nằm chính giữa của bức ảnh với một kích thước nào đó. Như được biểu diễn trong hình 5, vùng trung tâm hình ảnh là một hình vuông màu xanh lá cây có kích thước (w, w). Để tự động quá trình dịch chuyển vị trí của camera, chúng tôi đề xuất thuật toán điều khiển như sau: Đầu tiên, YOLOv3-tiny được sử dụng để phát hiện hộp bao quanh đầu của dụng cụ (màu tím). Sau đó, xác định tọa độ của tâm hộp bao quanh đó (xh, yh) trong hệ tọa độ Oxy (hình 5). Nếu tâm của hộp bao quanh nằm ngoài vùng trung tâm, tức là dụng cụ nằm lệch so với góc quan sát của camera, khi đó cần điều khiển vị trí của camera lên trên hoặc xuống dưới (so với góc quan sát hình ảnh) sao cho: -w/2 < yh < w/2. Sau đó, điều khiển vị trí của camera sang trái hoặc sang phải sao cho: -w/2 < xh < w/2. Sau một số bước dịch chuyển camera như vậy, tọa độ của tâm hộp bao quanh sẽ nằm trong vùng trung tâm hình ảnh, khi đó vùng quan sát dụng cụ phẫu thuật là tốt nhất (tối ưu). Xét trường hợp có nhiều dụng cụ phẫu thuật được sử dụng, chúng tôi xác định một hộp bao quanh các dụng cụ đó. Như được mô tả trong hình 6, hộp bao quanh các dụng cụ (màu xanh lơ) là hộp chữ nhật nhỏ nhất chứa các hộp bao quanh dụng cụ đã được phát hiện bởi YOLOv3-tiny. Sau đó, xác định tọa độ tâm hộp này và thực hiện theo cách tương tự như trường hợp ở trên để điều khiển vị trí của của camera sao cho tâm của hộp bao quanh này (điểm màu xanh lơ)
  4. Nguyễn Văn Thiện, Kim Đình Thái, Lê Xuân Hải, Nguyễn Lê Hoàng 95 nằm trong vùng trung tâm hình ảnh. Tại vị trí này có thể nhận thấy rằng góc nhìn của camera là tốt nhất để quan sát các dụng cụ đó. Nội dung chi tiết cho thuật toán điều khiển vị trí của camera được mô tả trong THUẬT TOÁN 1. Hình 5. Điều khiển vị trí của camera để tâm (điểm màu đỏ) của hộp bao quanh dụng cụ (màu tím) nằm trong vùng trung tâm hình ảnh (màu xanh lá cây) Hình 6. Điều khiển vị trí của camera để tâm (điểm màu xanh lơ) của hộp bao quanh các dụng cụ (màu xanh lơ) nằm trong vùng trung tâm hình ảnh (màu xanh lá cây). Hộp bao quanh các dụng cụ là hộp chữ nhật nhỏ nhất chứa các hộp bao quanh dụng cụ được phát hiện (màu tím) THUẬT TOÁN 1: ĐIỀU KHIỂN VỊ TRÍ CỦA CAMERA Input: Hình ảnh ở khung hình thứ i (ký hiệu là frame_i) có kích thước (a×b), vùng trung tâm hình ảnh là hình chữ nhật có tọa độ của tâm trong hệ tọa độ Oxy là (0, 0) (hình 5) và kích thước là (w×w), trong đó w < min(a, b) tùy chọn. (1) Phát hiện hộp chữ nhật bao quanh của N dụng cụ phẫu thuật có trong frame_i bởi YOLOv3-tiny. (2) Xác định một hộp chữ nhật nhỏ nhất bao quanh N hộp được phát hiện (ký hiệu là RECTmin), trong đó tọa độ điểm góc trái trên cùng (xmin, ymin) và tọa độ điểm góc phải dưới cùng (xmax, ymax) được xác định như sau: (xmin, ymin) = (min{xL1, xL2…xLN}, min{ yL1, yL2…yLN}); (xmax, ymax) = (max{xR1, xR2…xRN}, max{ yR1, yR2…yRN}); Trong đó, (xLk, yLk) và (xRk, yRk) là tọa độ của điểm góc trái trên cùng và điểm góc phải dưới cùng của hộp được phát hiện thứ k. (3) Xác định tâm của hộp chữ nhật RECTmin (ký hiệu là C) theo công thức sau: (xc, yc) = (0.5( xmin+ xmax), 0.5( xmin+ xmax)) (4) IF tâm C nằm ngoài vùng trung tâm hình ảnh THEN Dịch chuyển camera theo chiều ngang đến khi: -w/2 < yc < -w/2. Dịch chuyển camera theo chiều dọc đến khi: -w/2 < xc < -w/2. Ouput: Vị trí của camera sau khi dịch chuyển.
  5. 96 THIẾT KẾ HỆ THỐNG ĐIỀU KHIỂN CAMERA NỘI SOI DỰA TRÊN MẠNG NƠRON HỌC SÂU 2. Hệ thống điều khiển đề xuất Với thuật toán điều khiển vị trí như được mô tả ở trên, một hệ thống điều khiển vị trí camera được đề xuất, như trong hình 7. Trong hệ thống của chúng tôi, bộ kít Jetson AGX Xavier đóng vai trò như một máy tính, camera nội soi được gắn cố định ở trên đầu của cánh tay robot và được kết nối với bộ kít thông qua cổng USB, mạch điều khiển servo 16 kênh PCA9685 được sử dụng để bộ kit có thể kết nối và điều khiển sáu động cơ M1, M2,… M6 trên cánh tay robot. Như được mô tả trong hình 7, camera nội soi liên tục thu những hình ảnh bên trong khoang bụng của bệnh nhân trong suốt quá trình phẫu thuật. Với mỗi hình ảnh thu được, vị trí của các hộp bao quanh đầu dụng cụ được phát hiện bởi YOLOv3-tiny. Nếu vị trí của tâm hộp bao quanh các dụng cụ nằm ngoài vùng trung tâm hình ảnh, khi đó cần điều khiển các động cơ trên cánh tay robot để camera hướng lên trên hoặc xuống dưới, sang phải hoặc sang trái so với góc quan sát hình ảnh. Quá trình điều khiển này được thực hiện bởi kít Jetson AGX Xavier thông qua mạch điều khiển 16 kênh PCA9685. Do các động cơ của cánh tay robot được sử dụng là các động cơ servo, vì vậy để tránh rung giật trong quá trình dịch chuyển camera, chúng tôi điều khiển các động cơ này quay với các góc dịch chuyển nhỏ. Khi nào vị trí tâm hộp bao quanh các dụng cụ nằm trong vùng trung tâm hình ảnh thì quá trình dịch chuyển camera kết thúc. Bên cạnh đó, camera được đưa vào bụng bệnh nhân thông qua một khe nhỏ. Do đó cần điều khiển sự dịch chuyển của camera trong giới hạn của khe nhỏ đó. Với cánh tay robot được sử dụng việc điều khiển này không hề dễ dàng. Thực tế cánh tay robot này không đáp ứng tốt yêu cầu điều khiển của chúng tôi. Tuy nhiên, trong phạm vi nghiên cứu còn hạn chế, chúng tôi tạm sử dụng robot này để xây dựng hệ thống điều khiển. Để dịch chuyển camera trong giới hạn của khe nhỏ trên bụng của bệnh nhân, chúng tôi điều khiển đồng thời hai động cơ M3 và M6 để thay đổi góc nhìn theo chiều dọc và khiển đồng thời hai động cơ M2 và M4 để thay đổi góc nhìn theo chiều ngang so với góc quan sát hình ảnh của camera. Với việc tạo ra được hai dịch chuyển của camera theo chiều dọc và chiều ngang như trên, hệ thống điều khiển có thể tự động dịch chuyển vị trí của camera để đảm bảo vùng thực hiện thao tác cắt hoặc đốt (nơi có dụng cụ phẫu thuật) luôn nằm ở vùng trung tâm hình ảnh. Hình 7. Hệ thống điều khiển vị trí camera cho phẫu thuật nội soi III. KẾT QUẢ THỰC NGHIỆM A. Mô hình thực nghiệm Mô hình thực nghiệm cho hệ thống điều khiển đề xuất được mô tả như trong hình 8. Một chiếc hộp nhựa rỗng được sử dụng để mô phỏng bụng của bệnh nhân. Trên chiếc hộp này, chúng tôi mở một khe nhỏ chính giữa (dán băng dính màu hồng) và sáu khe nhỏ xung quanh (dán băng dính màu xanh đen) cho việc đưa camera nội soi cũng như các dụng cụ phẫu thuật vào bên trong. Bên cạnh đó, cánh tay robot được gắn chắc chắn trên một bệ tỳ bằng sắt để đảm bảo chiều cao so với hộp mô phỏng. Camera nội soi được gắn cố định ở đầu cánh tay robot và được kết nối với kít Jetson AGX Xavier thông qua cổng USB. Bên trong hộp nhựa chúng tôi để một số mô hình mô phỏng cơ quan bên trong bụng bệnh nhân, chẳng hạn như mô hình dạ dày, như trong hình 9. Trong thực tế, nhà phẫu thuật thường xuyên thay đổi vị trí mổ thông qua sự di chuyển dụng cụ phẫu thuật. Như được minh họa trong hình 9, thuật toán đề xuất liên tục theo dõi sự di chuyển của dụng cụ để phát hiện đầu của dụng cụ và tự động điều khiển vị trí của camera tương ứng. Điều này cũng giống như trong thực tế, khi nhà phẫu thuật dịch chuyển dụng cụ phẫu thuật, người trợ lý cũng cần dịch chuyển camera theo để giúp nhà phẫu thuật quan sát vị trí cần hướng tới. Khi nào vị trí của dụng cụ phẫu thuật nằm ở vùng trung tâm hình ảnh thì quá trình dịch chuyển camera sẽ kết thúc và khi đó góc quan sát camera là tốt nhất hoặc tối ưu. Bên cạnh đó, việc sử dụng cánh tay robot giữ camera
  6. Nguyễn Văn Thiện, Kim Đình Thái, Lê Xuân Hải, Nguyễn Lê Hoàng 97 trong hệ thống của chúng tôi sẽ đảm bảo góc quan sát của camera luôn luôn ổn định, do không có sự run của tay trong quá trình cầm giữ camera quá lâu. Hình 8. Mô hình thực nghiệm Hình 9. Mô hình mô phỏng B. Kết quả thực nghiệm Để tiến hành thực nghiệm, chúng tôi cài đặt hệ điều hành Ubuntu 18.04 trên kit Jetson AGX Xavier, sau đó cài đặt thư viện OpenCV với sự hỗ trợ của CUDA cho nhiệm vụ xử lý ảnh, cuối cùng là cài đặt driver cho PCA9685 để điều khiển cánh tay robot sáu bậc tự do. Ngôn ngữ lập trình được sử dụng là C++ và mô hình YOLOv3-tiny được thực hiện dựa trên darknet framework [18], với các tham số được lựa chọn như sau: width=416, height=416 (kích thước ảnh đầu vào); classes=1 (một loại dụng cụ) và filters=(1 + 5)×3=18. Trong bài báo này, chúng tôi thiết lập kích thước vùng trung tâm hình ảnh là (w/5, w/5), với w là chiều rộng của ảnh đầu vào. Kích thước này có thể tùy chỉnh, khi muốn điều khiển vị trí của camera càng gần với điểm trung tâm của hình ảnh thì chọn kích thước nhỏ, nhưng như vậy, camera sẽ thường xuyên thay đổi vị trí hơn do dụng cụ dễ ra ngoài vùng trung tâm hình ảnh. Hình 10 biểu diễn một số kết quả phát hiện dụng cụ phẫu thuật và điểu khiển vị trí của camera tương ứng. Kết quả này cho thấy, mô hình đề xuất có thể nhận dạng và định vị trí đúng dụng cụ được sử dụng, mặc dù các dụng cụ này thường xuyên có sự thay đổi về hướng so với góc quan sát của camera, hoặc bị mờ khi dịch chuyển camera. Như được biểu diễn trong hình 10 (a, b), ban đầu dụng cụ được phát hiện nằm ở ngoài vùng trung tâm hình ảnh (ảnh ngoài cùng bên trái), khi đó hệ thống đề xuất sẽ tự động điều khiển hướng nhìn của camera cho đến khi vị trí của dụng cụ phát hiện nằm trong vùng trung tâm hình ảnh (ảnh ngoài cùng bên phải). (a) Trường hợp 1: Dụng cụ được phát hiện trong các khung hình liên tiếp khi dịch chuyển camera (b) Trường hợp 2: Dụng cụ được phát hiện trong các khung hình liên tiếp khi dịch chuyển camera Hình 10. Dụng cụ được phát hiện trong các khung hình liên tiếp, kể cả với các góc nhìn khác nhau hoặc ảnh bị mờ Bên cạnh việc thực nghiệm và đánh giá định tính như trên, chúng tôi cũng thực hiện đánh giá định lượng hiệu quả phát hiện của mô hình đề xuất thông qua các tham số recall, precision. Hai tham số này rất là quan trọng trong việc ứng dựng thuật toán phát hiện dụng cụ vào điều khiển vị trí của camera. Hình 11 mô tả khái niệm Intersection over Union (IoU), đó là tỉ lệ phần giao với phần hợp của hộp dự đoán và hộp sự thật. Công thức (1) và (2) mô tả định nghĩa
  7. 98 THIẾT KẾ HỆ THỐNG ĐIỀU KHIỂN CAMERA NỘI SOI DỰA TRÊN MẠNG NƠRON HỌC SÂU các tham số recall và precision. Trong đó, True Positive (TP) là tổng số các phát hiện có IOU lớn hơn hoặc bằng 0.5; False Positive (FP) là tổng số các phát hiện có IOU nhỏ hơn 0.5; và False Negative (FN) là tổng số các không phát hiện được dụng cụ trong tập dữ liệu kiểm tra. True positive (1) Precision = True positive+False positive True positive (2) Recall = True positive+False Negative Kết quả đánh giá cho dữ liệu kiểm tra thông qua tham số recall, precision và tốc độ khung hình (frame rate) được đưa ra trong bảng 1. Từ kết quả này có thể thấy rằng, khả năng phát hiện dụng cụ của mô hình (recall) là khoảng 68.15% và tỉ lệ dự đoán chính xác của mô hình (precision) là khoảng 65.85%. Với ảnh đầu vào có độ phân giải là 640 × 480, mô hình có thể phát hiện được dụng cụ phẫu thuật với tốc độ khung hình (frame rate) là khoảng 10.4 (FPS). Kết quả này chưa thực sự tốt, do đó trong thực tế chúng tôi đã kết hợp thêm một số thuật toán xử lý ảnh khác nhằm loại bỏ những phát hiện sai. Khi thuật toán phát hiện sai vị trí dụng cụ phẫu thuật, có thể dẫn đến tự động điều khiển vị trí camera theo hướng không mong muốn. Chẳng hạn chúng tôi thiết lập điểm tin cậy của phát hiện cao nhằm hạn chế phát hiện sai, kích thước của hộp phát hiện không được quá lớn hoặc quá nhỏ để tăng cường độ chính xác của quá trình điều khiển. Hình 11. Hộp sự thật (màu đỏ) và hộp dự đoán (màu xanh) Bảng 1. Kết quả đánh giá hiệu quả của mô hình qua tham số recall và Precision Dữ liệu kiểm tra Recall (%) Precision (%) FPS 4.23 Video 5 68.5 65.2 10.5 Video 6 67.8 66.5 10.3 Trung bình 68.15 65.85 10.4 IV. KẾT LUẬN VÀ THẢO LUẬN Trong bài báo này, chúng tôi đã giới thiệu và đề xuất một hệ thống điều khiển tự động vị trí của camera nội soi dựa trên mạng nơron học sâu. Mô hình YOLOv3-tiny được sử dụng để chạy trên kít Jetson AGX Xavier cho việc phát hiện một loại dụng cụ phẫu thuật. Kết quả đánh giá cho thấy rằng precision là khoảng 65.85%, recall là khoảng 68.15%, và tốc độ khung hình là khoảng 10.4 (FPS). Kết quả này chưa thực sự tốt, đó là do mô hình YOLOv3-tiny có kiến trúc khá đơn giản (phù hợp chạy trên các hệ thống nhúng có cấu hình thấp) và tập dữ liệu huấn luyện vẫn còn khá ít và nhiều ảnh trong tập dữ liệu kiểm tra tương đối mờ và khác với dữ liệu huấn luyện. Kết quả thực nghiệm trên hệ thống điều khiển cho thấy: với mỗi hình ảnh thu được từ camera nội soi, hệ thống đề xuất sẽ liên tục phát hiện các hộp bao quanh đầu của dụng cụ bởi YOLOv3-tiny, sau đó tự động điều khiển hướng dịch chuyển camera tương ứng để đảm bảo vị trí của dụng cụ phẫu thuật luôn nằm ở vùng trung tâm của hình ảnh quan sát. Như vậy hệ thống của chúng tôi có thể thực hiện được những dịch chuyển camera tự động tương tự như sự dịch chuyển camera của người trợ lý. Tuy nhiên, ở nghiên cứu hiện tại chúng tôi chưa tự động được quá trình điều khiển camera đi vào hoặc đi ra khi nhà phẫu thuật muốn quan sát cận cảnh hoặc toàn cảnh khu vực mổ. Thêm vào đó, trong nghiên cứu này chúng tôi sử dụng 6-axis robot arm gồm có sáu động servo để giữ và điều khiển vị trí camera. Cánh tay robot này không thực sự tốt cho việc điều khiển hướng dịch chuyển camera khi bị giới hạn bởi khe hở nhỏ. Hơn nữa, cánh tay robot này khi điều khiển thường bị rung, giật làm cho hình ảnh quan sát bị mờ, nhòe. Điều này làm giảm độ chính xác phát hiện dụng cụ phẫu thuật của mô hình đề xuất. Trong nghiên cứu tiếp theo, chúng tôi sẽ tăng cường tập dữ liệu huấn luyện để có thể phát hiện được nhiều loại dụng cụ phẫu thuật khác nhau. Bên cạnh đó, chúng tôi sẽ cải thiện kiến trúc của mô hình YOLOv3-tiny, đồng thời kết hợp thêm một số thuật toán xử lý ảnh, chẳng hạn như optical flow để nâng cao hiệu quả của sự phát hiện dụng cụ.
  8. Nguyễn Văn Thiện, Kim Đình Thái, Lê Xuân Hải, Nguyễn Lê Hoàng 99 Thêm vào đó, chúng tôi sẽ sử dụng hai camera nội soi hoặc sử dụng loại camera có thông tin độ sâu để xác định khoảng cách từ dụng cụ phẫu thuật tới camera để tự động quá trình điều khiển camera đi vào hoặc đi ra khỏi khu vực mổ. Cuối cùng, chúng tôi cũng thay thế cánh tay robot đang sử dụng bởi một cánh tay robot thích hợp hơn cho sự dịch chuyển các hướng của camera thông qua một khe hở nhỏ và với các động cơ quay trơn hơn để tránh rung, giật trong quá trình điều khiển. TÀI LIỆU THAM KHẢO [1] N. T. P. Dung. (13/07/2018). Lợi ích của việc mổ nội soi. Available: https://benh.vn/loi-ich-cua-viec-mo-noi-soi-4694/ [2] M. Lan. (13/2/2006). Mổ nội soi - lựa chọn số 1 của bác sĩ lẫn bệnh nhân. Available: https://vnexpress.net/doi-song/mo-noi- soi-lua-chon-so-1-cua-bac-si-lan-benh-nhan-2261729.html [3] B. Münzer, K. Schoeffmann, and L. Böszörmenyi, "Content-based processing and analysis of endoscopic images and videos: A survey", Multimedia Tools and Applications, journal article vol. 77, no. 1, pp. 1323-1362, January 01 2018. [4] A. Jin et al., "Tool Detection and Operative Skill Assessment in Surgical Videos Using Region-Based Convolutional Neural Networks", 2018 IEEE Winter Conference on Applications of Computer Vision (WACV), pp. 691-699, 2018. [5] L. Cheolwhan, W. Yuan-Fang, D. R. Uecker, and W. Yulun, "Image analysis for automated tracking in robot-assisted endoscopic surgery", in Proceedings of 12th International Conference on Pattern Recognition, 1994, vol. 1, pp. 88-92 vol.1. [6] A. Reiter and P. K. Allen, "An online learning approach to in-vivo tracking using synergistic features", in 2010 IEEE/RSJ International Conference on Intelligent Robots and Systems, 2010, pp. 3441-3446. [7] D. Bouget, R. Benenson, M. Omran, L. Riffaud, B. Schiele, and P. Jannin, "Detecting Surgical Tools by Modelling Local Appearance and Global Shape", IEEE Transactions on Medical Imaging, vol. 34, pp. 1-1, 12/01 2015. [8] A. Reiter, P. K. Allen, and T. Zhao, "Feature Classification for Tracking Articulated Surgical Tools", Berlin, Heidelberg, 2012, pp. 592-600: Springer Berlin Heidelberg. [9] A. Twinanda, S. Shehata, D. Mutter, J. Marescaux, M. De Mathelin, and N. Padoy, "EndoNet: A Deep Architecture for Recognition Tasks on Laparoscopic Videos", IEEE Transactions on Medical Imaging, vol. 36, 02/09 2016. [10] M. Sahu, A. Mukhopadhyay, A. Szengel, and S. Zachow, "Tool and Phase recognition using contextual CNN features", 10/27 2016. [11] A. Raju, S. Wang, and J. Huang, "M2CAI surgical tool detection challenge report", University of Texas at Arlington, Tech. Rep., 2016. [12] A. P. Twinanda, D. Mutter, J. Marescaux, M. de Mathelin, and N. Padoy, "Single-and multi-task architectures for tool presence detection challenge at M2CAI 2016", arXiv preprint arXiv:1610.08851, 2016. [13] MCCAI, "Tool Presence Detection Challenge Results," 8 Nov 2019. [14] R. B. Girshick, "Fast R-CNN", 2015 IEEE International Conference on Computer Vision (ICCV), pp. 1440-1448, 2015. [15] J. Redmon, S. Divvala, R. Girshick, and A. Farhadi, "You Only Look Once: Unified, Real-Time Object Detection", in 2016 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2016, pp. 779-788. [16] J. Redmon and A. Farhadi, "YOLO9000: Better, Faster, Stronger", in 2017 IEEE Conference on Computer Vision and Pattern Recognition (CVPR), 2017, pp. 6517-6525. [17] J. Redmon and A. Farhadi, "Yolov3: An incremental improvement", arXiv preprint arXiv:1804.02767, 2018. [18] J. Redmon. Darknet: Open Source Neural Networks in C. 2013–2016. Available: https://pjreddie.com/darknet/. DESIGNING A CONTROL SYSTEM FOR ENDOSCOPE CAMERA USING DEEP NEURAL NETWORK Nguyen Van Thien, Kim Dinh Thai, Le Xuan Hai, Nguyen Le Hoang ABSTRACT: To perform laparoscopic surgery, the surgeon needs the help of a scope assistant during the minimally invasive surgery (MIS). However, the field of view (FOV) of camera is often unstable and suboptimal due to misunderstandings between the doctor and the assistant, as well as trembling hands. To solve this problem, we propose a system to automatically control the camera's position without the involvement of the scope assistant. Our device consists of a Kit Jetson AGX Xavier and a six-degree robotic arm that holds the endoscope camera. From the images taken by the camera, an image processing algorithm based on deep neural networks is proposed to detect the location of the surgical tool in the image. A robotic arm control algorithm is then proposed to ensure that the tool's location is always in the center area of the image. Experimental results on a phantom model show that the proposed system can detect surgical tools with a precision of 65.85%, and with a recall of 68.15%,, a frame rate of 10.4 (FPS). The proposed system can automatically control the camera’s position according to the tool movement to provide the stable and optimal viewing area for the surgeon.
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
2=>2