Kết hợp đặc trưng deep learning trong hỗ trợ chẩn đoán tự động bệnh lý về mắt

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:9

Thêm vào BST

Báo xấu

29
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Trong nghiên cứu này đề xuất xây dựng mô hình đặc trưng có chọn lọc dùng mạng CNN EfficientNet kết hợp với “cổng quên”(Forget gate) từ ý tưởng thiết kế của LSTM trên dữ liệu ảnh bệnh lý về mắt.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Kết hợp đặc trưng deep learning trong hỗ trợ chẩn đoán tự động bệnh lý về mắt

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00169 KẾT HỢP ĐẶC TRƯNG DEEP LEARNING TRONG HỖ TRỢ CHẨN ĐOÁN TỰ ĐỘNG BỆNH LÝ VỀ MẮT Phạm Hoàng Oanh1, Trần Đình Toàn2, Lê Minh Hưng1, Trần Văn Lăng3 1 Trường Đại học Công nghệ thông tin - ĐHQG TP.HCM 2 Trường Đại học Công nghiệp Thực phẩm TP. HCM 3 Viện Hàn lâm Khoa học và Công nghệ Việt Nam 16521762@gm.uit.edu.vn, toantd@hufi.edu.vn, hunglm@uit.edu.vn, langtv@vast.ac.vn TÓM TẮT: Trong nghiên cứu này đề xuất xây dựng mô hình đặc trưng có chọn lọc dùng mạng CNN EfficientNet kết hợp với “cổng quên”(Forget gate) từ ý tưởng thiết kế của LSTM trên dữ liệu ảnh bệnh lý về mắt. Ảnh đầu vào được tiền xử lý bằng phương pháp CLAHE và kết hợp với ảnh rút trích mạch máu, từ đó có thể xây dựng hệ thống tự động phát hiện bệnh và phân loại 8 bệnh lý về mắt như bình thường, tiểu đường, tăng nhãn áp, đục thủy tinh thể, thoái hóa điểm vàng liên quan đến tuổi, tăng huyết áp, cận thị và các bệnh bất thường khác một cách chính xác nhằm giúp các bác sỹ nhãn khoa và bệnh nhân trong quá trình khám và điều trị bệnh lý về mắt. Các thực nghiệm được tiến hành trên bộ dữ liệu ODIR-5K, mô hình đề xuất đạt được kết quả với độ đo trung hòa F1-score là 86,67 %, độ đồng thuận Kappa là 50,54 % và đạt được AUC là 88,57 %. Từ khóa: Đáy võng mạc, bệnh mắt, kết hợp đặc trưng, học sâu. I. GIỚI THIỆU 1.1. Bối cảnh nghiên cứu Theo báo cáo về thị giác năm 2019 của Tổ chức Y tế Thế giới (WHO), đã có ít nhất 2,2 tỷ người bị suy giảm thị lực hoặc mù. Báo cáo nhấn mạnh rằng ít nhất là 2,2 tỷ vì con số có thể cao hơn nhiều. Trong đó, ít nhất 1 tỷ người bị suy giảm thị lực có thể được ngăn chặn hoặc chưa được điều trị, bao gồm những người bị suy giảm thị lực ở mức độ trung bình hoặc nặng hoặc mù do lỗi khúc xạ không được điều trị (123,7 triệu), đục thủy tinh thể (65,2 triệu), tăng nhãn áp (6,9 triệu), mờ giác mạc (4,2 triệu), bệnh võng mạc do tiểu đường (3 triệu) và bệnh đau mắt hột (2 triệu), cũng như suy giảm thị lực do cận thị không điều trị (826 triệu) [3]. Hình 1 thể hiện tầm nhìn của người mắc các bệnh về mắt, gây suy giảm thị lực. Hình 1. Các loại bệnh về mắt ảnh hưởng đến thị lực của bệnh nhân [1]: a - mắt bình thường, b - bệnh đục thủy tinh thể, c - cận thị, d - bệnh tăng nhãn áp, e - bệnh tiểu đường, f - bệnh thoái hóa điểm vàng liên quan đến tuổi Hầu hết các bệnh về mắt đều ảnh hưởng đến cả hai mắt và 80 % tất cả các nguyên nhân gây suy giảm thị lực có thể phòng ngừa hoặc chữa được trong giai đoạn đầu [7]. Giai đoạn muộn có thể dẫn đến tổn thương nghiêm trọng về thị lực và có thể không hồi phục được (chẳng hạn như bệnh thoái hóa điểm vàng liên quan đến tuổi). Thông thường, các bệnh nhãn khoa không đe dọa đến tính mạng; tuy nhiên, theo thời gian có thể có tác động đáng kể đến cuộc sống bệnh nhân vì suy giảm thị lực. Do đó, trong nhãn khoa việc khám để sàng lọc, phát hiện và chẩn đoán sớm các bệnh về mắt này rất quan trọng, nó có thể giúp làm chậm quá trình và ngăn ngừa mất thị lực dẫn đến mù. 1.2. Các công trình nghiên cứu liên quan Từ trước tới nay, các công trình nghiên cứu các bệnh về mắt đã được thực hiện theo hướng xây dựng hệ thống chuyên gia y tế để tự động hóa quá trình chuẩn đoán bệnh [8]. Tuy nhiên, các hệ thống chuyên gia này dự đoán bằng cách dựa trên trên các quy tắc tĩnh được xác định trước, sử dụng các quy tắc tĩnh này dẫn đến việc học bị hạn chế nên kết quả dự đoán thường không chính xác trong các tình huống mới. Với sự phát triển vượt bậc của học máy, các nghiên cứu dần chuyển sang học máy thông qua dữ liệu được đào tạo chuyên nghiệp. Đã có những công trình nghiên cứu trong việc phát hiện từng loại bệnh về mắt như đục thủy tinh thể, cận thị, bệnh võng mạc tiểu đường, thoái hóa điểm vàng liên quan đến tuổi và bệnh tăng nhãn áp [2]. Thực tế trong trường hợp khám lâm sàng, một mắt của bệnh nhân có
198 KẾT HỢP ĐẶC TRƯNG DEEP LEARNING TRONG HỖ TRỢ CHẨN ĐOÁN TỰ ĐỘNG BỆNH LÝ VỀ MẮT thể có sự kết hợp của nhiều loại bệnh chứ không chỉ từng bệnh đơn lẻ. Do vậy, cần có một mô hình có thể phân loại bệnh lý có sự kết hợp của nhiều loại bệnh về mắt. Cụ thể, Hagos và cộng sự đã sử dụng mạng InceptionNet-V3 cho 5 lớp phân loại đã được huấn luyện trước trên tập dữ liệu ImageNet và đạt độ chính xác 90,9% [9] [10] [11]. Sarki và cộng sự đã sử dụng mạng ResNet50, Xception Nets, DenseNets và VGG với tiền xử lý ImageNet và đạt độ chính xác tốt nhất là 81,3 % [12]. Các công trình này có thể phân loại nhiều lớp hơn, tuy nhiên các lớp này có số lượng dữ liệu lớn, chỉ có các bệnh phổ biến và thường gặp về mắt. Để khắc phục các nhược điểm trên, Islam và cộng sự đề xuất hệ thống chẩn đoán tự động bệnh lý về mắt cho 8 lớp phân loại, bao gồm các bệnh thường gặp và các bệnh hiếm gặp ở mắt, họ đã xuất mô hình bao gồm cách tiền xử lý bằng phương pháp CLAHE, sử dụng một mạng tích chập (CNN) để rút trích đặc trưng và sau đó đưa vào một mạng CNN để phân loại tất cả 8 bệnh, mô hình đề xuất của Islam và cộng sự đạt được kết quả với độ đồng thuận Kappa là 31 %, độ đo AUC đạt 80,5 % và độ đo trung hòa F1 score đạt 85 % [2], [6]. Trong nghiên cứu này, cũng sử dụng một bộ dữ liệu và phân loại 8 bệnh lý khác nhau về mắt như nhóm tác giả Islam để đề xuất một mô hình học máy mới đó là mô hình đặc trưng có chọn lọc dùng mạng CNN EfficientNet kết hợp với “cổng quên”(Forget gate) nhằm cải thiện độ chính xác trong phân loại bệnh. 1.3. Mô tả bài toán Hình 2. Minh họa đầu vào và đầu ra của bài toán Đầu vào: một cặp ảnh nhãn khoa. Đầu ra: phân loại bệnh mắt thành tám bệnh lý, bao gồm bình thường (N), tiểu đường (D), tăng nhãn áp (G), đục thủy tinh thể (C), thoái hóa điểm vàng liên quan đến tuổi (A), tăng huyết áp (H), cận thị (M) và các bệnh bất thường khác (O). Chi tiết đầu vào và đầu ra của bài toán được thể hiện ở Hình 2. II. PHƯƠNG PHÁP 2.1. Bộ dữ liệu Trong nghiên cứu này sử dụng bộ dữ liệu ODIR-5K [1] được cung cấp từ cuộc thi Quốc tế của Đại học Bắc Kinh về chẩn đoán thông minh các bệnh về mắt (Peking University International Competition on Ocular Disease Intelligent Recognition - ODIR2019). Bộ dữ liệu chứa thông tin bệnh nhân được thu thập bởi Công ty TNHH Công nghệ Y tế Shanggong từ các bệnh viện và trung tâm y tế khác nhau ở Trung Quốc. Bộ dữ liệu được cung cấp để dùng cho dữ liệu huấn luyện máy học bao gồm 7000 mẫu đã gán nhãn, tương tương với 3500 cặp mắt. Bộ dữ liệu dùng để kiểm thử bao gồm 1000 mẫu chưa gán nhãn, tương đương với 500 cặp mắt. Vì các dữ liệu này được thu thập từ thực tế nên ảnh đáy mắt được chụp bằng nhiều máy ảnh y khoa khác nhau có trên thị trường, chẳng hạn như Canon, Zeiss và Kowa, dẫn đến độ phân giải ảnh đa dạng. Bộ dữ liệu này có sự mất cân bằng về số lượng ở mỗi lớp. Cụ thể là số lượng mẫu ở lớp bình thường (N) chiếm số lượng lớn (1140 mẫu) gấp hơn 10 lần so với lớp tăng huyết áp (H). Chỉ có hai lớp là lớp bình thường (N) và lớp tiểu đường (D) là có số lượng dữ liệu lớn, tiếp theo là lớp các bệnh khác/bất thường (O), còn lại các lớp chỉ chiếm số lượng dữ liệu nhỏ. Bên cạnh đó, ở lớp các bệnh khác/bất thường (O) chứa 10-12 loại bệnh khác, nó gây khó khăn trong quá trình phân loại. Ngoài ra, mỗi mắt có thể có một bệnh đơn lẻ hoặc kết hợp nhiều bệnh. 2.2 . Tiền xử lý dữ liệu 2.2.1 . Phương pháp Cân bằng biểu đồ thích ứng giới hạn độ tương phản (CLAHE) a) Cân bằng biểu đồ (Histogram Equalization - HE) Cân bằng biểu đồ (Histogram Equalization, viết tắt là HE) là một phương pháp làm tăng độ tương phản toàn cục của ảnh có độ tương phản thấp. Một phép biến đổi phân phối lại các cường độ trên toàn bộ phạm vi động lực học của ảnh và điều này có tác dụng làm tăng sự khác biệt giữa đối tượng quan tâm và nền.
Phạm Hoàng Oanh, Trần Đình Toàn, Lê Minh Hưng, Trần Văn Lăng 199 Cuối cùng, kênh R, kênh G được tăng cường và kênh B được hợp nhất với nhau để tạo ra màu sắc nâng cao ảnh võng mạc. b) Cân bằng biểu đồ thích ứng (Adaptive Histogram Equalization - AHE) Cân bằng biểu đồ thích ứng (Adaptive Histogram Equalization, viết tắt là AHE) là phép biến đổi HE được áp dụng trên toàn bộ cho tất cả các pixel trong một ảnh. Thường các vùng cục bộ trong ảnh sáng hơn hoặc tối hơn nhiều so với các vùng khác. Tính toán một biến đổi HE khác nhau cho từng vùng cục bộ này sẽ cải thiện độ tương phản tổng thể. Kích thước ô, kích thước của vùng lân cận là một tham số được sử dụng bởi thuật toán này. Một hạn chế của AHE là nó có thể bao quát nhiễu trong các vùng đồng nhất của ảnh. c) Cân bằng biểu đồ thích ứng giới hạn độ tương phản (Contrast Limited Adaptive Histogram Equalization - CLAHE) Cân bằng biểu đồ thích ứng giới hạn độ tương phản (Contrast Limited Adaptive Histogram Equalization, viết tắt là CLAHE) là một phiên bản cải tiến của AHE. Ở đây bộ khuếch đại tương phản được cắt bớt để giảm vấn đề khuếch đại nhiễu. Ban đầu thuật toán này dùng trong các ảnh xám như ảnh X-quang, để có thể dùng trực tiếp trên ảnh RGB thì thực hiện ảnh trên các kênh màu khác nhau. Trong CLAHE, ảnh đầu vào được chia thành ba ảnh các kênh [Đỏ (R), Xanh lục (G) và Xanh lam (B)]. CLAHE chỉ được thực hiện trong kênh G vì kênh này hỗ trợ thông tin cấu trúc mạch máu quan trọng. Do đó, kênh G sẽ được tăng cường độ tương phản. Cuối cùng, kênh R, kênh G đã được tăng cường và kênh B hợp nhất với nhau để tạo ra màu sắc nâng cao ảnh võng mạc. Một vài mẫu ví dụ khi chúng tôi tiến hành thực hiện phương pháp CLAHE trên bộ dữ liệu (Hình 3). Hình 3. Bộ dữ liệu trước và sau khi được tiền xử lý bằng phương pháp CLAHE 2.2.2 . Phương pháp Phân đoạn mạch máu Một số bệnh lý trong cơ thể người có thể được phát hiện thông qua những thay đổi về hình thái và hình thái của mạch võng mạc [13]. Phân đoạn chính xác của mạch máu võng mạc là một nhiệm vụ quan trọng trong chẩn đoán hỗ trợ máy tính và lập kế hoạch phẫu thuật cho các bệnh võng mạc. Mặc dù độ phân giải cao của các bức ảnh trong chụp ảnh đáy mắt, độ tương phản giữa các mạch máu và nền võng mạc có xu hướng kém [14]. Cấu trúc mạng thần kinh có nguồn gốc từ kiến trúc U-Net [15] được sử dụng để phân đoạn các mạch máu trong ảnh đáy võng mạc. Đây là một nhiệm vụ phân loại nhị phân: mạng lưới thần kinh dự đoán nếu mỗi pixel trong ảnh đáy có phải là mạch máu hoặc không. Một số mẫu ví dụ khi chúng tôi thực hiện phương pháp phân đoạn mạch máu trên bộ dữ liệu (Hình 4). Hình 4. Bộ dữ liệu trước và sau khi được tiền xử lý bằng phương pháp Phân đoạn mạch máu
200 KẾT HỢP ĐẶC TRƯNG DEEP LEARNING TRONG HỖ TRỢ CHẨN ĐOÁN TỰ ĐỘNG BỆNH LÝ VỀ MẮT 2.3 . Gán nhãn và chia dữ liệu 2.3.1. Gán nhãn Dữ liệu được gán nhãn theo từng cặp mắt, thông tin chi tiết tên loại bệnh lý và chất lượng ảnh được ghi bằng ngôn ngữ tự nhiên (Hình 5). Do đó, cần phải xử lý dữ liệu để mỗi bên mắt có nhãn riêng biệt. Mỗi mẫu sẽ được lọc theo từ khóa và ghi về dạng mutil-hot-vector. Ví dụ mẫu có ID = 2 sau khi lọc theo từ khóa ở từng mắt thì mẫu mắt ID=2 ở bên phải sẽ được thể hiện bằng [0, 1, 0, 0, 0, 0, 0, 1] vì có các từ khóa “laser spot”, “moderate non proliferative retinopathy” - đây là những từ khóa của bệnh trong lớp D (bệnh tiểu đường) và lớp O (các bệnh khác). Tương tự, mẫu ID=2 ở bên trái sẽ có dạng [0, 1, 0, 0, 0, 0, 0, 0] vì chỉ có từ khóa “moderate non proliferative retinopathy” là từ khóa chỉ loại bệnh ở lớp D (Hình 6). Hình 5. Bộ dữ liệu được ghi bằng ngôn ngữ tự nhiên và xác định theo từng cặp mắt Hình 6. Bộ dữ liệu sau khi được gán nhãn cho từng mắt trái và phải 2.3.2 . Phân chia dữ liệu Bộ dữ liệu có tổng cộng 7000 mẫu, vì có một số mẫu chất lượng ảnh kém hoặc do trong quá trình thu thập dữ liệu, ống kính bị mờ hoặc có bụi nên ảnh hưởng đến chất lượng mẫu khi rút trích đặc trưng. Vì vậy trong nghiên cứu này chúng tôi tiến hành loại bỏ 21 mẫu có nhãn “lens dust”, “low image” ra khỏi tập dữ liệu. Số lượng mẫu còn lại là 6962 mẫu. Vì số lượng dữ liệu giữa các lớp không đồng đều với nhau, nhằm đảm bảo trong quá trình huấn luyện (train) và quá trình thẩm định (validation) đều bao gồm tất cả các lớp cho nên chúng tôi chia bộ dữ liệu như Hình 7. Như vậy, số lượng dữ liệu tổng cộng là 5220 mẫu dùng trong tập huấn luyện và 1742 mẫu dùng trong tập thẩm định. Hình 7. Chi tiết dữ liệu từng lớp khi chia thành tập huấn luyện và tập thẩm định 2.4 . Mô hình đề xuất 2.4.1 . Hàm mất mát Đối với bài toán đa nhãn, trong nghiên cứu này chúng tôi chọn hàm Binary Cross Entropy with Logits Loss (BCE With Logits Loss) để tính độ mất mát trong mô hình đề xuất này. Hàm này là kết hợp giữa hàm Sigmoid và Binary Cross-Entropy Loss thành một lớp duy nhất. Phiên bản này ổn định hơn về mặt số học so với sử dụng Sigmoid
Phạm Hoàng Oanh, Trần Đình Toàn, Lê Minh Hưng, Trần Văn Lăng 201 và Binary Cross-Entropy Loss riêng lẻ [16]. Độ đo giá trị Binary Cross Entropy with Logits Loss giữa giá trị dự đoán x và giá trị thực tế y, w là trọng số (nếu có), công thức như sau: , ( ) ( ) ( ( ))-, ( ) * + , trong đó N là batch size, ( ) được tính theo công thức sau: ( ) ( ) { ( ) 2.4.2. Mô hình mạng Các mô hình được xây dựng quá rộng, sâu hoặc với độ phân giải rất cao. Việc tăng các đặc điểm này giúp mô hình học nhanh ở ban đầu nhưng nó nhanh chóng bão hòa. Bên cạnh đó các mô hình có nhiều tham số nên phức tạp và tốn chi phí tính toán. Vì vậy, Mingxing Tan [4] cùng cộng sự năm 2019 đã đề xuất một mô hình mạng mới, mô hình được xây dựng cân bằng cẩn thận giữa độ sâu, chiều rộng và độ phân giải của mạng nên dẫn đến ít tham số được sử dụng và hiệu suất tốt hơn. Mô hình mạng EfficientNet được khuyến nghị sử dụng cho các tác vụ phân lớp, vì mô hình này vượt qua nhiều mạng khác (như DenseNet, Inception, ResNet) trên điểm chuẩn ImageNet, trong khi tốc độ nhanh hơn đáng kể. Vì vậy, trong nghiên cứu này sử dụng mô hình mạng EfficientNet-B3 đã được huấn luyện trước trên tập ảnh ImageNet. Sau đó huấn luyện lại toàn bộ tham số có trong mạng trên bộ dữ liệu đã xử lý bằng phương pháp CLAHE (Thực nghiệm 1.1) và bằng phương pháp phân đoạn mạch máu (Thực nghiệm 1.2). Ban đầu, chúng tôi tiến hành huấn luyện tầng cuối cùng của mô hình mạng và đóng băng các tầng khác. Mô hình được huấn luyện trên 5 epoch, batch size là 32, kích thước ảnh đầu vào là 240×240, learning rate là 1e-5 và giảm learning rate 0,75 lần sau mỗi 2 epoch nếu mô hình không được cải thiện. Tiếp theo, tiến hành huấn luyện toàn bộ tham số có trong mô hình mạng, mô hình được huấn luyện trên 15 epoch, batch size là 32, kích thước ảnh đầu vào là 240×240, learning rate là 3e-4 và giảm learning rate 0,5 lần sau mỗi 5 epoch nếu mô hình không được cải thiện. 2.4.3. Kết hợp đặc trưng Sau đó, sử dụng mô hình mạng EfficientNet đã huấn luyện trên bộ dữ liệu bằng phương pháp CLAHE để rút trích dữ liệu thành đặc trưng thứ nhất. Tương tự sử dụng mô hình mạng EfficientNet đã huấn luyện trên bộ dữ liệu bằng phương pháp phân đoạn mạch máu để rút trích thành đặc trưng thứ hai. Hai đặc trưng rút trích được từ mô hình mạng EfficientNet-B3 có cùng kích thước là [1,1536,7,7]. Tiếp theo cho hai đặc trưng qua tầng hợp nhất (Adaptive average Pooling) đặc trưng sẽ có kích thước [1,1536]. Nối hai đặc trưng này thành một đặc trưng có kích thước [1,3072] và đặc trưng này đi qua DropOut có hệ số 0,3, đi qua tầng Linear để phân loại đặc trưng thành 8 lớp (Thực nghiệm 2). Tuy nhiên, dựa vào kết quả thu được từ thực nghiệm này thì kết quả không cao bằng thực nghiệm 1,2 (trên bộ ảnh CLAHE). Như vậy, việc kết hợp càng nhiều đặc trưng lại với nhau thì không thể đảm bảo là kết quả cuối cùng sẽ tốt. Một trong hai đặc trưng bị nhiễu thì độ chính xác sẽ bị giảm, như ở thực nghiệm 2 thì đặc trưng của ảnh phân đoạn mạch máu bị nhiễu ở một số mẫu dữ liệu nên khi kết hợp với đặc trưng của ảnh CLAHE thì kết quả cuối cùng bị giảm xuống. Do đó, chúng tôi tiến hành thực hiện thực nghiệm 3. 2.4.4. Kết hợp đặc trưng có chọn lọc Sử dụng hai đặc trưng rút trích được từ mô hình mạng EfficientNet-B3 có cùng kích thước là [1,1536]. Gọi vector đặc trưng rút trích từ bộ dữ liệu bằng phương pháp CLAHE và bằng phương pháp phân đoạn mạch máu lần lượt là x1 và x2. Thực hiện phép cộng từng phần tử có trong x1 và x2, thu được x có kích thước [1,1536]. Vector này sẽ đi qua hàm sigmoid. Hàm sigmoid trả về các giá trị của vector trong khoảng từ 0 đến 1. Trong đó, 0 tượng trưng cho phần thông tin sẽ bị “quên”, còn 1 tượng trưng cho toàn bộ thông tin sẽ được giữ lại. Vì dựa vào kết quả thực nghiệm trên từng loại dữ liệu riêng biệt (bộ dữ liệu được xử lý bằng phương pháp CLAHE và bằng phương pháp phân đoạn mạch máu) thì kết quả trên bộ dữ liệu được xử lý bằng phương pháp CLAHE đạt kết quả cao hơn trên bộ dữ liệu được xử lý bằng phương pháp phân đoạn mạch máu. Do đó, trong nghiên cứu này chúng tôi lấy vector đặc trưng trên bộ dữ liệu được xử lý bằng phương pháp CLAHE là x1 là đặc trưng chính. Sau đó đặc trưng này đi qua DropOut có hệ số 0,3 nhằm giảm hiện tượng Over fitting (là hiện tượng mô hình dự đoán đạt kết quả cao trên tập huấn luyện nhưng không hiệu quả trên tập kiểm thử) và làm tăng tốc độ huấn luyện. Cuối cùng là đi qua tầng Linear để phân loại đặc trưng thành 8 lớp (Hình 8) (Thực nghiệm 3). Tám lớp này đại diện cho 8 loại bệnh của mắt. Tiến hành huấn luyện toàn bộ tham số có trong mô hình với epoch là 20, learning rate là 1e-5 và batch size là 1 (vì lý do tràn RAM).
202 KẾT HỢP ĐẶC TRƯNG DEEP LEARNING TRONG HỖ TRỢ CHẨN ĐOÁN TỰ ĐỘNG BỆNH LÝ VỀ MẮT Hình 8. Chi tiết phương pháp kết hợp đặc trưng có chọn lọc 2.5. Trực quan hóa hệ thống hỗ trợ chẩn đoán bệnh lý về mắt Trong nghiên cứu này, chúng tôi xây dựng chương trình minh họa sử dụng ngôn ngữ Python và mã nguồn mở Streamlib để tạo ứng dụng. Web demo được hoàn thiện và chạy thử nghiệm trên hệ thống Google Colab. Người dùng được yêu cầu chọn ảnh đầu vào là ảnh mắt trái và mắt phải để hệ thống chấn đoán bệnh (Hình 9a). Sau khi chọn ảnh mắt trái và ảnh mắt phải ở vùng 1, ảnh mắt trái và mắt phải sau khi chọn sẽ được hiển thị ở vùng 3. Nhấn nút "Create CLAHE & Vessel images" để tiền xử lý ảnh bằng phương pháp CLAHE và phương pháp vessel ở vùng 2 (Hình 9b). Ở vùng 3 sẽ hiển thị ảnh mắt trái xử lý bằng CLAHE và ảnh phân đoạn mạch máu, tương tự như ảnh mắt phải. Cuối cùng là biểu đồ thể hiện kết quả dự đoán theo 8 nhãn (Hình 9c) tương ứng 8 loại bệnh lý về mắt. (a) 1 - Chọn ảnh mắt trái và mắt phải, 2 - Tạo ảnh CLAHE và ảnh vessel để dự đoán bệnh, 3 - Vùng hiển thị ảnh đầu vào và ảnh sau khi xử lý bằng phương pháp CLAHE, phân đoạn mạch máu và kết quả dự đoán (b)
Phạm Hoàng Oanh, Trần Đình Toàn, Lê Minh Hưng, Trần Văn Lăng 203 (c) Hình 9. Giao diện hệ thống hỗ trợ chẩn đoán các bệnh lý về mắt III. KẾT QUẢ THỰC NGHIỆM Chi tiết kết quả từng độ đo của các thực nghiệm được thể hiện ở Bảng 1. Có thể thấy dữ liệu được xử lý bằng phương pháp phân đoạn mạch máu không cho kết quả cao như khi xử lý bằng phương pháp cân bằng biểu đồ thích ứng có giới hạn tương phản (kết quả của ảnh phân đoạn mạch máu là 0,6736 và kết quả của ảnh CLAHE là 0,7345). Lý do có thể là những ảnh được chụp có nhiễu, tác giả của phương pháp phân đoạn mạch máu [17] cũng có đề cập nhiễu sẽ ảnh hưởng đến quá trình rút trích đặc trưng nên cần phải xử lý dữ liệu trước khi thực hiện phương pháp phân đoạn mạch máu. Và bộ dữ liệu ODIR2019 này được thu thập thực tế từ các bệnh viện, trung tâm y tế nên nhiễu là điều không tránh khỏi. Cho nên nếu có quá trình tiền xử lý để loại bỏ nhiễu trước khi huấn luyện thì kết quả có thể tốt hơn nhiều. Thực nghiệm 3 cũng dựa trên bộ dữ liệu đã được xử lý bằng phương pháp cân bằng biểu đồ thích ứng có giới hạn tương phản kết hợp với xử lý bằng phương pháp phân đoạn mạch máu như thực nghiệm 2. Tuy nhiên, sau khi kết hợp đặc trưng thì có chọn lọc chứ không giữ tất cả thông tin có trong đặc trưng. Với cách kết hợp này, kết quả ở thực nghiệm 3 cao vượt trội hơn hẳn ở thực nghiệm 2 (kết quả ở thực nghiệm 2 là 0,732 và kết quả ở thực nghiệm 3 là 0,7526). So sánh kết quả mô hình của nghiên cứu chúng tôi đề xuất với kết quả mô hình của tác giả Islam [2] trong cùng nhiệm vụ, kết quả mô hình của chúng tôi đạt kết quả cao hơn trong cả 3 độ đo. Cụ thể, mô hình đề xuất của nghiên cứu này đạt được kết quả trên độ đồng thuận Kappa là 50,54 %, độ đo AUC đạt 88,57 %, độ đo trung hòa F1-score đạt 86,67 % cao hơn về mọi mặt so với mô hình của tác giả Islam với độ đồng thuận Kappa là 31 %, độ đo AUC đạt 80,5 % và độ đo trung hòa F1-score đạt 85 %. Bảng 1. Tổng hợp kết quả thực nghiệm của mô hình đề xuất so với mô hình đề xuất của tác giả Islam Thực nghiệm Kappa AUC value F1 score Final 1,1 0,4618 0,8822 0,8595 0,7345 1,2 0,3456 0,8408 0,8345 0,6736 2 0,468 0,8721 0,8557 0,732 3 0,5054 0,8857 0,8667 0,7526 Islam [2] 0,31 0,805 0,85 0,655 Dựa vào mô hình mạng EfficientNet-B3 để rút trích đặt trưng và phương pháp kết hợp đặc trưng có chọn lọc, mô hình của chúng tôi đề xuất đã đạt được kết quả 0,7526 trên bảng xếp hạng của cuộc thi (Hình 9). Với kết quả 0,7526, nghiên cứu của chúng tôi đứng vị trí thứ 125 trên bảng xếp hạng. Hình 10. Thứ hạng của mô hình khi nộp kết quả trên trang cuộc thi IV. TỔNG KẾT Trong nghiên cứu này đã đề xuất mô hình huấn luyện và kiểm thử trên bộ dữ liệu ODIR2019 được cung cấp từ Cuộc thi Quốc tế của Đại học Bắc Kinh. Mô hình có thể phân loại 8 loại bệnh với độ chính xác 75,26 %. Bộ dữ liệu bệnh lý về mắt ODIR2019 này khác với các cơ sở dữ liệu công khai khác vì sự kết hợp thực tế lâm sàng và ghi nhãn từ
204 KẾT HỢP ĐẶC TRƯNG DEEP LEARNING TRONG HỖ TRỢ CHẨN ĐOÁN TỰ ĐỘNG BỆNH LÝ VỀ MẮT các bác sĩ nhãn khoa, và do đó mô hình đề xuất có tính áp dụng thực tế hơn so với các nghiên cứu liên quan đến chẩn đoán về các loại bệnh lý lâm sàng về mắt thực tế đã có. Đồng thời, nghiên cứu này cung cấp bộ dữ liệu 7000 mẫu đã tiền xử lý bằng phương pháp CLAHE và bộ dữ liệu 7000 mẫu đã tiền xử lý bằng phương pháp phân đoạn mạch máu, cả hai bộ dữ liệu đều đã được gán nhãn thuận tiện cho các công trình nghiên cứu tiếp theo. Bên cạnh đó, hệ thống hỗ trợ chẩn đoán tự động các bệnh lý về mắt có giao diện đơn giản, thân thiện người dùng, tốc độ xử lý và cho kết quả chẩn đoán nhanh. Trong tương lai, chúng tôi tiếp tục nghiên cứu các phương pháp mới và cải tiến mô hình đã đề xuất để có được kết quả với độ chính xác cao hơn. V. LỜI CẢM ƠN Bài báo được hoàn thành dưới sự hỗ trợ của Đề tài VAST-1.03/19-20 của Viện Hàn lâm Khoa học và Công nghệ Việt Nam. TÀI LIỆU THAM KHẢO [1] Peking University International Competition on Ocular Disease Intelligent Recognition (ODIR-2019). https://odir2019.grand-challenge.org/dataset/. [Online; accessed 2-March-2020]. [2] Islam, Md Tariqul, "Source and Camera Independent Ophthalmic Disease Recognition from Fundus Image Using Neural Network", 2019 IEEE International Conference on Signal Processing, Information, Communication & Systems (SPICSCON). IEEE, 2019. [3] WHO: World report on vision. World Health Organisation (2019). https://www.who.int/publications-detail/world- report-on-vision.[Online; accessed 15-July-2020]. [4] Tan, Mingxing, Quoc V. Le. "Efficientnet: Rethinking model scaling for convolutional neural networks", arXiv preprint arXiv:1905.11946, 2019. [5] Ronneberger, Olaf, Philipp Fischer, Thomas Brox. "U-net: Convolutional networks for biomedical image segmentation", International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015. [6] Singla, Nidhi, Navdeep Singh, "Blood Vessel Contrast Enhancement Techniques for Retinal Images", International Journal of Advanced Research in Computer Science 8.5, 2017. [7] Flaxman, Seth R., "Global causes of blindness and distance vision impairment 1990-2020: a systematic review and meta-analysis", The Lancet Global Health 5.12: e1221-e1234, 2017. [8] Malik, Sadaf, "Data Driven Approach for Eye Disease Classification with Machine Learning", Applied Sciences 9.14: 2789, 2019. [9] Hagos, Misgina Tsighe, Shri Kant, "Transfer learning based detection of diabetic retinopathy from small dataset", arXiv preprint arXiv:1905.07203, 2019. [10] Szegedy, Christian, "Rethinking the inception architecture for computer vision", Proceedings of the IEEE conference on computer vision and pattern recognition, 2016. [11] Deng, Jia, "Imagenet: A large-scale hierarchical image database", 2009 IEEE conference on computer vision and pattern recognition. IEEE, 2009. [12] Sarki, Rubina, "Convolutional neural networks for mild diabetic retinopathy detection: an experimental study", bioRxiv: 763136, 2019. [13] Jiang, Yun, "Automatic Retinal Blood Vessel Segmentation Based on Fully Convolutional Neural Networks", Symmetry 11.9: 1112, 2019. [14] Jebaseeli, T. Jemima, C. Anand Deva Durai, J. Dinesh Peter. "Extraction of retinal blood vessels on fundus images by kirsch's template and Fuzzy C-Means", Journal of medical physics 44.1: 21, 2019. [15] Ronneberger, Olaf, Philipp Fischer, Thomas Brox, "U-net: Convolutional networks for biomedical image segmentation", International Conference on Medical image computing and computer-assisted intervention. Springer, Cham, 2015. [16] Akshaj Verma, Intro to Dataloaders and Loss Functions. https://towardsdatascience.com/pytorch-basics-intro-to- dataloaders-and-loss-functions-868e86450047. [Online; accessed 12-August-2020]. 1 Feb 2020. [17] Xiancheng, Wang, "Retina blood vessel segmentation using a U-net based Convolutional neural network", Procedia Computer Science: International Conference on Data Science (ICDS 2018), Beijing, China, 2018.
Phạm Hoàng Oanh, Trần Đình Toàn, Lê Minh Hưng, Trần Văn Lăng 205 INCORPORATES FEATURES DEEP LEARNING TO SUPPORT AUTOMATIC DIAGNOSIS OF EYE DISEASES Pham Hoang Oanh, Tran Dinh Toan, Le Minh Hung, Tran Van Lang ABSTRACT: In this paper, it is proposed to build a selective feature model using CNN EfficientNet network combined with "Forget gate" from the design concept of LSTM on eye image data. The input image was pretreated by CLAHE method and combined with the image of an extraction of blood vessels, from which it was possible to build an automatic disease detection system and classify 8 eye diseases such as normal, diabetes, glaucoma, cataract, age-related macular degeneration, hypertension, myopia and other diseases to help ophthalmologists and patients during their examination and treatment eye disease. The experiments were conducted on the ODIR-5K dataset, the proposed model achieved results with an F1-score of 86.67 %, a Kappa consensus of 50.54 % and an AUC of 88.57 %.