Tăng cường dữ liệu ảnh cho bộ dữ liệu X quang phổi sử dụng mạng sinh đối nghịch

Chia sẻ: _ _ | Ngày: | Loại File: PDF | Số trang:8

Thêm vào BST

Báo xấu

18
lượt xem 2
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Tăng cường dữ liệu để cải thiện hiệu suất mô hình phân lớp trong trường hợp một số lớp có rất ít mẫu là một thử thách trong các bài toán phân loại ảnh, đặc biệt là trong lĩnh vực y khoa đối với một số bệnh lý hiếm gặp hoặc đột biến. Sử dụng Generative Adversarial Networks (GANs) để tăng cường dữ liệu trong trường hợp này thường không đạt hiệu suất cao ở những lớp thiểu số.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tăng cường dữ liệu ảnh cho bộ dữ liệu X quang phổi sử dụng mạng sinh đối nghịch

Kỷ yếu Hội nghị KHCN Quốc gia lần thứ XIII về Nghiên cứu cơ bản và ứng dụng Công nghệ thông tin (FAIR), Nha Trang, ngày 8-9/10/2020 DOI: 10.15625/vap.2020.00212 TĂNG CƯỜNG DỮ LIỆU ẢNH CHO BỘ DỮ LIỆU X-QUANG PHỔI SỬ DỤNG MẠNG SINH ĐỐI NGHỊCH Trần Hoàng Phát1, Phạm Mạnh Cường1, Trần Đình Toàn2, Hoàng Tùng3, Lê Minh Hưng1 1 Trường Đại học Công nghệ thông tin - Đại học Quốc gia TP.HCM 2 Trường Đại học Công nghiệp Thực phẩm TP.HCM 3 Trung tâm CNTT, Trường Đại học Nguyễn Tất Thành 16520918@gm.uit.edu.vn, 16520156@gm.uit.edu.vn, toantd@hufi.edu.vn, htung@ntt.edu.vn, hunglm@uit.edu.vn TÓM TẮT: Tăng cường dữ liệu để cải thiện hiệu suất mô hình phân lớp trong trường hợp một số lớp có rất ít mẫu là một thử thách trong các bài toán phân loại ảnh, đặc biệt là trong lĩnh vực y khoa đối với một số bệnh lý hiếm gặp hoặc đột biến. Sử dụng Generative Adversarial Networks (GANs) để tăng cường dữ liệu trong trường hợp này thường không đạt hiệu suất cao ở những lớp thiểu số. Xem xét bài toán phân loại ảnh X-quang lồng ngực, chúng tôi xây dựng mô hình feature based X-ray GAN (FX- GAN) để tổng hợp dữ liệu ảnh X-quang với hướng tiếp cận học từ phân phối đặc trưng. Mô hình học cách sử dụng những đặc trưng được cung cấp để tạo ra ảnh mới mang đặc trưng tương tự. Trong đó, đặc trưng được trích xuất từ một mô hình độ đo đã được huấn luyện có thể trích xuất những đặc trưng phân biệt giữa các lớp. Khi mô hình độ đo khái quát được những lớp không được quan sát, mô hình của nghiên cứu này có thể tạo dữ liệu cho những lớp đó mà không cần thực hiện tinh chỉnh. Tiến hành thực nghiệm FX-GAN trên bộ dữ liệu ảnh X-quang lồng ngực và đánh giá khả năng tăng cường dữ liệu cho những lớp thiểu số nằm ngoài tập quan sát chỉ dựa vào một vài mẫu dữ liệu có sẵn, đồng thời cải thiện hiệu suất của mô hình phân loại bệnh lý qua ảnh X-quang lồng ngực. Từ khóa: One-shot image generation, Generative adversarial network, Chest X-ray classification, Data augmentation. I. GIỚI THIỆU Phân loại ảnh X-quang lồng ngực để phát hiện các bệnh lý là một trong những bài toán quan trọng trong lĩnh vực y khoa. Trong khi đó số lượng các bác sĩ X-quang trong lĩnh vực này thường hạn chế. Một hệ thống chẩn đoán tích hợp máy tính với khả năng đưa ra dự đoán trong vài giây có thể giảm đáng kể khối lượng công việc của các bác sĩ X- quang. Hướng tiếp cận phổ biến là sử dụng các mô hình học sâu đã đạt được nhiều kết quả đáng kể. Hầu hết mô hình học sâu đòi hỏi phải có một bộ dữ liệu đủ lớn để mô hình đạt được sự khái quát. Trong thực tế, dữ liệu ảnh y khoa nói chung thường có xu hướng bị mất cân bằng và khan hiếm dẫn đến việc mô hình quan tâm những lớp có nhiều mẫu dữ liệu hơn để tối ưu hàm mục tiêu, dẫn đến hiệu suất kém khi dự đoán những mẫu thuộc lớp thiểu số (ít mẫu hơn). Hình 1. Mô tả trực quan t-SNE hàm ánh xạ từ phân phối đặc trưng sang phân phối dữ liệu. Bên trái là phân phối đặc trưng được trích xuất từ ảnh điều kiện thông qua mô hình độ đo F. Bên phải là phân phối dữ liệu (đại diện bởi đặc trưng trích xuất từ ảnh được tạo bởi generator thông qua F) Tăng cường dữ liệu [10] là phương pháp được sử dụng rộng rãi để giải quyết bài toán dạng như trên. Tuy nhiên, ảnh được tạo từ các phép biến đổi có sự đa dạng còn nhiều hạn chế. Các nhà nghiên cứu đã sử dụng các mô hình Generative Adversarial Networks (GANs) để tăng cường dữ liệu nhằm cải thiện hiệu suất của các bài toán phân lớp, [11]. Trong đó, mô hình Balancing GAN (BAGAN) [11] đã cho thấy khả năng vượt trội để cải thiện hiệu suất của các mô hình phân lớp trên bộ dữ liệu bị mất cân bằng thông qua việc huấn luyện cùng lúc các lớp đa số và thiểu số cùng với sự kết hợp giữa mô hình GAN và autoencoder. Tuy nhiên, khi một số lớp chỉ có vài mẫu dữ liệu, BAGAN gặp khó khăn để sinh dữ liệu cho các lớp này do không đủ dữ liệu để huấn luyện. Khi đó, hướng tiếp cận sinh ảnh one-shot là lựa chọn hiệu quả hơn. Ví dụ điển hình là mô hình state-of-the-art DAGAN, mô hình sử dụng kiến trúc encoder- decoder kết hợp với véctơ ngẫu nhiên để học phép biến đổi lên ảnh điều kiện một cách tự động, sau đó tạo ra ảnh mới
550 TĂNG CƯỜNG DỮ LIỆU ẢNH CHO BỘ DỮ LIỆU X-QUANG PHỔI SỬ DỤNG MẠNG SINH ĐỐI NGHỊCH với sự biến đổi so với ảnh ban đầu. Tuy nhiên, sự đa dạng của ảnh được tạo bởi DAGAN bằng cách thêm véctơ ngẫu nhiên còn khá hạn chế. Từ vấn đề phân loại ảnh X-quang lồng ngực được xem xét, nghiên cứu này đề xuất mô hình Feature based X- ray GAN (FX-GAN), mô hình sử dụng đặc trưng đại diện trích xuất từ một ảnh điều kiện để sinh ra ảnh mới mang đặc trưng tương tự, mô hình được mô tả trực quan ở Hình 1. Trong đó, đặc trưng được đại diện bởi một véctơ trích xuất thông qua một mô hình độ đo (một mạng nơron sâu) được huấn luyện trước so với GAN. Nghiên cứu này chọn mô hình độ đo có khả năng khái quát dữ liệu của những lớp không được quan sát. Do đó, mô hình đã đề xuất có thể tạo dữ liệu mới dựa trên một ảnh điều kiện được lấy từ những lớp đó. Nghiên cứu này đánh giá hiệu suất của FX-GAN trong bài toán phân loại bệnh lý thông qua ảnh X-quang lồng ngực trong điều kiện dữ liệu bị mất cân bằng và hạn chế (chỉ có vài mẫu mỗi lớp). Cụ thể, tiến hành huấn luyện FX-GAN trên những lớp được quan sát sau đó mô hình được sử dụng để tạo dữ liệu tăng cường cho những lớp thiểu số không được quan sát. Qua đó, chứng tỏ khả năng sinh ảnh mới giống ảnh thật và đa dạng chỉ dựa vào một ảnh điều kiện duy nhất đồng thời cải thiện hiệu suất của mô hình phân loại các bệnh lý qua ảnh X-quang lồng ngực trên bộ dữ liệu Chest X-ray14 [17]. Trong bài báo này có những đóng góp chính gồm: 1) Xây dựng mô hình FX-GAN có thể tổng hợp ảnh X-quang lồng ngực dựa trên một ảnh điều kiện cho những lớp không được quan sát. 2) Tạo dữ liệu giả với chất lượng cao và biến thể đa dạng để tăng cường dữ liệu X-quang lồng ngực. 3) Chứng minh khả năng tăng cường dữ liệu từ mô hình đề xuất cho bộ dữ liệu X-quang lồng ngực thông qua bài toán phân loại ảnh X-quang lồng ngực. 4) Đánh giá hiệu suất của mô hình đề xuất so với BAGAN [11] và DAGAN trên bộ dữ liệu Chest X-ray14 [17]. II. CÁC NGHIÊN CỨU LIÊN QUAN Mô hình mạng sinh đối nghịch (Generative Adversarial Network - GAN) [6] là mô hình sinh với hướng tiếp cận huấn luyện đối nghịch giữa hai thành phần gồm generator và discriminator. Trong đó, generator tối ưu hàm mục tiêu thông qua phản hồi từ một mô hình khác - discriminator. Các mô hình GANs tiêu chuẩn học hàm ánh xạ từ một véctơ ngẫu nhiên sang một ảnh mới thông qua phân phối dữ liệu mà nó học được. Trong nghiên cứu này, xây dựng mô hình để học phân phối dữ liệu từ một phân phối đặc trưng thay vì một phân phối trước, việc này giúp generator dễ dàng tạo dữ liệu mới nhờ thông tin được cung cấp so với một véctơ ngẫu nhiên. Sinh ảnh one-shot (one-shot image generation) là một bài toán mới trong những năm gần đây. Cụ thể, mô hình sau khi được huấn luyện trên một tập các lớp quan sát có thể khái quát và sinh dữ liệu dựa trên một ảnh điều kiện từ các lớp không quan sát. Mô hình FX-GAN trong nghiên cứu này sử dụng đặc trưng phân biệt giữa các lớp để tạo ra dữ liệu mới mang đặc trưng tương tự. Trong đó, đặc trưng được trích xuất từ một bộ trích xuất đặc trưng đã được huấn luyện trước đó theo phương thức học độ đo sao cho có thể khái quát được dữ liệu mới thuộc lớp không được quan sát. Từ đó, có thể sinh dữ liệu mới cho những lớp không quan sát thông qua đặc trưng được trích xuất. Hướng tiếp cận này tương tự như openGAN [4] nhưng nghiên cứu này cung cấp thông tin cho generator từ input cùng với véctơ ngẫu nhiên thay vì sử dụng feature normalization như openGAN. Tăng cường dữ liệu [10] sử dụng các phép biến đổi lên ảnh như xoay, lật, dịch chuyển,… để tạo ra các ảnh biến thể khác nhau. Việc áp dụng các phép biến đổi lên ảnh chỉ có thể tạo ra dữ liệu mới với sự đa dạng còn hạn chế. Trong khi đó phương pháp tăng cường dữ liệu tổng hợp (image synthesis) sử dụng các mô hình sinh đối nghịch đã chứng tỏ hiệu suất vượt trội so với phương pháp tăng cường dữ liệu truyền thống. Trong số đó có rất ít phương pháp có thể áp dụng lên dữ liệu thuộc lớp không được quan sát [2], [4], [9]. Hơn nữa, các phương pháp này được đánh giá trên những bộ dữ liệu có nhiều lớp, điều đó đủ để các bộ trích xuất đặc trưng có thể đạt được tính khái quát. Nghiên cứu này tiến hành đánh giá mô hình FX-GAN trên tập dữ liệu X-quang lồng ngực trong điều kiện bị mất cân bằng đồng thời số lượng lớp cũng ít hơn đáng kể, cụ thể trên bộ dữ liệu chest X-ray14 với 15 loại nhãn [17]. III. PHƯƠNG PHÁP Trong bài toán phân loại bệnh lý qua ảnh X-quang lồng ngực, dữ liệu hình ảnh thường chia sẻ chung cấu trúc tổng quát như hình dạng và khác nhau về những chi tiết nhỏ và đặc điểm của mỗi bệnh lý chẵng hạn như đóm lạ trong phổi. Nếu mô hình có thể học cách tạo ra các ảnh này, nó có thể tận dụng khả năng đó để tạo ảnh cho những lớp không được quan sát có cùng hình dạng. Dựa vào điều đó, chúng tôi đề xuất mô hình Feature based X-ray GAN (FX-GAN) với hướng tiếp cận học từ đặc trưng phân biệt đại diện. Trong quá trình huấn luyện, FX-GAN học cách tạo ra những ảnh X-quang đồng thời tìm cách nhúng đặc trưng vào ảnh được tổng hợp sao cho hợp lý và buộc ảnh được tạo phải mang đặc trưng như mong muốn. Từ đó, nếu có thể trích xuất được những đặc trưng của ảnh điều kiện, generator có thể tạo ra ảnh mới mang những đặc trưng tương tự, vì thế FX-GAN có thể sinh ảnh cho những ảnh thuộc lớp nằm ngoài bộ huấn luyện khi được cung cấp đặc trưng cần thiết. Nghiên cứu này, xây dựng mô hình để đạt được các mục tiêu sau đây: 1. Ảnh được tổng hợp phải thuộc lớp cụ thể và thông tin đặc trưng tương tự với ảnh điều kiện.
Trần Hoàng Phát, Phạm Mạnh Cường, Trần Đình Toàn, Hoàng Tùng, Lê Minh Hưng 551 2. Ảnh được tổng hợp có tính đa dạng các biến thể. 3. Mô hình có khả năng sinh dựa trên một ảnh điều kiện thuộc một lớp không được quan sát. A. Mô hình Feature based X-ray GAN Mô hình của nghiên cứu này đề xuất bao gồm ba thành phần chính: một bộ trích xuất đặc trưng F, một generator G và một discriminator D. Cụ thể, đặc trưng f được trích xuất từ ảnh điều kiện x thông qua F được nối với một véctơ ngẫu nhiên z lấy từ phân phối chuẩn ( ) được cung cấp cho G để tạo ra ảnh mới ̃ mang đặc trưng ̃ khớp với đặc trưng f, với ̃ được trích xuất từ ̃ thông qua F. Chi tiết được mô tả qua các phương trình sau: ( ) (1) ̃ ( ) (2) ̃ ( ̃) (3) trong đó, F là một mạng nơron được huấn luyện trước mô hình sinh để học một hàm độ đo có khả năng trích xuất những đặc trưng phân biệt giữa các lớp đồng thời khái quát dữ liệu thuộc các lớp không được quan sát. Do vậy, FX- GAN có thể sinh dữ liệu cho những lớp không được quan sát dựa trên đặc trưng được trích xuất từ F. Gọi và lần lượt là tập các lớp được quan sát và không được quan sát với ∅. Ở giai đoạn huấn luyện, FX-GAN và mạng F được huấn luyện trên tập dữ liệu thuộc . Sau khi generator học được khả năng sinh ảnh dựa trên đặc trưng được cung cấp. Nó có thể chuyển giao khả năng đó qua giai đoạn sinh ảnh, sử dụng generator để sinh ảnh mới ̃ bằng việc cung cấp đặc trưng ̃ , với ̃ được trích xuất từ ảnh điều kiện x’ lấy từ tập dữ liệu thuộc hoặc thông qua bộ trích xuất đặc trưng F. Để F có thể trích xuất thông tin phân biệt giữa các lớp đồng thời khái quát được những lớp không quan sát. Nghiên cứu này sử dụng một mô hình phân lớp với sự kết hợp giữa lỗi phân loại entropy và lỗi trung tâm (center loss) để huấn luyện trên tập dữ liệu thuộc các lớp . Cụ thể, F cho ra một véctơ n chiều đại diện cho ảnh đầu vào. Trong mỗi mini-batch, tính giá trị center bằng cách lấy trung bình đặc trưng cho mỗi lớp thuộc . Sau đó, tiến hành kéo những đặc trưng đại diện cùng thuộc một lớp về gần center nhằm giảm thiểu sự phân tán đặc trưng trong một lớp. Mô hình được huấn luyện với sự kết hợp của hai hàm mục tiêu: ∑ ∑‖ ‖ (4) ∑ trong đó, đại diện cho center của lớp thứ y của ảnh thứ i và là trọng số của center loss. Sau khi huấn luyện, tầng cuối cùng của mô hình phân lớp (tầng softmax) được loại bỏ để lấy bộ trích xuất đặc trưng F. Chi tiết mô hình được mô tả như Hình 2. Hình 2. Mô tả mô hình phân lớp được huấn luyện để lấy bộ trích xuất đặc trưng F với sự kết hợp của hàm mục tiêu softmax và center loss. Trong mô hình trên, pre-trained VGG16 [15] được sử dụng làm bộ trích xuất đặc trưng
552 TĂNG CƯỜNG DỮ LIỆU ẢNH CHO BỘ DỮ LIỆU X-QUANG PHỔI SỬ DỤNG MẠNG SINH ĐỐI NGHỊCH Để ảnh được tạo ̃ mang đặc trưng riêng biệt tương tự với ảnh điều kiện x, lỗi khoảng cách l2 thường được sử dụng để tính độ tương đồng giữa hai đặc trưng đại diện cho ̃ và x trong không gian đặc trưng. Tuy nhiên, khi dữ liệu là fine-grained, lỗi l2 không thể đảm bảo ảnh được tạo ra mang đặc trưng đại diện thuộc một lớp mong muốn, đôi khi nó sẽ nằm gần một điểm dữ liệu thuộc lớp khác trong không gian đặc trưng mà ta không kiểm soát được. Để khắc phục hạn chế đó, trong nghiên cứu này sử dụng hàm triplet loss [8] nhằm kéo ảnh được tạo ̃ gần hơn với ảnh x và cách xa những ảnh thuộc lớp khác. Cụ thể, với hàm mục tiêu sau: ( (̃ ) (̃ ) ) (5) trong đó, f là đặc trưng được trích xuất từ ảnh điều kiện x, ̃ là đặc trưng được trích xuất từ ảnh giả ̃ được tạo bởi generator G, đại diện cho đặc trưng của một ảnh thuộc lớp khác so với x và d(.) là hàm tính khoảng cách giữa hai véctơ. Qua đó hàm triplet loss [8] buộc generator phải tạo ra ảnh sao cho mang đặc trưng khớp với đặc trưng của ảnh điều kiện đồng thời cách xa đặc trưng những ảnh không cùng lớp. Nhằm hỗ trợ generator tạo dữ liệu chính xác với lớp mong muốn ngoài điều kiện từ hàm triplet loss [8], nghiên cứu này cho discriminator D làm nhiệm vụ phân biệt K + 1 lớp bao gồm K lớp thuộc và một lớp đại diện cho ảnh giả ̃ đến từ generator, sử dụng hàm lỗi phân loại entropy để phân loại giữa các lớp. Cụ thể, discriminator được huấn luyện để tối ưu hàm mục tiêu: ( ) (6) Khi huấn luyện generator với mong muốn ảnh được tạo ̃ phải thuộc cùng lớp với ảnh điều kiện x bằng việc tối ưu hàm mục tiêu: ( ̃) (7) Tổng quát, trong quá trình huấn luyện đối nghịch, generator và discriminator sẽ tối ưu những hàm mục tiêu riêng biệt. Cụ thể, generator G sẽ tối ưu cùng lúc hai hàm mục tiêu: (8) với λ giá trị trọng số của triplet loss Trong khi đó discriminator D sẽ tối ưu hàm phân lớp entropy để phân biệt giữa dữ liệu giả và dữ liệu thật đồng thời thuộc một lớp cụ thể, chi tiết mô hình được mô tả ở Hình 3. Hình 3. Sơ đồ mô tả cấu trúc tổng quát của mô hình FX-GAN Trong quá trình huấn luyện, hàm triplet loss [8] buộc generator tạo ảnh mang đặc trưng khớp với ảnh điều kiện và lỗi đối nghịch buộc generator tạo ảnh đúng với lớp mong muốn và giống ảnh thật từ dữ liệu. B. Huấn luyện Trước khi huấn luyện FX-GAN, nghiên cứu này tiến hành huấn luyện bộ trích xuất đặc trưng F. Cụ thể, mạng VGG16 [15] được huấn luyện trên bộ dữ liệu ImageNet [3] được sử dụng để tinh chỉnh cho dữ liệu X-quang với tầng ban đầu được loại bỏ. Sau đó, đặc trưng trích xuất từ tầng cuối cùng được đưa vào một tầng fully-connected
Trần Hoàng Phát, Phạm Mạnh Cường, Trần Đình Toàn, Hoàng Tùng, Lê Minh Hưng 553 với n nơron đại diện cho véctơ đặc trưng n chiều và nối với tầng với số lớp cụ thể của dữ liệu để tính phân phối xác suất. Sau quá trình huấn luyện, loại bỏ tầng cuối cùng để lấy bộ trích xuất đặc trưng F, cấu trúc mô hình được mô tả ở Hình 2. Sau đó sử dụng F để trích xuất đặc trưng cung cấp cho generator G. Trong quá trình huấn luyện FX-GAN, trọng số đã được học của F sẽ được đóng băng. Generator sẽ học cách tạo ra dữ liệu mang đặc trưng phân biệt tương tự ảnh điều kiện đồng thời cách xa đặc trưng của ảnh thuộc lớp khác trong không gian đặc trưng bằng cách tối ưu hàm triplet loss . Để ảnh được tạo thuộc lớp mong muốn và giống với ảnh thật, ta sẽ tối ưu hàm mục tiêu đối nghịch nhận được từ discriminator . Discriminator làm nhiệm vụ phân loại giữa ảnh giả và ảnh thật đồng thời thuộc một lớp cụ thể bằng cách tối ưu hàm phân loại entropy . IV. THỰC NGHIỆM Nghiên cứu này tiến hành đánh giá hiệu suất mô hình FX-GAN so với các mô hình sinh đối nghịch khác bằng cách so sánh trên ảnh được sinh và hiệu suất của bài toán phân loại ảnh X-quang lồng ngực. A. Dữ liệu Mô hình FX-GAN được đánh giá trên bộ dữ liệu NIH Chest X-ray14 [17], bộ dữ liệu bao gồm 112,120 hình ảnh X-quang mặt trước của lồng ngực được lấy từ 30,805 bệnh nhân. Bộ dữ liệu bao gồm 14 loại bệnh lý khác nhau, một số ảnh có nhiều nhãn (multi-labels). Bộ dữ liệu này bị mất cân bằng giữa các lớp khá nặng. Cụ thể, lớp chiếm lượng ảnh nhiều nhất là no-findings với xấp xỉ 50 %, trong các lớp mang bệnh thì 24 % ảnh được gán nhãn Infiltration trong khi chỉ có 0,28 % ảnh được gán nhãn đối với Hernia. Trong nghiên cứu này, chỉ đánh giá các mô hình trên bài toán phân loại một lớp. Do đó, sẽ tiến hành loại bỏ tất cả ảnh mang multi-labels. Đồng thời, nghiên cứu này cũng chỉ sử dụng 35 % của tổng số dữ liệu (sau khi loại bỏ multi-labels) để huấn luyện và đánh giá trong điều kiện dữ liệu hạn chế. Ngoài ra, để giảm chi phí tính toán và phù hợp mới tài nguyên bộ nhớ, nghiên cứu này cũng chỉ giữ lại 5.000 ảnh của nhãn no-findings đồng thời tất cả ảnh được giảm kích cỡ về 128x128 và bộ dữ liệu còn lại là 15,830 ảnh. Hình 4. Phân phối dữ liệu trên tập huấn luyện của FX-GAN. 12 lớp với nhiều dữ liệu nhất được sử dụng để huấn luyện, 3 lớp thiểu số được dùng để kiểm tra với số lượng dữ liệu được giảm còn 5 ảnh mỗi lớp Nhằm đánh giá hiệu suất phân lớp cho tất cả 15 nhãn (14 bệnh lý và 01 nhãn no-findings), trong nghiên cứu này sẽ chia bộ dữ liệu thành ba tập dữ liệu gồm: huấn luyện, thẩm định và kiểm tra với số lượng tương ứng 9.972, 1.583 và 4.275. Sau đó để đánh giá hiệu suất của nhiệm vụ sinh ảnh one-shot, nghiên cứu này tiếp tục chia tập huấn luyện thành hai tập con. Cụ thể, 12 lớp với số lượng dữ liệu nhiều nhất là lớp được quan sát (resp., 9.730 ảnh), 03 lớp số lượng dữ liệu ít nhất là lớp không được quan sát (resp., 15 ảnh) với 5 ảnh được giữ lại mỗi lớp. B. Thực nghiệm 1. Huấn luyện mô hình FX-GAN trên tập quan sát Đầu tiên, nghiên cứu này sử dụng pre-trained VGG16 [15] để huấn luyện bộ trích xuất đặc trưng với sự kết hợp của hàm lỗi phân lớp entropy và hàm center loss. Số chiều n của véctơ đặc trưng được chọn là 128 (Hình 2). Trọng số của center loss λ được chọn là 0,1. Để mô hình có thể khái quát hóa tốt các lớp, trong nghiên cứu này sử dụng các phương pháp tăng cường dữ liệu tiêu chuẩn bao gồm lật ngang (xác suất 50 %), xoay ngẫu nhiên 15 độ và thay đổi độ sáng ngẫu nhiên trong khoảng [ ] để tăng cường cho các lớp thiểu số. Mô hình được huấn luyện với thuật toán tối ưu hóa Adam trong vòng 30 epochs với tỉ lệ học là . Sau đó, nghiên cứu này tiến hành đóng băng trọng số của bộ trích xuất đặc trưng và huấn luyện mô hình FX- GAN với tỉ lệ học của generator và discriminator tương ứng là 0,0001 và 0,0003 dựa trên Two time-scale update rule.
554 TĂNG CƯỜNG DỮ LIỆU ẢNH CHO BỘ DỮ LIỆU X-QUANG PHỔI SỬ DỤNG MẠNG SINH ĐỐI NGHỊCH Thuật toán tối ưu hóa Adam được sử dụng với và , trọng số của hàm triplet loss là 0,7. Mô hình được huấn luyện trong 200 epochs với batch-size là 64. 2. Huấn luyện mô hình phân lớp Để đánh giá hiệu quả của dữ liệu được tổng hợp từ mô hình FX-GAN trong bài toán phân loại ảnh X-quang ngực, nghiên cứu này tiến hành so sánh hiệu suất dựa trên điểm AUC của mô hình phân lớp sau khi được cân bằng lại dữ liệu với dữ liệu được tạo từ mô hình FX-GAN, DAGAN và BAGAN [11]. Trong đó, mô hình FX-GAN và DAGAN được huấn luyện trên cùng tập dữ liệu quan sát, BAGAN được huấn luyện trên tập dữ liệu bao gồm tập quan sát và tập không quan sát (Hình 4). Tất cả được huấn luyện trên mạng tiêu chuẩn VGG16 [15] với tỉ lệ học là trong vòng 20 epochs để hạn chế sự quá khớp. C. Kết quả thực nghiệm 1. Kết quả sinh ảnh Kết quả sinh ảnh trên tập các lớp dùng để huấn luyện được trình bày ở Hình . Qua đó mô hình FX-GAN có thể tạo ra ảnh giống ảnh thật và có sự biến đổi đa dạng dựa vào thông tin từ một ảnh điều kiện. Để đánh giá trực quan kết quả sinh ảnh trên tập không được quan sát cho bài toán sinh ảnh one-shot, nghiên cứu này tiến hành so sánh kết quả từ mô hình đề xuất với mô hình state-of-the-art DAGAN như được mô tả ở Hình . Quan sát trực quan cho thấy, mô hình FX-GAN có thể sinh dữ liệu đa dạng hơn so với mô hình DAGAN bởi vì mô hình trong nghiên cứu này đề xuất chỉ sử dụng thông tin riêng biệt giữa các lớp trên từng ảnh để tạo ra dữ liệu mới một cách ngẫu nhiên nhưng vẫn giữ được những đặc trưng của từng bệnh lý thay vì sử dụng đặc trưng về cấu trúc của ảnh nhận được từ encoder như DAGAN. Hình 5. Ảnh được tạo bởi mô hình đề xuất từ 5 lớp thuộc các lớp quan sát. Bên trái cùng mỗi hàng là ảnh điều kiện và 06 ảnh bênh phải là ảnh được sinh tương ứng Hình 6. Mô tả dữ liệu được tạo bởi DAGAN và mô hình đề xuất trên 3 lớp không được quan sát, ảnh điều kiện nằm ở ngoài cùng bên trái 2. Kết quả phân loại Trong phần này đã chứng minh sự hiệu quả của dữ liệu được tạo bởi mô hình FX-GAN trong bài toán phân loại ảnh X-quang lồng ngực, và đã tiến hành so sánh hiệu suất so với các mô hình DAGAN BAGAN [11] trên cùng tập kiểm tra như đã được mô tả ở phần dữ liệu. Để cân bằng lại dữ liệu và huấn luyện mô hình phân lớp, nghiên cứu này tiến hành cân bằng lại bộ dữ liệu trên cả tập quan sát và tập không được quan sát sử dụng ảnh được tạo bởi mô hình FX-GAN, DAGAN và BAGAN [11]. Cụ thể đối với mô hình FX-GAN và DAGAN, nghiên cứu này lần lượt sử dụng toàn bộ ảnh thuộc tập quan sát và tập không được quan sát để tạo thêm dữ liệu mới. Đối với BAGAN, chúng tôi tạo dữ liệu dựa trên phân phối dữ liệu của tất cả 15 lớp được học để cân bằng lại dữ liệu. Kết quả đánh giá được tính trên điểm AUC của mỗi lớp như được trình bày ở Bảng 1.
Trần Hoàng Phát, Phạm Mạnh Cường, Trần Đình Toàn, Hoàng Tùng, Lê Minh Hưng 555 Bảng 1. Kết quả so sánh hiệu suất mô hình phân lớp trên bộ dữ liệu X-quang được tính trên điểm AUC của ba phương pháp, 3 lớp Edema, Pneumonia, Hernia (in nghiên) là những lớp thiểu số với 5 mẫu mỗi lớp Label DAGAN FX-GAN (Ours) BAGAN [11] No Finding 0,674 0,698 0,682 Infiltration 0,686 0,717 0,705 Atelectasis 0,750 0,753 0,757 Effusion 0,798 0,809 0,796 Nodule 0,684 0,751 0,724 Pneumothorax 0,723 0,748 0,693 Mass 0,742 0,747 0,730 Consolidation 0,649 0,666 0,664 Pleural Thickening 0,673 0,694 0,678 Cardiomegaly 0,892 0,873 0,884 Emphysema 0,716 0,725 0,706 Fibrosis 0,618 0,660 0,607 Edema 0,624 0,644 0,579 Pneumonia 0,497 0,470 0,412 Hernia 0,665 0,700 0,681 Average 0,693 0,710 0,686 V. KẾT LUẬN Nghiên cứu này đã đề xuất mô hình feature based X-ray GAN bằng cách sử dụng đặc trưng phân biệt được trích xuất từ một bộ trích xuất độ đo để thực hiện ánh xạ dựa trên một ảnh điều kiện. Mô hình có thể sinh ra nhiều ảnh mới với biến thể đa dạng và mang đặc trưng tương tự với ảnh điều kiện. Ngoài ra, mô hình FX-GAN có thể sinh ảnh mới cho tập dữ liệu thuộc những lớp không được quan sát. Các thực nghiệm được tiến hành cho thấy khả năng tổng hợp dữ liệu ảnh X-quang lồng ngực đa dạng và giống ảnh thật, đồng thời cải thiện hiệu suất cho bài toán phân loại ảnh X- quang lồng ngực từ mô hình đề xuất so với các mô hình khác. Công việc tương lai của chúng tôi là tiếp tục nghiên cứu cải tiến các mô hình hiện có và mô hình đã đề xuất nhằm tăng hiệu suất phân loại bệnh lý dựa trên ảnh X-quang lồng ngực tốt hơn. VI. LỜI CẢM ƠN Bài báo được hoàn thành dưới sự hỗ trợ của đề tài VAST-1.03/19-20 của Viện Hàn lâm Khoa học và Công nghệ Việt Nam. TÀI LIỆU THAM KHẢO [1] Antoniou, Antreas, Amos Storkey, Harrison Edwards, "Data augmentation generative adversarial networks", arXiv preprint arXiv:1711.04340, 2017. [2] Clouâtre, Louis, Marc Demers, "FIGR: Few-shot image generation with reptile", arXiv preprint arXiv:1901.02199, 2019. [3] Deng, Jia, "Imagenet: A large-scale hierarchical image database", 2009 IEEE conference on computer vision and pattern recognition. IEEE, 2009. [4] Ditria, L., Meyer, B.J., & Drummond, T. (2020). “OpenGAN: Open Set Generative Adversarial Networks”. ArXiv, abs/2003.08074. [5] Frid-Adar, Maayan, "GAN-based synthetic medical image augmentation for increased CNN performance in liver lesion classification", Neurocomputing 321: 321-331, 2018. [6] Goodfellow, Ian, "Generative adversarial nets", Advances in neural information processing systems, 2014. [7] Heusel, Martin, "Gans trained by a two time-scale update rule converge to a local nash equilibrium", Advances in neural information processing systems, 2017. [8] Hoffer, Elad, Nir Ailon, "Deep metric learning using triplet network", International Workshop on Similarity-Based Pattern Recognition. Springer, Cham, 2015. [9] Hong, Yan, "Matchinggan: Matching-Based Few-Shot Image Generation", 2020 IEEE International Conference on Multimedia and Expo (ICME). IEEE, 2020. [10] Krizhevsky, Alex, Ilya Sutskever, Geoffrey E. Hinton, "Imagenet classification with deep convolutional neural networks", Advances in neural information processing systems, 2012. [11] Mariani, Giovanni, "Bagan: Data augmentation with balancing gan", arXiv preprint arXiv:1803.09655, 2018.
556 TĂNG CƯỜNG DỮ LIỆU ẢNH CHO BỘ DỮ LIỆU X-QUANG PHỔI SỬ DỤNG MẠNG SINH ĐỐI NGHỊCH [12] Rajpurkar, Pranav, "Chexnet: Radiologist-level pneumonia detection on chest x-rays with deep learning", arXiv preprint arXiv:1711.05225, 2017. [13] Rezende, Danilo Jimenez, "One-shot generalization in deep generative models." arXiv preprint arXiv:1603.05106, 2016. [14] Salehinejad, Hojjat, "Generalization of deep neural networks for chest pathology classification in x-rays using generative adversarial networks", 2018 IEEE International Conference on Acoustics, Speech and Signal Processing (ICASSP). IEEE, 2018. [15] Simonyan, Karen, Andrew Zisserman, "Very deep convolutional networks for large-scale image recognition", arXiv preprint arXiv:1409.1556, 2014. [16] Wang, H., Y. Xia, "Chestnet: A deep neural network for classification of thoracic diseases on chest radiography. arXiv 2018", arXiv preprint arXiv:1807.03058. [17] Wang, Xiaosong, "Chestx-ray8: Hospital-scale chest x-ray database and benchmarks on weakly-supervised classification and localization of common thorax diseases", Proceedings of the IEEE conference on computer vision and pattern recognition, 2017. [18] Wen, Yandong, "A discriminative feature learning approach for deep face recognition", European conference on computer vision. Springer, Cham, 2016. IMAGING DATA AUGMENTATION FOR THORACIC X-RAY DATASETS USING GENERATIVE ADVERSARIAL NETWORKS Tran Hoang Phat, Pham Manh Cuong, Tran Dinh Toan, Hoang Tung, Le Minh Hung ABSTRACT: Data augmentation to improve classification model performance in the case of some classes with very few samples is a challenge in image classification problems, especially in the medical field for some rare conditions or mutated. Using Generative Adversarial Networks (GANs) to augment data in this scenario often fails to perform well in the minority layers. Considering the thoracic X-ray image classification problem, we built a feature-based X-ray GAN (FX-GAN) model to synthesize X- ray image data with a learning approach from feature distribution. Models learn to use features provided to create new images with similar features. In which, a feature extracted from a trained metric model can extract distinguishing features between classes. When the measure model generalizes the unobserved classes, our model can generate data for those classes without doing fine tuning. Experiment with FX-GAN on chest X-ray datasets and assessed data augmentation for minority classes outside the observation set based on a few available data samples, and improved performance of clinical classification model using chest X-ray images.