KHOA CÔNG NGHỆ THÔNG TIN
BÁO CÁO NGHIÊN CỨU KHOA HỌC
ĐỀ TÀI:
XỬ LÝ ẢNH X – QUANG PHỔI SỬ DỤNG MẠNG NƠ –RON
Giảng viên hướng dẫn: ThS. Đặng Văn Thành Nhân
Sinh viên thực hiện:
- Trần Văn Đan Trường MSSV 91011801418
- Võ Phước Sang MSSV 81011801421
TP. Hồ Chí Minh, 2021
MỤC LỤC
MỞ ĐẦU ........................................................................................................... 1
Chương 1. TỔNG QUAN VỀ ĐỀ TÀI ............................................................ 2
1.1. Phát biểu bài toán ........................................................................................ 2
1.2. Tính cấp thiết ............................................................................................... 3
1.3. Tổng quan về xử lý ảnh trong y khoa ........................................................... 3
Chương 2. MẠNG NƠ-RON NHÂN TẠO .................................................... 10
2.1. Giới thiệu chung ........................................................................................ 10
2.1.1. Thế nào là mạng nơ-ron sinh học .................................................... 10
2.1.2. Thế nào là mạng nơ-ron nhân tạo .................................................... 11
2.1.3. Lịch sử phát triển mạng nơ-ron nhân tạo ......................................... 14
2.2. Xử lý ảnh y khoa ứng dụng mạng nơ-ron................................................... 18
2.3. Mạng nơ-ron truyền thẳng ......................................................................... 20
2.3.1. Khái niệm ....................................................................................... 20
2.3.2. Thuật toán lan truyền ngược ........................................................... 21
Chương 3. KỸ THUẬT ĐA PHÂN GIẢI ............................................... 25
3.1. Khái niệm về kỹ thuật đa phân giải ............................................................ 25
3.2. Phân tích đa phân giải xử dụng phép biến đổi Pyramid .............................. 25
Chương 4. GIẢM ĐỘ CHE XƯƠNG TRONG ẢNH X-QUANG ..... 28
4.1. Tách vùng phổi tự động ............................................................................. 28
4.2. Xác định khung xương sử dụng máy học ................................................... 30
4.3. Giảm độ che của xương sử dụng ạng nơ-ron .............................................. 34
Chương 5. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ .................. 38
5.1. Thực nghiệm ............................................................................................. 38
5.2. Đánh giá kết quả ........................................................................................ 46
KẾT LUẬN VÀ KHUYẾN NGHỊ ................................................................. 48
1. Kết luận ........................................................................................................ 48
2. Khuyến nghị ................................................................................................. 48
TÀI LIỆU THAM KHẢO ......................................................................... 49
TÓM TẮT ĐỀ TÀI
Kỹ thuật sử dụng mạng nơ-ron huấn luyện để tạo ra ảnh xương tương ứng
thay vì kỹ thuật cũ phải chụp ảnh X-quang cường độ cao gây ảnh hưởng đến sức
khỏe, sau đó sẽ thực hiện việc loại bỏ xương sườn từ ảnh xương tương ứng giúp
cho các hạch bệnh bị chồng lấn bởi xương dễ dàng nhận thấy hơn.
DANH MỤC KÍ HIỆU
STT Từ viết tắt Tên đầy đủ
1 ANN Artificial neural network: mạng nơ-ron nhân tạo
Computer-aided diagnosis: chẩn đoán với sự trợ giúp 2 CAD máy tính
Linear discriminant analysis: phân tích biệt thức tuyến 3 LDA tính
Massive training artifical neural network: huấn luyện 4 MTANN lớn mạng nơ-ron nhân tạo
5 NN Neural network: mạng nơ-ron
Picture archiving and communication systems: lưu trữ 6 PACS hình ảnh và hệ thống thông tin
Radiological Society of North America: hiệp hội 7 RSNA phóng xạ khu vực Bắc Mỹ
DANH MỤC BẢNG
Bảng 1.1. Số lượng các bài CAD liên quan đến 7 bộ phận cơ thể khác nhau ....... 4
Bảng 2.1. Các hàm kích hoạt ............................................................................. 13
Bảng 2.2. Các mạng nơ-ron chính được sử dụng trong ảnh y tế ......................... 18
Bảng 2.3. Các mạng nơ-ron tiêu biểu được sử dụng cho tiền xử lý ảnh y tế ....... 19
Bảng 5.1. Mô hình huấn luyện MTANN ........................................................... 42
Bảng 5.2. Lỗi trung bình huấn luyện của các MTANN ...................................... 44
DANH MỤC HÌNH
Hình 1.1. Ảnh X-quang phối chụp ngang và trước-sau ....................................... 6
Hình 1.2. Ảnh X-quang ngực bên ....................................................................... 6
Hình 1.3. Ảnh MRA nội sọ................................................................................. 7
Hình 1.4. Ảnh quét xương toàn thân liên tiếp ..................................................... 8
Hình 2.1. Sơ đồ đơn giản của hai tế bào thần kinh sinh học .............................. 11
Hình 2.2. Mô hình nơ-ron cơ bản ..................................................................... 12
Hình 2.3. Mạng nơ-ron truyền thẳng nhiều lớp ................................................. 21
Hình 2.4. Mô hình mạng nơ-ron truyền thẳng 3 lớp. ......................................... 22
Hình 3.1. Minh họa kỹ thuật đa phân giải - phân rã .......................................... 26
Hình 3.2. Minh họa kỹ thuật đa phân giải - hợp thành ...................................... 27
Hình 4.1. Kiến trúc huấn luyện của một MTANN ............................................ 31
Hình 4.2. Minh họa kiến trúc và huấn luyện của một MTANN. ....................... 36
Hình 5.1. Các chức năng đa phân giải............................................................... 38
Hình 5.2. Các chức năng điểm đặc trưng .......................................................... 39
Hình 5.3. Các chức năng huấn luyện MTANN ................................................. 39
Hình 5.4. Các chức năng tạo ảnh xương ........................................................... 40
Hình 5.5. Các chức năng loại bỏ xương ............................................................ 40
Hình 5.6. Ảnh phục vụ huấn luyện ................................................................... 41
Hình 5.7. Ảnh phục vụ huấn luyện ................................................................... 42
Hình 5.8 Ảnh huấn luyện HighPass cấp 1 của ảnh phổi và ảnh xương tương ứng
......................................................................................................................... 43
Hình 5.9. Ảnh huấn luyện HighPass cấp 2 của ảnh phổi và ảnh xương tương ứng
......................................................................................................................... 43
Hình 5.10. Ảnh huấn luyện LowPass cấp 2 của ảnh phổi và ảnh xương tương ứng
......................................................................................................................... 44
Hình 5.11. Ảnh kết quả huấn luyện .................................................................. 45
Hình 5.12. Ảnh kết quả sau khi thực hiện làm giảm độ che xương sườn ........... 46
1
MỞ ĐẦU
Ngày nay, bệnh ung thư phổi là một căn bệnh vô cùng nguy hiểm, số người
mắc bệnh ngày càng trẻ hóa và là một trong các bệnh có tỉ lệ tử vong cao nhất.
Một trong các tiếp cận khá phổ biến hiện nay để giúp phát hiện và chẩn đoán
sớm bệnh ung thư phổi là dựa vào X-quang. Chụp X-quang thường cho kết quả
nhanh với chi phí thấp so với các kỹ thuật khác như CT hay MRI. Tuy nhiên, vùng
phổi trong ảnh chụp X-quang bị che khuất bởi xương sường và xương đòn. Từ đó
ảnh hưởng đến kết quả phát hiện và chẩn đoán các hạch bệnh phổi.
Tác giả trình bài một phương pháp làm giảm độ che xương sườn và xương
đòn trong ảnh X-quang phổi giúp cách hạch bệnh bị chồng lấn dễ nhận biết hơn.
Thay vì sử dụng kỹ thuật chụp Dual-energy (cường độ cao) gây ảnh hưởng xấu
tới sức khỏe, ảnh “giống xương” sẽ được tạo ra từ ảnh X-quang phổi thông qua
việc sử dụng mạng nơ-ron truyền thẳng đã được huấn luyện. Điều này sẽ tốt cho
sức khỏe và giảm chi phí người bệnh.
2
Chương 1. TỔNG QUAN VỀ ĐỀ TÀI
Tổng quan về ý nghĩa và tính cấp thiết của việc xử lý ảnh áp dụng trong y
khoa.
1.1. Phát biểu bài toán
Hiện nay, ung thư phổi là một trong những bệnh ung thư phổ biến nhất trên
thế giới và là loại ung thư chiếm tỷ lệ cao trong các bệnh ung thư ở nước ta, với
số lượng bệnh nhân tăng lên rất nhanh và ngày càng trẻ hóa trong những năm gần
đây. Bệnh gây ra các biến chứng nguy hiểm và có thể dẫn đến tử vong. Vì vậy,
việc phát hiện sớm đóng vai trò quan trọng trong công tác chữa trị.
Một trong những biện pháp để phát hiện bệnh sớm là dựa vào ảnh X-quang
phổi, vì X-quang phổi cho kết quả nhanh với chi phí thấp. Để nâng cao hiệu quả
cho quá trình chẩn đoán của bác sĩ, một số chương trình CAD (Computer-aided
diagnosis) đã được phát triển.
Một thách thức lớn trong chương trình CAD hiện nay để nhận diện hạch trên
X-quang phổi là phát hiện các hạch chồng chéo với các xương sườn, giao cắt giữa
xương sườn và xương đòn, vì đa số các trường hợp bị bỏ sót gây ra bởi những cấu
trúc này, làm ảnh hưởng đến hiệu quả của chương trình CAD, gây khó khăn cho
việc phát hiện bệnh. Do đó, việc làm giảm độ che của xương sườn và xương đòn
trên X-quang phổi sẽ giúp ích cho việc cải thiện độ chính xác để nhận diện hạch
trong hệ thống CAD.
Một cách tiếp cận làm giảm độ che xương sườn sử dụng kỹ thuật Dual-
energy. Bằng cách thực hiện chụp ảnh 2 lần, ảnh thứ nhất là ảnh chụp phổi bình
thường, ảnh thứ 2 là ảnh chụp phổi với cường độ cao chỉ thấy xương. Tuy nhiên
kỹ thuật này sẽ gây ảnh hưởng đến sức khỏe người bệnh.
3
Mục đích của tác giả trong nghiên cứu này là để phát triển một kỹ thuật xử
lý ảnh làm giảm độ che của xương sườn trên X-quang phổi bằng cách tiếp cận máy
học. Cách tiếp cận này khắc phục được các nhược điểm của kỹ thuật Dual-energy,
giúp giảm chi phí và giảm ảnh hưởng đến sức khỏe của người bệnh.
1.2. Tính cấp thiết
Mỗi năm, hơn 9 triệu người trên thế giới chết vì các bệnh liên quan đến phổi,
trong đó ung thư phổi gây tử vong 945.000 người, và là nguyên nhân hàng đầu
gây tử vong ung thư trên thế [6, tr.1269–1276]. Để có những giải pháp điều trị
thuận lợi và kịp thời, việc phát hiện sớm ung thư phổi đóng vai trò hết sức quan
trọng. Một trong những phương pháp để phát hiện sớm ung thư phổi hiện nay là
sử dụng kỹ thuật X-quang vì nó cho kết quả nhanh với chi phí thấp (so với chụp
CT hoặc MRI).
Tuy nhiên, việc chẩn đoán dựa trên ảnh X-quang còn nhiều hạn chế. Một số
báo cáo chỉ ra rằng có từ 12% - 90% các trường hợp trong đó hạch phổi rất khó
được phát hiện thậm chí là bỏ sót [36 , tr.994-999].
1.3. Tổng quan về xử lý ảnh trong y khoa
Ảnh y tế là kỹ thuật và quá trình tạo ảnh đại diện của các cấu trúc bên trong
cơ thể để phân tích lâm sàng và can thiệp y tế, cũng như đại diện trực quan các
chức năng của một số cơ quan hoặc mô (sinh lý). Ảnh y tế tìm cách tiết lộ cấu trúc
bên trong ẩn bởi da và xương, cũng như để chẩn đoán và điều trị bệnh. Ảnh y tế
cũng thiết lập một cơ sở dữ liệu về giải phẫu học và sinh lý học bình thường từ đó
có thể để xác định những bất thường [35].
Hầu hết các hình ảnh y tế có chất lượng kém và bị nhiễu dẫn đến tỷ lệ tín hiệu
kém so với những ảnh chụp bởi một máy ảnh kỹ thuật số, dẫn đến độ phân giải
không gian kỳ vọng thấp hơn và làm cho sự tương phản giữa các cấu trúc giải phẫu
4
khác biệt quá thấp để tin cậy. Ví dụ, trong trường hợp của ảnh siêu âm, các đốm
nhiễu, gây ra bởi sự tán xạ của chùm tia siêu âm từ mô nhỏ đồng nhất, có xu hướng
che khuất sự hiện diện của các tổn thương có độ tương phản thấp và làm giảm khả
năng nhận biết tổn thương đó bởi người quan sát đọc kết quả [18, tr.659-675]. Vì
những lý do này, các kỹ thuật tiền xử lý ảnh được sử dụng để làm giảm nhiễu và
làm mờ ảnh y tế là không thể thiếu. Việc thay đổi nội dung hình ảnh phải được
thực hiện một cách có kiểm soát cao và đáng tin cậy mà không làm ảnh hưởng đến
quyết định lâm sàng. Để hạn chế vấn đề này, một số tiếp cận CAD để phát hiện
hạch trên ảnh X-quang phổi đã được đầu tư nghiên cứu.
CAD là một kỹ thuật liên ngành kết hợp yếu tố của trí thông minh nhân tạo
và thị giác máy tính trong xử lý ảnh X-quang. Một ứng dụng điển hình là phát hiện
khối u. Ví dụ, một số bệnh viện sử dụng CAD để hỗ trợ phòng ngừa, kiểm tra sức
khỏe trong ảnh nhũ (mammography) chẩn đoán ung thư nhũ, phát hiện khối u ở
đại tràng và ung thư phổi [36].
Số lượng các bài báo liên quan đến nghiên cứu CAD trình bày tại cuộc họp
RSNA (Radiological Society of North America) từ năm 2000 - 2005 được liệt kê
trong Bảng 1.1 Đa số các bài đã được thuyết trình quan tâm với ba cơ quan - ngực,
nhũ và ruột kết. Bên cạnh đó, các cơ quan khác như não, gan, và hệ thống xương
và mạch máu cũng là những đối tượng chịu nghiên cứu CAD
Bảng 1.1. Số lượng các bài CAD liên quan đến 7 bộ phận cơ thể khác nhau
Năm 2000 2001 2002 2003 2004 2005
Ngực 22 37 53 94 70 48
Nhũ 23 28 32 37 48 49
Phổi 4 10 21 17 15 30
5
4 - 2 10 9 15 Não
- 3 5 9 9 9 Gan3
7 2 7 9 8 5 Xương
- 5 2 7 Các mạch máu 12 15
59 86 134 191 161 163 Tổng
Một số lượng lớn các kiểm tra cho kết quả bình thường, và phát hiện chỉ có
một số nhỏ các tổn thương nghi ngờ của bác sĩ X-quang được cân nhắc là rất khó
và tốn thời gian. Do đó, dường như giai đoạn đầu của CAD là thiết thực và hợp lý
trong các tình huống lâm sàng với một loạt các nghiên cứu điển hình. Phát hiện
hạch trên ảnh X-quang phổi: hình 1.1 minh họa của một hạch phổi tương đối lớn,
nhưng rất khó nhận thấy (vòng tròn chấm) nằm trong khu vực trung thất bên phải
được đánh dấu một cách chính xác bởi CAD (hình tam giác) ở mặt bên, nhưng đã
không được đánh dấu bởi CAD đối với ảnh trước sau.
- Phát hiện gãy xương cột sống trên X-quang ngực ngang: hình 1.2 minh hoạ
phát hiện chính xác (đầu mũi tên) của máy tính phát hiện một đốt sống bị gãy
(vòng tròn chấm) dưới cơ hoành trên X-quang ngực ngang, có thể được sử dụng
như là một ý kiến thứ hai. Như vậy, tính chính xác phát hiện gãy xương cột sống
của bác sĩ X-quang có thể được cải thiện cũng như trong việc chẩn đoán sớm bệnh
loãng xương.
6
Hình 1.1. Ảnh X-quang phối chụp ngang và trước-sau
Hình 1.2. Ảnh X-quang ngực bên
7
- Phát hiện của chứng phình động mạch nội sọ ở MRA: hình 1.3 minh họa
ảnh 3D MRA đẳng hướng trong hình 1.3(a) đã được xử lý bằng cách sử dụng
multi-scale enhancement filter có chọn lọc để phát hiện chứng phình mạch nội sọ
(vòng tròn chấm), như minh họa trong hình ảnh chấm tăng cường trong hình 1.3
(b).
- Phát hiện những thay đổi trong khoảng thời gian quét xương toàn thân liên
tiếp: hình 1.4 minh hoạ hình ảnh trừ tạm thời thu được từ các hình ảnh quét xương
trước đây và hiện tại. Một tổn thương lạnh (chấm tròn trắng) và hai tổn thương
nóng (chấm tròn đen) trên hình ảnh trừ đã được đánh dấu một cách chính xác bởi
máy tính.
Hình 1.3. Ảnh MRA nội sọ
8
Hình 1.4. Ảnh quét xương toàn thân liên tiếp
Vì vậy, chẩn đoán bằng máy tính - CAD đã trở thành một phần trong việc
chẩn đoán lâm sàng để phát hiện những tổn thương tiềm năng từ ảnh y khoa, cũng
như khả năng ứng dụng cho nhiều loại khác nhau của các thương tổn thu được với
các phương thức khác nhau. CAD là một khái niệm dựa trên vai trò độc lập của
9
bác sĩ và máy tính, và do đó khác biệt từ chẩn đoán máy tính tự động. Trong tương
lai, khả năng là chương trình CAD sẽ được tích hợp vào PACS (Picture archiving
and communication systems), và sẽ được tích hợp như một gói để phát hiện các
tổn thương và cũng cho chẩn đoán phân biệt. CAD sẽ được sử dụng như một công
cụ hữu ích trong việc kiểm tra chẩn đoán lâm sàng hàng ngày.
10
Chương 2. MẠNG NƠ-RON NHÂN TẠO
Giới thiệu về mạng nơ-ron sinh học và mạng nơ-ron nhân tạo, lịch sử phát
triển của mạng nơ-ron nhân tạo. Tổng quan về xử lý ảnh sử dụng mạng nơ-ron.
Giới thiệu về mô hình mạng nơ-ron truyền thẳng và thuật toán lan truyền ngược
trong huấn luyện.
2.1. Giới thiệu chung
2.1.1. Thế nào là mạng nơ-ron sinh học
Mạng nơ-ron nhân tạo đã và đang được ứng dụng rất phổ biến trong nhiều
lĩnh vực khác nhau với nhiều kiến trúc mạng đã và đang được nghiên cứu, phát
triển dựa trên cấu tạo và cách hoạt động não bộ của con người.
Não người bao gồm một số lượng lớn (khoảng 1011) các phần tử kết nối với
nhau (khoảng 104 kết nối cho mỗi phần tử) được gọi là tế bào thần kinh. Cấu tạo
của các tế bào thần kinh có ba thành phần chính: nhánh, thân tế bào và sợi thần
kinh. Hình 2.1. mô tả sơ đồ đơn giản của hai tế bào thần kinh sinh học [26, tr.1-8].
Các nhánh là các mạng lưới tiếp nhận giống như các sợi thần kinh truyền tín hiệu
điện vào thân tế bào. Các sợi thần kinh là một sợi đơn dài mang tín hiệu từ thân tế
bào ra tế bào thần kinh khác. Các điểm tiếp xúc giữa sợi trục của một tế bào và
một nhánh của một tế bào được gọi là một khớp thần kinh. Nó là sự sắp xếp của
các tế bào thần kinh và sức mạnh của các khớp thần kinh được xác định bởi một
quá trình hóa học phức tạp, thiết lập các chức năng của mạng lưới thần kinh [26,
tr.1-8].
Một số cấu trúc thần kinh được xác định khi chúng ta được sanh ra. Các bộ
phận khác được phát triển thông qua học tập, như các kết nối mới được tạo ra và
những kết nối cũ mất đi. Sự phát triển này là nổi bật nhất trong giai đoạn đầu của
cuộc đời.
11
Hình 2.1. Sơ đồ đơn giản của hai tế bào thần kinh sinh học
Cấu trúc thần kinh tiếp tục thay đổi trong suốt cuộc đời. Những thay đổi sau
đó có khuynh hướng chủ yếu bao gồm tăng cường hoặc suy yếu của các mối nối
khớp thần kinh. Ví dụ, người ta tin rằng những ký ức mới được hình thành bằng
sự thay đổi sức mạnh của khớp thần kinh. Ví dụ, quá trình học tập khuôn mặt của
một người bạn mới bao gồm thay đổi các khớp thần kinh khác nhau.
Các nhà khoa học chỉ mới bắt đầu hiểu cách hoạt động của mạng nơ-ron sinh
học. Nó thường được hiểu rằng tất cả các chức năng thần kinh sinh học, bao gồm
trí nhớ, được lưu trữ trong các tế bào thần kinh (nơ-ron) và trong các kết nối giữ
chúng. Quá trình học tập được xem như thành lập các kết nối mới giữa các tế bào
thần kinh hoặc sửa đổi các liên kết hiện tại.
2.1.2. Thế nào là mạng nơ-ron nhân tạo
Các tế bào thần kinh mà chúng ta nhắc đến ở đây không phải là sinh học. Nó
là những khái niệm trừu tượng vô cùng đơn giản của tế bào thần kinh sinh học,
thực hiện như các phần của một chương trình hoặc như một mạch điện làm bằng
12
silicon. Mạng nơ-ron nhân tạo sẽ không có được sức mạnh của bộ não con người,
nhưng chúng có thể được huấn luyện để thực hiện các chức năng hữu ích.
Mạng nơ-ron nhân tạo không tiếp cận sự phức tạp của bộ não. Tuy nhiên, có
hai điểm tương đồng chính giữa mạng nơ-ron sinh học và nhân tạo. Đầu tiên, các
khối xây dựng của cả hai mạng là những thiết bị tính toán đơn giản (mặc dù tế bào
thần kinh nhân tạo là đơn giản hơn nhiều so với tế bào thần kinh sinh học) kết nối
với nhau. Thứ hai, sự kết nối giữa các tế bào thần kinh xác định chức năng của
mạng.
Điều đáng chú ý là mặc dù tế bào thần kinh sinh học là rất chậm so với các
mạch điện (10-3 s so với 10-10 s), não bộ có thể thực hiện nhiều nhiệm vụ nhanh
hơn nhiều so với bất kỳ máy tính thông thường. Vì một phần cấu trúc ồ ạt song
song của mạng nơ-ron, tất cả các tế bào thần kinh đang hoạt động cùng một lúc.
Mạng nơ-ron nhân tạo chia sẻ cấu trúc song song này [26, tr.1-9].
Hình 2.2. Mô hình nơ-ron cơ bản
Hình 2.2 mô tả mô hình nơ-ron nhân tạo cơ bản với 1 dữ liệu đầu vào p và 1
nơ-ron đầu ra. Trong đó, đầu vào p nhân với trọng số w thành wp. Một đầu vào
khác là 1, nhân với bias b. Sau đó wp và b được chuyển vào hàm tổng có giá trị là
13
n. Hàm tổng n thường được gọi là mạng đầu vào (net input), thông qua hàm chuyển
f (hay còn gọi là hàm kích hoạt), tạo ra nơ-ron đầu ra a.
Nếu chúng ta liên hệ mô hình đơn giản này với nơ-ron sinh học mà ta đã thảo
luận, trọng lượng w tương ứng với sức mạnh của một khớp thần kinh, các thân tế
bào được đại diện bởi mạng đầu vào n và hàm kích hoạt f, đầu ra a là đại diện cho
các tín hiệu trên sợi thần kinh.
Đầu ra thực tế sẽ phụ thuộc vào hàm kích hoạt được chọn.
Bias giống như một trọng số, ngoại trừ việc nó có một đầu vào không đổi là
1.
Lưu ý rằng w và b là hai tham số vô hướng có thể điều chỉnh của nơ-ron.
Thông thường các hàm kích hoạt được lựa chọn bởi các nhà thiết kế sau đó các
trọng số w và b sẽ được điều chỉnh bởi một số nguyên tắc huấn luyện sao cho mối
liên hệ giữa nơ-ron đáp ứng một số mục tiêu cụ thể. Chúng ta có các hàm kích
hoạt khác nhau cho các mục đích khác nhau. Bảng 2.1 mô tả một số hàm kích hoạt
được sử dụng [26, tr.2-6].
Bảng 2.1. Các hàm kích hoạt
Tên hàm Quan hệ đầu vào/đầu ra Mô hình
a = 0 n < 0 Hard Limit a = 1 n ≥ 0
a = -1 n < 0 Symmetrical Hard Limit a = +1 n ≥ 0
Linear a = n
a = 0 n < 0 Saturating Linear a = n 0 ≤ n ≤ 1
14
a = 1 n > 1
a = -1 n < -1
Symmetric Saturating Linear a = n -1 ≤ n ≤ 1
a = 1 n > 1
Log-Sigmoid 𝑎 =
Hyperbolic Tangent Sigmoid 𝑎 =
1 1 + 𝑒−𝑛 𝑒𝑛 − 𝑒−𝑛 𝑒𝑛 + 𝑒−𝑛 a = 0 n < 0 Positive Linear a = n 0 ≤ n
a = 1 nơ-ron với tối đa n Competitive a = 0 tất cả các nơ-ron khác
2.1.3. Lịch sử phát triển mạng nơ-ron nhân tạo
Lịch sử phát triển mạng nơ-ron nhân tạo rất phong phú và nhiều màu sắc, cá
nhân sáng tạo từ nhiều lĩnh vực, nhiều người trong số họ phải vật lộn trong nhiều
thập kỷ để phát triển các khái niệm mà bây giờ chúng ta xem là hiển nhiên. Lịch
sử này đã được ghi nhận bởi các tác giả khác nhau.
Ít nhất hai thành phần xem là cần thiết cho sự tiến bộ của công nghệ: khái
niệm và hiện thực. Đầu tiên, người ta phải có một khái niệm, cách suy nghĩ về một
vấn đề, một số quan điểm của nó mang lại sự sáng tỏ mà thực tế chưa tồn tại. Điều
này có thể liên quan đến một ý tưởng đơn giản, hoặc nó có thể được cụ thể hơn
bao gồm một mô tả toán học. Để minh họa, chúng ta hãy xem xét lịch sử nghiên
cứu của trái tim con người. Vào những thời kỳ khác nhau, nó được xem là trung
tâm của linh hồn. Trong thế kỷ 17, các học viên y tế cuối cùng đã bắt đầu xem trái
tim như một máy bơm, và họ thiết kế các thí nghiệm để nghiên cứu hoạt động bơm
15
của nó. Những thí nghiệm này đã tạo nên một cuộc cách mạng trong hiểu biết của
chúng ta về hệ thống tuần hoàn. Nếu không có các khái niệm máy bơm, sự hiểu
biết về trái tim của con người đã không thể vượt ngoài hiểu biết hiện tại.
Một số nghiên cứu đầu tiên trong lĩnh vực mạng nơ-ron nhân tạo bắt đầu vào
những năm cuối thế kỷ 19, đầu thế kỷ 20. Bao gồm các nghiên cứu liên ngành về
vật lý, tâm lý học và thần kinh học của các nhà khoa học như Hermann von
Helmholtz, Ernst Mach và Ivan Pavlov. Các nghiên cứu này nhấn mạnh lý thuyết
chung về việc học, thị giác, điều hòa, … không bao gồm mô hình toán học cụ thể
của hoạt động tế bào thần kinh.
Quan điểm hiện đại của mạng nơ-ron bắt đầu vào những năm 1940 với các
nghiên cứu của Warren McCulloch and Walter Pitts, ông cho thấy rằng các mạng
nơ-ron nhân tạo về nguyên tắc có thể tính toán bất kỳ phép tính số học hoặc hàm
logic. Các nghiên cứu của họ thường được công nhận là nguồn gốc của mạng nơ-
ron.
Các ứng dụng thực tế đầu tiên của mạng nơ-ron nhân tạo đến cuối những năm
1950, với sự phát minh của mạng perceptron và quy tắc học liên quan bởi Frank
Rosenblatt [10, tr.386-408] Rosenblatt và đồng nghiệp của ông đã xây dựng một
mạng perceptron và chứng tỏ khả năng của nó thực hiện nhận dạng mẫu. thành
công ban đầu này đã tạo ra rất nhiều sự quan tâm trong nghiên cứu mạng nơ-ron.
Tuy nhiên sau đó, nó được chỉ ra rằng các mạng perceptron cơ bản có thể giải
quyết những vấn đề hạn chế chỉ có một lớp.
Tại cùng một thời điểm, Bernard Widrow và Ted Hoff giới thiệu một thuật
toán học mới và sử dụng nó để huấn luyện mạng nơ-ron tuyến tính thích nghi,
tương tự như trong cấu trúc và khả năng perceptron của Rosenblatt. Các quy tắc
học Widrow-Hoff vẫn đang được sử dụng ngày nay.
16
Thật không may, cả hai mạng của Widrow của Rosenblatt bị hạn chế vốn có
như nhau, đã được công bố rộng rãi trong một cuốn sách của Marvin Minsky và
Seymour Papert [25]. Rosenblatt và Widrow đã nhận thức được những hạn chế và
đề xuất các mạng mới sẽ vượt qua chúng. Tuy nhiên, họ đã không thể thay đổi
thành công trong thuật toán học của họ để đào tạo các mạng phức tạp hơn.
Nhiều người, chịu ảnh hưởng của Minsky và Papert, tin rằng nghiên cứu thêm
về mạng nơ-ron là bế tắc. Điều này, kết hợp với thực tế rằng không có máy tính
kỹ thuật số mạnh mẽ dựa vào đó để thử nghiệm, khiến nhiều nhà nghiên cứu phải
bỏ cuộc. Suốt một thập kỷ, nghiên cứu mạng nơron phần lớn đã bị treo lửng.
Tuy nhiên, một số nghiên cứu quan trọng đã tiếp tục trong những năm 1970.
Năm 1972 Teuvo Kohonen [32, tr.353-359] và James Anderson [16, tr.197-220]
phát triển mạng nơ-ron mới có thể hoạt động như những ký ức. Stephen Grossberg
cũng đã rất tích cực trong giai đoạn này trong việc nghiên cứu các mạng tự tổ
chức.
Việc nghiên cứu đã bị chùn bước trong thời gian cuối năm 1960 vì thiếu các
ý tưởng mới và máy tính mạnh để thử nghiệm. Trong những năm 1980 cả hai trở
ngại được khắc phục, và những nghiên cứu về mạng nơ-ron nhân tạo tăng lên đáng
kể. Máy tính cá nhân được phổ biến rộng rãi. Ngoài ra, các khái niệm quan trọng
mới được giới thiệu.
Hai khái niệm mới là nguyên nhân chính cho sự tái sinh của mạng nơ-ron.
Thứ nhất là việc sử dụng của thống kê cơ học để giải thích sự hoạt động của một
lớp nhất định của mạng tái phát, có thể được sử dụng như một bộ nhớ liên kết.
Điều này đã được mô tả trong một bài báo chuyên đề của nhà vật lý John Hopfield
[17, tr.2554-2558].
17
Sự phát triển quan trọng thứ hai vào năm 1980 là thuật toán lan truyền ngược
cho các mạng perceptron huấn luyện nhiều lớp, được phát hiện độc lập bởi các
nhà nghiên cứu khác nhau. Các ấn phẩm có ảnh hưởng nhất của thuật toán lan
truyền ngược là David Rumelhart và James McClelland [7]. Thuật toán này là câu
trả lời cho những chỉ trích Minsky và Papert đã thực hiện trong năm 1960.
Những phát triển mới hồi sinh các lĩnh vực của mạng nơ-ron. Từ những năm
1980, hàng ngàn bài báo đã được viết, mạng nơ-ron đã phát hiện ra vô số các ứng
dụng, và các lĩnh vực với công trình lý thuyết và thực tiễn mới.
Một bài báo mô tả việc sử dụng các mạng nơ-ron trong nghiên cứu văn học
của Đại học Aston. Nó nói rằng "mạng có thể được huấn luyện để nhận ra phong
cách viết cá nhân, và các nhà nghiên cứu đã sử dụng nó để so sánh tác phẩm do
Shakespeare và tác giả cùng thời với ông". Một chương trình truyền hình khoa học
phổ biến tài liệu sử dụng các mạng nơ-ron của một viện nghiên cứu Ý để kiểm tra
độ tinh khiết của dầu ô liu. Google sử dụng mạng nơ-ron cho việc gắn thẻ ảnh (tự
động xác định một hình ảnh và gán từ khóa), và Microsoft đã phát triển mạng lưới
nơ-ron có thể giúp chuyển đổi các bài phát biểu nói tiếng Anh thành nói ngôn ngữ
Trung Quốc. Các nhà nghiên cứu tại Đại học Lund và Bệnh viện Đại học Skane ở
Thụy Điển đã sử dụng mạng nơ-ron để cải thiện tỷ lệ sống sót lâu dài cho người
nhận ghép tim bằng cách xác định người nhận và các người hiến tặng tối ưu.
Những ví dụ này là đại diện của hàng loạt các ứng dụng có thể được tìm thấy bởi
mạng nơ-ron. Các ứng dụng được mở rộng vì mạng nơ-ron được xem là tốt để giải
quyết vấn đề, không chỉ trong kỹ thuật, khoa học và toán học, cũng như trong y
học, kinh doanh, tài chính và văn học. Ứng dụng cho một loạt các vấn đề trong
nhiều lĩnh vực làm cho chúng rất hấp dẫn. Ngoài ra, máy tính nhanh hơn và tối ưu
18
các thuật toán đã làm cho nó có thể sử dụng mạng nơ-ron để giải quyết vấn đề
công nghiệp phức tạp mà trước đây cần quá nhiều tính toán.
2.2. Xử lý ảnh y khoa ứng dụng mạng nơ-ron
Với việc ảnh y tế đóng một vai trò ngày càng nổi bật trong chẩn đoán bệnh,
lợi ích trong xử lý ảnh y tế đã tăng đáng kể trong những thập kỷ qua [24, tr.198-
211]. Đặc biệt là phương pháp dựa trên các ANN (Artificial neural network) đã
thu hút sự chú ý nhiều hơn. Năm 1992, một cuộc khảo sát toàn diện về NN (Neural
network) trong xử lý hình ảnh đã được xuất bản bởi Miller [27]. Trong bài báo của
mình, Miller dự đoán rằng các ANN sẽ được sử dụng rộng rãi trong xử lý ảnh y tế
và điều này đã trở thành sự thật. Trong những năm gần đây, các kỹ thuật xử lý
hình ảnh giữ một vai trò quan trọng trong việc phân tích các hình ảnh y tế với loạt
các phương pháp.
Mạng nơ-ron được biết đến với hiệu suất cao trong việc phân loại và hàm xấp
xỉ, đã được sử dụng thành công trong xử lý ảnh y tế trong những năm qua, đặc biệt
là trong trường hợp của tiền xử lý, phân đoạn, và nhận dạng. Bảng 2.2 [34] đưa ra
một cái nhìn tổng quan về các loại chính của mạng nơ-ron được sử dụng trong lĩnh
vực này.
Bảng 2.2. Các mạng nơ-ron chính được sử dụng trong ảnh y tế
Tiền xử lý Phân đoạn Nhận dạng
Feed forward NN √ √ √
Radial basis function NN - - √
Hopfield NN √ √ √
Self organizing feature NN √ √
19
Adaptive resonance theory - - √ NN
Cellylar NN √ - -
Convolution NN - - √
Probabilistic NN - √ √
Fuzzy NN √ √ √
Neural ensemble √ √
Massive training NN √ - √
Hình ảnh tiền xử lý với các mạng nơ-ron thường rơi vào một trong hai loại
sau: cải tạo hình ảnh và khôi phục hình ảnh (bao gồm giảm nhiễu và tăng cường).
Các mạng nơ-ron được sử dụng cho hai hoạt động xử lý ảnh y tế được tóm tắt
trong bảng 2.3 [34, tr.89].
Bảng 2.3. Các mạng nơ-ron tiêu biểu được sử dụng cho tiền xử lý ảnh y tế
Tái tạo ảnh Phục hồi ảnh Mạng nơ-ron
Hopfield NN √ √
Feed forward NN √ √
Self organizing feature NN √ -
Fuzzy NN - √
Cellylar NN - √
Trong đó, mạng nơ-ron truyền thẳng (Feed forward NN) [9, tr.1049-1058] -
[3 , tr. 2940-2943] và mạng nơron tự tổ chức Kohonen [5, tr. 783-789] – [4, tr.
594-600] có lợi thế hơn để xây dựng lại hình ảnh y tế so với các kỹ thuật khác do
nó có thể tính toán một xấp xỉ tuyến tính của vấn đề nghịch đảo trực tiếp từ mô
phỏng phần tử hữu hạn của bài toán chuyển tiếp.
20
Bên cạnh đó, mô hình mạng nơ-ron truyền thẳng cũng được sử dụng nhiều
trong phân đoạn ảnh y tế [8, tr. 1892-1895] [1, tr. 241-250] [33, tr. 822-825]. Tuy
nhiên, hầu hết các phương pháp dựa trên mạng nơ-ron truyền thẳng có một tốc độ
hội tụ rất chậm và đòi hỏi phải có các thông số học tiên nghiệm. Đó là những hạn
chế của mạng nơ-ron truyền thẳng trong phân vùng ảnh y tế.
Phát hiện và nhận dạng bộ phận cơ thể và các khối u trong ảnh y tế là điều
kiện tiên quyết trong các ứng dụng y tế. Nó cũng là bước cuối cùng trong quá trình
xử lý hình ảnh y tế, mục tiêu là diễn giải nội dung hình ảnh.
2.3. Mạng nơ-ron truyền thẳng
2.3.1. Khái niệm
Một mạng truyền thẳng là một mạng nơ-ron nhân tạo trong đó các kết nối
giữa các nơ-ron không tạo thành một chu kỳ. Các mạng truyền thẳng là loại đầu
tiên và đơn giản nhất của mạng nơ-ron nhân tạo được phát minh. Trong mạng này,
thông tin di chuyển theo một hướng, về phía trước, từ các nút đầu vào, thông qua
các nút ẩn (nếu có) và các nút đầu ra. Không có chu kỳ hay vòng lặp tồn tại trong
mạng.
21
Hình 2.3. Mạng nơ-ron truyền thẳng nhiều lớp
2.3.2. Thuật toán lan truyền ngược
Mạng đa lớp truyền thẳng sử dụng một loạt các kỹ thuật huấn luyện, phổ biến
nhất là thuật toán lan truyền ngược. Ở đây, các giá trị đầu ra được so sánh với các
giá trị mong muốn để tính sự sai biệt dựa vào các hàm lỗi xác định trước. Bằng
nhiều kỹ thuật, các lỗi sau đó sẽ được truyền qua mạng từ lớp ra ngược lên lớp
nhập và được lặp đi lặp lại nhiều lần với một tập các dữ liệu đầu vào p và đầu ra
mong muốn t [26, tr.364].
(2.1) {p1, t1}, {p2, b2}, …, {pQ, tQ}
Thuật toán điều chỉnh trọng số của mỗi kết nối của nơ-ron để làm giảm giá
trị của hàm lỗi. Sau khi lặp đi lặp lại quá trình này đến một số đủ lớn của chu trình
huấn luyện, các giá trị trọng số sẽ hội tụ tại nơi mà giá trị của hàm lỗi là nhỏ nhất.
Trong trường hợp này, người ta sẽ nói rằng mạng đã học được một hàm mục tiêu
nhất định.
Hình 2.4. mô tả mô hình mạng nơ-ron nhân tạo 3 lớp truyền thẳng sử dụng
thuật toán huấn luyện lan truyền ngược [26, tr.2-11].
22
Hình 2.4. Mô hình mạng nơ-ron truyền thẳng 3 lớp.
Quy ước:
- R là số lượng thuộc tính đầu vào.
- p, 1 là giá trị đầu vào.
- s1, s2, s3 lần lượt là số lượng nơ-ron ở lớp thứ nhất, thứ hai, thứ ba.
- n1, n2, n3 lần lượt là hàm net ở lớp thứ nhất, thứ hai, thứ ba.
- b1, b2, b3 lần lượt là độ dịch (bias) ở lớp thứ nhất, thứ hai, thứ ba.
- f1( ), f2( ), f3( ) lần lượt là hàm kích hoạt ở lớp thứ nhất, thứ hai, thứ ba.
- a1, a2, a3 lần lượt là giá trị xuất ở lớp thứ nhất, thứ hai, thứ ba.
- w1, w2, w3 lần lượt là trọng số liên kết ở lớp thứ nhất, thứ hai, thứ ba.
- Đầu ra của lớp thứ nhất được tính : a1 = f1(w1 p + b1). (2.2)
- Đầu ra của lớp thứ hai được tính : a2 = f2(w2 a1 + b2). (2.3)
- Đầu ra của lớp thứ ba được tính : a3 = f3(w3 a2 + b3). (2.4)
- Kết quả cuối cùng của mạng: a3 = f3(w3 (f2(w2 (f1(w1 p + b1))+ b2)+ b3).
- Công thức tổng quá tính giá trị xuất của một lớp bất kỳ
am + 1 = f m + 1 (Wm + 1 am + bm + 1) với m = 0, 1, …, M - 1. (2.5)
M là số lớp trong mạng.
Nơ-ron ở lớp thứ nhất nhận giá trị vào là:
(2.6) a0 = p
Giá trị ra của nơ-ron ở lớp cuối cùng được xem là kết quả đầu ra của mạng
(2.7) a = aM
- Thuật toán lan truyền ngược cho các mạng đa lớp sử dụng chỉ số hiệu suất:
lỗi bình phương. Thuật toán được cung cấp bởi tập hợp các cặp, trong đó p là giá
trị đầu vào và t là giá trị ra mong muốn:
(2.8) {p1, t1}, {p2, t2}, …, {pQ, tQ}
23
𝑚
- Đầu vào net ở lớp m có công thức như sau
𝑚 = ∑ 𝑛𝑖
𝑆𝑚−1 𝑗=1
𝑚 𝑤𝑖,𝑗
𝑚−1 + 𝑏𝑖 𝑎𝑗
(2.9)
- Bằng cách điều chỉnh các thông số mạng để giảm thiểu lỗi bình phương
trung bình:
F(x) = E[e2] = E[(t – a)2] (2.10)
- Cách tính độ nhạy sM: độ nhạy của lớp thứ m được tính từ độ nhạy ở lớp
m+1. Độ nhạy được lan truyền ngược qua mạng từ lớp cuối cùng để các lớp đầu
tiên [26, tr.368]
(2.11) 𝐬𝑀 → 𝐬𝑀−1 → ⋯ → 𝐬2 → 𝐬1 𝐬𝑀 = −2𝐅𝑀(𝐧𝑀)(𝐭 − 𝐚)
Với Fm(nm) là ma trận Jacobian, được tính theo công thức sau:
𝑚−1
(2.12)
(2.13) - Công thức cập nhật trọng số tại các nơ-ron: 𝑚(𝑘) − ∝ 𝑠𝑖 𝑤𝑖,𝑗
𝑚(𝑘 + 1) = 𝑤𝑖,𝑗 𝑚(𝑘 + 1) = 𝑏𝑖 𝑏𝑖
𝑚𝑎𝑗 𝑚 𝑚(𝑘) − ∝ 𝑠𝑖
(2.14)
Viết dưới dạng ma trận:
(2.15)
(2.16) 𝐖𝑚(𝑘 + 1) = 𝐖𝑚(𝑘)− ∝ 𝐬𝑚(𝒂𝑚−1)𝑇 𝐛𝑚(𝑘 + 1) = 𝐛𝑚(𝑘)− ∝ 𝐬𝑚
- Huấn luyện đồng loạt: để thực hiện huấn luyện hàng loạt, trong đó gradient
hoàn thành được tính toán (sau khi tất cả các thuộc tính đầu vào này được áp dụng
24
cho mạng) trước khi trọng số và bias được cập nhật. Ví dụ, nếu mỗi đầu vào xảy
1
ra với xác suất như nhau, chỉ số hiệu suất lỗi bình phương được tính [26, tr.373]:
𝑇 (𝐭𝑞 − 𝐚𝑞)
𝑄 𝑞=1
𝑄
∑ (2.17) F(𝐱) = E[(𝐭 − 𝐚)T(𝐭 − 𝐚)] = (𝐭𝑞 − 𝐚𝑞)
Do đó, tổng gradient của các lỗi bình phương trung bình là giá trị gradient
trung bình của các lỗi bình phương cá nhân. Vì vậy, để thực hiện huấn luyện hàng
loạt thuật toán lan truyền ngược, chúng ta sẽ thực hiện tính toán gradient cho tất
cả các mẫu đầu vào trong tập huấn luyện. Sau đó, các gradient cá nhân sẽ được
tính trung bình để có được tổng gradient. Các phương trình cập nhật cho thuật toán
∝
đồng loạt giảm mạnh sẽ là:
𝑇 𝑚−1)
𝑚(𝐚𝑞 𝐬𝑞
𝑄 𝑞= 1
𝑄
∝
∑ (2.18) 𝐖𝑚(𝑘 + 1) = 𝐖𝑚(𝑘) −
𝒎 𝐬𝒒
𝑄 𝑞= 1
𝑄
∑ (2.19) 𝐛𝑚(𝑘 + 1) = 𝐛𝑚(𝑘) −
- Momentum (hệ số quán tính): thuật toán thường có thêm khái niệm
momentum. Momentum sẽ thúc đẩy di chuyển đi theo theo một hướng xác định
nếu sau khi qua nhiều bước đi cùng một hướng, thuật toán sẽ di chuyển nhanh hơn,
đưa đến khả năng thoát khỏi vùng giá trị cực tiểu cục bộ và cũng có thể di chuyển
nhanh chóng qua vùng bằng phẳng [26, tr.422-423].
Đặt:
(2.20)
(2.21) ∆𝐖𝑚(𝑘) = −∝ 𝐬𝑚(𝐚𝑚−1)𝑇 ∆𝐛𝑚(𝑘) = −∝ 𝐬𝑚
Bộ lọc sẽ được thêm vào những thay đổi tham số
(2.22) ∆𝐖𝑚(𝑘) = γ𝐖𝑚(𝑘 − 1) − (1 − γ) ∝ 𝐬𝑚(𝐚𝑚−1)𝑇
(2.23) ∆𝐛𝑚(𝑘) = γ∆𝐛𝑚(𝑘 − 1) − (1 − γ) ∝ 𝐬𝑚
Trong đó, ký hiệu 𝛾 chính là biến momentum.
25
Chương 3. KỸ THUẬT ĐA PHÂN GIẢI
Giới thiệu về kỹ thuật đa phân giải trong xử lý hình ảnh, ý nghĩa của kỹ thuật
đa phân giải. Trình bài kỹ thuật phân tích đa phân giải sử dụng phép biến đổi
Pyramid.
3.1. Khái niệm về kỹ thuật đa phân giải
Xương sườn trên ảnh X-quang phổi bao gồm các thành phần tần số không
gian khác nhau. Đối với huấn luyện mạng nơ-ron đơn, việc triệt tiêu xương sườn
có chứa các tần số khác nhau như vậy là rất khó, bởi vì khả năng huấn luyện mạng
nơ-ron đơn bị giới hạn, khả năng phụ thuộc vào kích thước các tiểu vùng của ảnh.
Việc huấn luyện mất một thời gian dài đáng kể, đó là khó khăn thực tế để huấn
luyện với một tiểu vùng lớn. Để khắc phục vấn đề này, chúng ta sử dụng kỹ thuật
đa phân giải phân rã/hợp thành [12, tr.674-693], [2].
Kỹ thuật phân tích đa phân giải giúp cho việc xử lý ảnh một cách hiệu quả,
cho phép xử lý ảnh ở nhiều cấp độ khác nhau và được áp dụng rộng rãi trong lĩnh
vực xử lý ảnh. Các phép biến đổi thường được sử dụng gồm có: phép biển đổi
Wavelet, phép biến đổi Pyramid, …
3.2. Phân tích đa phân giải xử dụng phép biến đổi Pyramid
Kỹ thuật xử lý ảnh đa phân giải, minh họa trong hình. 3.1, là một kỹ thuật để
phân tích một ảnh có độ phân giải cao ban đầu thành những ảnh có độ phân giải
khác nhau sử dụng phép biến đổi Pyramid.
Đầu tiên, một trong những hình ảnh độ phân giải trung bình gM (x, y) từ một
hình gốc gH (x, y) có độ phân giải cao bằng cách thực hiện lấy mẫu giảm (down-
sampling) với giá trị trung bình, tức là, bốn điểm ảnh trong hình gốc được thay thế
1
bởi một điểm ảnh có giá trị trung bình cho bốn giá trị điểm ảnh:
𝑖,𝑗 ∈ 𝑅22
4
∑ (3.1) 𝑔𝑀(𝑥, 𝑦) = 𝑔𝐻(2𝑥 − 𝑖, 2𝑦 − 𝑗)
26
Hình 3.1. Minh họa kỹ thuật đa phân giải - phân rã
Sau đó, một hình ảnh có độ phân giải cao khác thu được bằng cách trừ các
𝑈 (𝑥, 𝑦)
hình có độ phân giải trung bình mở rộng từ các hình ảnh có độ phân giải cao:
(3.3) 𝑑𝐻(𝑥, 𝑦) = 𝑔𝐻(𝑥, 𝑦) − 𝐺𝑀
Các thủ tục này được thực hiện lặp đi lặp lại, tạo thêm hình ảnh độ phân giải
thấp. Do đó, ảnh đa phân giải có tần số khác nhau này thu được bằng cách sử dụng
các kỹ thuật đa phân giải - phân rã.
Một tính chất quan trọng của kỹ thuật này là giữ được bản gốc chính xác có
độ phân giải gH (x, y) có thể được tạo từ những hình ảnh đa phân giải, dH (x, y) và
27
gM (x, y), bằng cách thực hiện các quy trình nghịch đảo, gọi là một kỹ thuật đa
𝑦
phân giải - hợp thành như sau:
𝑥 𝑔𝐻(𝑥, 𝑦) = 𝑔𝑀 ( 2
2
(3.4) , ) + 𝐷𝐻(𝑥, 𝑦)
Do đó, có thể xử lý hình ảnh đa phân giải độc lập thay vì xử lý trực tiếp ảnh
gốc độ phân giải cao; với kỹ thuật này, ảnh gốc có độ phân giải cao được xử lý có
thể thu được bằng việc hợp thành từ những ảnh xử lý đa phân giải (Hình 3.2).
Hình 3.2. Minh họa kỹ thuật đa phân giải - hợp thành
28
Chương 4. GIẢM ĐỘ CHE XƯƠNG TRONG ẢNH X-QUANG
Giới thiệu thuật toán ngưỡng Otsu áp dụng để tách vùng phổi và vùng xương
tự động. Sử dụng mạng nơ-ron truyền thẳng sử dụng thuật toán lan truyền ngược
để xác định khung xương tự động và thực hiện làm giảm độ che xương sườn trên
ảnh X-quang phổi từ ảnh X-quang phổi đầu vào và ảnh xương kết quả đầu ra của
mạng nơ-ron. Nhưng trong nghiên cứu này, tác giả chỉ sử dụng thuật toán ngưỡng
Otsu để thực hiện tách vùng xương tự động để thực hiện công đoạn làm giảm độ
che xương sườn, riêng việc tách vùng phổi để huấn luyện mạng nơ-ron thì tác giả
vẫn thực hiện thủ công.
4.1. Tách vùng phổi tự động
Việc tách vùng phổi góp phần quan trọng đối với huấn luyện nơ-ron, làm
tăng độ chính xác và tăng tốc độ học. Nếu việc tách vùng phổi không được thực
hiện, mạng sẽ huấn luyện cả những phần không phải là phổi, mà tại đó, nó không
có giá trị cho việc học.
Thuật toán ngưỡng Otsu:
Ta có các pixel của một ảnh được biểu diễn với L mức xám [1, 2, …, L]. Số
lượng pixel ở mức i được ký hiệu là ni và tổng số pixel N = n1 + n2 + … + nL. Để
đơn giản, histogram mức xám được chuẩn hóa và được xem như một phân bố xác
suất [28]:
𝐿 , 𝑝𝑖 ≥ 0, ∑ 𝑖=1
𝑛𝑖 𝑁
(4.1) 𝑝𝑖 = 𝑝𝑖 = 1
Giả sử chúng ta chia các pixel thành hai lớp C0 và C1 (nền và các đối tượng,
hoặc ngược lại) bằng một ngưỡng k; C0 ký hiệu các pixel với mức [1, …, k], và C1
biểu thị pixel với mức [k + 1, …, L]. Tìm ngưỡng sao cho cực tiểu trọng số phương
sai lớp nội bộ hoặc cực đại phương sai lớp giữa
29
Sau đó, ω0,1 là xác suất phân bố của 2 lớp được phân biệt bởi ngưỡng k, được
xác định bởi
(4.2) 𝜔(𝑘) 𝑝𝑖 =
𝑘 𝜔0 = ∑ 𝑖=1 𝐿 𝜔1 = ∑ 𝑖 = 𝑘+ 1
(4.3) 𝜔(𝑘) 𝑝𝑖 = 1 −
và µ0,1,T là lớp trung bình
𝑘 µ0 = ∑ 𝑖 𝑖=1
µ(𝑘) 𝜔(𝑘)
𝑝𝑖 𝜔0
(4.4) =
𝐿 µ1 = ∑ 𝑖=𝑘+1
µ𝑇− µ(𝑘) 1− 𝜔(𝑘)
𝑝𝑖 𝜔1
(4.5) 𝑖 =
trong đó:
𝑘 𝜔(𝑘) = ∑ 𝑖=1
(4.6) 𝑝𝑖
𝑘 µ(𝑘) = ∑ 𝑖=1
(4.7)
(4.8) 𝑖𝑝𝑖 𝑖𝑝𝑖 𝐿 µ𝑇 = µ(𝐿) = ∑ 𝑖=1
Chúng ta có thể dễ dàng kiểm tra quan hệ cho bất kỳ lựa chọn k:
(4.9) 𝜔0µ0 + 𝜔1µ1 = µ𝑇, 𝜔0 + 𝜔1 = 1
Lớp phương sai được xác định:
(4.10)
(4.11) 𝜎1 (𝑖 − µ0)2𝑝𝑖/𝜔0 (𝑖 − µ1)2𝑝𝑖/𝜔1
Trọng số phương sai lớp nội bộ 𝜎𝑊
2 2 + 𝜔1𝜎1
(4.12)
𝑘 2 = ∑ 𝜎0 𝑖 = 1 𝐿 2 = ∑ 𝑖 =𝑘 + 1 2 : 2 = 𝜔0𝜎0 𝜎𝑊 2: Trọng số phương sai lớp giữa 𝜎𝐵 2 = 𝜔0𝜔1(µ1 − µ0)2 𝜎𝐵
2:
(4.13)
Tổng phương sai 𝜎𝑇
2 = 𝜎𝑊 𝜎𝑇
2 2 + 𝜎𝐵
(4.14)
30
Các bước của thuật toán:
- Bước 1: tính histogram và xác suất tại mỗi giá trị mức xám.
- Bước 2: khởi tạo ban đầu ωi(0) và µi(0).
- Bước 3: thực hiện từng bước các ngưỡng có thể k = 1 đến cường độ tối đa
2 lớn nhất.
+ Cập nhật ωi và µi, 2. + Tính 𝜎𝐵
- Bước 4: cập nhật ngưỡng k tương ứng với 𝜎𝑇
4.2. Xác định khung xương sử dụng máy học
Trong lĩnh vực xử lý hình ảnh, kỹ thuật giám sát xử lý hình ảnh phi tuyến
[22, tr.43-53] [14, tr.1582-1596] dựa trên ANN, được gọi là "bộ lọc nơ-ron (neural
filter)" [15, tr.1787-1799] và "khuếch tán biên nơ-ron (neural edge enhancer)"
[30, tr.303-310] đã được nghiên cứu để làm giảm các đốm lượng tử (quan sát độ
nhiễu cụ thể trong ảnh X-quang y tế) trong chụp động mạch (angiography), chụp
X-quang [21, tr.1710-1718] và để giám sát phát hiện các đường viền tâm thất trái
bắt nguồn từ tim mạch trong chụp động mạch [13, tr.330-339]. Bằng cách mở rộng
bộ lọc nơ-ron và khuếch tán biên nơ-ron, MTANN (Massive training artifical
neural network) đã được phát triển để phù hợp với nhiệm vụ phân biệt một tính
mờ (opacity) cụ thể từ tính mờ khác trong hình ảnh y tế.
MTANN [20, tr.1602-1617] đã được áp dụng để giảm dương tính giả trong
việc phát hiện trên máy vi tính hạch phổi ở chụp cắt lớp liều thấp (CT) và chụp X-
quang phổi, có sự phân biệt giữa các hạch phổi lành tính và ác tính trong CT.
Trong luận văn này, MTANN được áp dụng nhằm làm giảm độ che xương sườn
trên X-quang phổi.
31
Hình 4.1. Kiến trúc huấn luyện của một MTANN
Kiến trúc và phương pháp huấn luyện của một MTANN được thể hiện trong
hình 4. 1 bao gồm một mô hình ANN đa lớp đầu ra tuyến tính và một chương trình
huấn luyện lớn các tiểu vùng. Các giá trị pixel trong tiểu vùng chiết xuất từ một
ảnh X-quang phổi được nhập làm đầu vào cho ANN. Pixel chiết xuất trong ảnh
dạy được sử dụng là các giá trị dạy cho các tiểu vùng tương ứng. MTANN có thể
được coi là một bộ lọc phi tuyến có thể được huấn luyện với những ảnh đầu vào
và "dạy" các hình ảnh tương ứng. MTANN bao gồm một mô hình ANN đa lớp
đầu ra tuyến tính [19, tr.66-74], có khả năng hoạt động trên dữ liệu hình ảnh trực
tiếp. Các đầu ra tuyến tính ANN đa lớp sử dụng một hàm tuyến tính thay vì một
hàm sigmoid là hàm kích hoạt cho các nơ-ron đầu ra bởi vì các đặc tính của ANN
đã được cải thiện đáng kể với một hàm tuyến tính khi áp dụng cho các ánh xạ liên
tục giá trị trong xử lý hình ảnh [14, tr.1582-1596], [19, tr.66-74]. Một ANN thông
thường hầu như không có giá trị đầu ra gần bằng 0 và 1 vì các đặc tính của một
hàm sigmoid, trong khi đầu ra tuến tính ANN đa lớp có giá trị tuyến tính. Việc
huấn luyện để dạy các giá trị gần 0 và 1 quy tụ chậm hơn so với các giá trị khác
32
so với ANN thông thường về mặt lý thuyết, trong khi các giá trị này được huấn
luyện như nhau với mô hình ANN đa lớp đầu ra tuyến tính. Điều này ảnh hưởng
đến các đặc điểm hội tụ và các đặc trưng đầu ra của mô hình ANN.
Do đó, đầu ra tuyến tính ANN đa lớp sẽ thích hợp cho xử lý hình ảnh, nơi
các giá trị có thể dạy các giá trị liên tục từ 0 đến 1. Các giá trị pixel của ảnh X-
quang phổi ban đầu được chuẩn hóa lần đầu sao cho giá trị một pixel của 0 là 0 và
giá trị một pixel của cấp độ xám tối đa (1023) là 1. Các yếu tố đầu vào của mô
hình ANN đa lớp đầu ra tuyến tính là các giá trị điểm ảnh trong một tiểu vùng Rs
chiết xuất từ một ảnh X-quang phổi. Đầu ra là một giá trị liên tục, tương ứng với
điểm ảnh trung tâm trong tiểu vùng, đại diện bởi:
(4.15) f(x, y) = NN(𝐢𝑥,𝑦),
(4.16) 𝐢𝑥,𝑦 = {g(x - i , y - j) | i, j ∈ Rs}.
𝐢𝑥,𝑦 là những vector đầu vào của MTANN, f(x, y) là một ước tính cho một giá
trị dạy, x và y là tọa độ của hình ảnh, NN(𝐢𝑥,𝑦) là mô hình ANN đa lớp đầu ra tuyến
tính, và g(x, y) là một giá trị điểm ảnh chuẩn hóa trong ảnh X-quang phổi đầu vào.
Lưu ý rằng chỉ có một nơ-ron được sử dụng trong lớp đầu ra. Các vector đầu vào
có thể được viết lại như sau:
}. (4.17) 𝐢𝑥,𝑦 = {I1, I2, …, Im, …, 𝐼𝑁𝐼
Trong đó m là số thuộc tính đầu vào, NI là số lượng nơ-ron đầu vào. Bởi vì
hàm kích hoạt của các nơ-ron trong lớp đầu vào là một hàm nhận dạng, đầu ra thứ
n của nơ-ron trong lớp đầu vào được ký hiệu In. Đầu ra thứ n của nơ-ron trong lớp
ẩn được tính:
𝐻 = fs{∑
𝐻 𝐻 . 𝐼𝑚 − 𝑤0𝑛
𝑁𝐼 𝑚=1
(4.18) }. 𝑂𝑛 𝑤𝑚𝑛
33
𝐻 là trọng số giữa nơ-ron thứ m trong lớp đầu vào và nơ-ron thứ n trong
𝐻 là một bù đắp của nơ-ron thứ n trong lớp ẩn, và fs(u) là một hàm
𝑊𝑚𝑛
lớp ẩn, 𝑊0𝑛
1
sigmoid.
(4.19) 𝑓𝑠(𝑢) = 1+𝑒𝑥𝑝 (−𝑢)
Đầu ra của các nơ-ron trong lớp xuất được tính:
𝑂 . 𝑂𝑚
𝑂 𝐻 − 𝑤0
𝑁𝐻 𝑚=1
(4.20) }. f(x, y) = fL{∑
𝑊𝑚 𝑤𝑚 𝑂 𝑂 là trọng số giữa nơ-ron m trong lớp ẩn và các nơ-ron trong lớp xuất, 𝑊0
là một bù đắp của các nơ-ron trong lớp xuất, fL(u) là một hàm tuyến tính:
(4.21) fL(u) = a.u + 0.5
a là tham số độ dốc. Toàn bộ hình ảnh đầu ra thu được bằng cách quét một
ảnh ngực đầu vào với MTANN.
MTANN liên quan đến việc huấn luyện khổng lồ các cặp tiểu vùng pixel,
được gọi là một chương trình huấn luyện lớn các tiểu vùng. ẢnhX-quang phổi đầu
vào chia từng pixel thành số lượng lớn các tiểu vùng chồng lấn. Pixel đơn tương
ứng với các tiểu vùng đầu vào đều được trích xuất từ những hình ảnh giảng dạy
xem như những giá trị huấn luyện. MTANN được huấn luyện ồ ạt bằng cách sử
dụng số lượng lớn của các tiểu vùng đầu vào cùng với huấn luyện điểm ảnh tương
ứng. Tập huấn luyện của mỗi cặp của một tiểu vùng và một điểm ảnh huấn luyện
được định nghĩa như sau:
)} (4.22) {𝐢(𝑥, 𝑦), 𝑇(𝑥, 𝑦)|𝑥, 𝑦 ∈ 𝑅𝑇} = {(𝐢1, 𝑇1), (𝐢2, 𝑇2), … , (𝐢p, 𝑇𝑝), … , (𝐢NT , 𝑇𝑁𝑇
𝑇(𝑥, 𝑦) là hình ảnh dạy, RT là vùng huấn luyện tương ứng với bộ sưu tập của
các trung tâm tiểu vùng (hoặc những pixel huấn luyện), p là một pixel trong RT,
và NT là số lượng pixel trong RT. Các lỗi được giảm thiểu bằng huấn luyện với
công thức:
34
𝑥,𝑦∈𝑅𝑇
1 𝑁𝑇
(4.23) 𝐸 = ∑ {𝑇(𝑥, 𝑦) − 𝑓(𝑥, 𝑦)}2
MTANN được huấn luyện bởi thuật toán lan truyền ngược (đã được trình bài
ở mục 2.3.2). Sự điều chỉnh trọng số giữa các nơ-ron ẩn và nơ-ron đầu ra được
𝜕𝐸
tính:
𝜕𝑊𝑂 = −𝜂𝑎(𝑇 − 𝑓)𝑂𝐻
(4.24) ∆𝑊 𝑂 = −𝜂
Với 𝜂 là tỷ lệ học
Chúng ta sử dụng một kỹ thuật trừ Dual-energy [31, tr.271-273] để sử dụng
ảnh kết quả của MTANN trừ xương sườn trên ảnh X-quang phổi. Phép trừ Dual-
energy là một kỹ thuật để tách xương từ các mô trên ảnh X-quang phổi bằng cách
sử dụng sự phụ thuộc năng lượng của suy giảm x-ray bằng các vật liệu khác nhau;
nó có thể tạo ra hai hình ảnh mô có chọn lọc, tức là một ảnh xương và một ảnh mô
mềm. Ảnh X-quang phổi được sử dụng như ảnh đầu vào cho MTANN, và ảnh
xương Dual-energy tương ứng được sử dụng như ảnh huấn luyện. Chúng ta không
trực tiếp dùng các hình ảnh mô mềm Dual-energy huấn luyện, bởi vì huấn luyện
các MTANN với kết quả ảnh mô mềm Dual-energy được tạo ra kém hơn so với
huấn luyện các MTANN với hình ảnh xương Dual-energy (xem mục 3.1).
4.3. Giảm độ che của xương sử dụng mạng nơ-ron
Hình 4.2 minh họa kiến trúc và huấn luyện của một MTANN liên quan đến
kỹ thuật đa phân giải phân rã/hợp thành cho hình ảnh có độ phân giải khác nhau.
Đầu tiên, ảnh X-quang phổi đầu vào và ảnh xương giảng dạy tương ứng được phân
tích thành các bộ hình ảnh có độ phân giải khác nhau, và sau đó các bộ hình ảnh
được sử dụng để huấn luyện với ba mô hình MTANN, như minh họa trong hình
4.2(a).
35
Mỗi MTANN là một hàm huấn luyện cho một độ phân giải nhất định, ví dụ,
một MTANN độ phân giải thấp là phụ trách các thành phần tần số thấp của ảnh
tầng số thấp, một MTANN có độ phân giải trung bình cho các thành phần có tần
số trung bình, và MTANN độ phân giải cao cho thành phần tần số cao. Mỗi độ
phân giải, MTANN được huấn luyện một cách độc lập với những ảnh có độ phân
giải tương ứng. Sau khi huấn luyện, các MTANN tạo ra ảnh có độ phân giải khác
nhau, và sau đó những hình ảnh này được cấu tạo để cung cấp một hình ảnh có độ
phân giải cao hoàn chỉnh bằng cách sử dụng các kỹ thuật đa phân giải - hợp thành,
như minh họa trong hình 4.2(b). Các ảnh có độ phân giải cao hoàn chỉnh sẽ tương
tự như hình xương dạy; Do đó, các MTANN đa phân giải sẽ cung cấp một hình
ảnh "giống xương" trong đó xương sườn được tách ra từ các mô mềm.
Một giá trị ngưỡng được xác định bằng cách sử dụng phương pháp dựa trên
LDA (Linear discriminant analysis) [29, tr.62-66], đó là một phương pháp phổ
biến trong các lĩnh vực thị giác máy tính và nhận dạng mẫu (thường được gọi là
ngưỡng Otsu trình bài trong mục 4.1). Hy vọng một giá trị ngưỡng hợp lý có thể
được xác định bằng cách sử dụng LDA, vì xác định ngưỡng có thể được xem là
một vấn đề phân loại hai lớp trong histogram (biểu đồ) mức xám, và phân chia
tuyến tính với LDA sẽ làm việc tốt trong không gian này. Phương pháp này sẽ tự
động chọn điểm thấp nhất giữa hai lớp trong histogram của mức xám trong X-
quang phổi. Phương pháp này liên quan đến việc giảm thiểu tỷ lệ giữa lớp phương
sai để tổng phương sai.
36
Hình 4.2. Minh họa kiến trúc và huấn luyện của một MTANN.
37
Sau khi phân khúc, một bộ lọc Gaussian được áp dụng để làm nhẵn các cạnh
của vùng phổi phân đoạn để tạo ra một hình ảnh m(x,y) cho mặt nạ bên ngoài của
vùng phổi. Những hình ảnh mặt nạ được chuẩn hóa với có giá trị 0 - 1. Đối với
việc làm giảm độ che xương sườn trong ảnh X-quang phổi ban đầu, hình ảnh
fb(x,y) “giống xương” được tạo ra bởi các MTANN đa phân giải, bị trừ từ bản gốc
X-quang phổi g(x,y) với mặt nạ ảnh m(x,y) như sau:
(4.25) fs(x,y) = g(x,y) – wC * fb(x,y) * m(x,y)
Trong đó wC là biến trọng số để xác định độ tương phản của xương sườn.
Bằng cách thay đổi biến trọng số wC, người ta có thể có được hình chụp X-quang
phổi đã xử lý với độ tương phản khác nhau của xương sườn. Như vậy, các
MTANN đa phân giải sẽ có thể tạo ra một hình ảnh "không xương" đã làm giảm
độ che của xương sườn. Do đó, xử lý hình ảnh này có thể được coi như là một kỹ
thuật làm giảm độ che xương sườn.
38
Chương 5. THỰC NGHIỆM VÀ ĐÁNH GIÁ KẾT QUẢ
Hiện thực chương trình demo và đánh giá kết quả đạt được:
Cấu hình máy tính chạy phần mềm:
Tên máy: Laptop HP Pavilion X360.
CPU: Intel® Core™ i5-8250U CPU @ 1.60 GHz (8CPUs).
Memory Ram: 2 x 12.0 GB, Bus 1333 MHz
Hệ điều hành Windows 10 Pro.
Phần mềm lập trình Visual Studio 2019.
5.1. Thực nghiệm
Sản phẩm của chương trình thực nghiệm:
Hình 5.1: Chức năng chính của chương trình
39
Hình 5.2. Các chức năng đa phân giải
Hình 5.3. Các chức năng của điểm đặc trưng
40
Hình 5.4. Các chức năng huấn luyện MTANN
Hình 5.5. Các chức năng tạo ảnh xương
41
Hình 5.6. Các chức năng loại bỏ xương
Phần mềm mô phỏng sử dụng MTANN cho việc huấn luyện các ảnh đa phân giải
để tạo ra ảnh “giống xương” từ ảnh X-quang phổi ban đầu. Sử dụng một ảnh X-
quang phổi và ảnh xương Dual-enery tương ứng phục vụ cho việc huấn luyện (hình
5.7). Mỗi một MTANN được huấn luyện với một số lượng lớn các tiểu vùng được
trích xuất từ ảnh đầu vào.
(a) Ảnh X-quang phổi (b) Ảnh xương Dual-energy
42
Hình 5.7. Ảnh phục vụ huấn luyện
Đối với việc huấn luyện trong vùng phổi, mẫu huấn luyện được trích xuất
ngẫu nhiên từ vùng phổi bằng tay với số lượng:
- 5.000 mẫu đối với ảnh đa phân giải HighPass (thông cao) gồm:
o Cặp ảnh HighPass cấp 1 (hình 5.8);
o Cặp ảnh HighPass cấp 2 (hình 5.9).
- 2500 mẫu đối với ảnh đa phân giải LowPass (thông thấp) gồm:
o Cặp ảnh LowPass cấp 2 (hình 5.10).
Kích thước của các tiểu vùng phổi R trong mỗi MTANN là 9 x 9 pixel, do đó
số lượng các tiểu vùng là đủ để bao phủ chiều rộng của xương sườn trong ảnh đa
phân giải thông thấp. Mô hình của mỗi MTANN bao gồm 3 lớp:
Bảng 5.1. Mô hình huấn luyện MTANN
Lớp nơ-ron Số lượng nơ-ron
Đầu vào 80
Ẩn 19
Đầu ra 1
43
(a) Ảnh Phổi HighPas cấp 1 (b) Ảnh Xương HighPas cấp 1
440 x 440 440 x 440
Hình 5.8 Ảnh huấn luyện HighPass cấp 1 của ảnh phổi và ảnh xương tương ứng
(a) Ảnh phổi HighPas cấp 2 (b) Ảnh Xương HighPas cấp 2
220 x 220 220 x 220
Hình 5.9. Ảnh huấn luyện HighPass cấp 2 của ảnh phổi và ảnh xương tương ứng
44
(a) Ảnh Phổi LowPas cấp 2 (b) Ảnh Xương LowPas cấp 2
110x110 110x110
Hình 5.10. Ảnh huấn luyện LowPass cấp 2 của ảnh phổi và ảnh xương tương
ứng
Chọn tỷ lệ học là 0,001. Số lần huấn luyện là lớn hơn 3.100.000 đối với mỗi
MTANN. Thời gian học để mạng cho kết quả tốt là hơn 8 ngày với các lỗi trung
bình:
Bảng 5.2. Lỗi trung bình huấn luyện của các MTANN
Ảnh Lỗi trung bình
HighPass cấp 1 0.057
HighPass cấp 2 0.069
LowPass cấp 2 0.016
Hình 5.11(b) là ảnh kết quả huấn luyện của MTANN áp dụng cho ảnh xương
LowPass cấp 2. Xương sườn được chiết suất 1 cách hiệu quả tương tự như ảnh
xương dual-energy hiển thị trong hình 5.10 (b). Xương sườn trong ảnh kết quả
tương đối nhiễu so với ảnh xương dual-energy, các mạch máu nhỏ tồn tại trong
ảnh gây ra nhiễu mờ. Cần lưu ý rằng các phần xương bên ngoài vùng phổi, ví dụ
như các bộ phận xương đòn và cột sống không được tăng cường trong ảnh kết quả
vì huấn luyện chỉ tập trung vào vùng phổi Hình 5.11(a). Hình 5.11 (c) và 5.11(d)
là kết quả huấn luyện của MTANN áp dụng cho ảnh xương HighPass cấp 1 và cấp
45
2. Sau đó, sử dụng kỹ thuật multiresolution hợp thành để thu được ảnh “giống
xương” hình 5.12(a) với kích thước không đổi so với ảnh ban đầu.
(a) Ảnh mặt nạ vùng phổi (b) Ảnh đầu ra - ảnh “giống
xương” LowPass cấp 2
(a) Ảnh đầu ra HighPass cấp 1 (d) Ảnh đầu ra HighPass cấp 2
Hình 5.11. Ảnh kết quả huấn luyện
46
Việc loại bỏ xương sườn trên ảnh X-quang phổi dựa vào ảnh “giống xương”
và ảnh mặt nạ (đã trình bài ở mục 4.3). Sự tương phản của xương sườn đã được
làm giảm đáng kể trong hình 5.11(d), trong khi khả năng hiển thị của các mô mềm
như mạch phổi vẫn được duy trì.
(a) Ảnh “giống xương” (b) là ảnh chỉ phổi thu được bằng kỹ
thuật trừ xương từ ảnh kết quả.
Hình 5.12. Ảnh kết quả sau khi thực hiện làm giảm độ che xương sườn
5.2. Đánh giá kết quả
Việc thực hiện đánh giá được định lượng bằng việc sử dụng một sai số tuyệt
đối trung bình giữa ảnh “giống xương” fb(x,y) và ảnh xương Dual-energy b(x,y)
∑
𝑥,𝑦 ∈ 𝑅𝐿
|𝑏(𝑥,𝑦)− 𝑓𝑥(𝑥,𝑦)|
tương ứng, đại diện bởi
(5.1)
𝐸𝑁 =
𝑁𝐿 (𝑏𝑚𝑎𝑥−𝑏𝑚𝑖𝑛)
Trong đó RL là các vùng phổi, NL là số lượng điểm ảnh trong RL, bmax và bmin
là giá trị lớn nhất và giá trị nhỏ nhất trong RL của hình xương Dual-energy. Sử
dụng ảnh “giống xương” và ảnh xương Dual-energy trong đánh giá này, bởi vì so
47
sánh trực tiếp với những ảnh đầu ra của MTANN đa phân giải sẽ chính xác hơn
so với việc sử dụng các ảnh “giống mô mềm”, ví dụ như ảnh “giống mô mềm” có
thể khác nhau khi một tham số trọng số được thay đổi. Các kết quả cho X-quang
phổi là EN = 0,069 với độ lệch chuẩn là 0.016.
48
KẾT LUẬN VÀ KHUYẾN NGHỊ
1. Kết luận
Kết quả của đề tài: các xương sườn trên ảnh X-quang phổi được làm giảm độ
che đáng kể mà không làm ảnh hưởng nhiều đến sức khỏe người bệnh, hỗ trợ cho
bác sĩ trong việc kiểm tra lâm sàn có độ chính xác cao.
2. Khuyến nghị
Hướng phát triển của đề tài là thực hiện các chức năng nhận diện tự động
khối u tiềm năng (candidate) trên ảnh X- quang phổi, nếu phát hiện khối u tiềm
năng, phần mềm sẽ tự động thực hiện trừ xương với một trọng số khác so với trọng
số ban đầu đảm bảo các cấu trúc khác trong ảnh không bị thay đổi trong khi các
hạch bệnh sẽ nổi bật lên.
49
TÀI LIỆU THAM KHẢO
1. A. Hasegawa, S. C. B. Lo, J. S. Lin, M.T. Freedman, S. K. Mun: A Shift-
Invariant Neural Network for the Lung Field Segmentation in Chest
Radiography, The Journal of VLSI Signal Processing 18 (1998).
2. A. N. Akansu and R. A. Haddad, Multiresolution Signal Decomposition.
Boston, MA: Academic, 1992.
3. A. Netajatali, I. R. Ciric: An Iterative Algorithm for Electrical Impedance
Imaging Using Neural Networks, IEEE Trans. Magn 34 (1998).
4. A.Adler, R. Guardo: A Neural Network Image Reconstruction Technique
for Electrical Impedance Tomography, IEEE Transactions on Medical
Imaging 13 (1994).
5. C. Comtat, C. Morel: Approximate Reconstruction of PET Data with A
Self-Organizing Neural Network, IEEE Trans. Neural Networks 6 (1995).
6. C. J. Murray and A. D. Lopez, “Mortality by cause for eight regions of the
world: global burden of disease study,” Lancet, vol. 349, no. 9061.
7. D. E. Rumelhart and J. L. McClelland, eds., Parallel Distributed Processing:
Explorations in the Microstructure of Cognition, Vol. 1, Cambridge, MA:
MIT Press, 1986.
8. Du Yih TSAI: Automatic Segmentation of Liver Structure in CT Images
Using a Neural Network, IEICE TRANSACTINS on Fundamentals of
Electronics, Communications and Computer Sciences E77-A (1994).
9. F. Ali, Z. Nakao, Y.-W. Chen, K. Matsuo, I. Ohkawa: An Adaptive
Backpropagation Algorithm for LimitedAngle CT Image Reconstruction,
IEICE Trans. Fundamentals E83-A (2000).
50
10. F. Rosenblatt, “The perceptron: A probabilistic model for information
storage and organization in the brain,” Psychological Review, Vol. 65,
1958.
11. G. E. Goodman, “Lung cancer. 1: prevention of lung cancer,” Thorax, vol.
57, no. 11, 2002.
12. G. M. Stephane, “A theory for multiresolution signal decomposition: the
wavelet representation,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 11,
no. 7, Jul. 1989.
13. “Extraction of left ventricular contours from left ventriculograms by means
of a neural edge detector,” IEEE Trans. Med. Imag., vol. 23, no. 3, Mar.
2004.
14. “Neural edge enhancer for supervised edge enhancement from noisy
images,” IEEE Trans. Pattern Anal. Mach. Intell., vol. 25, no. 12, Dec.
2003.
15. “Efficient approximation of neural filters for removing quantum noise
from images,” IEEE Trans. Signal Process., vol. 50, no. 7, Jul. 2002.
16. J. A. Anderson, “A simple neural network generating an interactive
memory,” Mathematical Biosciences, Vol. 14, 1972.
17. J. J. Hopfield, “Neural networks and physical systems with emergent
collective computational abilities,” Proceedings of the National Academy
of Sciences, Vol. 79, 1982.
18. Johan m. Thi jssen: Ultrasonic Speckle Formation, Analysis and
Processing Atranglied to Tissue Characterization, Pattern Recognition
Letters 24 (2003).
51
19. K. Suzuki, I. Horiba, K. Ikegaya, and M. Nanki, “Recognition of coronary
arterial stenosis using neural network on DSA system,” Syst.Comput.
Japan, vol. 26, no. 8, 1995
20. K. Suzuki, S. G. Armato, F. Li, S. Sone, and K. Doi, “Massive training
artificial neural network (MTANN) for reduction of false positives in
computerized detection of lung nodules in low-dose CT,” Med. Phys., vol.
30, no. 7, 2003
21. K. Suzuki, I. Horiba, N. Sugie, and M. Nanki, “Neural filter with selection
of input features and its application to image quality improvement of
medical image sequences,” IEICE Trans. Inf. Syst., vol. E85-D, no.10,
2002.
22. K. Suzuki, I. Horiba, and N. Sugie, “A simple neural network pruning
algorithm with application to filter synthesis,” Neural Process. Lett.,
vol.13, no. 1, 2001.
23. Kenji Suzuki*, Senior Member, IEEE, Hiroyuki Abe, Heber MacMahon,
and Kunio Doi, “Image-Processing Technique for Sutrangressing Ribs in
Chest Radiographs by Means of Massive Training Artificial Neural
Network (MTANN)”, IEEE TRANSACTIONS ON MEDICAL
IMAGING, VOL. 25, NO. 4, APRIL 2006.
24. Kunio Doi.: Computer-Aided Diagnosis in Medical Imaging: Historical
Review, Current Status and Future Potential, Computerized Medical
Imaging and Graphics 31 (2007).
25. M. Minsky and S. Papert, Perceptrons, Cambridge, MA:MIT Press, 1969.
26. Neural Network Design – 2nd Edition. Copyright by Martin T. Hagan and
Howard B. Demuth.
52
27. Miller A. S, Blott B. H, Hames T. K.: Review of Neural Network
Applications in Medical Imaging and Signal Processing, Medical &
Biological Engineering & Computing 30 (1992).
28. N. Otsu, “A Threshold Selection Method from Gray Level Histograms,”
IEEE Trans. Syst., Man, Cybern., vol. 9, no. 1, trang. 62–66, Jan. 1979.
29. N. Otsu, “A Threshold Selection Method from Gray Level Histograms,”
IEEE Trans. Syst., Man, Cybern., vol. 9, no. 1, Jan. 1979.
30. “Neural edge detector—a good mimic of conventional one yet robuster
against noise-,” in Lecture Notes in Computer Science. Berlin, Germany:
Springer-Verlag, 2001, vol. 2085.
31. T. Ishigaki, S. Sakuma, Y. Horikawa, M. Ikeda, and H. Yamaguchi, “One-
shot dual-energy subtraction imaging,” Radiology, vol. 161, no.1, 1986.
32. T. Kohonen, “Correlation matrix memories,” IEEE Transactions on
Computers, vol. 21, 1972.
33. Yan Li Peng Wen Powers, D. Clark, C. R: LSB Neural Network Based
Segmentation of MR Brain Images, Systems, Man, and Cybernetics 6
(1999).
34. Survey on Neural Networks Used for Medical Image Processing -
Zhenghao Shi, Lifeng He, Tsuyoshi Nakamura1, Kenji Suzuki, Hidenori
Itoh.
35. https://en.wikipedia.org/wiki/Medical_imaging
36. https://en.wikipedia.org/wiki/Computer-aided_diagnosis