Tóm tắt luận án Tiến sĩ Khoa học máy tính: Nghiên cứu và phát triển các phương pháp nhận dạng cây dựa trên nhiều ảnh bộ phận của cây, có tương tác với người sử dụng

Chia sẻ: Gaocaolon6 Gaocaolon6 | Ngày: | Loại File: PDF | Số trang:27

Thêm vào BST

Báo xấu

72
lượt xem 3
download

Download Vui lòng tải xuống để xem tài liệu đầy đủ

Luận án hướng đến xây dựng các phương pháp hiệu quả cho phép nâng cao độ chính xác của nhận dạng cây dựa vào hình ảnh; ứng dụng của các kết quả nghiên cứu trong việc quảng bá thông tin của một tập các loài cây tương đối đặc thù: cây thuốc Việt Nam thông qua việc phát triển chức năng tìm kiếm dựa trên hình ảnh trong hệ thống tra cứu cây thuốc Việt Nam VnMed.

Chủ đề:

Bình luận(0) Đăng nhập để gửi bình luận!

Lưu

Nội dung Text: Tóm tắt luận án Tiến sĩ Khoa học máy tính: Nghiên cứu và phát triển các phương pháp nhận dạng cây dựa trên nhiều ảnh bộ phận của cây, có tương tác với người sử dụng

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC BÁCH KHOA HÀ NỘI NGUYỄN THỊ THANH NHÀN NGHIÊN CỨU VÀ PHÁT TRIỂN CÁC PHƯƠNG PHÁP NHẬN DẠNG CÂY DỰA TRÊN NHIỀU ẢNH BỘ PHẬN CỦA CÂY, CÓ TƯƠNG TÁC VỚI NGƯỜI SỬ DỤNG Ngành: Khoa học máy tính Mã số: 9480101 TÓM TẮT LUẬN ÁN TIẾN SĨ KHOA HỌC MÁY TÍNH Hà Nội −2020
Công trình được hoàn thành tại: Trường Đại học Bách khoa Hà Nội Người hướng dẫn khoa học: 1. PGS. TS. Lê Thị Lan 2. PGS. TS. Hoàng Văn Sâm Phản biện 1: PGS. TS. Nguyễn Thị Thủy Phản biện 2: PGS. TS. Trần Quang Bảo Phản biện 3: PGS. TS. Phạm Văn Cường Luận án sẽ được bảo vệ trước Hội đồng đánh giá luận án tiến sĩ cấp Trường họp tại Trường Đại học Bách khoa Hà Nội: Vào hồi giờ, ngày tháng năm Có thể tìm hiểu luận án tại thư viện: 1. Thư viện Tạ Quang Bửu - Trường ĐHBK Hà Nội 2. Thư viện Quốc gia Việt Nam
GIỚI THIỆU Động cơ Thực vật có một vai trò quan trọng trong hệ sinh thái. Ngày nay, sự đa dạng của hệ sinh thái nói chung và hệ thực vật nói riêng đang đứng trước nguy cơ bị suy giảm do sự khai thác không hợp lý của con người. Nhiều giải pháp đã được đề xuất nhằm bảo vệ đa dạng sinh học của hệ thực vật trong đó việc nâng cao hiểu biết của người dân là được đánh giá là một trong những giải pháp hữu hiệu trong đó tên của thực vật là chìa khóa quan trọng cho phép truy nhập đến các thông tin khác. Tuy nhiên, số cây mà một người bình thường có khả năng nhận biết thường rất thấp so với số lượng cây có trong hệ thực vật. Sự phát triển và phổ dụng của các thiết bị thu nhận và lưu trữ như máy ảnh, điện thoại cho phép xây dựng được một cơ sở dữ liệu hình ảnh lớn về các loài cây trong hệ thực vật. Cùng với đó, các tiến bộ trong các kỹ thuật xử lý hình ảnh và nhận dạng cho phép thực tiễn hóa ước mơ xây dựng các hệ thống nhận dạng cây tự động. Trong những năm vừa qua, các nghiên cứu về nhận dạng cây dựa trên hình ảnh của cây đã nhận được sự quan tâm của các nhà nghiên cứu liên lĩnh vực: thị giác máy tính, học máy và thực vật học. Nhiều cải tiến đáng kể về chất lượng nhận dạng đã được ghi nhận [4]. Một số hệ thống nhận dạng và tìm kiếm cây cũng đã được triển khai trên thực tế. Tuy vậy, nhận dạng cây hiện vẫn chưa được sử dụng rộng rãi do hai hạn chế chính. Hạn chế thứ nhất là số loài cây có thể nhận dạng được vẫn còn rất thấp so với số lượng cây có trong hệ thực vật. Cơ sở dữ liệu hình ảnh cây lớn nhất là LifeCLEF 2017 với 10,000 loài cây [2]) so với số lượng hơn 400,000 loài cây tồn tại trên trái đất [3]). Hạn chế thứ hai là độ chính xác của nhận dạng cây tự động vẫn còn thấp đặc biệt là khi làm việc trên dữ liệu đa dạng với số lớp lớn. Mục tiêu Luận án NCS hướng đến xây dựng các phương pháp hiệu quả cho phép nâng cao độ chính xác của nhận dạng cây dựa vào hình ảnh. Để đạt được mục tiêu này, trước tiên luận án tập trung vào cải thiện độ chính xác của nhận dạng cây dựa trên ảnh của một bộ phận. Có nhiều bộ phận trên cây có thể được dùng để xác định cây. Tuy nhiên, trong các bộ phận khác nhau của cây, lá là bộ phận được lựa chọn nhiều nhất. Các nghiên cứu trước đó thường dựa trên giả thuyết là lá được chụp trên nền đồng nhất. Giả thuyết này thường không thỏa mãn trong các điều kiện làm việc thực tế, do đó trong luận án này, chúng tôi tập trung nghiên cứu và 1
phát triển phương pháp nhận dạng lá trên nền phức tạp. Thứ hai, xuất phát từ quan sát là việc sử dụng hình ảnh của một bộ phận để nhận dạng không phải lúc nào cũng phù hợp. Nhiều cây rất dễ bị nhận nhầm nếu sử dụng lá nhưng lại có khả năng phân biệt rất cao nếu dựa trên hoa. Nhận dạng cây dựa trên nhiều bộ phận có thể được mô hình hóa thành bài toán kết hợp muộn: các kết quả của nhận dạng cây dựa trên nhiều ảnh bộ phận có thể được xác định dựa trên kết quả nhận dạng đơn bộ phận qua các chiến lược kết hợp. Do đó, mục tiêu thứ hai của luận án là đề xuất các phương pháp kết hợp hiệu quả cho bài toán nhận dạng cây dựa trên các bộ phận. Mục tiêu cuối cùng của luận án liên quan đến ứng dụng của các kết quả nghiên cứu trong việc quảng bá thông tin của một tập các loài cây tương đối đặc thù: cây thuốc Việt Nam thông qua việc phát triển chức năng tìm kiếm dựa trên hình ảnh trong hệ thống tra cứu cây thuốc Việt Nam VnMed. Các mục tiêu của luận án được tóm tắt lại như sau: Phát triển phương pháp nhận dạng cây dựa trên ảnh lá với nền phức tạp; Đề xuất kỹ thuật kết hợp cho nhận dạng cây dựa trên nhiều bộ phận; Phát triển chức năng tìm kiếm cây dựa trên hình ảnh tích hợp trong ứng dụng hệ thống tìm kiếm cây thuốc Việt Nam. Các đóng góp Luận án có ba đóng góp chính như sau: Đóng góp 1: Một phương pháp nhận dạng cây dựa trên ảnh lá có nền phức tạp được đề xuất. Phương pháp đề xuất kết hợp đồng thời phân đoạn tương tác và bộ mô tả đặc trưng nhân (KDES) cải tiến. Đóng góp 2: Một kỹ thuật kết hợp cho nhận dạng cây dựa trên hai bộ phận. Kỹ thuật kết hợp này là tích hợp giữa luật kết hợp nhân và kỹ thuật kết hợp dựa trên phân lớp. Đóng góp 3: Cuối cùng, một mô đun tìm kiếm cây dựa trên hình ảnh được phát triển và tích hợp trong ứng dụng tìm kiếm cây thuốc Việt Nam. Cấu trúc luận án Giới thiệu: Phần này trình bày động cơ và mục tiêu của luận án, cũng như ngữ cảnh, hạn chế và thách thức gặp phải trong bài toán nhận dạng cây. Phần cuối của phần này trình bày một sơ đồ làm việc chung và các đóng góp chính của luận án. Chương 1: Các nghiên cứu liên quan: Chương này hệ thống lại các nghiên cứu liên quan và các cách tiếp cận đề xuất cho nhận dạng cây tự động. 2
Chương 2: Trong chương này, một phương pháp cho nhận dạng cây dựa trên ảnh lá nền phức tạp được đề xuất. Trong phương pháp đề xuất, để trích chọn vùng lá từ ảnh, chúng tôi đề xuất áp dụng phân đoạn tương tác. Sau đó, đặc trưng nhân KDES cải tiến được áp dụng để trích chọn các đặc trưng của lá. Chương 3: Chương này tập trung vào nhận dạng cây dựa trên nhiều bộ phận của cây. Chúng tôi đề xuất một phương pháp kết hợp cho nhận dạng cây nhiều bộ phận dựa trên các kết quả một bộ phận. Chương 4: Trong chương này, chúng tôi đề xuất một cách tiếp cận mới để xây dựng hệ thống nhận dạng cây tự động khi cơ sở dữ liệu không có sẵn và ứng dụng của cách tiếp cận đề xuất trong việc xây dựng chức năng tìm kiếm cây thuốc Việt Nam dựa trên hình ảnh. Kết luận: Chương này đưa ra các kết luận và các hướng nghiên cứu tiếp theo. CHƯƠNG 1 CÁC NGHIÊN CỨU LIÊN QUAN 1.1 Nhận dạng cây từ các ảnh của một bộ phận Các nghiên cứu trước đây thường tập trung nhận dạng cây dựa trên ảnh của một bộ phận cây. Giữa các bộ phận của cây thì bộ phận lá được sử dụng rộng rãi nhất [4] bởi vì lá thường tồn tại trong thời gian dài, có số lượng lớn, có cấu trúc phẳng nên dễ thu thập hơn so với các bộ phận khác. Các nghiên cứu thường tập trung nhiều cho ảnh lá trên nền đơn giản do tính đơn giản của ảnh. Sau bộ phận lá thì hoa là bộ phận phổ biến tiếp theo [5] vì ảnh hoa rất dễ phân biệt các loài cây do các đặc điểm rất đặc trưng của hoa như màu sắc, hình dạng, sắp xếp cánh hoa,..Các bộ phận khác cũng được sử dụng để nhận dạng cây như bộ phận quả, thân, cành, toàn bộ. Hiện nay có hai cách tiếp cận cho bài toán nhận dạng cây. Đối với cách tiếp cận thứ nhất, các phương pháp nhận dạng dựa trên các đặc trưng được thiết kế thủ công [4]. Các đặc trưng bao gồm đặc trưng toàn cục (đặc trưng màu sắc, kết cấu, hình dạng) và đặc trưng bộ phận. Các nghiên cứu thường kết hợp hai hay nhiều đặc trưng cho mỗi bộ phận bởi vì không có một đặc trưng nào đủ mạnh để phân biệt được tất cả các lớp. Đối với cách tiếp cận thứ hai là áp dụng các phương pháp học sâu [2]. Mạng nơ ron tích chập (CNN) là một phương pháp học sâu, gần đây đã đạt được rất nhiều thành công trong các bài toán thị giác máy tính như phát hiện đối tượng, phân đoạn, và phân lớp ảnh [6]. CNN có thể học tự động các đặc trưng từ các ảnh đầu vào mà không phải thực hiện trích chọn thủ công. Các CNN phổ biến như AlexNet, VGG, 3
GoogLeNet và ResNet. 1.2 Nhận dạng cây từ ảnh nhiều bộ phận Nhận dạng cây dựa trên một bộ phận là không luôn luôn đạt được kết quả tốt do sự tương tự cao giữa các loài và sự khác biệt lớn của các hình ảnh trong cùng một loài. Một cách thức được đề xuất ra để giải quyết điều này là thực hiện nhận dạng cây dựa trên nhiều bộ phận. Hiện nay các nghiên cứu nhận dạng cây đã có xu hướng chuyển từ nhận dạng một bộ phận sang nhiều bộ phận. Nhận dạng cây dựa trên ảnh nhiều bộ phận cây có thể chia thành hai nhóm: Nhóm đầu tiên là quan tâm đến loại bộ phận của cây, như phân loại ảnh đầu vào là ảnh lá hay ảnh hoa..., nhóm thứ hai là không quan tâm ảnh thuộc vào bộ phận nào của cây [1]. Trong nhóm đầu tiên, mỗi bộ phận sẽ được huấn luyện bởi một bộ phân lớp riêng biệt. Trong nhóm thứ hai, tất cả các ảnh sẽ được huấn luyện bởi cùng một bộ phân lớp. Các kỹ thuật kết hợp được sử dụng để kết hợp các kết quả lại với nhau thường sử dụng là kỹ thuật kết hợp sớm và kỹ thuật kết hợp muộn. 1.3 Các hệ thống nhận dạng và thu thập dữ liệu cây Hiện nay có một số các ứng dụng nhận dạng cây dựa trên ảnh được triển khai trên các thiết bị di động như Pl@ntNet, iNaturalist, iSpot, Leafsnap, FlowerChecker, PlantSnapp, Plantifier,...[7, 8]. Các ứng dụng này thường cung cấp ba chức năng chính cho người dùng là chức năng khám phá, nhận dạng và thu thập dữ liệu. Trong đó chức năng nhận dạng cây và chức năng thu thập dữ liệu cây là hai chức năng hỗ trợ cho nhau. Khi chức năng nhận dạng cây đạt được độ chính xác cao, hệ thống sẽ thu hút được nhiều người dùng sử dụng hệ thống từ đó sẽ thu thập được nhiều dữ liệu từ người dùng. Sau đó dữ liệu thu thập này sẽ được sử dụng để huấn luyện và cải tiến hệ thống. Dữ liệu thu thập nhiều và đa dạng giúp giải quyết được vấn đề học quá khớp trong nhận dạng. Điều này chỉ ra vai trò quan trọng của hệ thống thu thập dữ liệu dựa trên cộng đồng. CHƯƠNG 2 PHƯƠNG PHÁP NHẬN DẠNG LÁ CÂY DỰA TRÊN BỘ MÔ TẢ NHÂN 2.1 Phương pháp nhận dạng cây dựa trên ảnh lá nền phức tạp Như đã phân tích ở chương 1, lá là bộ phận thường được sử dụng nhất. Tuy nhiên, các nghiên cứu thường làm việc trên ảnh lá có nền đơn giản. Trong luận án này, một phương pháp nhận dạng cây dựa trên ảnh lá trên nền phức tạp được đề xuất (xem Hình 2.1). Phương pháp bao gồm 3 mô đun chính đó là tiền xử lý ảnh, trích chọn đặc 4
trưng và phân lớp. Ở mô đun phân lớp chúng tôi áp dụng bộ phân lớp máy véc tơ hỗ trợ (SVM). Hình 2.1 Sơ đồ của phương pháp đề xuất nhận dạng cây dựa trên ảnh lá trên nền phức tạp 2.2 Phân đoạn tương tác Khi làm việc với lá trên nền phức tạp, bước xử lý đầu tiên cần phải làm là tách lá ra khỏi nền. Trong phương pháp đề xuất, chúng tôi áp dụng phương pháp phân đoạn tương tác. Ngoài ra, để đánh giá hiệu quả của phương pháp phân đoạn tương tác, chúng tôi so sánh hiệu quả của phương pháp này với phương pháp phân đoạn tự động và với phương pháp khi không thực hiện phân đoạn. Ý tưởng chính của phân đoạn tương tác là dựa trên các chỉ dẫn của người dùng để thực hiện phân đoạn. Phương pháp này thực hiện qua 4 bước (Hình 2.2). Ở bước 1, người dùng sẽ đánh dấu thủ công các vùng thuộc vào đối tượng (inner marker) và các vùng ngoài đối tượng (outer marker) bằng cách vẽ các đường thuộc vào 2 vùng này. Trong bước 2, thuật toán Watershed [9] sẽ được dùng để phân đoạn ảnh. Sau đó ở bước 3, người dùng sẽ lựa chọn vùng chứa lá quan tâm. Cuối cùng, trong bước 4, vùng chứa lá sẽ được chuẩn hóa về hướng. Hình 2.2 Sơ đồ phân đoạn tương tác đề xuất 2.3 Trích chọn đặc trưng Trong luận án này, bộ mô tả nhân (KDES) được đề xuất sử dụng để trích chọn đặc trưng cho lá. KDES đầu tiên được đề xuất bởi Liefeng Bo [10] sử dụng các đặc trưng của điểm ảnh (gradient, màu sắc và hình dạng) và các đặc trưng mức vùng thông qua 5
Hình 2.5 Một ví dụ của vùng kích thước cố định trong KDES gốc và vùng kích thước thay đổi trong phương pháp KDES cải tiến. (a,b) hai ảnh của cùng một lá với các kích thước khác nhau được phân chia sử dụng vùng kích thước cố định; (b,c): hai ảnh của cùng một lá với kích thước khác nhau được phân chia sử dụng vùng kích thước thay đổi. việc đối sánh các nhân. KDES gốc được sử dụng cho phát hiện đối tượng và đạt được các kết quả ấn tượng trên các cơ sở dữ liệu tiêu chuẩn như CIFAR-10, Caltech-101, ImageNet. KDES gốc có hai hạn chế là không bất biến với phép tỷ lệ và nhạy cảm với phép quay. Trong nghiên cứu [11], Nguyễn Văn Tới và các công sự đã đề xuất ba cải tiến KDES gốc cho nhận dạng cử chỉ tay, chúng tôi gọi là KDES cải tiến. Trong công việc này, chúng tôi đề xuất sử dụng KDES cải tiến cho việc trích chọn đặc trưng ảnh lá. KDES cải tiến được trích chọn thông qua ba bước: trích chọn đặc trưng mức điểm, mức vùng và mức ảnh. a) Trích chọn các đặc trưng mức điểm Ở bước này, một véc tơ gradient được tính tại mỗi điểm ảnh. Véc tơ gradient tại điểm z được định nghĩa bởi độ lớn của nó m(z) và θ(z) là góc của véc tơ gradient tại ˜ điểm z. Theo [10], hướng θ(z) được định nghĩa như sau: ˜ = [sin(θ(z))cos(θ(z))] θ(z) (2.8) b) Trích chọn các đặc trưng mức vùng Tạo ra các vùng ảnh với kích thước thích nghi Trong phần này, chúng tôi sử dụng các vùng ảnh có kích thước thay đổi thay vì sử dụng kích thước cố định để nhận được cùng số vùng theo chiều ngang và chiều dọc khi kích thước ảnh thay đổi. Hình 2.5 miêu tả một ví dụ của vùng kích thước cố định trong KDES gốc và vùng kích thước thay đổi trong phương pháp KDES cải tiến. Tính đặc trưng mức vùng 6
Hình 2.7 Cấu trúc đặc trưng mức ảnh là kết nối các véc tơ đặc trưng của các ô trong các lớp của cấu trúc kim tự tháp. Các đặc trưng mức vùng được tính dựa trên ý tưởng của phương pháp nhân (kernel method). Xuất phát từ việc đối sánh nhân biểu diễn sự tương tự của hai vùng, chúng tôi có thể trích chọn véc tơ đặc trưng cho vùng sử dụng xấp xỉ bản đồ đặc trưng mức vùng cho một hàm đối sánh nhân. Đặc trưng xấp xỉ qua vùng ảnh P được cấu trúc như sau [11]: X F gradient (P ) = m(z)φ ˜ ω (z)) ⊗ φp (z) o (˜ (2.17) z∈P trong đó m(z) ˜ là véc tơ gradient chuẩn hóa, φo (˜ ω (z)) và φp (z) là các bản đồ đặc trưng xấp xỉ cho các nhân hướng (orientation kernel) và nhân vị trí (position kernel) tương ứng, ⊗ là tích Kronecker. c) Trích chọn các đặc trưng mức ảnh Khi các đặc trưng mức vùng được tính cho mỗi vùng, công việc còn lại là tính véc tơ đặc trưng biểu diễn cho toàn bộ ảnh. Để làm điều này, chúng tôi phân chia ảnh thành các vùng nhỏ hơn. Số vùng được chia trong một ảnh là theo cấu trúc kim tự tháp, tại mức k chúng tôi có 2k−1 vùng theo chiều ngang và 2k−1 vùng theo chiều dọc (Hình 2.7). Sau đó chúng tôi tính véc tơ đặc trưng cho mỗi vùng của ảnh và nối chúng vào trong một véc tơ được gọi là véc tơ đặc trưng mức ảnh được biểu diễn như dưới đây. Véc tơ này sẽ là đầu vào của bộ phân lớp SVM cho pha huấn luyện và kiểm thử. φ¯P (X) = w(1) φ¯S (X (1,1) ); ...; w(l) φ¯S (X (l,t) ); ...; w(L) φ¯S (X (L,nL ) ) (2.20) Trong đó w(l) là trọng số kết hợp ở mức l, φ¯S (X (l,t) ) là giá trị trung bình của các đặc trưng mức vùng trong ô thứ t tại mức l. 7
2.4 Các kết quả thực nghiệm 2.4.1 Các cơ sở dữ liệu Để thử nghiệm phương pháp đề xuất, chúng tôi sử dụng ba cơ sở dữ liệu: Cơ sở dữ liệu ImageCLEF 2013: bao gồm 5,540 ảnh huấn luyện và 1,660 ảnh kiểm thử của 80 loài được trích ra từ cơ sở dữ liệu ImageCLEF 2013. Cơ sở dữ liệu Flavia: bao gồm 1,907 ảnh lá trên nền đơn giản của 32 loài. Cơ sở dữ liệu LifeCLEF 2015: Bảng 2.1 chỉ ra chi tiết cơ sở dữ liệu. Bảng 2.1 Cơ sở dữ liệu lá/lá nền đơn giản của LifeCLEF 2015 Leaf Leafscan Training 13,367 12,605 Testing 2,690 221 Number of species 899 351 2.4.2 Các kết quả thực nghiệm Các kết quả trên cơ sở dữ liệu ImageCLEF 2013 Các kết quả được chỉ ra trong Bảng 2.2 cho thấy trên cùng tập dữ liệu, KDES cải tiến cho kết quả tốt hơn trên KDES gốc. Với cùng bộ đặc trưng KDES, phân đoạn tương tác cho kết quả nhận dạng tốt hơn so với phân đoạn tự động và không phân đoạn. Cuối cùng, phương pháp đề xuất kết hợp đồng thời KDES cải tiến và dữ liệu phân đoạn tương tác thì kết quả đạt được là tốt nhất với độ chính xác là 71.5%. Bảng 2.2 Độ chính xác thu được trong 6 thực nghiệm trên cơ sở dữ liệu ImageCLEF2013 Phương pháp Độ chính xác (%) KDES cải tiến với phân đoạn tương tác 71.5 KDES gốc với phân đoạn tương tác 63.4 KDES cải tiến với dữ liệu gốc 43.68 KDES gốc với dữ liệu gốc 43.25 KDES cải tiến với phân đoạn tự động 42.3 KDES gốc với phân đoạn tự động 35.5 Các kết quả trên cơ sở dữ liệu Flavia Phương pháp đề xuất thực hiện trên cơ sở dữ liệu Flavia đạt được độ chính xác là 99.06%. Chúng tôi so sánh phương pháp đề xuất với các phương pháp khác trên cùng cơ sở dữ liệu Flavia. Các kết quả được cho như trong Bảng 2.4 cho thấy phương pháp đề xuất cao hơn các phương pháp dựa trên đặc trưng thiết kế trước đó. Độ chính xác được cải thiện từ 0.36 đến 6.86% so với các kết quả khác. Các kết quả trên cơ sở dữ liệu LifeCLEF 2015 8
Bảng 2.4 So sánh phương pháp đề xuất với các phương pháp dựa trên thiết kế đặc trưng trên cơ sở dữ liệu Flavia Phương pháp Đặc trưng, Phương pháp phân lớp Độ chính xác(%) Phương pháp KDES cải tiến; SVM 99.06 đề xuất [12] SMSD; NFC 97.5 [13] CT,HU, moments, GF, GLCM; NFC 97.6 [14] EnS, CDS; SVM 97.8 [15] GIST features (486), (PCA=40%); cosine KNN 98.7 [16] Zernike moments, HOG; SVM 96.4 [17] Geometrical features, invariant moments; RBPNN 94.1 [18] Geometrical features, vein features; SVM 92.2 Đối với dữ liệu này, độ đo đánh giá được sử dụng là score ở mức ảnh được định nghĩa bởi cuộc thi LifeCLEF2015 [1]. Kết quả nhận dạng của phương pháp được đề xuất trong chương này được gửi cho cuộc thi với tên lần lượt là Mica Run 1, Mica Run 2 và Mica Run 3. Hình 2.12 biểu diễn kết quả của các đội tham gia cuộc thi. Kết quả phương pháp đề xuất của chúng tôi trên tập ảnh lá nền đơn giản đứng thứ hai trong cuộc thi LifeCLEF2015 sau đội đứng đầu sử dụng phương pháp CNN, và cao hơn một số đội khác cũng sử dụng mạng CNN. Kết quả này cho phép minh chứng hiệu quả của phương pháp tiền xử lý cũng như đặc trưng sử dụng để mô tả ảnh lá. Hình 2.12 Chi tiết score đạt được cho Leaf Scan [1], đội chúng tôi có tên là Mica 2.5 Kết luận Trong chương này, một phương pháp nhận dạng cây dựa trên ảnh lá trên nền phức tạp đã được đề xuất. Các kết quả thử nghiệm chỉ ra rằng việc kết hợp giữa KDES cải tiến và phân đoạn tương tác trong phương pháp đề xuất đã vượt qua KDES gốc và các phương pháp dựa trên đặc trưng được thiết kế khác cho các cơ sở dữ liệu ImageCLEF 2013, Flavia và LifeCLEF 2015. 9
CHƯƠNG 3 KỸ THUẬT KẾT HỢP SAU CHO NHẬN DẠNG CÂY DỰA TRÊN NHIỀU BỘ PHẬN 3.1 Giới thiệu Theo quan điểm của các nhà thực vật học nhận dạng loài cây chỉ dựa vào các ảnh của một bộ phận là không đủ thông tin do sự tương tự lớn giữa các loài khác nhau và sự biến đổi lớn trong cùng một loài. Do đó hiện nay đã có nhiều nghiên cứu thực hiện nhận dạng cây dựa trên nhiều bộ phận. Chương này chúng tôi đề xuất một kỹ thuật kết hợp nhiều bộ phận. Không mất tính tổng quát, chúng tôi thực hiện và đánh giá các kỹ thuật kết hợp cho mỗi cặp bộ phận của cây. Chúng tôi đề xuất một phương pháp gọi là phương pháp kết hợp lai bền vững (RHF), phương pháp này thực hiện kết hợp phương pháp kết hợp dựa trên biến đổi và kết hợp dựa trên phân lớp (CBF). Cách kết hợp đề xuất được miêu tả trong Hình 3.2. Hình 3.2 Cách kết hợp đề xuất cho nhận dạng cây đa bộ phận 3.2 Phương pháp kết hợp lai bền vững RHF Trong chương này, chúng tôi sử dụng một số ký hiệu sau: q = {I1 , I2 , .., IN }: là câu truy vấn chứa các ảnh của N bộ phận (trong công việc này chúng tôi chọn N = 2); C: số loài trong cơ sở dữ liệu; si (Ik ) là độ tin cậy của loài thứ i khi sử dụng ảnh của bộ phận k được gọi là Ik như là câu truy vấn của nhận dạng đơn bộ phận với 1 ≤ i ≤ C, 1 ≤ k ≤ N ; c: lớp dự báo cho câu truy vấn q. 10
Kỹ thuật kết hợp dựa trên sự biến đổi: bao gồm 3 luật chính sau: Khi áp dụng 3 luật này, các ảnh trong câu truy vấn q được dự đoán vào lớp c định nghĩa như sau: Luật lớn nhất (Max rule): c = arg max max si (Ik ) (3.1) i k=1..N Luật tổng (Sum rule): N X c = arg max si (Ik ) (3.2) i k=1 Luật nhân (Product rule): N Y c = arg max si (Ik ) (3.3) i k=1 Các phương pháp kết hợp dựa trên biến đổi không phải luôn luôn đạt được kết quả tốt. Tuy nhiên các phương pháp này là đơn giản và không yêu cầu quá trình huấn luyện, hầu hết các phương pháp nhận dạng cây dựa trên nhiều bộ phận đều sử dụng các phương pháp này. Kỹ thuật kết hợp dựa trên phân lớp (CBF) Ý tưởng chính của kỹ thuật kết hợp dựa trên phân lớp là nhiều độ tin cậy được đưa vào một véc tơ đặc trưng và sử dụng một bộ phân lớp để phân tách các lớp dựa trên không gian các véc tơ đặc trưng thu được. Chúng tôi áp dụng ý tưởng này cho nhận dạng cây từ ảnh của hai bộ phận. Trong đó, máy véc tơ hỗ trợ (SVM) được sử dụng do đây là một bộ phân lớp mạnh. CBF được tiến hành như sau: Với mỗi một ảnh, chúng tôi cho đi qua bộ phân lớp tương ứng, chúng tôi thu được một danh sách C độ tin cậy tương ứng cho C lớp. Với mỗi cặp ảnh, C cặp độ tin cậy tương ứng cho C lớp được tạo ra bao gồm một mẫu dương tại vị trí lớp đúng và C − 1 mẫu âm còn lại. Các mẫu dương và mẫu âm được mô tả trong hình 3.3. Sau đó bộ phân lớp SVM được sử dụng để huấn luyện các mẫu này. Trong pha kiểm thử, cho câu truy vấn q, phương pháp CBF trả về kết quả hai xác suất dự báo cho loài thứ i: một cho lớp dương ký hiệu Ppos (i, q) và một cho lớp âm ký hiệu Pneg (i, q). Danh sách các loài được xếp hạng bởi si (q), ở đó si (q) là độ tin cậy của 11
Hình 3.3 Giải thích về các mẫu âm và mẫu dương loài thứ i thu được cho câu truy vấn q thuộc về lớp dương: si (q) = Ppos (i, q) (3.4) Lớp c là lớp dự báo được xác định như sau, ở đó 1 ≤ i ≤ C c = arg max si (q) (3.5) i Kỹ thuật kết hợp lai bền vững (RHF) Kỹ thuật kết hợp dựa trên phân lớp có thể làm mất đi sự phân bố các đặc điểm của mỗi loài bởi vì tất cả các mẫu dương và mẫu âm của tất cả các loài được huấn luyện cùng nhau. Do đó để phát huy sự phân bố các đặc điểm của mỗi loài, chúng tôi xây dựng mỗi loài một mô hình SVM dựa trên các mẫu dương và mẫu âm của mỗi loài. Với mỗi câu truy vấn q, chúng tôi thu được C mẫu âm/dương tương ứng cho C lớp. Mỗi mẫu tương ứng cho lớp i chúng tôi sẽ cho qua bộ phân lớp SVM cho lớp i thu được xác suất tương ứng si (q). Sau đó chúng tôi thực hiện nhân giá trị si (q) với các giá trị trong mẫu đang xét. Mô hình lai đề xuất được tiến hành như sau: 2 Y c = arg max si (q). si (Ik ) (3.6) i k=1 Mô hình này là tích hợp giữa luật nhân và kỹ thuật kết hợp dựa trên phân lớp. Chúng tôi mong đợi rằng xác suất của câu truy vấn q vào lớp dương ảnh hưởng đến 12
kết quả kết hợp. Nếu xác suất của câu truy vấn q vào lớp dương là cao thì xác suất của câu truy vấn q thuộc vào lớp thứ i cũng cao. 3.3 Lựa chọn mô hình phân lớp cho nhận dạng cây đơn bộ phận Để nhận dạng cây dựa trên nhiều bộ phận đạt kết quả cao, ngoài việc sử dụng các kỹ thuật kết hợp hiệu quả, một nhân tố quan trọng góp phần để nâng cao kết quả này là kết quả nhận dạng trên một bộ phận phải đạt kết quả cao. Với sự thành công của các mạng CNN cho các bài toán nhận dạng đối tượng trong những năm gần đây, trong phần này chúng tôi triển khai một số mạng phổ biến là AlexNet[19], ResNet[20] và GoogLeNet [21] cho nhận dạng một bộ phận cây. Chúng tôi đề xuất hai chiến lược nhận dạng đơn bộ phận được miêu tả trong Hình 3.10: (1) Trong chiến lược thứ nhất, một mạng CNN sẽ được huấn luyện cho mỗi bộ phận; (2) Với chiến lược thứ hai, một mạng CNN được huấn luyện cho tất cả các ảnh bộ phận. Chiến lược thứ nhất cho phép kết hợp tường minh cho mỗi bộ phận trong khi chiến lược thứ hai không yêu cầu biết của bộ phận cây và thực hiện tính toán ít hơn do chỉ có một mạng CNN. Hình 3.10 Hai chiến lược nhận dạng cây dựa trên một bộ phận. Khi thực hiện huấn luyện, chúng tôi sử dụng bộ trọng số đã được tiền huấn luyện trên cơ sở dữ liệu ImageNet và tinh chỉnh mạng với cơ sở dữ liệu thử nghiệm. 3.4 Các kết quả thực nghiệm Để triển khai các thực nghiệm, chúng tôi cài đặt trên cấu hình máy là GHzCPU 2.20, RAM 16 GB, GPU GeForce GTX 1080 Ti với Tensorflow và tối ưu mô hình cho nhận dạng cây với việc tối ưu các tham số được sử dụng trong AlexNet , ResNet và GoogLeNet. 3.4.1 Cơ sở dữ liệu Chúng tôi trích xuất từ LifeCLEF 2015, 50 loài cây có đầy đủ các ảnh của các bộ phận. Ngoài ra với mong muốn tăng số lượng ảnh cho cơ sở dữ liệu các ảnh được thu thập thêm từ Internet. Cơ sở dữ liệu này được hiển thị trong Bảng 3.2. Dữ liệu chia 13
thành 3 phần: CNN training là dữ liệu huấn luyện của mạng CNN cho nhận dạng một bộ phận; SVM input được sử dụng làm tập dữ liệu huấn luyện cho bộ phân lớp SVM; testing được sử dụng để đánh giá hiệu suất của các phương pháp kết hợp đã trình bày. Bảng 3.2 Cơ sở dữ liệu thu thập của 50 loài với 4 bộ phận Flower Leaf Entire Branch Total CNN Training 1650 1930 825 1388 5793 SVM Input 986 1164 495 833 3478 Testing 673 776 341 553 2343 Tổng 3309 3870 1661 2774 11614 Số loài = 50 3.4.2 Các kết quả thử nghiệm Kết quả nhận dạng đơn bộ phận Các kết quả thu được cho hai chiến lược đề xuất được hiển thị trong Bảng 3.3. Chúng tôi quan sát thấy rằng GoogLeNet thu được kết quả tốt hơn so với AlexNet, ResNet ở cả hai phương pháp và cho hầu hết các bộ phận ngoại trừ ảnh toàn bộ của cây trong chiến lược 2. Một điểm thú vị là chiến lược 1 phù hợp với bộ phận lá và hoa trong khi chiến lược 2 là lựa chọn tốt cho các bộ phận khác như cành và ảnh toàn bộ cây. Điểm thuận lợi của chiến lược 2 cho nhận dạng đơn bộ phận là không yêu cầu biết loại bộ phận. Các kết quả cũng chỉ ra rằng hoa là bộ phận cho kết quả tốt nhất, trong khi ảnh toàn bộ cây cho kết quả thấp nhất. Bảng 3.3 Độ chính xác nhận dạng cây dựa trên một bộ phận với hai chiến lược: (1) Một mạng cho mỗi bộ phận; (2) Một mạng cho tất cả các bộ phận. AlexNet ResNet GoogLeNet Bộ phận Chiến lược 1 Chiến lược 2 Chiến lược 1 Chiến lược 2 Chiến lược 1 Chiến lược 2 Leaf (Le) 66.2 63.8 73.4 70.6 75.0 76.6 Flower (Fl) 73.0 72.2 75.6 75.4 82.2 78.4 Branch (Br) 43.2 47.4 48.6 54.6 53.2 54.8 Entire (En) 32.4 33.8 32.4 39.0 36.4 35.2 Đánh giá chiến lược kết hợp đề xuất RHF Bảng 3.4, Bảng 3.5 và Bảng 3.6 cho thấy kết quả đạt được khi kết hợp từng cặp bộ phận. Các kết quả chỉ ra rằng hầu như kết quả kết hợp hai bộ phận đều cao hơn kết của mỗi bộ phận tương ứng. Trong trường hợp áp dụng chiến lược 1 cho nhận dạng đơn bộ phận, đối với mạng AlexNet, kết quả tốt nhất cho một bộ phận là 73.0 % cho bộ phận hoa, trong khi bằng cách áp dụng phương pháp RHF đề xuất, độ chính xác của sự kết hợp lá và hoa tăng đáng kể là 16.8 % lên 89.8 %. Khi áp dụng ResNet, sự kết hợp giữa lá và hoa (Le-Fl) tăng lên 17 % so với một bộ phận và 13.6% khi áp dụng mạng GoogLeNet. Không chỉ đối với cặp hoa và lá mà trong tất cả sáu cặp bộ phận kết hợp, phương pháp đề xuất RHF đạt được kết quả cao nhất. 14
Bảng 3.4 Độ chính xác đạt được ở hạng 1 khi kết hợp mỗi cặp bộ phận với các phương pháp kết hợp khác nhau trong trường hợp sử dụng mạng AlexNet. Chiến lược 1 cho nhận dạng đơn bộ phận Chiến lược 2 cho nhận dạng đơn bộ phận Max Sum Product Max Sum Product Độ chính xác (%) rule rule rule CBF RHF rule rule rule CBF RHF R1 66.2 67.2 75.6 74.0 76.6 66.8 67.2 77.4 71.4 78.6 En - Le R5 88.6 88.8 93.2 81.8 94.6 88.4 88.2 93.6 80.2 94.4 R1 73.8 74.4 78.8 77.2 81.2 73.84 73.6 78.8 76.24 80.4 En - Fl R5 92.6 92.8 94.2 84.2 94.4 88.8 89.2 94.8 83.6 95.6 R1 81.6 82.0 88.6 86.2 89.8 78.8 81.2 89.6 83.2 89.6 Le - Fl R5 96.8 96.8 98.2 90.4 98.4 95.6 96.0 99.2 88.8 99.2 R1 70.2 71.0 76.8 73.8 78.4 66.4 68.2 78.2 73.6 78.2 Br - Le R5 89.6 90.0 93.4 79.6 93.8 92.0 93.0 95.6 81.6 96.0 R1 74.2 75.4 80.8 79.0 81.4 70.2 70.6 80.6 76.6 81.4 Br - Fl R5 90.8 91.4 95.2 83.0 95.4 90.4 90.6 95.4 84.6 95.6 R1 51.6 52.2 58.0 58.0 58.6 52.4 52.8 60.6 60.6 61.6 Br - En R5 76.8 77.6 83.6 81.4 83.8 78.2 78.6 83.6 83.4 84.9 Bảng 3.5 Độ chính xác đạt được ở hạng 1 khi kết hợp mỗi cặp bộ phận với các phương pháp kết hợp khác nhau trong trường hợp sử dụng mạng ResNet. Chiến lược 1 cho nhận dạng đơn bộ phận Chiến lược 2 cho nhận dạng đơn bộ phận Max Sum Product Max Sum Product Độ chính xác (%) rule rule rule CBF RHF rule rule rule CBF RHF R1 70.4 72.2 75.2 73.2 78.0 73.6 75.4 80.8 73.2 80.8 En - Le R5 91.8 92.6 92.8 90.6 93.2 94.2 94.4 94.8 90.6 95.2 R1 73.8 75.4 80.0 76.4 83.2 74.6 76.0 80.2 76.4 83.2 En - Fl R5 93.2 93.6 95.0 89.2 95.4 94.4 95.0 95.8 89.2 95.2 R1 90.0 91.4 92.4 91.4 92.6 85.8 87.6 89.2 91.4 92.6 Le - Fl R5 98.0 98.8 99.0 96.0 99.2 98.4 98.4 99.0 96.0 99.2 R1 77.8 79.2 82.0 79.4 83.2 79.8 81.4 83.6 79.4 83.2 Br - Le R5 91.8 92.2 94.0 90.4 94.6 94.4 94.4 96.4 90.4 94.6 R1 80.0 81.0 84.4 82.0 86.4 78.8 80.4 85.6 81.0 86.0 Br - Fl R5 93.6 94.4 97.6 91.4 97.8 95.6 96.0 96.2 91.4 97.6 R1 52.4 54.4 62.2 55.0 60.6 60.4 66.2 69.0 55.0 69.0 Br - En R5 82.0 83.4 86.6 80.4 87.4 84.8 85.6 89.6 80.4 87.6 Bảng 3.6 Độ chính xác đạt được ở hạng 1 khi kết hợp mỗi cặp bộ phận với các phương pháp kết hợp khác nhau trong trường hợp sử dụng mạng GoogLeNet. Chiến lược 1 cho nhận dạng đơn bộ phận Chiến lược 2 cho nhận dạng đơn bộ phận Max Sum Product Max Sum Product Accuracy (%) rule rule rule CBF RHF rule rule rule CBF RHF R1 74.6 75.0 79.2 79.4 80.6 77.8 78.0 79.4 81.2 82.0 En - Le R5 94.0 93.8 93.6 84.0 94.4 91.4 91.4 96.2 85.6 95.8 R1 79.2 79.8 83.4 83.8 84.2 77.6 78.0 81.0 80.2 81.0 En - Fl R5 95.8 96.0 97.0 89.2 96.8 93.6 93.8 95.8 84.4 96.2 R1 91.4 92.0 95.4 93.8 95.8 90.6 90.2 92.6 91.8 92.8 Le - Fl R5 99.6 99.6 99.6 96.0 99.8 98.6 98.8 99.0 93.8 99.0 R1 79.8 81.0 84.6 80.2 84.6 81.2 81.8 85.6 81.6 86.6 Br - Le R5 94.4 94.6 97.4 84.8 97.4 96.8 96.8 96.8 86.0 97.0 R1 85.0 86.0 90.2 87.2 91.6 80.0 80.4 86.8 83.2 87.2 Br - Fl R5 97.0 97.4 99.2 90.2 99.0 96.0 96.0 97.6 86.8 97.0 R1 58.0 58.8 61.8 60.2 64.2 57.8 58.4 65.6 59.2 66.4 Br - En R5 81.4 81.8 86.8 70.4 87.0 82.2 82.0 87.0 68.4 87.0 So sánh phương pháp đề xuất với phương pháp MCDCNN[22] Để cho thấy hiệu quả của kỹ thuật kết hợp đề xuất, chúng tôi so sánh phương pháp RHF với MCDCNN[22]. Các kết quả đạt được trên cùng cơ sở dữ liệu được cho 15
Bảng 3.7 So sánh phương pháp đề xuất với MCDCNN [22] Chiến lược 1 cho Chiến lược 2 cho nhận dạng đơn bộ phận nhận dạng đơn bộ phận RHF RHF RHF RHF RHF RHF MCDCNN Accuracy (%) (AlexNet) (ResNet) (GoogLeNet) (AlexNet) (ResNet) (GoogLeNet) [22] R1 76.6 78.0 80.6 78.6 80.8 82.0 70.0 En - Le R5 94.6 93.2 94.4 94.4 95.2 95.8 91.0 R1 81.2 83.2 84.2 80.4 83.2 81.0 75.6 En - Fl R5 94.4 95.4 96.8 95.6 95.2 96.2 94.2 R1 89.8 92.6 95.8 89.6 92.6 92.8 86.6 Le - Fl R5 98.4 99.2 99.8 99.2 99.2 99.0 98.4 R1 78.4 83.2 84.6 78.2 83.2 86.6 72.2 Br - Le R5 93.8 94.6 97.4 96.0 94.6 97.0 93.0 R1 81.4 86.4 91.6 81.4 86.0 87.2 76.8 Br - Fl R5 95.4 97.8 99.0 95.6 97.6 97.0 93.0 R1 58.6 60.6 64.2 61.6 69.0 66.4 55.2 Br - En R5 83.8 87.4 87.0 84.0 87.6 87.0 80.6 trong Bảng 3.7 cho thấy phương pháp đề xuất vượt trội hơn MCDCNN trong tất cả các cặp bộ phận kết hợp. Sự cải thiện lên tới 14.4 % cho sự kết hợp giữa cành và lá. 3.5 Kết luận Chương này chúng tôi đã đề xuất một phương pháp kết hợp muộn RHF cho bài toán nhận dạng cây dựa trên hai bộ phận. Đối với nhận dạng đơn bộ phận, chúng tôi áp dụng một số mạng CNN tiêu biểu. Kỹ thuật đề xuất RHF cho kết quả tốt nhất so với các kỹ thuật kết hợp khác với độ chính xác tăng từ 3.2% đến 14.8% tại hạng 1. CHƯƠNG 4 CÁCH TIẾP CẬN ĐỀ XUẤT CHO NHẬN DẠNG CÂY TỰ ĐỘNG KHÔNG CÓ SẴN DỮ LIỆU VÀ ÁP DỤNG CHO HỆ THỐNG TÌM KIẾM DỰA TRÊN HÌNH ẢNH 4.1 Cách tiếp cận đề xuất cho hệ thống nhận dạng cây tự động khi không có sẵn dữ liệu Mặc dù đã có rất nhiều đề xuất cũng như những kết quả đáng ghi nhận cho bài toán nhận dạng cây. Tuy nhiên, các nghiên cứu trước đó thường dựa trên giả thuyết là cơ sở dữ liệu đã có sẵn. Trong chương này chúng tôi đề xuất một cách tiếp cận cho phép xây dựng các hệ thống nhận dạng cây với dữ liệu không có sẵn. Ý tưởng chính của các tiếp cận này là các loài cây có thể có phân bố rất khác nhau trên trái đất, tuy nhiên các loài cây thường chia sẻ đặc điểm chung: có các bộ phận lá, hoa...Xuất phát từ quan sát này, chúng tôi sẽ xây dựng một bộ phát hiện tự động các bộ phận dựa trên các cơ sở dữ liệu đã có từ trước. Bộ phát hiện tự động này sẽ được xem như là bước lọc để xử lý tự động dữ liệu thu thập từ các nguồn với sự tham gia của nhiều người dùng (crowdsourcing). Cách tiếp cận được đề xuất bao gồm 4 bước và được biểu diễn 16
ở Hình 4.3. Hình 4.3 Sơ đồ đề xuất cho xây dựng hệ thống nhận dạng cây tự động khi không có sẵn cơ sở dữ liệu Thu thập dữ liệu cây: Bước đầu tiên là thu thập dữ liệu từ nhiều nguồn khác nhau. Phát hiện bộ phận cây Chúng tôi đề xuất xây dựng bộ phát hiện bộ phận cây (lá, hoa, quả, thân, cành, không phải cây) dựa trên bộ dữ liệu LifeCLEF 2015 và sử dụng làm bộ lọc dữ liệu tự động để đánh giá dữ liệu. Đánh giá dữ liệu: Mục đích chính của bước này là loại bỏ các hình ảnh không phải là cây. Nhận dạng cây: Chúng tôi áp dụng các kỹ thuật nhận dạng cây dựa trên một bộ phận hoặc nhiều bộ phận. Trong các mục sau, chúng tôi sẽ tập trung trình bày bộ phát hiện bộ phận cây và ứng dụng của cách tiếp cận đề xuất trong việc xây dựng chức năng tìm kiếm theo hình ảnh của hệ thống tra cứu cây thuốc Việt Nam VnMed. 4.2 Phát hiện bộ phận cây Phát hiện bộ phận cây tự động nhằm xác định bộ phận của cây có mặt trong một hình ảnh cho trước. Chúng tôi đề xuất áp dụng mạng GoogLeNet và kỹ thuật học chuyển giao để xây dựng bộ phát hiện bộ phận. Để huấn luyện và đánh giá mạng đề xuất, chúng tôi lấy cơ sở dữ liệu LifeCLEF 2015 và dữ liệu thu thập từ Internet. 5 bộ phận trong LifeCLEF 2015 đó là lá (bao gồm lá + lá nền đơn giản), hoa, quả, thân, cành (bao gồm cành + toàn bộ). Với mục 17
đích phân loại một ảnh đầu vào là cây hay không phải là cây, chúng tôi cần tạo một lớp chứa các ảnh không phải là cây. Với các ảnh không phải là cây được thu thập từ Internet. Thực nghiệm: Các tham số của mạng được tinh chỉnh như sau: kích thước bó: 32, tốc độ học khởi tạo: 0.001, momentum: 0.9. Bảng 4.4 trình bày kết quả tương ứng với hai chiến lược khởi tạo trọng số. Kết quả cho thấy rằng việc sử dụng trọng số tiền huấn luyện trên một cơ sở dữ liệu lớn như ImageNet cho phép đạt được sự cải thiện +5.08 % ở hạng 1 và +2.54 % ở hạng 2 so với trường hợp sử dụng bộ trọng số khởi tạo ngẫu nhiên. Độ chính xác của phương pháp được đề xuất ở hạng 1 và hạng 2 tương ứng là 87.18 % và 97.46 %. Kết quả này là rất hứa hẹn vì các hình ảnh chủ yếu là có nền phức tạp. Điều này chứng tỏ rằng phương pháp học sâu có khả năng học tốt với các hình ảnh tự nhiên. Bảng 4.4 Kết quả bộ phát hiện bộ phận tự động với hai bộ trọng số khởi tạo khác nhau. Bộ trọng số khởi tạo Thứ hạng 1 (%) Thứ hạng 2 (%) Khởi tạo ngẫu nhiên 82.10 94.92 Tiền huấn luyện trên ImageNet 87.18 97.46 4.3 Phát triển hệ thống tra cứu cây thuốc Việt Nam (VnMed) Hệ thống tra cứu cây thuốc Việt Nam (VnMed) đã được phát triển bởi Viện MICA, Trường đại học Bách Khoa Hà Nội cho phép tìm kiếm thông tin của 600 cây thuốc thường được sử dụng ở Việt Nam dựa trên từ khóa và mô tả sinh học. Việc phát triển chức năng tìm kiếm dựa trên hình ảnh là quan trọng tuy nhiên việc này khó thực hiện do sự khó khăn trong việc thu thập hình ảnh của các cây thuốc. Trong nghiên cứu này, chúng tôi đề xuất áp dụng cách tiếp cận ở trên trong việc phát triển chức năng tìm kiếm cây thuốc dựa trên hình ảnh. Để đánh giá sự khả thi cũng như vai trò của các bước trong cách tiếp cận đề xuất, chúng tôi thu thập dữ liệu 100 cây thuốc Việt Nam theo 2 phương pháp: thủ công, dựa trên cộng đồng. Chúng tôi tổ chức các ảnh thu thập được thành 4 cơ sở dữ liệu như sau: VnDataset1 chứa các ảnh thu được theo phương pháp thủ công; VnDataset2 chứa các ảnh của VnDataset1 và các ảnh thu thập theo phương pháp dựa trên cộng đồng. Trong cơ sở dữ liệu này, số ảnh cho mỗi loài biến đổi từ 57 tới 379. Trung bình mỗi loài có 206 ảnh. VnDataset2 chứa nhiễu (như các ảnh không phải là cây) do quá trình thu thập ảnh tự động trên internet. VnDataset3 chứa các ảnh còn lại của VnDataset2 sau khi áp dụng bộ phát hiện bộ phận xây dựng ở phần trước để loại bỏ những ảnh không hợp lệ. 18