I HỌC TH I NGU N

TRƢỜNG I HỌC THUẬT C NG NGHI P

T MINH LONG

XỬ LÝ ẢNH VÀ ỨNG DỤNG IỀU KHIỂN

QUÁ TRÌNH LÊN MEN TRONG CÔNG NGH SẢN XUẤT CHÈ EN

LUẬN VĂN TH C SĨ HOA HỌC

MÃ NGÀNH: 6520203

NGÀNH K THUẬT I N TỬ

HOA I N TỬ NGƢỜI HƢỚNG DẪN KHOA HỌC: PGS.TS L I KHẮC LÃI

PGS.TS ào Huy Du

T N uy n – Năm 2020

i

CỘNG HÒA XÃ HỘI CHỦ NGHĨA VIỆT NAM ộc lập – Tự do – Hạnh phúc

BẢN XÁC NHẬN CHỈNH SỬA LUẬN VĂN TH C SĨ

Họ và tên tác giả luận văn: Tạ Minh Long

ề tài luận văn: Xử lý ảnh và ứng dụn đ ều khiển quá trình lên men

trong công nghệ sản xuất c è đen

Chuyên ngành: Kỹ thuật ện tử

Mã số: ................................................................................................................... ……………

Tác giả, Cán bộ hƣớng dẫn khoa học và Hội đồng chấm luận văn xác nhận tác giả đã sửa chữa, bổ sung luận văn theo biên bản họp Hội đồng ngày 25/12/2020 với các nội dung sau: - Bổ xung thêm về ứng dụng điều khiển trong công nghệ sản xuất chè đen chƣơng 3

- Sửa lại các lỗi chế bản

............................................................................................................................................... ……………

............................................................................................................................................... ……………

- Bổ sung kết luận các chƣơng

Thái Nguyên, ngày tháng năm 2020

G o v n ƣớng dẫn Tác giả luận văn

PGS.TS Lại Khắc Lãi Tạ Minh Long

CHỦ TỊCH HỘI ỒNG

PGS.TS Nguyễn Thanh Hà

ii

LỜI CAM OAN

Tên tôi là: Tạ M n Lon

Sinh ngày: 08 tháng 12 năm 1992

Học viên Cao học Khoá 20 – Lớp Kỹ thuật Điện tử - Trƣờng Đại học Kỹ thuật

Công nghiệp – Đại học Thái Nguyên.

Xin cam đoan luận văn “Xử lý ảnh và ứng dụn đ ều khiển quá trình lên

men trong công nghệ sản xuất c è đen” do thầy giáo PGS.TS. Lạ ắc Lã

hƣớng dẫn là công trình nghiên cứu của riêng tôi. Tất cả các tài liệu tham khảo đều

có nguồn gốc, xuất xứ rõ ràng.

Tôi xin cam đoan tất cả những nội dung trong luận văn đúng nhƣ nội dung

trong đề cƣơng và yêu cầu của thầy giáo hƣớng dẫn. Nếu có vấn đề gì trong nội

dung của luận văn, tôi xin hoàn toàn chịu trách nhiệm với lời cam đoan của mình.

Thái Nguyên, ngày tháng năm 2020

Học v n

Tạ M n Lon

iii

LỜI CẢM ƠN

Sau thời gian nghiên cứu, đƣợc sự hƣớng dẫn tận tình giúp đỡ của thầy giáo

PGS.TS. Lạ ắc Lã , luận văn với đề tài “Xử lý ảnh và ứng dụn đ ều khiển

quá trình lên men trong công nghệ sản xuất chè đen” đã đƣợc hoàn thành.

Tôi xin bày tỏ lòng biết ơn sâu sắc tới:

Thầy giáo hƣớng dẫn PGS.TS. Lạ ắc Lã đã tận tình chỉ dẫn, giúp

đỡ tôi hoàn thành luận văn.

Các thầy cô giáo Trƣờng Đại học kỹ thuật công nghiệp - Đại học Thái

Nguyên và các bạn bè đồng nghiệp, đã quan tâm động viên, giúp đỡ tôi trong

suốt quá trình học tập để hoàn thành luận văn này.

Mặc dù đã cố gắng hết sức, song do điều kiện thời gian và kinh nghiệm

thực tế của bản thân còn ít, cho nên đề tài không thể tránh khỏi thiếu sót. Vì

vậy, tôi mong nhận đƣợc sự đóng góp ý kiến của các thầy giáo,cô giáo và các

bạn bè đồng nghiệp.

Tô x n c ân t àn cảm ơn!

Thái Nguyên, ngày tháng năm 2020

Học v n

Tạ M n Lon

iv

MỤC LỤC

LỜI CAM ĐOAN ...................................................................................................... ii

LỜI CẢM ƠN ........................................................................................................... iii

MỤC LỤC ................................................................................................................. iv

DANH MỤC CÁC CHỮ VIẾT TẮT ....................................................................... vi

DANH MỤC CÁC HÌNH VẼ.................................................................................. vii

LỜI NÓI ĐẦU ............................................................................................................ 1

1. Tính cấp thiết của luận văn ............................................................................... 1

2. Mục tiêu nghiên cứu ......................................................................................... 1

3. Đối tƣợng và phạm vi nghiên cứu..................................................................... 2

4. Ý nghĩa của luận văn ......................................................................................... 3

5. Nội dung nghiên cứu ......................................................................................... 3

6. Phƣơng pháp và phƣơng pháp luận ................................................................... 3

CHƢƠNG 1: LÊN MEN CHÈ ĐEN VÀ ẢNH SỐ .................................................... 4

1.1. Chè đen và lên men chè đen ............................................................................. 4

1.1.1. Chè đen ....................................................................................................... 4

1.1.2. Quá trình lên men chè đen .......................................................................... 5

1.2. Ảnh số ............................................................................................................... 6

1.2.1. Định nghĩa ảnh số ....................................................................................... 6

1.2.2. Thuộc tính của hình ảnh số hóa .................................................................. 7

1.2.3. Các loại hình ảnh ........................................................................................ 8

1.2.4. Không gian màu RGB, HSV, LAB ............................................................ 9

1.3. Phƣơng pháp nghiên cứu ................................................................................ 13

1.4. Kết luận chƣơng .............................................................................................. 13

CHƢƠNG 2: CÁC THUẬT TOÁN SỬ DỤNG ...................................................... 14

2.1. ANOVA, Z – Score, Correlation coefficients ................................................ 14

2.1.1. ANOVA một yếu tố (one-way ANOVA) ................................................ 14

2.1.2. Z – Score .................................................................................................. 16

2.1.3. Correlation coefficients ............................................................................ 16

2.2. Phân loại mẫu đào tạo và kiểm tra SPXY ...................................................... 18

v

2.2.1. Kennard-Stone .......................................................................................... 18

2.2.2. SPXY ........................................................................................................ 19

2.3. Phân tích thành phần chính ............................................................................. 20

2.3.1. Ý tƣởng ..................................................................................................... 20

2.3.2. Hàm mất mát ............................................................................................ 22

2.3.3. Tối ƣu hóa hàm mất mát ........................................................................... 23

2.3.4. Các bƣớc thực hiện phân tích thành phần chính ...................................... 24

2.4. Thuật toán Cây quyết định và Rừng ngẫu nhiên ............................................ 26

2.4.1. Khái niện chung........................................................................................ 26

2.4.2. Thuật toán Rừng ngẫu nhiên(Random Forest) ......................................... 28

2.5. Kết luận chƣơng .............................................................................................. 38

CHƢƠNG 3: DỰ ĐOÁN CÁC CHỈ SỐ CHẤT LƢỢNG VÀ ỨNG DỤNG .......... 39

3.1. Tiền xử lý dữ liệu và phân chia bộ mẫu ......................................................... 39

3.1.1. Trích xuất tính năng màu ......................................................................... 40

3.1.2. Phân tích sự khác biệt về chỉ số chất lƣợng và đặc điểm màu sắc ........... 41

3.1.3. Tƣơng quan giữa đặc điểm màu sắc và chỉ số chất lƣợng ....................... 42

3.1.4. Tiền xử lý dữ liệu và phân chia bộ mẫu ................................................... 43

3.2. Phân chia tập huấn luyện và thử nghiệm (train/test) ...................................... 44

3.3. Phân tích thành phần chính ............................................................................. 45

3.4. Thiết lập mô hình phi tuyến RF cho từng chỉ số chất lƣợng .......................... 47

3.5. Ứng dụng ........................................................................................................ 50

3.5.1. Lƣu đồ thuật toán đề xuất ......................................................................... 50

3.5.2. Thiết bị điều khiển đề xuất ....................................................................... 51

3.6. Kết luận chƣơng .............................................................................................. 52

KẾT LUẬN VÀ KIẾN NGHỊ................................................................................... 53

TÀI LIỆU THAM KHẢO ......................................................................................... 54

Phụ lục 1: Chƣơng trình tối ƣu hóa số thành phần chính và số cây trong RF(đại diện

TFs) ........................................................................................................................... 56

vi

DANH MỤC C C CHỮ VIẾT TẮT

Từ Viết Tắt Tên tiếng anh Tên tiếng việt

TFs Theaflavins Chất sắc tố 1

TRs Thearubigins Chất sắc tố 2

TBs Theabrownin Chất sắc tố 3

SS Sensory Score Điểm cảm quan

RGB Red Green Blue Đỏ Xanh lục Xanh lam

HSV Hue Saturation Value Màu, độ bão hoà, giá trị

Lab Mức độ các màu thành phần L(Black ÷ White), a(Green ÷ Red), b(Blue ÷ Yellow)

ANOVA Analysis of variance Phân tích phƣơng sai

PCA Principal Components Analysis Phân tích thành phần chính

KS Kennard-Stone Tên thuật toán

SPXY Sample set Partitioning based on joint X–Y distance Phân vùng tập hợp mẫu dựa trên khớp khoảng cách x-y

RF Random Forest Rừng ngẫu nhiên

OBB Out-of-bag

RMSEC

RMSEP Root-mean-square-error-Calibration set Root-mean-square-error- Prediction set Mẫu không tham gia xây dựng cây trong RF Lỗi-trung bình-bình phƣơng gốc của bộ hiệu chuẩn Lỗi-trung bình-bình phƣơng gốc của bộ dự đoán

CV Coefficient of variation Hệ số biến thiên

SEP Standard Error of Prediction Sai số chuẩn của dự đoán

RPD Ratio of standard error of Performance to standard Deviation Tỷ lệ sai số chuẩn của Hiệu suất so với Độ lệch chuẩn

vii

DANH MỤC C C HÌNH VẼ

Hình 1.1: Chè đen ....................................................................................................... 4

Hình 1.2: Màu sắc tăng cƣờng trung bình trƣớc và sau khi lên men(S×3,H×2) ........ 5

Hình 1.3: Máy lên men chè đen liên tục thực tế ......................................................... 6

Hình 1.4: Nguyên lý cấu tạo máy lên men liên tục ..................................................... 6

Hình 1.5: Tham chiếu không gian của Pixel (0, 0) ..................................................... 7

Hình 1.6: Không gian màu RGB ............................................................................... 10

Hình 1.7: Không gian màu HSV ............................................................................... 11

Hình 1.8: Không gian màu Lab ................................................................................. 12

Hình 1.9: Lƣu đồ của thuật toán đƣợc sử dụng để đo màu sắc của các mẫu trà ....... 13

Hình 2.1: Sự ảnh hƣởng của kết quả với yếu tố đang xét ......................................... 15

Hình 2.2: Đồ thị thể hiện giá trị Z-score ................................................................... 16

Hình 2.3: Mô tả thuật toán KS .................................................................................. 19

Hình 2.4: Ví dụ về phƣơng sai của dữ liệu trong không gian hai chiều ................... 21

Hình 2.5: Ý tƣởng chính của PCA ............................................................................ 21

Hình 2.6: Minh họa các thành phần chính với dữ liệu hai chiều. ............................. 24

Hình 2.7: Các bƣớc thực hiện PCA ........................................................................... 25

Hình 2.8: Mô hình hoạt động của Bagging ............................................................... 29

Hình 2.9: Sơ đồ kết hợp các bộ phân loại nhờ bỏ phiếu ........................................... 32

Hình 2.10: Sơ đồ học tập thể các bộ học ................................................................... 32

Hình 2.11: Thuật toán Random Forest ...................................................................... 34

Hình 3.1: Bảng dữ liệu và đồ thị thể hiện sự thay đổi về giá trị RGB trung bình theo

thời gian ..................................................................................................................... 39

Hình 3.2: Đồ thị thể hiện sự thay đổi về giá trị a, H; b, S; c, V; d, L; e, a; f, b ........ 39

trung bình theo thời gian ........................................................................................... 39

Hình 3.3: Đồ thị thể hiện sự thay đổi giá trị các chỉ số chất lƣợng ........................... 40

Hình 3.4: Biểu đồ điểm PCA với 2 thành phần chính đầu tiên ................................. 44

Hình 3.5: Đồ thị thể hiện mối quan hệ giữa trị riêng và số thành phần chính .......... 45

viii

Hình 3.6: Các quan sát và véc tơ riêng trên hai thành phần chính thứ nhất và thứ hai

................................................................................................................................... 46

Hình 3.7: Lƣu đồ thuật toán tối ƣu PCs và N ............................................................ 47

Hình 3.8: Giá trị RMSEC của mỗi chỉ số chất lƣợng cho mô hình RF từ các PC và

N khác nhau ............................................................................................................... 48

Hình 3.9: Lƣu đồ thuật toán điều khiển lên men đề xuất .......................................... 50

Hình 3.10: Cài đặt chế độ hoạt động thông qua màn hình HMI ............................... 52

1

LỜI NÓI ẦU

1. Tín cấp t ết của luận văn

Trong quá trình sản xuất chè đen, lên men là giai đoạn rất quan trọng, nó tạo

ra những biến đổi sinh hóa để có hƣơng vị, màu sắc cho chè thành phẩm. Tuy nhiên

ngoài thực tế, quá trình này đƣợc thực hiện chủ yếu nhờ vào cảm quan của con

ngƣời để xem chè đã lên men đạt tiêu chuẩn hay chƣa. Để đảm bảo sự nhanh chóng

và chính xác trong quá trình lên men với phƣơng pháp lên men liên tục (dạng băng

tải) ta sẽ dựa trên quá trình biến đổi lý, hóa, cảm quan theo thời gian thông qua các

chỉ số chất lƣợng tiêu chuẩn. Xử lý hình ảnh sẽ thay thế cảm quan của con ngƣời để

đảm bảo sản phảm đạt chất lƣợng nhất.

Dựa vào hình ảnh phân tích đƣợc, ta điều khiển nhiệt độ, lƣu lƣợng khí, tốc độ

băng tải để đảm bảo các chỉ tiêu chất lƣợng tại các thời điểm đạt tiêu chuẩn. Khi

đảm bảo điều kiện, sẽ chuyển sang giai đoạn tiếp theo.

Trong những năm gần đây, thuật toán RF(Random Forest) đã đƣợc áp dụng

rộng rãi cho nhiều ngành khác nhau. Nhƣng không có tài liệu nào liên quan đến lá

trà và dự đoán giám sát hình ảnh.

Xuất phát từ những yêu cầu và sự cấp thiết đã nêu trên, em đã chọn đề tài cho luận

văn của mình là:

“Xử lý ảnh và ứng dụn đ ều khiển quá trình lên men trong công nghệ

sản xuất c è đen”

2. Mục t u n n cứu

Công nghệ thị giác máy đƣợc áp dụng để phát hiện sự thay đổi không gian

màu của màu trà đen trong RGB, Lab và HSV, đồng thời tìm hiểu sự liên quan của

nó với chất lƣợng lên men của trà đen. Và sau đó, thông số đặc trƣng màu sắc đƣợc

sử dụng làm đầu vào để thiết lập các chỉ số hóa lý (TFs, TRs và TBs) và mô hình

đánh giá định lƣợng tuyến tính và phi tuyến tính của các đặc điểm cảm quan.

2

Dựa trên công nghệ thị giác máy và thuật toán mô hình phi tuyến, luận văn

này sẽ thiết lập một phƣơng pháp kiểm tra định lƣợng nhanh chóng và không phá

hủy đối với các sắc tố trà và các chỉ số chất lƣợng cảm quan trong quá trình lên men

trà đen. Thông qua chuyển đổi không gian của màu sắc hình ảnh, trích xuất 9 biến

màu (R, G, B, H, S, V, L, a * và b *) nhƣ các thông số đặc trƣng để đánh giá chất

lƣợng lên men, phân tích các quy luật thay đổi, sự khác biệt và quan hệ của màu sắc

hình ảnh và chỉ số chất lƣợng, và thiết lập các mô hình đánh giá định lƣợng tƣơng

ứng thông qua các phƣơng pháp hồi quy phi tuyến rừng ngẫu nhiên (Random Forest

Regression).

3. ố tƣợn và p ạm v n n cứu

Về lý thuyết:

+ Nghiên cứu về dây chuyền lên men chè đen trong thực tế, từ đó rút những điểm

hạn chế cần khắc phục hoặc phát triển.

+ Nghiên cứu tổng quan về ảnh số hóa và quy luật biến đổi của màu sắc khi lên

men chè đen từ đó rút ra các hƣớng nghiên cứu thích hợp cho luận văn.

+ Nghiên cứu các thuật toán xử lý dữ liệu, đề xuất các phƣơng pháp cải thiện

chất lƣợng cho mô hình. Xây dựng mô hình dự đoán, tối ƣu, đánh giá và đƣa ra

hƣớng phát triển về sau.

Về thực hành:

+ Chuyển đổi các thông số giữa các không gian màu khác nhau, cụ thể là các

không gian màu đang nghiên cứu, đƣa ra nhận xét.

+ Xây dựng lƣu đồ thuật toán, viết chƣơng trình cho các thuật toán xử lý dữ liệu

bằng ngôn ngữ PYTHON với công cụ JUPYTER.

+ Xây dựng mô hình dự đoán, kết hợp các thuật toán để đƣa ra mô hình dự đoán

tối ƣu.

3

4. Ý n ĩa của luận văn

Giúp tiếp cận về học máy, xử lý dữ liệu lớn phù hợp với sự phát triển của công

nghệ ngày nay

Luận văn sẽ làm tiền đề cho hƣớng nghiên cứu, phát triển dây chuyền thực tế

và cho các giai đoạn khác với đối tƣợng chè đen.

5. Nộ dun n n cứu

Cấu trúc luận văn bao gồm 3 chƣơng, nội dung tóm tắt của các chƣơng nhƣ

sau:

Chương 1: L n men c è đen và ản số

Trình bày về Chè đen và ảnh số hóa, các không gian màu nghiên cứu và

chuyển đổi qua lại giữa chúng

Chương 2: C c t uật to n sử dụn

Trình bày về các thuật toán đƣợc sử dụng để xây dựng mô hình dự đoán

Chương 3: Dự đo n c c c ỉ số chất lƣợng

Trình bày về các bƣớc tiến hành phân tích dữ liệu và kết quả phân tích. Đƣa ra

kết quả tối ƣu hóa và nhận xét, hƣớng phát triển về sau

6. P ƣơn p p và p ƣơn p p luận

- Nghiên cứu lý thuyết để thu thập dữ liệu và lựa chọn thuật toán

- Tiến hành xử lý dữ liệu, tối ƣu hóa mô hình nghiên cứu

- Đánh giá chất lƣợng của mô hình nghiên cứu

Thái Nguyên, ngày tháng năm 2020

Học v n

Tạ M n Long

4

CHƢƠNG 1: L N MEN CHÈ EN VÀ ẢNH SỐ

1.1. C è đen và l n men c è đen

1.1.1. C è đen

Chè đen là một trong những đồ uống chức năng phổ biến nhất trên thế giới; dựa trên

hình dạng, nó có thể đƣợc phân thành hai loại: chè đen vỡ và chè hình thanh. Chè

đen là một loại chè lên men hoàn toàn.

Hình 1.1: Chè đen

Màu sắc và mùi là sự thay đổi cảm quan quan trọng trong quá trình lên men

chè đen. Trong quá trình lên men, đƣợc xúc tác bởi polyphenol oxyase (PPO) và

peroxidase, polyphenol trong Chè (đặc biệt là thành phần catechin) sẽ dần dần tạo ra

các sản phẩm oxy hóa màu, trong đó các chất sắc tố hòa tan trong nƣớc có ảnh

hƣởng mạnh đến chất lƣợng cảm quan của Chè đen . Các chất sắc tố hòa tan trong

nƣớc này chủ yếu bao gồm theaflavin (TF), thearubigins (TRs) và theabrownin

(TB) [12] . Màu sắc và độ bóng của chè sẽ đƣợc hình thành khi các chất sắc tố trên

hòa tan trong nƣớc; sự hòa tan của các chất sắc tố cũng sẽ ảnh hƣởng đến hƣơng vị

và hƣơng vị của chè, chẳng hạn nhƣ vị ngọt, vị mặn, cƣờng độ, nồng độ… lá chè

đen sẽ có sự thay đổi màu sắc rõ rệt trong quá trình lên men, thay đổi từ màu ngọc

lam sang màu vàng lục, sau đó chuyển sang màu vàng đỏ, nâu vàng và cuối cùng

sang màu nâu sẫm. Sự thay đổi màu sắc này có thể đƣợc quan sát và phân biệt bởi

hệ thống thị giác của con ngƣời, nhƣng rất khó để xác định thang đo cụ thể.

5

Hình 1.2: Màu sắc tăng cƣờng trung bình trƣớc và sau khi lên men(S×3,H×2)

Các mô tả cảm giác của con ngƣời để màu sắc là định tính. Tuy nhiên, trong

sản xuất chè đen quy mô lớn, mức độ lên men và chất lƣợng cảm quan có thể đƣợc

dự đoán thông qua kinh nghiệm sản xuất phong phú và quan sát sự thay đổi màu sắc

ở trên. Vì lý do này, quá trình lên men có thể không đủ hoặc quá mức, và màu sắc

của lá Chè có thể bị trộn lẫn và không đồng đều; Bên cạnh đó, hƣơng vị của chè có

thể không thể đoán trƣớc.

Màu sắc là một thuộc tính quan trọng và tính năng nhận thức của hình ảnh

máy tính. Thông tin màu của lá chè đen có thể đƣợc định lƣợng và mô tả chính xác

bằng cách chụp ảnh mẫu bằng hệ thống thu nhận thị giác máy và trích xuất các tính

năng màu với số hóa . Các hình ảnh ánh sáng nhìn thấy, phổ và công nghệ cận hồng

ngoại đã đƣợc các nhà nghiên cứu sử dụng để xác định danh mục, chất lƣợng, hình

dạng và nơi xuất xứ của chè . Tuy nhiên, có rất ít nghiên cứu về công nghệ phát

hiện chất lƣợng cho quá trình lên men của Chè đen.

1.1.2. Qu trìn l n men c è đen

Chè đen có thể lên men bằng phƣơng pháp gián đoạn và lên men liên tục trên băng

tải, trong phần này tôi chỉ trình bày phƣơng pháp lên men liên tục.

Lá chè sau khi phá vỡ tế bào và định hình đƣợc giải đều trên băng tải với độ dầy từ

15 đến 20cm. Băng tải chuyển động liên tục với tố độ phù hợp, thời gian lên men từ

2 giờ phút đến 4 giờ [17] đủ để hoàn thiện chất lƣợng cho chè đen.Trong quá trình

lên men khối chè sẽ đƣợc tác động liên tục bởi các yếu tố nhiệt độ và độ ẩm phù

hợp. Phƣơng pháp này đƣợc sản xuất phổ biến ở Nga để lên men chè liên tục trong

sản xuất chè OTD. Nguyên lý cấu tạo thiết bị lên men nhƣ sau: Băng tải lên men

bao gồm nhiều tấm vỉ bẳng thép không gỉ và ghép lại. Chuyển động nhờ hệ thống

6

xích và bánh xích. Các thiết bị lên men liên tục có nhiều ƣu điểm, đó là cơ giới hóa

hoàn toàn quá trình lên men, năng suất cao, chất lƣợng chè khá ổn định.

Hình 1.3: Máy lên men chè đen liên tục thực tế

Hình 1.4: Nguyên lý cấu tạo máy lên men liên tục

1.2. Ản số

1.2.1. ịn n ĩa ản số

Một hình ảnh là một mảng 2D (2 chiều) của các giá trị đại diện cho cƣờng độ

ánh sáng. Với mục đích xử lý hình ảnh, thuật ngữ hình ảnh đề cập đến một hình ảnh

kỹ thuật số.

Một hình ảnh là một hàm của cƣờng độ ánh sáng:

f (x, y)

Trong đó f là độ sáng của điểm (x, y) và x và y đại diện cho không gian tọa độ

của một yếu tố hình ảnh, hoặc pixel. Theo quy ƣớc, tham chiếu không gian của

pixel với tọa độ (0, 0) nằm ở trên cùng, góc trái của hình ảnh. Lƣu ý trong hình 2.1

7

rằng giá trị của x tăng khi di chuyển từ trái sang phải và giá trị của y tăng từ trên

xuống dƣới.

Hình 1.5: Tham chiếu không gian của Pixel (0, 0)

Trong xử lý hình ảnh kỹ thuật số, một cảm biến hình ảnh chuyển đổi một hình

ảnh thành một số lƣợng pixel rời rạc. Cảm biến hình ảnh gán cho từng pixel một vị

trí số và mức màu xám hoặc giá trị màu chỉ định độ sáng hoặc màu của pixel.

1.2.2. T uộc tín của ìn ản số óa

Một hình ảnh số hóa có ba thuộc tính cơ bản: độ phân giải (resolution), định

nghĩa (definition) và số lƣợng mặt phẳng (number of planes).

1.2.2.1. Độ phân giải

Độ phân giải không gian của hình ảnh đƣợc xác định bởi số lƣợng hàng của nó và

các cột pixel. Một hình ảnh bao gồm m cột và n hàng có độ phân giải của m × n.

Hình ảnh này có m pixel dọc theo trục ngang của nó và n pixel dọc theo trục dọc

của nó.

1.2.2.2. Định nghĩa

Định nghĩa của một hình ảnh cho biết số lƣợng sắc thái mà ta có thể thấy trong

hình ảnh. Độ sâu bit của hình ảnh là số bit đƣợc sử dụng để mã hóa giá trị của một pixel. Đối với độ sâu bit đã cho của n, hình ảnh có định nghĩa 2n, nghĩa là một pixel có thể có 2n giá trị khác nhau. Ví dụ, nếu n bằng 8 bit, một pixel có thể có 256 giá

trị khác nhau từ 0 đến 255. Nếu n bằng 16 bit, một pixel có thể có 65.536 giá trị

khác nhau trong khoảng từ 0 đến 65.535 hoặc từ Nhận -32.768 đến 32.767.

8

1.2.2.3. Số lƣợng mặt phẳng màu

Số lƣợng mặt phẳng trong một hình ảnh tƣơng ứng với số lƣợng mảng pixel

tạo thành hình ảnh. Một hình ảnh thang độ xám hoặc giả màu gồm một mặt phẳng.

Một hình ảnh màu sắc thật bao gồm ba mặt phẳng: một cho mỗi thành phần màu đỏ,

thành phần màu xanh lục và thành phần xanh dƣơng. Trong ảnh màu trung thực,

cƣờng độ thành phần màu của pixel đƣợc mã hóa thành ba giá trị khác nhau. Một

hình ảnh màu là sự kết hợp của ba mảng pixel tƣơng ứng với các thành phần màu

đỏ, xanh lục và xanh lam trong hình ảnh RGB. Hình ảnh HSL đƣợc xác định bởi

màu sắc, độ bão hòa và độ chói của chúng.

1.2.3. C c loạ ìn ản

1.2.3.1. Hình ảnh thang độ xám

Một hình ảnh thang độ xám bao gồm một mặt phẳng các pixel. Mỗi pixel là

đƣợc mã hóa bằng một trong các kiểu sau: Số nguyên không dấu 8 bit biểu thị các

giá trị thang độ xám giữa 0 và 255 Số nguyên có chữ ký 16 bit biểu thị các giá trị

thang độ xám giữa -32.768 và +32.767. Số dấu phẩy động đƣợc mã hóa bằng bốn

byte, đại diện cho các giá trị thang độ xám từ phạm vi -∞ đến ∞.

1.2.3.2. Ảnh màu

Một hình ảnh màu đƣợc mã hóa trong bộ nhớ dƣới dạng đỏ, lục và lam (RGB)

hoặc hình ảnh chứa màu sắc, độ bão hòa và độ chói (HSL). Pixel hình ảnh màu là

tổng hợp của bốn giá trị. Hình ảnh RGB lƣu trữ thông tin màu bằng cách sử dụng

Mỗi bit 8 bit cho các mặt phẳng đỏ, lục và lam. Màu sắc lƣu trữ hình ảnh HSL

thông tin sử dụng mỗi 8 bit cho màu sắc, độ bão hòa và độ chói. Hình ảnh RGB

U64 lƣu trữ thông tin màu bằng cách sử dụng 16 bit cho mỗi màu đỏ, xanh lá cây,

và các mặt phẳng màu xanh. Trong các mô hình màu RGB và HSL, thêm 8 bit giá

trị không đƣợc sử dụng. Đại diện này đƣợc gọi là 4 × 8 bit hoặc 32 bit mã hóa.

Trong mô hình màu RGB U64, giá trị 16 bit bổ sung sẽ tang không sử dụng Đại

diện này đƣợc gọi là mã hóa 4 × 16 bit hoặc 64 bit.

1.2.3.3. Hình ảnh phức tạp

9

Một hình ảnh phức tạp chứa thông tin tần số của hình ảnh thang độ xám. ta có

thể tạo một hình ảnh phức tạp bằng cách áp dụng biến đổi Fast Fourier (FFT) đến

một hình ảnh thang độ xám. Sau khi ta chuyển đổi hình ảnh thang độ xám thành

một hình ảnh phức tạp, ta có thể thực hiện các hoạt động miền tần số trên hình ảnh.

Mỗi pixel trong một hình ảnh phức tạp đƣợc mã hóa thành hai độ chính xác co giá

trị kiểu dấu phẩy động, đại diện cho các thành phần thực và ảo của pixel phức tạp.

ta có thể trích xuất bốn thành phần sau từ một hình ảnh phức tạp: phần thực, phần

ảo, cƣờng độ và pha.

1.2.3.4. File ảnh

Một tệp hình ảnh bao gồm một tiêu đề theo sau là các giá trị pixel. Tùy trên

định dạng tệp, tiêu đề chứa thông tin hình ảnh về độ phân giải ngang và dọc, định

nghĩa pixel và bảng màu gốc. Tệp hình ảnh cũng có thể lƣu trữ thông tin về hiệu

chuẩn, khớp mẫu mẫu và lớp phủ. Sau đây là các định dạng tệp hình ảnh phổ biến:

• Bitmap (BMP)

• Định dạng tệp hình ảnh đƣợc gắn thẻ (TIFF)

• Đồ họa mạng di động (PNG) cung cấp khả năng lƣu trữ thông tin hình ảnh

về hiệu chuẩn không gian, khớp mẫu mẫu và lớp phủ

• Định dạng nhóm ảnh chụp chung (JPEG)

• Định dạng tệp hình ảnh bên trong của National (AIPD) lƣu hình ảnh dấu

phẩy động, phức tạp và HSL .

Các định dạng tiêu chuẩn cho hình ảnh màu xám 8 bit và RGB là BMP, TIFF, PNG,

JPEG và AIPD. Các định dạng chuẩn cho thang độ xám 16 bit, 64 bit RGB và hình

ảnh phức tạp là PNG và AIPD.

1.2.4. Không gian màu RGB, HSV, LAB

1.2.4.1. Không gian màu RGB

Hầu hết các hình ảnh kỹ thuật số đƣợc lƣu trữ dƣới dạng hình ảnh RGB và phải

đƣợc chuyển đổi sang không gian màu khác. Một màu trong không gian RGB đƣợc

chỉ định với một tọa độ đỏ(R), lục(G) và lam(B) và mỗi kênh là 8 bit, nghĩa là nó

có giá trị có thể. Để đơn giản, chúng ta có thể ràng buộc mỗi kênh này trong khoảng

10

từ 0 đến 1, với 0 là không có đóng góp nào từ kênh màu đó và 1 là tối đa. Ví dụ,

màu xanh lam thuần khiết có bộ ba RGB là đỏ = 0, xanh lục = 0 và xanh lam = 1

hoặc [0, 0, 1]. Màu vàng là [1, 1, 0], có nghĩa là màu xanh lam và màu vàng nằm ở hai đầu đối diện của không gian màu RGB:28= 256

Hình 1.6: Không gian màu RGB

Mô hình màu RGB đƣợc thực hiện theo nhiều cách khác nhau, tùy thuộc vào khả

năng của hệ thống đƣợc sử dụng. Cho đến nay, hiện thân phổ biến nhất đƣợc sử

dụng phổ biến nhất vào năm 2006 là triển khai 24 bit , với 8 bit hoặc 256 mức màu

riêng biệt trên mỗi kênh . Do đó, bất kỳ không gian màu nào dựa trên mô hình RGB

24 bit nhƣ vậy đều bị giới hạn trong phạm vi 256 × 256 × 256 ≈ 16,7 triệu

màu. Một số triển khai sử dụng 16 bit cho mỗi thành phần với tổng số 48 bit, dẫn

đến cùng một gam màu với số lƣợng lớn hơn các màu riêng biệt. Điều này đặc

biệt quan trọng khi làm việc với không gian màu có gam rộng (nơi hầu hết các

màu phổ biến hơn nằm tƣơng đối gần nhau) hoặc khi một số lƣợng lớn các thuật

toán lọc kỹ thuật số đƣợc sử dụng liên tiếp. Nguyên tắc tƣơng tự áp dụng cho bất

kỳ không gian màu nào dựa trên cùng một mô hình màu, nhƣng đƣợc thực hiện ở

các độ sâu bit khác nhau .

1.2.4.2. Không gian màu HSV

Không gian của nó tạo thành một hình nón duy nhất:

Hue: Màu cơ bản trong bánh xe màu, nằm trong khoảng từ 0 đến 360 độ trong đó

cả 0 và 360 độ đều là màu đỏ.

ộ bão hòa: Màu sắc tinh khiết (so với xỉn màu) nhƣ thế nào, nằm trong khoảng từ

0 đến 100, trong đó 100 là bão hòa hoàn toàn và 0 là màu xám.

11

Giá trị: Thể hiện độ sáng màu, nằm trong khoảng từ 0 đến 100, trong đó 100 càng

sáng và 0 càng tối .

Hình 1.7: Không gian màu HSV

1.2.4.3. Không gian màu Lab

Không gian CIELAB màu (còn gọi là CIE L* a* b* hoặc đôi khi không chính

thức viết tắt là "phòng thí nghiệm") là một không gian màu đƣợc xác định bởi

các ủy ban quốc tế về chiếu sáng (viết tắt là CIE) vào năm 1976. Nó thể hiện màu

sắc nhƣ ba giá trị: L* cho độ đậm nhạt từ đen (0) sang trắng (100), a* từ xanh lục(-)

sang đỏ (+), và b* từ xanh lam (-) sang vàng (+). CIELAB đƣợc thiết kế sao cho

cùng một lƣợng thay đổi bằng số trong các giá trị này tƣơng ứng với gần nhƣ cùng

một lƣợng thay đổi trực quan.

Vì ba tham số đƣợc đo nên bản thân không gian là một không gian số thực ba

chiều , cho phép có vô số màu có thể. Trong thực tế, không gian thƣờng đƣợc ánh

xạ vào một không gian số nguyên ba chiều để biểu diễn kỹ thuật số, và do đó các

giá trị L*, a* và b* thƣờng là tuyệt đối, với một phạm vi đƣợc xác định trƣớc. Giá

trị độ đậm nhạt , L* , biểu thị màu đen đậm nhất ở L* = 0 và màu trắng sáng nhất

ở L* = 100. Các kênh màu, a* và b* , biểu thị các giá trị xám trung tính thực

tại a* = 0 và b* = 0. Dấu *trục đại diện cho thành phần màu xanh lá cây-đỏ, với

màu xanh lá cây theo hƣớng âm và màu đỏ theo hƣớng dƣơng. Các b* trục đại diện

cho thành phần màu xanh-vàng, với màu xanh theo hƣớng tiêu cực và vàng theo

hƣớng tích cực. Tỷ lệ và giới hạn của trục a* và b* sẽ phụ thuộc vào cách triển khai

cụ thể, nhƣ đƣợc mô tả bên dƣới, nhƣng chúng thƣờng chạy trong phạm vi ± 100

hoặc −128 đến +127 (số nguyên 8 bit có dấu).

12

Hình 1.8: Không gian màu Lab

1.2.4.4. Chuyển đổi qua lại giữa các không gian màu RGB, HSV, Lab

Công thức chuyển đổi giữa 3 không gian màu RGB, HSV, Lab

Trong công thức RGB to HSV, RGB đã đƣợc chuẩn hóa từ 0÷1.

13

1.3. P ƣơn p p n n cứu

Hình 1.9: Lƣu đồ của thuật toán đƣợc sử dụng để đo màu sắc của các mẫu trà

Dữ liệu hình ảnh RGB đƣợc cung cấp bởi tác giả Gaozhen Liang và Jiangtao

Qi trong báo cáo khoa học PMC6043511 – Scientific Reports. Chu kỳ lên men là

300 phút; 20 mẫu sẽ đƣợc lấy sau mỗi 30 phút; 20 mẫu này sẽ đƣợc lấy từ các vị trí

ngẫu nhiên khác nhau của khối chè lên men; tổng số, 220 mẫu sẽ đƣợc thu thập;

Nội dung của TF và TR đƣợc đo theo Phép đo sắc tố trà của lá trà - Sắc ký

lỏng hiệu suất cao (GB/T30483-2013). Các mẫu đƣợc đông khô và nghiền mịn, máy

sắc ký lỏng hiệu năng cao (PDGU-20A3, Shimadzu Corporation, Japan) đƣợc sử

dụng để đo. Cuối cùng, chất lƣợng cảm quan của mỗi mẫu chè đƣợc đánh giá bằng

phƣơng pháp đánh giá mã dựa trên phƣơng pháp đánh giá chính thức đối với lá chè

ở Trung Quốc (GB/T23776-2009).

1.4. ết luận c ƣơn

- Chƣơng 1 tác giả đã trình bày về quá trình lên men chè đen, các yếu tố, hợp

chất ảnh hƣởng đến quá trình lên men chè đen. Các chỉ số chất lƣợng khi lên men,

nguyên lý lên men liên tục trên băng tải (CTC).

- Các không gian màu đƣợc sử dụng khi thu thập dữ liệu, các công thức

chuyển đổi không gian màu và phƣơng pháp nghiên cứu.

14

CHƢƠNG 2: CÁC THUẬT TO N SỬ DỤNG

2.1. ANOVA, Z – Score, Correlation coefficients

2.1.1. ANOVA một yếu tố (one-way ANOVA)

2.1.1.1. Khái niệm

Phân tích phƣơng sai một yếu tố là phân tích ảnh hƣởng của một yếu tố

nguyên nhân(định tính) đến một yếu tố kết quả(định lƣợng).

- Giả sử ta có k nhóm gồm n1, n1,… nk phần tử đƣợc chọn từ k tổng thể.

1, 1,…, k là các giá trị trung bình của k tổng thể đó, xij là các giá trị(quan sát) thứ

j của nhóm thứ i.

Bảng 2.1: Giá trị quan sát của k nhóm:

- Giả sử k tổng thể có phân phối chuẩn, có phƣơng sai bằng nhau, các mẫu là

độc lập ANOVA kiểm tra giả thuyết rằng tất cả các phƣơng tiện của nhóm đều bằng

nhau so với giả thuyết thay thế rằng ít nhất một nhóm khác với những nhóm khác:

H0 : Yếu tố kết quả không bị ảnh hƣởng bởi yếu tố đang xét

H1 : Yếu tố kết quả có bị ảnh hƣởng bởi yếu tố đang xét

Nói cách khác: H0 : 1 = 1=…= k

H1: Tồn tại ít nhất một cặp trung bình khác nhau

2.1.1.2. Các bƣớc thực hiện ANOVA một yếu tố

Bƣớc 1: Tính giá trị trung bình ̅i cho từng nhóm và ̅ chung cho tất cả các nhóm

(2.1)

(2.2)

15

Bƣớc 2: Tính sự biến thiên(tổng bình phƣơng độ lệch) giữa nội bộ nhóm

(2.3)

(2.4)

Tính sự biến thiên giữa các nhóm

(2.5)

Bƣớc 3: Tính các phƣơng sai

Phƣơng sai do các yếu tố khác tạo ra

(2.6)

Phƣơng sai do các yếu tố nghiên cứu tạo ra

(2.7)

Bƣớc 4: Kiểm định giả thuyết

Xét tỷ số 2 phƣơng sai:

(2.8)

Nếu MSG lớn, MSW nhỏ → bác bỏ H0.

Hình 2.1: Sự ảnh hƣởng của kết quả với yếu tố đang xét

16

2.1.2. Z – Score

Z – Score( ểm Z) còn đƣợc gọi là đ ểm chuẩn cho chúng ta biết điểm dữ

liệu cách giá trị trung bình bao xa. Nó cho biết một phần tử có bao nhiêu độ lệch

chuẩn so với giá trị trung bình. Để sử dụng điểm số z, chúng ta cần biết giá trị trung

bình của tổng thể (μ) và độ lệch chuẩn của tổng thể (σ).

Hình 2.2: Đồ thị thể hiện giá trị Z-score

Điểm z có thể được tính bằng công thức sau. trong đó: z = Z-Score,

X = Giá trị của phần tử z = (X - μ) / σ (2.9) μ = Trung bình tổng thể

σ = Độ lệch chuẩn tổng thể

* Z-score sử dụn để chuẩn hóa dữ liệu khi các thuộc tín có độ lớn khác nhau

2.1.3. Correlation coefficients

Tƣơng quan(Correlation) đề cập đến mối quan hệ thống kê giữa hai thực thể. Nói

cách khác, đó là cách hai biến di chuyển trong mối quan hệ với nhau. Tƣơng quan cũng

có thể đƣợc sử dụng cho các tập dữ liệu khác nhau.

Các mối tƣơng quan:

- Tƣơn quan t uận: Tƣơng quan thuận sẽ là 1. Điều này có nghĩa là hai biến

chuyển động lên hoặc xuống theo cùng một hƣớng với nhau.

- Tƣơn quan n ịch: Tƣơng quan nghịch là -1. Điều này có nghĩa là hai biến

chuyển động ngƣợc chiều nhau.

17

- Tƣơn quan bằng không hoặc không: Tƣơng quan bằng không có nghĩa là

không có mối quan hệ giữa hai biến. Nói cách khác, khi một biến di chuyển theo một

hƣớng, biến kia di chuyển theo một hƣớng khác không liên quan.

Các loại hệ số tƣơng quan:

- Trong khi mối tƣơng quan nghiên cứu cách hai thực thể liên quan với nhau, hệ số

tƣơng quan đo lƣờng sức mạnh của mối quan hệ giữa hai biến. Trong thống kê, có ba loại

hệ số tƣơng quan. Chúng nhƣ sau:

- Tƣơng quan Pearson: Tƣơng quan Pearson là phép đo đƣợc sử dụng phổ biến

nhất cho mối quan hệ tuyến tính giữa hai biến. Mối tƣơng quan giữa hai tập dữ liệu này

càng mạnh thì nó sẽ càng gần với +1 hoặc -1.

- Tƣơng quan Spearman: Loại tƣơng quan này đƣợc sử dụng để xác định mối

quan hệ đơn điệu hoặc liên kết giữa hai tập dữ liệu. Không giống nhƣ hệ số tƣơng quan

Pearson, hệ số này dựa trên các giá trị đƣợc xếp hạng cho từng tập dữ liệu và sử dụng các

biến lệch hoặc thứ tự thay vì các biến đƣợc phân phối bình thƣờng.

- Tƣơng quan Kendall: Loại tƣơng quan này đo lƣờng mức độ phụ thuộc giữa hai

tập dữ liệu.

Biết các biến sẽ hữu ích trong việc xác định loại hệ số tƣơng quan nào sẽ sử

dụng. Sử dụng đúng phƣơng trình tƣơng quan sẽ giúp hiểu rõ hơn về mối quan hệ giữa

các tập dữ liệu mà bạn đang phân tích.

Cách tính hệ số tƣơng quan Pearson áp dụng cho một mẫu hay còn gọi là hệ số tƣơng

∑ ̅ ̅

quan mẫu

rxy =

√∑ ̅

√∑ ̅

(2.10)

Hay

(2.11)

Trong đó: rxy là hệ số tƣơng quan mẫu

n là kích thƣớc mẫu

18

xi, yi mẫu thứ i tƣơng ứng

trung bình của mẫu, tƣơng tự cho y

2.2. Phân loại mẫu đào tạo và kiểm tra SPXY

Thuật toán Kennard-Stone (KS) và SPXY là các thuật toán tách mẫu phổ biến

trong lĩnh vực đo lƣờng hóa học. Không giống nhƣ tách ngẫu nhiên, hai phƣơng

pháp này dựa trên cái gọi là "khoảng cách tối thiểu tối đa", có nghĩa là kết quả tách

của KS và SPXY là xác định thay vì ngẫu nhiên.

Hai phƣơng pháp có thể chọn mẫu đồng nhất từ nhóm n mẫu. Thuật toán KS

đƣợc thực hiện dựa trên sự giống nhau của các biến độc lập (x) giữa tập hợp con và

tập hợp ban đầu, trong khi SPXY kết hợp các biến độc lập và phụ thuộc (y) . Chúng

rất giống nhau, đều chọn các mẫu tập hợp con theo khoảng cách tối thiểu tối đa.

2.2.1. Kennard-Stone

Giả sử chúng ta sẽ chọn k mẫu để tạo một tập hợp con từ n mẫu. Các n mẫu đƣợc

thể hiện bởi ma trận X. Với m là số biến của mỗi mẫu

X = [

]

Các bƣớc tách KS đƣợc trình bày dƣới đây:

1) Tính ma trận khoảng cách của n mẫu dƣới dạng ma trận tƣơng tự. Khoảng cách

Euclid thƣờng đƣợc áp dụng ở đây. Ma trận khoảng cách D đƣợc ký hiệu nhƣ bên

dƣới.

D = [

]

Ở đây dij là khoảng cách giữa mẫu thứ i và mẫu thứ j . Vì thế D là một ma trận đối

xứng nếu khoảng cách là khoảng cách là Euclide.

19

2) Thêm 2 mẫu có khoảng cách dài nhất vào tập hợp con S. Bây giờ ta phải

xem xét với vấn đề khoảng cách tối thiểu tối đa. Có 2 mẫu trong S (đƣợc đặt

tên tƣơng ứng là a và b ) và bây giờ còn lại n-2 mẫu.

3) Chọn một mẫu c từ các mẫu còn lại, tính khoảng cách của c đến a và b

tƣơng ứng (thực sự không phải tính toán lại, vì tất cả các khoảng cách đã đƣợc tính

ở bƣớc 1).

4) Nếu khoảng cách giữa c và b ngắn hơn khoảng cách giữa c và a thì ta gọi

khoảng cách là "khoảng cách nhỏ nhất của mẫu c ".

5) Lặp lại bƣớc 3 và bƣớc 4 ở trên, sau đó ta có thể nhận đƣợc tất cả các

khoảng cách tối thiểu của các n-2 mẫu.

6) Từ n-2 khoảng cách tối thiểu, khoảng cách tối đa (khoảng cách tối thiểu tối

đa) đƣợc chọn làm mẫu mới của S, đƣợc hiển thị trong hình bên dƣới.

7) Lặp lại các bƣớc trên cho đến khi k mẫu đƣợc thêm vào S.

a b Hình 2.3: Mô tả thuật toán KS

a, Tƣơng tác ban đầu; b, Không gian train/test

Các mẫu trong S đƣợc phân phối thống nhất và theo phƣơng pháp này, tập train sẽ

đại diện cho tập hợp ban đầu ở một mức độ nào đó.

2.2.2. SPXY

Tách KS chỉ liên quan đến sự tƣơng đồng (khoảng cách) giữa các biến độc

lập, trong khi SPXY thêm các biến phụ thuộc vào tính toán khoảng cách. Điểm khác

biệt duy nhất giữa KS và SPXY là cách tính khoảng cách. Giả sử chúng ta có ma

trận mẫu đƣợc hiển thị nhƣ sau:

20

X = [

]

Y = [

]

Công thức tính khoảng cách cho KS và SPXY đƣợc thể hiện bên dƣới:

dKS(i,j) = √∑

√∑

√∑

(2.12)

(2.13)

+

dSPXY(i,j) =

√∑

√∑

Trên thực tế, cốt lõi của các thuật toán KS và SPXY là phân chia khoảng cách tối

thiểu tối đa và chúng ta có thể xác định một số liệu khoảng cách khác tùy theo tình

hình thực tế.

2.3. Phân tích thành phần chính

2.3.1. Ý tƣởng

Giả sử vector dữ liệu ban đầu x ϵ ℝD đƣợc giảm chiều trở thành z ϵ ℝK với

K

tử quan trọng nhất.

Giả sử các điểm dữ liệu có thành phần thứ hai(phƣơng đứng) giống hệt nhau

hoặc sai khác nhau không đáng kể(phƣơng sai nhỏ). Khi đó thành phần này hoàn

toàn có thể đƣợc lƣợc bỏ và ta ngầm hiểu rằng nó sẽ đƣợc xấp xỉ bằng kỳ vọng của

thành phần đó trên toàn bộ dữ liệu. Ngƣợc lại, nếu áp dụng phƣơng pháp này theo

chiều thứ nhất(phƣơng ngang), lƣợng thông tin bị mất đi đáng kể do sai số xấp xỉ

quá lớn. Vì vậy, lƣợng thông tin theo mỗi thành phần có thể đƣợc đo bằng phƣơng

sai của dữ liệu trên thành phần đó. Tổng lƣợng thông tin là tổng phƣơng sai trên

toàn bộ các thành phần.

21

Hình 2.4: Ví dụ về phƣơng sai của dữ liệu trong không gian hai chiều

(a) Phƣơng sai của chiều thứ hai (tỷ lệ với độ rộng của đƣờng hình chuông) nhỏ hơn

phƣơng sai của chiều thứ nhất. (b) Cả hai chiều có phƣơng sai đáng kể. Phƣơng sai

của mỗi chiều là phƣơng sai của thành phần tƣơng ứng đƣợc lấy trên toàn bộ dữ

liệu. phƣơng sai tỉ lệ thuận với độ phân tán dữ liệu.

Hình 2.5: Ý tƣởng chính của PCA

Tìm một hệ trực chuẩn mới sao cho trong hệ này, các thành thành phần quan trọng

nhất nằm trong K thành phàn đầu tiên.

Phân tích thành phần chính là phƣơng pháp đi tìm một phép xoay trục tọa độ để

đƣợc một hệ trục tọa độ mới sao cho trong hệ mới này, thông tin chủ yếu tập trung

ở một vài thành phần. Phần còn lại chứa ít thông tin hơn có thể đƣợc lƣợc bỏ.

Phép xoay trục tọa độ có liên hệ chặt chẽ tới hệ trực chuẩn và ma trận trực giao.

Giả sử hệ trực chuẩn mới là U (mỗi cột của U là một vector đơn vị cho một chiều)

và ta muốn giữ lại K tọa độ trong hệ cơ sở mới này. Không mất tính tổng quát, giả

sử đó là K thành phần đàu tiên. Quan sát hình 2.5 với cơ sở mới U = [UK, ̂K] là

22

một hệ trực chuẩn với UK là ma trận con tạo bởi K cột đầu tiên của U. Trong hệ cơ

sở mới này, ma trận dữ liệu có thể đƣợc viết thành

(2.14) X = UKZ+ ̂KY

Từ đây ta cũng suy ra

(2.15)

Mục đích của PCA là đi tìm ma trận trực giao U sao cho phần lớn thông tin nằm

ở UKZ , phần nhỏ thông tin nằm ở ̂KY . Phần nhỏ này sẽ đƣợc lƣợc bỏ và xấp xỉ

bằng một ma trận có các cột nhƣ nhau. Gọi mỗi cột đó là b, khi đó, ta sẽ sấp xỉ

Y b1T với 1T ϵ ℝ1×N là một vector hàng có toàn bộ các phần tử bằng một. Giả

sử đã tìm đƣợc U, ta cần tìm b thỏa mãn:

(2.16)

Giải phƣơng trình đạo hàm theo b của hàm mục tiêu bằng 0:

(2.17)

X1 là vector trung bình của các cột của Ở đây ta đã sử dụng 1T1 = N và ̅

X.

Với giá trị b tìm đƣợc này, dữ liệu ban đầu sẽ đƣợc xấp xỉ bởi

(2.18)

2.3.2. Hàm mất mát

Hàm mất mát của PCA đƣợc coi nhƣ sai số của phép xấp xỉ, đƣợc định nghĩa là

(2.19)

Chú ý rằng, nếu các cột của một ma trận V tạo thành một hệ trực chuẩn thì với

một ma trận W bất kỳ, ta luôn có

(2.20)

Đặt ̂ = X - ̅1T . Ma trận này có đƣợc bằng cách trừ mỗi cột của X đi trung

bình các cột của nó. Ta gọi ̂ là ma trận dữ liệu đƣợc chuẩn hóa.

23

Có Thể thấy ̂n = xn - ̅, n = 1,2,…,N.

Vì vậy hàm mất mát trong (2.19) có thể đƣợc viết lại thành:

(2.21)

(2.22)

Với S = ̂ ̂T là ma trận hiệp phƣơng sai của dữ liệu và luôn là một ma trận

nửa xác định dƣơng. Công việc còn lại là tìm các ui để mất mát là nhỏ nhất.

Với ma trận U trực giao bất kỳ, thay K = 0 vào (2.22) ta có

(2.23)

(2.24)

Với 1 1 D 0 là các trị riêng của ma trận nửa xác định dƣơng S. Chú ý

rằng các giá trị riêng này là thực và không âm.

Như vậy L không phụ thuộc vào cách chọn ma trận trực giao U và bằng tổng

các phần tử trên đƣờng chéo của S. Nói cách khác, L chính là tổng các phƣơng sai

theo từng thành phần của dữ liệu ban đầu.

Vì vậy, việc tối thiểu hóa hàm mất mát J đƣợc cho bởi (2.22) tƣơng đƣơng với

việc tối đa biểu thức

(2.25)

2.3.3. Tố ƣu óa àm mất mát

Nghiệm của bài toán tối ƣu hóa hàm mất mát PCA đƣợc tìm dựa trên khẳng

định sau đây:

Nếu S là một ma trận nửa xác định dƣơng, bài toán tối ƣu

(2.26)

(2.27)

24

i , với 1 2 D là các trị

Có nghiệm u1,…, uK là các vector riêng ứng với K trị riêng (kể cả lặp) lớn nhất của S. Khi đó, giá trị lớn nhất của hàm mục tiêu là ∑

riêng của S.

Trị riêng lớn nhất 1 của ma trận hiệp phƣơng sai S còn đƣợc gọi là thành phần

chính thứ nhất, trị riêng thứ hau 2 đƣợc gọi là thành phần chính thứ hai,… Tên gọi

phân tích thành phần chính bắt nguồn từ đây. Ta chỉ giữ lại K thành phần chính đầu

tiên khi giảm chiều dữ liệu dùng PCA

Trong không gian ban đầu, các vector cơ

sở e1, e2, phƣơng sai theo mỗi chiều dữ liệu

(tỷ lệ với độ rộng của các hình chuông nét

nhỏ hơn với

liền) đều lớn. Trong hệ cơ sở mới Ou1u2,

phƣơng sai theo chiều thứ hai ̂ . Điều này chỉ ra rằng khi chiếu dữ liệu lên ̂

u2, tta đƣợc các điểm rất gần nhau và gần với

giá trị trung bình theo chiều đó. Trong trƣờng

hợp này, vì giá trị trung bình theo mọi chiều

bằng 0, ta có thể thay thế tọa độ theo chiều u2

bằng 0. Rõ ràng là nếu dữ liệu có phƣơng sai Hình 2.6: Minh họa các thành càng nhỏ theo một chiều nào đó thì khi xấp xỉ phần chính với dữ liệu hai chiều. chiều đó bằng một hằng số, sai số xấp xỉ càng

nhỏ.

PCA thực chất là đi tìm một phép xoay tƣơng ứng với một ma trận trực giao sao

cho trong hệ tọa độ mới, tồn tại các chiều có phƣơng sai nhỏ có thể đƣợc bỏ qua; ta

chỉ giữ lại các chiều/thành phần khác quan trọng hơn. Nhƣ đã khẳng định ở trên,

tổng phƣơng sai theo toàn bộ các chiều trong một hệ cơ sở bất kỳ là nhƣ nhau và

bằng tổng các trị riêng của ma trận hiệp phƣơng sai. Vì vậy, PCA còn đƣợc gọi là

phƣơng pháp giảm số chiều dữ liệu sao cho tổng phƣơng sai còn lại là lớn nhất.

2.3.4. C c bƣớc thực hiện phân tích thành phần chính

Từ các suy luận trên, ta có thể tóm tắt các bƣớc trong PCA nhƣ sau:

25

1) Tính vector trung bình của toàn bộ dữ liệu:

∑ ̅ =

n 2) Trừ mỗi điểm dữ liệu đi vector trung bình của toàn bộ dữ liệu để đƣợc dữ

liệu chuẩn hóa:

̂n = xn - ̅ 3) Đặt ̂ = [ ̂1, ̂2, …, ̂D] là ma trận dữ liệu chuẩn hóa, tính ma trận hiệp

phƣơng sai:

S =

̂ ̂T 4) Tính các trị riêng và vector riêng tƣơng ứng có 2 norm bằng 1 của ma trận

này, sắp sêp chúng theo giá trị giảm dần của trị riêng.

5)Chọn K vector riêng ứng với K trị riêng lớn nhất để xây dựng ma trận UK có

các cột tạo thành một hệ trực giao. K vector này đƣợc gọi là các thành phần chính,

tạo thành một không gian con gần với phân bố dữ liệu của ban đầu đã chuẩn hóa.

̂.

6) Chiếu dữ liệu ban đầu đã chuẩn hóa ̂ xuống không gian con tìm đƣợc

7) Dữ liệu mới là tọa độ các điểm dữ liệu trên không gian mới: Z =

Nhƣ vậy, PCA là kết hợp của phép tịnh tiến, xoay trục tọa độ và chiếu dữ liệu lên hệ

tọa độ mới. Dữ liệu ban đầu có thể tính đƣợc xấp xỉ theo dƣ liệu mới bởi:

x UKZ + ̅. Quy trình thực hiện PCA đƣợc tóm tắt ở Hình 2.7

Hình 2.7: Các bƣớc thực hiện PCA

26

2.4. Thuật toán Cây quyết định và Rừng ngẫu nhiên

2.4.1. Khái niện chung

2.4.1.1. Phân loại và dự đoán (hồi quy)

Kho dữ liệu luôn chứa rất nhiều các thông tin hữu ích có thể dùng cho việc

ra các quyết định liên quan đến điều hành, định hƣớng của một đơn vị, tổ chức.

Phân loại và dự đoán là hai dạng của quá trình phân tích dữ liệu đƣợc sử dụng để

trích rút các mô hình biểu diễn các lớp dữ liệu quan trọng hoặc dự đoán các dữ liệu

phát sinh trong tƣơng lai. Kỹ thuật phân tích này giúp cho chúng ta hiểu kỹ hơn về

các kho dữ liệu lớn. Ví dụ chúng ta có thể xây dựng một mô hình phân loại để xác

định một giao dịch cho vay của ngân hàng là an toàn hay có rủi ro hoặc xây dựng

mô hình dự đoán để phán đoán khả năng chi tiêu của các khách hàng tiềm năm dựa

trên các thông tin liên quan đến thu nhập của họ. Rất nhiều các phƣơng pháp phân

loại và dự đoán đƣợc nghiên cứu trong các lĩnh vực máy học, nhận dạng mẫu và

thống kê. Hầu hết các thuật toán đều có hạn chế về bộ nhớ với các giả định là kích

thƣớc dữ liệu đủ nhỏ. Kỹ thuật khai phá dữ liệu gần đây đã đƣợc phát triển để xây

dựng các phƣơng pháp phân loại và dự đoán phù hợp hơn với nguồn dữ liệu có kích

thƣớc lớn.

a, Phân loại

Quá trình phân loại thực hiện nhiệm vụ xây dựng mô hình các công cụ phân

loại giúp cho việc gán nhãn phân loại cho các dữ liệu. Ví dụ nhãn “An toàn” hoặc

“Rủi ro” cho các yêu cầu vay vốn; “Có” hoặc “Không” cho các thông tin thị

trƣờng… Các nhãn dùng phân loại đƣợc biểu diễn bằng các giá trị rời rạc trong đó

việc sắp xếp chùng là không có ý nghĩa.

Phân loại dữ liệu gồm hai quá trình. Trong quá trình thứ nhất một công cụ

phân loại sẽ đƣợc xây dựng để xem xét nguồn dữ liệu. Đây là quá trình học, trong

đó một thuật toán phân loại đƣợc xây dựng bằng cách phân tích hoặc “học” từ tập

dữ liệu huấn luyện đƣợc xây dựng sẵn bao gồm nhiều bộ dữ liệu. Một bộ dữ liệu X

biểu diễn bằng một vector p chiều, X = (x1, x1, … , xp), đây là các giá trị cụ thể của

một tập p thuộc tính của nguồn dữ liệu {A1, A1, … , Ap}. Mỗi bộ đƣợc giả sử rằng

27

nó thuộc về một lớp đƣợc định nghĩa trƣớc với các nhãn xác định Quá trình đầu tiên

của phân loại có thể đƣợc xem nhƣ việc xác định ánh xạ hoặc hàm y = f(X), hàm

này có thể dự đoán nhãn y cho bộ X. Nghĩa là với mỗi lớp dữ liệu chúng ta cần học

(xây dựng) một ánh xạ hoặc một hàm tƣơng ứng.

Trong bƣớc thứ hai, mô hình thu đƣợc sẽ đƣợc sử dụng để phân loại. Để đảm

bảo tính khách quan nên áp dụng mô hình này trên một tập kiểm thử hơn là làm trên

tập dữ liệu huấn luyện ban đầu. Tính chính xác của mô hình phân loại trên tập dữ

liệu kiểm thử là số phần trăm các bộ dữ liệu kiểm tra đƣợc đánh nhãn đúng bằng

cách so sánh chúng với các mẫu trong bộ dữ liệu huấn luyện. Nếu nhƣ độ chính xác

của mô hình dự đoán là chấp nhận đƣợc thì chúng ta có thể sử dụng nó cho các bộ

dữ liệu với thông tin nhãn phân loại chƣa xác định.

b, Dự đoán

Dự đoán dữ liệu là một quá trình gồm hai bƣớc, nó gần giống với quá trình

phân loại. Tuy nhiên để dự đoán, chúng ta bỏ qua khái niệm nhãn phân loại bởi vì

các giá trị đƣợc dự đoán là liên tục (đƣợc sắp xếp) hơn là các giá trị phân loại. Ví dụ

thay vì phân loại xem một khoản vay có là an toàn hay rủi do thì chúng ta sẽ dự

đoán xem tổng số tiền cho vay của một khoản vay là bao nhiêu thì khoản vay đó là

antoàn.

Có thể xem xét việc dự đoán cũng là một hàm y = f(X), trong đó X là dữ liệu

đầu vào, và đầu ra là một giá trị y liên tục hoặc sắp xếp đƣợc. Việc dự đoán và phân

loại có một vài điểm khác nhau khi sử dụng các phƣơng pháp xây dựng mô hình.

Giống với phân loại, tập dữ liệu huấn luyện sử dụng để xây dựng mô hình dự đoán

không đƣợc dùng để đánh giá tính chính xác. Tính chính xác của mô hình dự đoán

đƣợc đánh giá dựa trên việc tính độ lệch giá các giá trị dự đoán với các giá trị thực

sự nhận đƣợc của mỗi bộ kiểm tra X.

2.4.1.2. Cây quyết định

Cây quyết định là một kiểu mô hình dự báo (predictive model), nghĩa là

một ánh xạ từ các quan sát về một sự vật/hiện tƣợng tới các kết luận về giá trị mục

tiêu của sự vật/hiện tƣợng.

28

Cây quyết định có cấu trúc hình cây và là một sự tƣợng trƣng của một

phƣơng thức quyết định cho việc xác định lớp các sự kiện đã cho. Mỗi nút của

cây chỉ ra một tên lớp hoặc một phép thử cụ thể, phép thử này chia không gian các

dữ liệu tại nút đó thành các kết quả có thể đạt đƣợc của phép thử. Mỗi tập con đƣợc

chia ra là không gian con của các dữ liệu đƣợc tƣơng ứng với vấn đề con của sự

phân loại. Sự phân chia này thông qua một cây con tƣơng ứng. Quá trình xây dựng

cây quyết định có thể xem nhƣ là một chiến thuật chia để trị cho sự phân loại đối

tƣợng [4][5]. Một cây quyết định có thể mô tả bằng các khái niệm nút và đƣờng nối

các nút trong cây.

Mỗi nút của cây quyết định có thể là:

- Nút lá (leaf node) hay còn gọi là nút trả lời (answer node), nó biểu thị cho

một lớp các trƣờng hợp (bản ghi), nhãn của nó là tên của lớp.

- Nút không phải là lá (non-leaf node) hay còn gọi là nút trong (inner node),

nút này xác định một phép thử thuộc tính (attribute test), nhãn của nút này có tên

của thuộc tính và sẽ có một nhánh (hay đƣờng đi) nối nút này đến cây con (subtree)

ứng với mỗi kết quả có thể có của phép thử. Nhãn của nhánh này chính là giá trị của

thuộc tính đó. Nút không phải lá nằm trên cùng là nút gốc (root node).

Một cây quyết định sử dụng để phân loại dữ liệu bằng cách bắt đầu đi từ

nút gốc của cây và đi xuyên qua cây theo các nhánh cho tới khi gặp nút lá, khi đó ta

sẽ đƣợc lớp của dữ kiện đang xét.

2.4.2. T uật to n Rừn n ẫu n n(Random Forest)

2.4.2.1. Khái niệm

a, Phƣơng pháp Boostrap

Phƣơng pháp Boostrap là một phƣơng pháp rất nổi tiếng trong thống kê đƣợc

giới thiệu bởi Bradley Efron vào năm 1979 [17]. Phƣơng pháp này chủ yếu dùng để

ƣớc lƣợng lỗi chuẩn (standard errors), độ lệch (bias) và tính toán khoảng tin cậy

(confidence interval) cho các tham số. Phƣơng pháp này đƣợc thực hiện nhƣ sau: từ

một tập ban đầu lấy ra một mẫu gồm N thành phần, tính toán các tham số mong

muốn. Trong các bƣớc tiếp theo lặp lại b lần việc tạo ra mẫu Lb cũng gồm N phần từ

29

D = (x1, x2,…, xn) bằng cách lấy lại mẫu với sự thay thế các thành phần trong mẫu

ban đầu sau đó tính toán các tham số mong muốn.

b, Phƣơng pháp Bagging

 Mô hình hoạt động của Bagging

Bagging (Bootstrap aggregating) là tổng hợp các bootstrap sử dụng cách

tiếp cận xây dựng mỗi bộ phân loại một cách độc lập với nhau, sau đó sử dụng

phƣơng pháp bỏ phiếu để chọn ra kết quả cuối cùng của bộ kết hợp. Tức là mỗi bộ

phân loại cơ bản sẽ đƣợc xây dựng độc lập với các bộ phân loại khác bằng cách

thay đổi tập dữ liệu huấn luyện đầu vào, thay đổi các đặc trƣng trong tập huấn

luyện. Bagging tạo ra các bộ phân loại từ các tập mẫu con có lặp từ tập mẫu ban đầu

(sử dụng bootstrap lấy mẫu có hoàn lại) và một thuật toán học máy, mỗi tập mẫu sẽ

tạo ra một bộ phân loại cơ bản.

Các bộ phân loại sẽ đƣợc kết hợp bằng phƣơng pháp bỏ phiếu theo số đông.

Tức là khi có một mẫu cần đƣợc phân loại, mỗi bộ phân loại sẽ cho ra một kết quả.

Và kết quả nào xuất hiện nhiều nhất sẽ đƣợc lấy làm kết quả của bộ kết hợp.

 Thuật toán Bagging

Bagging tạo ra N tập huấn luyện đƣợc chọn có lặp từ tập dữ liệu huấn luyện

ban đầu. Trong đó các mẫu huấn luyện có thể đƣợc chọn hơn một lần hoặc không

đƣợc chọn lần nào. Từ mỗi tập huấn luyện mới, Bagging cho chạy với một thuật

toán học máy L để sinh ra M bộ phân loại cơ bản ℎm. Khi có một mẫu phân loại

mới, kết quả của bộ kết hợp sẽ là kết quả nhận đƣợc nhiều nhất khi chạy M bộ phân

loại cơ bản.

Hình 2.8: Mô hình hoạt động của Bagging

30

Trong hình 2.8, bộ 3 mũi tên bên trái mô tả việc lấy mẫu 3 lần có lặp. Bộ 3

mũi tên tiếp theo mô tả việc gọi thuật toán học mô hình trên 3 ví dụ để tạo ra 3 mô

hình cơ bản.

Bagging trả lại hàm h(x) đƣợc bỏ phiếu lớn nhất trong các h1, h2,..., hM.

phân loại các mẫu mới bằng việc trả lại lớp y trong tập các lớp có thể Y. Trong hình

2.8, có 3 bộ phân loại cơ bản để bỏ phiếu ra đáp án cuối cùng. Trong bagging, các

tập huấn luyện M đƣợc tạo ra khác nhau. Nếu sự khác nhau này đủ để dẫn đến sự

khác nhau của M mô hình cơ bản trong khi hiệu năng của các mô hình đủ tốt thì thì

bộ kết hợp có hiệu năng tốt hơn các mô hình cơ bản.

c, Học tập thể

Với mỗi bài toán phân loại hoặc hồi quy cụ thể, ngƣời ta thƣờng có nhiều

thuật toán học để khi xây dựng bộ học. Cùng một thuật toán, có thể chọn các tham

số khác nhau hoặc sử dụng tập dữ liệu huấn luyện khác nhau nên cho các bộ phân

loại khác nhau.

Những thuật toán cho cùng lớp bài toán thƣờng tuân theo luật “không có bữa

trƣa miễn phí (no free lunch theory)”, tức là không có thuật toán tốt hơn hẳn các

thuật toán khác mà mỗi thuật toán có ƣu /nhƣợc điểm riêng, khi thực hiện phân loại

thì mỗi bộ huấn luyện theo thuật toán tƣơng ứng có những lớp mẫu đƣợc phân loại

tốt và tồi khác nhau. Kết hợp hợp lý các bộ phân loại có thể cho ta bộ phân loại mới

có nhiều ƣu điểm hơn, cách kết hợp này gọi là học máy tập thể (ensemble learning).

Nhƣ vậy, mỗi cách học cho ta một bộ phân loại cơ sở, nhờ kết hợp các bộ

phân loại thành phần có đƣợc mà ta có một bộ phân loại tốt hơn. Các bộ phân loại

cơ sở này thƣờng đƣợc xây dựng theo cách tiếp cận sau đây:

1) Dùng các thuật toán huấn luyện khác nhau. Các thuật toán này sử dụng

các giả thuyết khác nhau về dữ liệu, các bộ học có thể phụ thuộc tham số hoặc

không. Khi kết hợp các bộ học, ta đƣợc giải phóng khỏi các giả thiết áp đặt này.

2) Mỗi bộ học dùng cách chọn đặc trƣng khác nhau. Chẳng hạn chúng ta

dùng một thuật toán để phân biệt chữ viết tay nhƣng cách chọn đặc trƣng có thể là

nội dung ảnh hay qua phép biến đổi nào đó.

31

3) Có thể sử dụng cùng một thuật toán nhƣng có tham số khác nhau. Chẳng

hạn đều sử dụng thuật toán k-láng giềng gần nhất nhƣng với số lƣợng cây k khác

nhau.

4) Cùng một thuật toán nhƣng sử dụng các tập dữ liệu huấn luyện khác nhau.

Thông thƣờng thì các bộ phân loại đƣợc xây dựng theo hai cách cách tiếp

cận đầu có thời gian chạy khác nhau và bộ phân loại chính xác hơn thƣờng đòi

hỏi thời gian xử lý nhiều hơn.

Khi có các bộ phân loại cơ sở, bộ phân loại tập thể đƣợc kết hợp theo các

kiểu tôpô đa dạng để cho ta những bộ mới tốt hơn các bộ thành phần. Trong đó

phƣơng thức kết hợp đơn giản và dễ dùng nhất là phƣơng pháp bỏ phiếu.

d, Phƣơng pháp bỏ phiếu

Một cách đơn giản để kết hợp các bộ học cơ sở là dùng phƣơng pháp bỏ

phiếu nhờ kiến trúc song song, đầu ra đƣợc quyết định nhờ kết quả tổng hợp có

trọng số của các bộ phân loại thành phần. Đối với đối tƣợng x cần gán nhãn, nếu

mỗi bộ học cơ sở Ci cho quyết định qi với trọng số ý kiến wi tƣơng ứng thì đầu ra

của bộ kết hợp đối với mẫu này đƣợc tính theo công thức:

(2.28)

q(x)= ∑

w1qi (x)

cho bài toán hồi quy, và theo đa số có trọng số của tập cho

(2.29)

{w1qi(x)}

bài toán phân loại,

Trong đó ∑

wi = 1 (N: Số lƣợng mẫu)

Các trọng số có thể chọn bằng nhau. Tổng quát hơn, ta có thể quyết

định bằng một hàm tổng hợp phi tuyến f nào đó: q(x) = f(q1(x),…,q1(x))

Sơ đồ quyết định tổng quát của quyết định theo hình thức bỏ phiếu

đƣợc mô tả trong hình 2.9.

32

Hình 2.9: Sơ đồ kết hợp các bộ phân loại nhờ bỏ phiếu

Việc huấn luyện các bộ thành phần của bộ học tập thể nay có thể sử dụng một

trong các phƣơng thức sau:

 N thuật toán huấn luyện khác nhau.

 Một thuật toán nhƣng M tập dữ liệu đào tạo hay tham số khác nhau.

 Một thuật toán nhƣng dùng tập dữ liệu với tập đặc trƣng khác nhau.

 Kết hợp các phƣơng thức trên.

Việc học tập thể T bao gồm các quá trình huấn luyện Ti cho bộ học Ci để

cho giả thuyết h i tƣơng ứng và chúng đƣợc kết hợp thành giả thuyết ℎ*. Khi ứng

dụng nhận dạng mẫu x, giả thuyết h* sẽ cho ta nhãn y*h*(x) nhƣ minh họa trong

hình 2.10.

Hình 2.10: Sơ đồ học tập thể các bộ học

33

e, Rừng ngẫu nhiên

Random Forest (rừng ngẫu nhiên) [10] là phƣơng pháp học tập thể (ensemble)

để phân loại, hồi quy đƣợc phát triển bởi Leo Breiman tại đại học California,

Berkeley. Breiman cũng đồng thời là đồng tác giả của phƣơng pháp CART [15].

Random Forest (RF) là phƣơng pháp cải tiến của phƣơng pháp tổng hợp bootstrap

(bagging). RF sử dụng 2 bƣớc ngẫu nhiên, một là ngẫu nhiên theo mẫu (sample)

dùng phƣơng pháp bootstrap có hoàn lại (with replacement), hai là lấy ngẫu nhiên

một lƣợng thuộc tính từ tập thuộc tính ban đầu. Các tập dữ liệu con (sub-dataset)

đƣợc tạo ra từ 2 lần ngẫu nhiên này có tính đa dạng cao, ít liên quan đến nhau, giúp

giảm lỗi phƣơng sai (variance). Các cây CART đƣợc xây dựng từ tập các tập dữ liệu

con này tạo thành rừng. Khi tổng hợp kết quả, RF dùng phƣơng pháp bỏ phiếu

(voting) cho bài toán phân loại và lấy giá trị trung bình (average) cho bài toán hồi

quy. Việc kết hợp các mô hình CART này để cho kết quả cuối cùng nên RF đƣợc

gọi là phƣơng pháp học tập thể.

Đối với bài toán phân loại, cây CART sử dụng công thức Gini nhƣ là một hàm

điều kiện để tính toán điểm tách nút của cây. Số lƣợng cây là không hạn chế, các

cây trong RF đƣợc xây dựng với chiều cao tối đa.

Trong những năm gần đây, RF đƣợc sử dụng khá phổ biến bởi những điểm

vƣợt trội của nó so với các thuật toán khác: xử lý đƣợc với dữ liệu có số lƣợng các

thuộc tính lớn, có khả năng ƣớc lƣợng đƣợc độ quan trọng của các thuộc tính,

thƣờng có độ chính xác cao trong phân loại (hoặc hồi quy), quá trình học nhanh.

Trong RF, mỗi cây chỉ chọn một tập nhỏ các thuộc tính trong quá trình xây dựng

(bƣớc ngẫu nhiên thứ 2), cơ chế này làm cho RF thực thi với tập dữ liệu có số lƣợng

thuộc tính lớn trong thời gian chấp nhận đƣợc khi tính toán. Ngƣời dùng có thể đặt

mặc định số lƣợng các thuộc tính để xây dựng cây trong rừng, thông thƣờng giá trị

mặc định tối ƣu là √ cho bài toán phân loại và ⁄ với các bài toán hồi quy (p là

số lƣợng tất cả các thuộc tính của tập dữ liệu ban đầu). Số lƣợng các cây trong rừng

cần đƣợc đặt đủ lớn để đảm bảo tất cả các thuộc tính đều đƣợc sử dụng một số lần.

Thông thƣờng là 500 cây cho bài toán phân loại, 1000 cây cho bài toán hồi quy. Do

34

sử dụng phƣơng pháp bootstrap lấy mẫu ngẫu nhiên có hoàn lại nên các tập dữ liệu

con có khoảng 2/3 các mẫu không trùng nhau dùng để xây dựng cây, các mẫu ngày

đƣợc gọi là in-bag. Khoảng 1/3 số mẫu còn lại gọi là out-of-bag, do không tham gia

vào việc xây dựng cây nên RF dùng luôn các mẫu out-of-bag này để kiểm thử và

tính toán độ quan trọng thuộc tính của các cây CART trong rừng.

2.4.2.2. Nội dung thuật toán Rừng ngẫu nhiên

a, Mô tả thuật toán

Tóm tắt thuật toán Random Forest cho phân loại dữ liệu:

Bƣớc 1: Từ tập dữ liệu huấn luyện D, ta tạo dữ liệu ngẫu nhiên (mẫu

bootstrap).

Bƣớc 2: Sử dụng các tập con dữ liệu lấy mẫu ngẫu nhiên D1 , D2 ,…, Dk xây

dựng nên các cây T1, T2 ,…,Tk .

Bƣớc 3: Kết hợp các cây: sử dụng chiến lƣợc bình chọn theo số đông với bài toán

phân loại hoặc lấy trung bình các giá trị dự đoán từ các cây với bài toán hồi quy.

Hình 2.11: Thuật toán Random Forest

35

Quá trình học của Random Forest bao gồm việc sử dụng ngẫu nhiên giá trị đầu

vào, hoặc kết hợp các giá trị đó tại mỗi node trong quá trình dựng từng cây quyết

định. Trong đó Random Forest có một số thuộc tính mạnh nhƣ :

(1) Độ chính xác của RF tƣơng đối cao.

(2) Thuật toán giải quyết tốt các bài toán có nhiều dữ liệu nhiễu.

(3) Thuật toán chạy nhanh hơn so với bagging.

(4) Có những sự ƣớc lƣợng nội tại nhƣ độ chính xác của mô hình dự đoán

hoặc độ mạnh và liên quan giữa các thuộc tính.

(5) Dễ dàng thực hiện song song.

(6) Tuy nhiên để đạt đƣợc các tính chất mạnh trên, thời gian thực thi của thuật

toán khá lâu và phải sử dụng nhiều tài nguyên của hệ thống.

Tính chất thứ 4 đƣợc quan tâm rất nhiều và là tính chất đƣợc sử dụng để giải

quyết bài toán trích chọn thuộc tính. Sau khi thực hiện học sẽ thu đƣợc một danh

sách các thuộc đƣợc xếp hạng dựa theo một trong hai tiêu chí. Tiêu chí thứ nhất là

thu đƣợc sau quá trình kiểm tra độ chính xác sử dụng các mẫu out of-bag.

Tiêu chí thứ hai là mức độ dầy đặc tại các node khi phân chia thuộc thuộc tính, và

đƣợc tính trung bình trên tất cả các cây.

Qua những tìm hiểu trên về giải thuật RF ta có nhận xét rằng RF là một

phƣơng pháp phân loại tốt do:

(1) Trong RF các phƣơng sai (variance) đƣợc giảm thiểu do kết quả của RF

đƣợc tổng hợp thông qua nhiều bộ học (learner).

(2) Việc chọn ngẫu nhiên tại mỗi bƣớc trong RF sẽ làm giảm mối tƣơng

quan (correlation) giữa các bộ phận lớp trong việc tổng hợp các kết quả.

Ngoài ra, chúng ta cũng thấy rằng lỗi chung của một rừng các cây phân loại

phụ thuộc vào lỗi riêng của từng cây trong rừng cũng nhƣ mỗi tƣơng quan giữa

các cây.

b, Đặc điểm của thuật toán Rừng ngâu nhiên

 Out – Of – Bag (OOB)

36

Do sử dụng phƣơng pháp bootstrap lấy mẫu ngẫu nhiên có hoàn lại nên các tập

dữ liệu con có khoảng 2/3 các mẫu không trùng nhau dùng để xây dựng cây, các

mẫu ngày đƣợc gọi là in-bag. Khoảng 1/3 số mẫu còn lại gọi là out-of-bag, do

không tham gia vào việc xây dựng cây nên RF dùng luôn các mẫu out-of-bag này

để kiểm thử và tính toán độ quan trọng thuộc tính của các cây CART trong rừng

cũng nhƣ sử dụng để ƣớc lƣợng lỗi tạo ra từ việc kết hợp các kết quả từ các cây

tổng hợp trong random forest.

Trong random forest OOB đƣợc tính nhƣ sau: Giả sử có một phƣơng pháp cho

việc xây dựng một bộ phân loại từ bất kỳ tập huấn luyện nào. Cho một tập huấn

luyện D ban đầu, sử dụng phƣơng pháp bootstrap xây dựng đƣợc tập huấn luyện Dk,

sau đó xây dựng các bộ phân loại h(x, Dk) và sử dụng các bộ phân loại này “bỏ

phiếu” để xây dựng một tập tham số dự báo. Đối với mỗi cặp y, x trong tập huấn

luyện, việc tổng hợp các lá phiếu chỉ đƣợc thực hiện trên những bộ phân loại đối

với những tập Dk không chứa y, x. Chúng ta gọi tính toán trên là out-of-bag

classifier Sử dụng dữ liệu out-of-bag để ƣớc tính tỷ lệ lỗi trong RF là việc

tính toán tỉ lệ lỗi của out-of-bag classifier trên tập huấn luyện Dk. ách tính trên

có thể đƣợc hiểu một cách đơn giản nhƣ sau: Gửi các “đối tƣợng” trong OOB

xuống cây và “đếm” số các dự đoán đúng, ta gọi kết quả của tính toán này là ROOB

(Risk out of bag).

c, Độ quan trọng thuộc tính

Theo Breiman [8] có một cách nhìn nữa về rừng ngẫu nhiên: bao gồm một tổ

hợp các cây quyết định không cắt nhánh. Mỗi cây quyết định đƣợc xây dựng bởi

thuật toán CART [8] trên tập mẫu bootstrap (lấy mẫu ngẫu nhiên có hoàn lại) từ tập

dữ liệu ban đầu. Tại mỗi nút, một phân hoạch tốt nhất đƣợc thực hiện dựa trên

thông tin trong một không gian con các thuộc tính đƣợc chọn ngẫu nhiên từ không

gian thuộc tính ban đầu. RF tổng hợp kết quả dự đoán của các cây quyết định làm

kết quả cuối cùng.

Ƣu điểm của RF là xây dựng cây không thực hiện việc cắt nhánh từ các tập dữ

liệu con khác nhau dùng kỹ thuật boostrap có hoàn lại, do đó thu đƣợc những cây

37

với lỗi bias thấp. Bên cạnh đó, mối quan hệ tƣơng quan giữa các cây quyết định

cũng đƣợc giảm thiểu nhờ việc xây dựng các không gian con thuộc tính một cách

ngẫu nhiên. Do đó, việc kết hợp kết quả của một số lƣợng lớn những cây quyết định

độc lập có bias thấp, phƣơng sai cao sẽ giúp RF đạt đƣợc cả độ lệch thấp và phƣơng

sai thấp. Sự chính xác của RF phụ thuộc vào chất lƣợng dự đoán của các cây quyết

định và mức độ tƣơng quan giữa các cây quyết định. Cho một tập dữ liệu huấn

luyện (tập mẫu) chứa N mẫu dữ liệu, p thuộc tính Xj (j = 1,2,...,p) và Yϵ {1, 2,.., C}

với C ≥ 2 là biến phụ thuộc. RF dùng chỉ số Gini để đo tính hỗn tạp của tập mẫu.

Trong quá trình xây dựng các cây quyết định, RF phát triển các nút con từ một nút

cha dựa trên việc đánh giá chỉ số Gini của một không gian con mtry các thuộc tính

đƣợc chọn ngẫu nhiên từ không gian thuộc tính ban đầu. Thuộc tính đƣợc chọn để

tách nút t là thuộc tính làm cực tiểu độ hỗn tạp của các tập mẫu sau khi chia. Công

thức tính chỉ số Gini cho nút t nhƣ sau:

Φc(t)[1- Φc(t)]

(2.30) Gini(t) = ∑

trong đó c(t) là tần suất xuất hiện của lớp c C trong nút t. Gọi s là một giá trị

trong thuộc tính Xj tách nút t thành 2 nút con: nút trái tL và nút phải tR tùy thuộc vào

Xj ≤ s hoặc Xj > s; tL = {Xj ϵ t, Xj ≤ s} và tR = {Xj ϵ t, Xj > s}.

Khi đó, tổng độ đo chỉ số Gini của 2 nút tL và tR sau khi dùng thuộc tính Xj tách nút t

tại s là:

(2.31) ΔGini(s,t) = p(tL)Gini(tL)+ p(tR)Gini(tR)

Để đạt đƣợc điểm chia tốt, tại mỗi nút RF sẽ tìm tất cả các giá trị có thể của tất cả

mtry biến để tìm ra điểm s có độ đo ΔGini(s,t) nhỏ nhất làm điểm phân tách nút t.

Thuộc tính chứa điểm phân tách nút t đƣợc gọi là thuộc tính tách nút t.

Gọi ISk(Xj), ISXj lần lƣợt là độ đo sự quan trọng của thuộc tính Xj trong

một cây quyết định Tk (k = 1…K) và trong một rừng ngẫu nhiên. Công thức tính

ISk(Xj) và ISXj nhƣ sau:

(2.32) ISk(Xj) = ∑ Gini(Xj,t)

ISk(Xj)

∑ (2.33) ISXj =

38

Chuẩn hóa min-max để chuyển độ đo sự quan trọng thuộc tính về đoạn [0, 1], theo

công thức:

(ISXj)

(ISXj)

(2.34) VIXj = max ISXj - min (ISXj) - min

2.5. ết luận c ƣơn

- Chƣơng 2 tác giả trình bày về các thuật toán đƣợc sử dụng để xây dựng và thực

hiện mô hình dự đoán cho các chỉ số chất lƣợng.

- Các thuật toán đƣợc chia thành 3 nhóm: Tiền xử lý dữ liệu bao gồm Phân tích

phƣơng sai(ANOVA), Chuẩn hóa dữ liệu(Z-Score), phân tích tƣơng quan(Pearson);

Phân chia tập dữ liệu Train/Test(SPXY với khoảng cách Euclide); Tối ƣu mô hình

dự đoán phân tích thành phần chính(PCA), hồi quy phi tuyến Rừng ngẫu nhiên(RF)

39

CHƢƠNG 3: DỰ O N C C CHỈ SỐ CHẤT LƢỢNG VÀ ỨNG DỤNG

3.1. T ền xử lý dữ l ệu và p ân c a bộ mẫu

Để nghiên cứu tốt hơn các quy luật thay đổi màu sắc của lá trong quá trình

lên men, trƣớc tiên ta phân tích những thay đổi trực quan tổng thể. Các hình ảnh với

thời gian lên men khác nhau đƣợc lấy ngẫu nhiên và sắp xếp theo thứ tự thời gian

lên men. Sau đó, màu sắc trung bình của hình ảnh đƣợc trích xuất. Các kết quả đƣợc

hiển thị trong hình 3.1

20 mẫu (R: đại diện) cho 11 thời điểm trong quá trình lên men:

Hình 3.1: Bảng dữ liệu và đồ thị thể hiện sự thay đổi về giá trị RGB trung bình theo

thời gian

b a c

f d e Hình 3.2: Đồ thị thể hiện sự thay đổi về giá trị a, H; b, S; c, V; d, L; e, a; f, b

trung bình theo thời gian

40

a b

c d Hình 3.3: Đồ thị thể hiện sự thay đổi giá trị các chỉ số chất lƣợng

a, TFs; b, TRs; c, TBs; d, SS(điểm cảm quan) theo thời gian

Nhƣ trong Hình 4.3, tất cả các chỉ số chất lƣợng đều quan sát quy luật thay đổi

“tăng - giảm”, và chất lƣợng cảm quan đạt điểm cao nhất lúc 3 giờ. TFs tăng nhanh

khi lên men và đạt đến đỉnh điểm ở thời điểm 1giờ. Sau đó, nó giảm xuống rất

nhiều và chậm lại sau 2,5 giờ. TRs tăng dần theo quá trình lên men và đạt cực đại ở

thời điểm 2 giờ, sau đó nó giảm đột ngột. TB tăng liên tục trong toàn bộ quá trình

lên men.

3.1.1. Tríc xuất tín năn màu

9 chỉ số màu sau đây đƣợc trích xuất thông qua chuyển đổi mô hình màu

giữa RGB, HSV và CIE Lab: giá trị trung bình của kênh đỏ (R), kênh xanh lục (G),

kênh xanh lam (B), màu sắc (H), độ bão hòa ( S), độ chói (V), thành phần a (a ),

thành phần b (b) và thành phần độ sáng (L ) .

Sau khi chuyển đổi ta thu đƣợc bảng dữ liệu cho toàn bộ các tham số nhƣ sau:

41

Bảng 3.1: Dữ liệu đầy đủ sau khi chuyển đổi

3.1.2. P ân tíc sự k c b ệt về c ỉ số c ất lƣợn và đặc đ ểm màu sắc

ANOVA một yếu tố (Phân tích phƣơng sai) đƣợc tiến hành dựa trên các chỉ số chất

lƣợng (TFs, TRs, TB và Điểm cảm quan) và các giá trị đặc điểm hình ảnh trong mỗi

giai đoạn của quá trình lên men. Kết quả đƣợc hiển thị dƣới dạng Bảng 3.2. Sự khác

biệt giữa các nhóm giữa các chỉ số chất lƣợng cao hơn nhiều so với sự khác biệt

trong nhóm, điều này cho thấy sự khác biệt chủ yếu là do thời gian lên men khác

nhau; các mức ý nghĩa đều nhỏ hơn 0,001 (Sig <0,001) cho thấy chất lƣợng cảm

quan và thành phần sắc tố ở các thời điểm lên men khác nhau là khá khác nhau.

Mean Square

Sig.

Biến

F

<0.001

R G B H S V L a b TFs TRs TBs Sensory Score

Giữa các nhóm 2895.08 3368.32 462.461 252.07 0.00846 0.044523 537.280 64.509 327.754 0.286482 6.61264 23.3092 562.163

328.54 391.55 55.27 10.58 6.81 328.54 619.64 11.26 77.01 438.56 160.69 254.95 125.42

Trong nhóm 8.81 8.6 8.367 23.82 0.001242 0.000136 0.867 5.727 4.256 0.000653 0.04115 0.0914 4.482

Bảng 3.2: ANOVA một yếu tố trên mỗi tham số

42

3.1.3. Tƣơn quan ữa đặc đ ểm màu sắc và c ỉ số c ất lƣợn

Bảng 3.3: Phân tích tính tƣơng quan các tính năng màu và chỉ số chất lƣợng

Mối tƣơng quan giữa các chỉ số chất lƣợng (điểm cảm quan và thành phần sắc

tố) và các biến đặc trƣng màu sắc của mẫu thử nghiệm đƣợc phân tích nhƣ trong

Bảng 3.3. Kết quả cho thấy tất cả các chỉ số chất lƣợng có tƣơng quan đáng kể với các đặc điểm màu sắc (p <0,01), đặc biệt là với các thông số a * , b * và L * trong mô

hình màu CIE Lab. Lý do là mô hình màu Lab có gam màu rộng. Màu của kênh “a”

từ xanh lục sang đỏ và kênh “b” từ xanh lam sang vàng, có thể hiển thị các màu mà

các mô hình màu khác không thể hiện đƣợc. Đặc biệt là mô hình RGB đó có quá

nhiều màu chuyển tiếp giữa xanh lam và xanh lá cây, trong khi màu vàng và các

màu khác không đƣợc nhìn thấy từ xanh lục sang đỏ. Bên cạnh đó, các đặc điểm

chính của màu lá trong quá trình lên men trà đen là: màu xanh vàng, vàng đỏ và nâu

vàng. Do đó, mô hình màu CIE Lab có thể trình bày sự thay đổi của màu lá một

cách trung thực và chính xác.

TBs có tƣơng quan thuận với “a”, tƣơng quan nghịch với các đặc điểm màu

khác. Các hệ số tƣơng quan rõ ràng là lớn hơn so với TFs và TRs, cho thấy sự thay

đổi màu sắc của tán lá chủ yếu phụ thuộc vào hàm lƣợng TBs. TBs càng cao thì

màu sắc của tán lá càng đậm. Tuy nhiên, theo sự thay đổi của “a” , TFs và TRs có

tƣơng quan cực kỳ quan trọng và nghịch biến với “a”, điều này đi ngƣợc lại với lý

thuyết hóa học của cây chè về “TF và TR càng cao thì tán lá càng đỏ”. Phân tích

trên cho thấy, tồn tại yếu tố thứ ba tạo nên hệ số tƣơng quan giữa a và TF và TR

không thể phản ánh thực sự mức độ tuyến tính giữa hai biến (đó là độ nhạy cao của

TB đối với màu sắc của tán lá), và che giấu ảnh hƣởng của TF và TR đến màu của

tán lá ở một mức độ nào đó.

43

Theo phân tích toàn diện, màu sắc của tán lá có mối tƣơng quan cao với hàm lƣợng

TRs và TFs, sự thay đổi màu sắc phù hợp với sự thay đổi của các thành phần sinh

hóa. TRs càng cao, tán lá sẽ càng đỏ. Nhƣng TRs quá cao sẽ làm cho tán lá tối

hơn. TF càng cao, tán lá càng sáng, điều này sẽ thể hiện một thuật ngữ cảm quan là

“đỏ và sáng”. Trong nghiên cứu này, ở thời điểm 3 giờ lên men, thành phần TFs,

TRs và TBs đã đạt đến trạng thái tốt nhất, khi màu lá đỏ hơn về mặt thị giác và chất

lƣợng cảm quan là tốt nhất tại thời điểm này, phù hợp với tiêu chuẩn đánh giá cảm

quan của chè đen.

3.1.4. T ền xử lý dữ l ệu và p ân c a bộ mẫu

Trong quá trình thiết lập mô hình, do các biến đặc trƣng hình ảnh đƣợc trích

xuất của các mẫu chè là mảng chiều cao đa dạng, thuật toán Z-score đƣợc sử dụng

để tiến hành chuyển đổi tiêu chuẩn hóa trên dữ liệu nhằm loại bỏ ảnh hƣởng của

kích thƣớc và thứ tự độ lớn đến hiệu suất của mô hình.

Bảng 3.4: Dữ liệu chuẩn hóa

Ngoài ra, cũng có những mối tƣơng quan nhất định giữa các biến đặc trƣng

màu sắc giữa các mẫu (ví dụ hệ số tƣơng quan giá trị tuyệt giữa G với R, V, L, b đều trên 0.904 đối với của R với V thậm chí đạt 1), dẫn đến thông tin của các biến

bị trùng lặp. Khi tham gia vào quá trình lập mô hình, loại thông tin dƣ thừa này có

44

thể dễ dàng gây ra các rủi ro quá mức và dẫn đến mô hình hiệu chuẩn tuyệt vời

nhƣng có hiệu suất dự đoán kém. Do đó, trƣớc khi thiết lập mô hình dự báo, cần

tiến hành phân tích chiều cắt của các thành phần chính đối với 9 biến đặc trƣng để

thu đƣợc 9 biến mới không tƣơng quan (đó là số lƣợng các yếu tố thành phần

chính). Sau đó, điểm của 9 bộ thành phần chính độc lập đƣợc lấy làm biến đầu vào

của mô hình. Bằng cách này có thể loại bỏ thông tin nhiễu không liên quan đến các

chỉ số chất lƣợng, loại bỏ sự đồng nhất giữa các đặc điểm màu sắc.

3.2. P ân c a tập uấn luyện và t ử n ệm (tra n/test)

Ba thuật toán là Ngẫu nhiên, Kennard-Stone, Spxy với khoảng cách

Euclidean đƣợc lựa chọn. Qua thực nghiệm với tập dữ liệu thì ta thấy Spxy hoạt

động hiệu quả hơn với tỷ lệ 0.75 train, 0.25 test. Phân bố đầu ra và biểu đồ PCA của

tập dữ liệu đƣợc thể hiện ở bảng 3.4 và hình 3.4.

b a

d c

Hình 3.4: Biểu đồ điểm PCA với 2 thành phần chính đầu tiên

a, TFs; b, TRs; c,TBs; d, SS

45

Bảng 3.5: Phân bố đầu ra các chỉ số chất lƣợng

Thông số Dải train(hiệu chuẩn) Dải test(dự đoán)

TFs 0.281 – 0.694 0.3 – 0.694

TRs 3.112 – 5.677 3.582 – 5.461

TBs 4.106 – 8.606 4.617 – 8.203

Điểm cảm quan(SS) 64.682 – 94.179 64.733 – 88.665

Dữ liệu train đƣợc chọn bao phủ toàn bộ dữ liệu test do đó, dữ liệu train có

thể lấy là đại diện.

Dải bộ hiệu chuẩn của các chỉ số chất lƣợng lớn hơn dải bộ dự đoán, điều

này có thể đảm bảo tính mạnh mẽ của mô hình dự đoán.

3.3. P ân tíc t àn p ần c ín

Bảng 3.6: Phân tích về ma trận tƣơng quan

Hình 3.5: Đồ thị thể hiện mối quan hệ giữa trị riêng và số thành phần chính

Bảng 3.7: Véc tơ riêng

46

Hình 3.6: Các quan sát và véc tơ riêng trên hai thành phần chính thứ nhất và thứ hai

Sau khi đã có các Véc tơ riêng ta chiếu các điểm dữ liệu đã chuẩn hóa lên các véc tơ

này và thu đƣợc bảng dữ liệu đầu vào mới:

Bảng 3.8: Dữ liệu đầu vào cho mô hình

47

3.4. T ết lập mô ìn p tuyến RF c o từn c ỉ số c ất lƣợn

PC (số thành phần chính) và N (số cây quyết định) có ảnh hƣởng trực tiếp đến độ

chính xác của mô hình RF. Do đó, cần phải tối ƣu hóa thêm trên N và PC (trong

một phạm vi nhất định). 50N (20–1000, với kích thƣớc bƣớc là 20) và 9PC (1–9,

với kích thƣớc bƣớc là 1) đƣợc chọn tƣơng ứng để tối ƣu hóa các thông số dựa trên

RMSE của từng mô hình chỉ số chất lƣợng.

Hình 3.7: Lƣu đồ thuật toán tối ƣu PCs và N

48

b a

d c

e f

h g Hình 3.8: Giá trị RMSEC của mỗi chỉ số chất lƣợng cho mô hình RF từ các PC và

N khác nhau

49

a, đại diện cho TF; c, đại diện cho TR; e, đại diện cho TB và g, đại diện cho

SS(điểm cảm quan), giá trị tham chiếu so với giá trị dự đoán của mô hình RF: b, đại

diện cho TF; d, đại diện cho TR; f, đại diện cho TB và h, đại diện cho SS.

Bảng 3.9: Tổng hợp các thông số sau khi tối ƣu mô hình dự đoán

PC N RMSEC

Rc

biasc RMSEP

Rp

biasp

SEP

CV

RPD

Thông số

7

880

0.0286

0.9762 0.0004

0.0526

0.8906 0.0007 0.0526 0.2103 1.8685

TFs

7

60

0.1727

0.9687 0.0105

0.3452

0.7356 0.0051 0.3451 0.0953 1.2321

TRs

6

380

0.1943

0.9864 0.0036

0.3789

0.9008 0.0417 0.3766 0.1083 2.0182

TBs

2.165

0.8855

-0.076 2.1637 0.0522 1.972

8

0.9773 0.0249

60

1.2579 SS Qua các kết quả mô phỏng ta thấy rằng:

- Trong mô hình dự đoán TFs, khi PC = 7 và N = 880, RMSEC của mô hình

đạt mức tối thiểu (0,0286), Rp, RMSEP, Bias, SEP, CV và RPD của bộ dự đoán là

0.8906, 0.0526, 0.0007, 0.0526 , 0.2103 và 1.8685 tƣơng ứng, và mối quan hệ giữa

giá trị dự đoán và giá trị đo đƣợc thể hiện nhƣ Hình 3.8a, b.

- Trong mô hình dự đoán TRs, khi PC = 7 và N = 60, RMSEC của mô hình

đạt mức tối thiểu (0,1727), Rp, RMSEP, Bias, SEP, CV và RPD của bộ dự đoán là

0.7356, 0.3452, 0.0051, 0.3451 , 0.0953 và 1.2321 tƣơng ứng, và mối quan hệ giữa

giá trị dự đoán và giá trị đo đƣợc thể hiện nhƣ Hình 3.8c, d.

- Trong mô hình dự đoán TBs, khi PC = 6 và N = 380, RMSEC của mô hình

đạt mức tối thiểu (0,1943), Rp, RMSEP, Bias, SEP, CV và RPD của bộ dự đoán là

0.9008, 0.3789, 0.0417, 0.3766 , 0.1083 và 2.0182 tƣơng ứng, và mối quan hệ giữa

giá trị dự đoán và giá trị đo đƣợc thể hiện nhƣ Hình 3.8e, f.

- Trong mô hình dự đoán SS, khi PC = 8 và N = 60, RMSEC của mô hình đạt

mức tối thiểu (1.2579), Rp, RMSEP, Bias, SEP, CV và RPD của bộ dự đoán là

0.8855, 2.165, -0.076, 2.1637 , 0.0522 và 1.972 tƣơng ứng, và mối quan hệ giữa giá

trị dự đoán và giá trị đo đƣợc thể hiện nhƣ Hình 3.8g, h.

Nói chung, RMSEP, SEP, CV và Bias nhỏ hơn giá trị Rp và RPD, phản ánh

mô hình chính xác và tổng quát hơn .

Quá trình lên men trà thƣờng đi kèm với phản ứng trao đổi chất phức tạp, và

sự thay đổi của các thành phần vật lý và hóa học đƣợc thể hiện theo trình tự thời

50

gian. Trong khi đó, đánh giá cảm quan đƣợc thực hiện bằng cách phân biệt thông tin

màu sắc của mẫu trà bằng mắt ngƣời, sau đó đi vào hệ thống não bộ phức tạp của

con ngƣời và đƣợc tích hợp và đánh giá toàn diện cuối cùng. Do đó, điểm cảm quan

cuối cùng và màu sắc có các yếu tố phi tuyến tính chủ quan. Phƣơng pháp phi tuyến

tính với chức năng tự học và điều chỉnh có thể giải quyết hiệu quả các vấn đề phức

tạp và phát huy khả năng dự đoán của mô hình. Công nghệ trên có thể đƣợc áp dụng

cho hệ thống lên men tự động chè đen để dự đoán và giám sát các thông số chất

lƣợng.

3.5. Ứn dụn

3.5.1. Lƣu đồ t uật to n đề xuất

Hình 3.9: Lƣu đồ thuật toán điều khiển lên men đề xuất

51

- Hình ảnh thu đƣợc từ các điểm đo lƣờng sẽ đƣợc phân tích và xử lý để so sánh với

các ngƣỡng chuẩn về chỉ số chất lƣợng, điểm cảm quan dự đoán.

- Nếu dữ liệu thu đƣợc nằm trong ngƣỡng cho phép ta duy trì tham số điều khiển, ở

đây, tham số điều khiển sẽ thay đổi sự đóng mở của van khí tuyến tính để thay đổi

sự tác động của nhiệt độ, độ ẩm và các hợp chất trong quá trình lên men vào khối

chè

- Nếu dữ liệu nằm ngoài ngƣỡng cho phép, ta so sánh tiếp xem dữ liệu ở ngững

chƣa đủ hay quá ngƣỡng để thay đổi tham số, điều khiển van khí cho hợp lý.

3.5.2. T ết bị đ ều k ển đề xuất

- Để đảm bảo tính ổn định cũng nhƣ chính xác của hệ thống, tôi đề nghị sử dụng

camera chuyên dụng. Ống kính đơn kỹ thuật số phản xạ (Canon DS60D, Nhật Bản,

18MP) đƣợc chọn làm cảm biến hình ảnh; các thông số thu nhận của máy ảnh đƣợc

liệt kê trong bảng 3.10. Ánh sáng đồng nhất (Sphere100, Hangzhou Flight

Technology Co., Ltd, Trung Quốc) đƣợc chọn làm nguồn sáng có cƣờng độ 100

lux. Điện áp yêu cầu là 24V và công suất là 11,3 W. Khoảng cách từ các mẫu là 180

mm.

Bảng 3.10: Đặc điểm của camera

52

- Hệ thống xử lý ảnh đƣợc xử lý trên máy tính với GUI trong Matlab

- Thiết bị xử lý và điều khiển van sử dụng PLC với chuẩn truyền thông RS485

kết nối với máy tính

- Cài đặt thông số, điều khiển các chế độ thông qua màn hình HMI

Hình 3.10: Cài đặt chế độ hoạt động thông qua màn hình HMI

3.6. ết luận c ƣơn

- Trong chƣơng 3, tác giả đã trình bày về việc xử lý dữ liệu, kết quả thực

nghiệm khi áp dụng các thuật toán, đƣa ra đƣợc mô hình dự đoán tối ƣu với RF và

đƣợc kiểm nghiệm bằng phần mềm. Đánh giá đƣợc các thông số liên quan.

- Đề xuất phƣơng án điều khiển khi áp dụng với thực tế, lựa chọn các thiết bị xử

lý hình ảnh, điều khiển.

53

ẾT LUẬN VÀ IẾN NGHỊ

ết quả c ín đã đạt đƣợc:

- Luận văn này đã trình bày cơ sở lý thuyết về lên men chè đen, đặc điểm màu

sắc, chuyển đổi giữa các không gian màu liên quan.

- Hiểu, áp dụng và thực hiện viết chƣơng trình cho các thuật toán xử lý dữ liệu

- Tối ƣu hóa mô hình hồi quy phi tuyến sử dụng thuật toán Rừng ngẫu nhiên, cụ

thể là dự đoán chất lƣợng lên men chè đen với các chỉ số chất lƣợng.

- Đề xuất phƣơng án ứng dugj điều khiển trong sản suất thực tế

Hạn c ế của đề tà :

- Dữ liệu trong luận văn chỉ mang tính chất tham khảo từ nguồn Internet nên

khi áp dụng thực tế có thể có sự khác biệt nhất định

- Chƣa tối ƣu hết các thuật toàn tiền xử lý dữ liệu, mới chỉ tập chung vào

PCA và RF

- Kết quả chƣa thực sự tốt, nhất là đối với Rc, Rp của TRs lần lƣợt là 0.9687

và 0.7356(thấp)

ề xuất ƣớn n n cứu t ếp t eo:

Để giúp cho bài toán đƣợc hoàn thiện hơn, các nghiên cứu tới cần quan tâm

các vấn đề sau:

- Cần khảo sát thực tế tại các cơ sở sản xuất chè đen để lấy dữ liệu chính xác

đối với mỗi loại chè.

- Tối ƣu hóa các thuật toán sử dụng để có kết quả tốt nhất, so sánh các mô

hình dự đoán khác nhau để lựa chọn mô hình phù hợp với đối tƣợng.

- Xây dựng mối quan hệ giữa các tiêu chí chất lƣợng với nhiệt độ, độ ẩm để

đƣa ra các tham số điều khiển tốt nhất trong quá trình lên men thông qua thực

nghiệm.

54

TÀI LI U THAM HẢO

[1] Chè (1993), Xác định các chỉ tiêu cảm quan bằng phương pháp cho điểm,

TCVN 3218- 1993, Hà Nội.

[2] Đỗ văn chƣơng (1999), Nghiên cứu một số phương pháp héo chè trong sản

xuất chè đen và các yếu tố ảnh hưởng đến chất lượng trong quá trình héo,

Luận án tiến sỹ khoa học kỹ thuật, Hà Nội .

[3] Lê Doãn Diên - Vũ Thuỵ Thƣ - Đoàn Hùng Tiến - Đỗ Thị Gấm - Giang Trung

Hoa (2001), Các hợp chất hoá học có trong chè và một số phương pháp phân

tích thông dụng trong sản xuất chè ở Việt Nam, Nxb Nông Nghiệp, Hà Nội .

[4] L. NikhilR.Pal (2005), Advanced Techniques in Knowledge Discovery and

DataMining, Springer.

[5] H.J.a.K.M ( 2001), Data Mining: Concepts and Techniques, MorganKaufman,

Academic Press.

[6] Tiêu chuẩn nhà nƣớc (1993), Chè đen, chè xanh, phân tích cảm quan, phƣơng

pháp cho điểm TCVN 3218 , Hà Nội.

[7] Hoàng Xuân Huấn (2015), Giáo trình học máy, Trƣờng Đại học Công nghệ

- Đại học Quốc gia Hà Nội.

[8] B. P. Hofer J (2004), Distributed Decision Tree Induction within the Grid Data

Mining Framework GridMiner-Core, Institute for Software Science, AUT.

[9] H. Deng and G. Runger (2013), Gene selection with guided regularized

random forest, Journal of Pattern Recognition, vol. 46, pp. 3483- 3489.

[10] L. Breiman(2001), “Random Forest,” Machine Learning Journal Paper, vol.

45.

[11] Martin Obanda, P. Okinda Owuor and Richard Mang'oka (2001) “Changes in

the chemical and sensory quality parameters of black tea due to variations of

fermentation time and temperature” Food Chemistry, Volume (75), Issue 4,

Pages 395-404.

[12] Martin Obanda, P. Okinda Owuor, Richard Mang’oka and Mutuku M. Kavoi

(2004) “Changes in thearubigin fractions and theaflavin levels due to variations

55

in processing conditions and their influence on black tea liquor brightness and

total colour”, Food Chemistry, Volume (85), Issue 2, Pages 163-173.

[13] Mehmet Tufekci and Saadettin Guner (1997) “The determination of optimum

fermentation time in Turkish black tea manufacture”, Food Chemistry,

Volume (60), Issue 1, Pages 53-56.

[14] Thomas Muthumani and R.S. Senthil Kumar (Available online 7 March 2006)

”Influence of fermentation time on the development of compounds responsible

for quality in black tea”, Food Chemistry, In Press, Corrected Proof.

[15] Leo Breiman, Jerome Friedman, Charles J. Stone, R.A. Olshen (1984),

Classification and Regression Trees, Taylor & Francis.

[16] Martin Obanda, P. Okinda Owuor and Richard Mang'oka (2001) “Changes in

the chemical and sensory quality parameters of black tea due to variations of

fermentation time and temperature” Food Chemistry, Volume (75), Issue 4,

Pages 395-404.

[17] I.A.Khôtrôlava (1985), Kỹ thuật chế biến chè, Nxb Nông Nghiệp, Hà Nội .

56

P ụ lục 1: C ƣơn trìn tố ƣu óa số t àn p ần c ín và số cây tron

RF(đạ d ện TFs)

from __future__ import division, print_function

import numpy as np

from sklearn.model_selection import train_test_split

from scipy.spatial.distance import cdist

def random_split(spectra, test_size=0.25, random_state=None, shuffle=True,

stratify=None):

return train_test_split(

spectra,

test_size=test_size,

random_state=random_state,

shuffle=shuffle,

stratify=stratify)

def kennardstone(spectra, test_size=0.33, metric='mahalanobis', *args, **kwargs):

if test_size < 1:

train_size = round(spectra.shape[0] * (1 - test_size))

else:

train_size = spectra.shape[0] - round(test_size)

if train_size > 2:

distance = cdist(spectra, spectra, metric=metric, *args, **kwargs)

select_pts, remaining_pts = max_min_distance_split(distance, train_size)

else:

raise ValueError("kich thuoc mau dao tao it nhat la 2")

return select_pts, remaining_pts

def spxy(spectra, yvalues, test_size=0.25, metric='euclidean', *args, **kwargs):

if test_size < 1:

train_size = round(spectra.shape[0] * (1 - test_size))

else:

57

train_size = spectra.shape[0] - round(test_size)

if train_size > 2:

yvalues = yvalues.reshape(yvalues.shape[0], -1)

distance_spectra = cdist(spectra, spectra, metric=metric, *args, **kwargs)

distance_y = cdist(yvalues, yvalues, metric=metric, *args, **kwargs)

distance_spectra = distance_spectra / distance_spectra.max()

distance_y = distance_y / distance_y.max()

distance = distance_spectra + distance_y

select_pts, remaining_pts = max_min_distance_split(distance, train_size)

else:

raise ValueError("kich thuoc mau dao tao it nhat la 2")

return select_pts, remaining_pts

def max_min_distance_split(distance, train_size):

select_pts = []

remaining_pts = [x for x in range(distance.shape[0])]

# dau tien chon 2 dien xa nhat

first_2pts = np.unravel_index(np.argmax(distance), distance.shape)

select_pts.append(first_2pts[0])

select_pts.append(first_2pts[1])

# xoa 2 diem dau tien khoi danh sach con lai

remaining_pts.remove(first_2pts[0])

remaining_pts.remove(first_2pts[1])

for i in range(train_size - 2):

# tim khoang cach toi thieu, toi da

select_distance = distance[select_pts, :]

min_distance = select_distance[:, remaining_pts]

min_distance = np.min(min_distance, axis=0)

max_min_distance = np.max(min_distance)

58

# chon diem dau tien(truong hop khoang cach giong nhau thi chon diem dau

tien)

points = np.argwhere(select_distance == max_min_distance)[:, 1].tolist()

for point in points:

if point in select_pts:

pass

else:

select_pts.append(point)

remaining_pts.remove(point)

break

return select_pts, remaining_pts

from __future__ import division, print_function

import pandas as pd

import numpy as np

from sklearn.model_selection import train_test_split

from scipy.spatial.distance import cdist

data = pd.read_excel(r'C:\Users\Long TA\Desktop\test.xlsx')

X = data.iloc[:, 0:9].values

from sklearn.preprocessing import StandardScaler

sc = StandardScaler()

X_st = sc.fit_transform(X)

[row_train,row_test] = spxy(X_st, y)

X_train = X_st[row_train, 0:9]

X_test = X_st[row_test, 0:9]

y_train = data.iloc[row_train, 9].values

y_test = data.iloc[row_test, 9].values

from sklearn.decomposition import PCA

from sklearn.ensemble import RandomForestRegressor

from sklearn import metrics

59

rmsep = []

rmsec = []

for i in range(1, 10, 1):

pca = PCA(n_components=i)

X_trainPCA = pca.fit_transform(X_train)

X_test_PCA = X_test.dot(pca.components_.transpose())

for j in range(20, 1000, 20):

regressor = RandomForestRegressor(n_estimators= j, random_state=0)

regressor.fit(X_trainPCA, y_train)

y_c = regressor.predict(X_trainPCA)

y_p = regressor.predict(X_test_PCA)

rmsec.append(np.sqrt(metrics.mean_squared_error(y_train, y_c)))

rmsep.append(np.sqrt(metrics.mean_squared_error(y_test, y_p)))