
401
Ch¬ng 20
NHẬN DẠNG MẪU:
PHÂN LỚP VÀ ĐÁNH GIÁ
20.1. GIỚI THIỆU
Trong chương 18, chúng ta đã giới thiệu về nhận dạng mẫu thống kê và đã đề cập
đến việc tách và trích chọn các đối tượng từ một cảnh phức tạp. Chương 19 đã chỉ ra
các phương pháp xác định những đặc điểm của các đối tượng đó. Trong chương này,
chúng ta tiếp cận bài toán nhận biết các đối tượng bằng cách phân lớp chúng thành
từng nhóm. Có lẽ phải viết nhiều về chủ đề này và chúng ta chỉ có thể giới thiệu các
khái niệm cơ bản ở đây. Nếu muốn nghiên cứu đầy đủ hơn, độc giả nên tham khảo
tài liệu về chủ đề này (Phụ lục 2)
20.2. PHÂN LỚP
20.2.1. Chọn lọc đặc trưng
Nếu ta muốn một hệ thống phân biệt các loại đối tượng khác nhau, đầu tiên chúng
ta phải quyết định nên xác định những đặc điểm nào để tạo ra các tham số miêu tả.
Các đặc điểm riêng biệt cần xác định gọi là các đặc trưng của đối tượng và các giá trị
tham số kết quả gồm có vec tơ đặc trưng đối với từng đối tượng. Việc chọn lựa các
đặc trưng thích hợp là rất quan trọng, vì chỉ có chúng mới được sử dụng để nhận biết
đối tượng.
Có vài phương tiện phân tích để hướng dẫn chọn lựa các đặc trưng. Khả năng trực
giác thường xuyên chỉ đạo danh sách các đặc trưng có ích tiềm tàng. Các kỹ thuật
sắp xếp đặc trưng tính toán có liên quan đến số lượng các đặc trưng khác nhau. Điều
này cho phép lược bớt danh sách chỉ còn một vài đặc trưng tốt nhất.
Các đặc trưng tốt có bốn đặc điểm:
1. Sự phân biệt đối xử. Các đặc trưng phải nhận những giá trị khác nhau một cách
đáng kể đối với các đối tượng thuộc các lớp khác nhau. Ví dụ, đường kính là
dặc tính tốt trong ví dụ sắp xếp trái cây ở chương 18, vì nó nhận những giá trị
khác nhau đối với những quả sơ ri và những quả nho.
2. Tính tin cậy. Các đặc trưng phải nhận các giá trị giống nhau đối với mọi đối
tượng cùng lớp. Ví dụ, màu sắc có thể là đặc trưng kém đối với những quả táo
nếu chúng xuất hiện theo các mức độ chín không ổn định. Tức là, một quả táo
xanh và một quả táo chín (đỏ) có thể rất khác nhauvề màu sắc, mặc dù cả hai
đều thuộc lớp đối tượng là các quả táo.
3. Tính độc lập. Nhiều đặc trưng được sử dụng khác nhau không được tương quan
với nhau. Đường kính và trọng lượng của một trái cây sẽ tạo thành các đặc
trưng tương quan chặt, vì trọng lượng tỷ lệ gần đúng với đường kính mũ ba.
Bài toán mà cả đường kính lẫn trọng lượng về bản chất đều phản ánh cùng một
tính chất, ấy là kích thước của trái cây. Trong khi các đặc trưng tương quan
chặt có thể kết hợp (ví dụ, bằng cách lấy trung bình tất cả chúng cùng với nhau)