
MỞ ĐẦU
1. Bối cảnh nghiên cứu
Nghiên cứu về học máy, chúng tôi nhận thấy quá trình giải một bài toán trong học máy thường
gồm ba bước chính: bước mô hình hóa, bước học và bước suy diễn. Trong đó, mô hình hóa là tìm
một mô hình thích hợp cho bài toán cần giải quyết, học là quá trình tối ưu các tham số của mô
hình và suy diễn là bước dự đoán kết quả đầu ra của mô hình dựa trên các tham số đã huấn luyện.
Ký hiệu xlà tập các tham số của mô hình, khi đó bước học chính là quá trình ước lượng tham số,
tức là tìm tham số xsao cho dữ liệu sẵn có và mô hình khớp với nhau nhất. Việc tối ưu tham số,
hay còn gọi là quá trình học tham số, là ý tưởng chính của các bài toán học máy nhằm tìm được
mối tương quan giữa các đầu vào và đầu ra dựa trên dữ liệu huấn luyện. Một phương pháp ước
lượng tham số thông dụng được sử dụng trong học máy thống kê chính là phương pháp ước lượng
hợp lý cực đại Maximum Likelihood Estimation (MLE). Tuy nhiên, phương pháp MLE được biết
đến với xu hướng phù hợp với dữ liệu, nên hiện tượng quá khớp có thể trở nên nghiêm trọng hơn
đối với các mô hình phức tạp liên quan đến dữ liệu trong thế giới thực với số chiều lớn như dữ liệu
hình ảnh, tiếng nói và văn bản. MLE thường làm việc không hiệu quả trong trường hợp có quá ít
dữ liệu huấn luyện. Khắc phục nhược điểm của MLE, chúng tôi sử dụng phương pháp cực đại hóa
ước lượng xác suất hậu nghiệm Maximum A Posteriori Estimation (MAP). Khác với MLE, MAP
không chỉ dựa trên dữ liệu huấn luyện mà còn dựa trên những thông tin đã biết của tham số. Ước
lượng MAP chính là tối ưu tham số xtheo xác suất có điều kiện:
x∗= arg max
xP(x|D)
|{z }
Posterior
(0.3)
trong đó xác suất P(x|D)được gọi là xác suất hậu nghiệm (posterior) của tham số x. Thông
thường, hàm tối ưu trong (0.3) khó xác định trực tiếp. Vì vậy, để giải bài toán MAP, chúng ta
thường sử dụng quy tắc Bayes và đưa bài toán MAP (0.3) về dạng:
x∗= arg max
x[P(D|x)×P(x)] (0.4)
trong đó xác suất P(x)gọi là xác suất tiên nghiệm (prior) của tham số x. Tận dụng tính chất đơn
điệu tăng của hàm logarit, người ta thường lấy logarit hàm mục tiêu của (0.4) và viết lại bài toán
MAP (0.4) dưới dạng:
x∗= arg max
x[log P(D|x) + log P(x)] (0.5)
Theo hiểu biết của chúng tôi, ước lượng MAP được sử dụng nhiều trong mô hình đồ thị xác suất.
Có nhiều cách tiếp cận để giải bài toán MAP như suy diễn biến phân hay phương pháp lấy mẫu
MCMC,... Một hướng tiếp cận khác là xem xét bài toán MAP (0.5) dưới góc nhìn của bài toán tối
ưu toán học:
x∗= arg max
x[f(x) = log P(D|x) + log P(x)] (0.6)
trong đó hàm mục tiêu có dạng f(x) = log P(D|x) + log P(x). Mức độ khó giải của bài toán (0.6)
phụ thuộc vào đặc điểm của hàm mục tiêu f(x). Trong thực tế, làm việc với các mô hình học máy
thống kê, hàm mục tiêu f(x)thường phức tạp, khó phân tích và là hàm không lồi, có thể tốn kém
về mặt tính toán. Mặc dù ước lượng MAP có nhiều ưu thế so với MLE trên các phương diện như:
làm việc với dữ liệu huấn luyện ít, có khả năng hiệu chỉnh, tuy nhiên, tìm đến các phương pháp
hiệu quả giải bài toán MAP là việc khó khăn. Nguyên nhân chính dẫn đến khó khăn của bài toán
MAP nằm ở chỗ hàm mục tiêu f(x) = log P(D|x) + log P(x)trong nhiều trường hợp là hàm
không lồi, khó tìm được cực đại, dẫn đến giải trực tiếp bài toán MAP không khả thi. Chúng ta
phải đối mặt với thách thức lớn: Làm thế nào để giải hiệu quả bài toán MAP trong các mô hình đồ
thị xác suất khi hàm mục tiêu là không lồi? Do vậy, đề xuất ra các thuật toán hiệu quả đảm bảo
1