134
Chương 4
NỘI SUY VÀ PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT
4.1. GIỚI THIỆU
Tập các điểm dliệu (dataset) cho dưới dng bảng
Bảng 4. 1: Bảng các đim dliệu rời rc.
𝑥0
𝑥1
𝑥2
𝑥𝑛
𝑦0
𝑦1
𝑦2
𝑦𝑛
thường tham gia o các tính toán kthut. Nguồn của dliệu thể các quan sát thực
nghiệm hoặc tính toán số. Bộ dữ liệu thường được trực quan bằng biểu đồ phân tán (scatter
diagram) như Hình 4.1, trong đó mi đim dliệu là điểm trên đthị.
Hình 4. 1: Biểu đồ phân tán của bộ dữ liệu.
Chương này gii thiệu về nội suy và khớp đường cong, hai kỹ thuật quan trọng để xử
phân tích dữ liệu rời rạc. sự khác biệt giữa phép nội suy khớp đường cong. Trong
phép nội suy, chúng ta dựng một đường cong qua các điểm dữ liệu. Khi làm như vậy, chúng
ta ngầm giả định rằng các đim dliệu là chính xác và khác biệt. Mục 4.2 của chương này
sẽ thảo luận về một số phương pháp nội suy phổ biến. Ngược lại, khớp đường cong được áp
dụng cho dữ liệu có chứa phân tán (nhiễu), thường do lỗi đo lường gây ra. Nghĩa là, chúng
ta muốn tìm một đường cong trơn xấp xỉ dữ liệu theo một nghĩa nào đó. Do đó, đường
cong không nhất thiết phải đi qua các điểm dliệu. Vấn đề này sẽ được thảo luận chi tiết
trong Mục 4.3. Hình 4.2 minh họa 2 phương pháp này.
135
Hình 4. 2: Đường cong nội suy và khớp các điểm dliệu.
Nội suy là quá trình sử dụng các điểm dữ liu đã biết để ước tính giá trị của các điểm
dữ liệu chưa biết trong phạm vi một tập hợp rời rạc. Nội suy quan trọng hữu ích trong
việc xử lý và phân tích dữ liệu vì:
Nội suy giúp dự đoán các giá trị chưa biết cho bất kỳ điểm dữ liệu địa lý nào, như độ
cao, lượng mưa, nồng độ hóa chất, mức độ ồn, v.v. Điều này có thể hỗ trợ các quyết
định và giải pháp liên quan đến môi trường, khí hậu, y tế, kinh tế, v.v.
Nội suy giúp giảm khối ợng dữ liệu cải thiện chất lượng dữ liệu bằng cách kết
hợp các nguồn dữ liệu khác nhau và loại bỏ các nhiễu và sai số. Điều này có thể tăng
hiệu quả và độ tin cậy của vic xử lý và phân tích dữ liệu.
Nội suy giúp tạo ra các bề mặt liên tục từ các điểm dữ liệu rời rạc bằng cách sử dụng
các phương pháp như nội suy spline, nội suy Lagrange, v.v. Điều này có thể giúp trực
quan hóa và mô hình hóa dữ liệu một cách sinh động và chính xác (Hình 4.3).
Hình 4. 3: Sử dụng nôi suy tạo bề mặt liên tục.
Bên cạnh phương pháp nội suy, một phương pháp phổ biến khác đxấp xỉ các điểm
dữ liệu là phương pháp khớp đường cong (curve fitting). Khớp đường cong là quá trình xây
dựng một đường cong hoặc một m số sự phù hợp tốt nhất với một loạt các điểm dữ
liệu, có thểràng buộc. Khớp đường cong là phương pháp thay thế nội suy, khi độ chính
xác của dliệu chưa cao dữ liệu và yêu cầu một hàm s"mưt" để xấp xỉ dữ liệu.
136
Khớp đường cong vai trò quan trọng trong khoa học dliệu nó thể được sử
dụng như một công cụ để trực quan hóa dữ liệu, để suy ra các giá trcủa một hàm số khi
không dữ liệu nào khdụng để tóm tắt các mối quan hệ giữa hai hoặc nhiều biến.
Khớp đường cong cũng giúp xác định các tham số tối ưu cho một hàm số cho trước đbiu
diễn tốt nhất các tập dữ liệu. Ngoài ra, khớp đường cong cũng cho phép chúng ta nắm bắt
xu hướng trong dữ liệu và thực hiện các dự đoán về cách dữ liệu sẽ biến động trong tương
lai. Khớp đường cong thể tuyến tính hoặc phi tuyến, tùy thuộc vào tính chất của mối
quan hệ giữa các biến.
Các bước để khớp đường cong cho các điểm dữ liệu cho trước thể khác nhau tùy
thuộc vào loại hàm số và phương pháp khớp đường cong được sử dụng. Tuy nhiên, một quy
trình chung có thbao gồm các bước sau :
ớc 1: Vẽ biểu đồ phân tán của các điểm dữ liệu để xem xu hướng và mối quan hệ
giữa các biến.
ớc 2: Chọn một hàm số phù hợp với dạng của dữ liệu, ví dụ như đường thẳng, đa
thc, hàm mũ, hàm lôgarit, hàm Gaussian, v.v.
ớc 3: Xác định các tham số của hàm số và giá trị ban đầu cho chúng. Các tham số
thể được ước lượng bằng cách sử dụng các phương pháp như phương pháp bình
phương nhỏ nhất (least squares method), phương pháp tối ưu a (optimization
method), v.v.
ớc 4: Sử dụng một công cụ toán học hoặc lập trình để khớp đường cong với các
điểm dữ liệu bằng cách điều chỉnh các tham số cho đến khi tìm được giá trị tối ưu
cho chúng. thể sử dụng các tiêu chí như sai số bình phương (sum of squared
errors), ch số tương quan (correlation coefficient), v.v đđánh giá độ phù hợp của
đường cong.
ớc 5: Vẽ biểu đồ của đường cong đã khớp so sánh với các điểm dữ liệu.
Kiểm tra xem điểm nào bị loại bỏ hoặc ngoại lai không xem xét việc sử dụng
một hàm số khác nếu cần.
Trong phạm vi môn học này, chúng ta sẽ tập chung thảo luận về phương pháp nội suy
bằng đa thức phương pháp bình phương nhnhất để xấp xỉ các điểm dữ liu. Sau đó sẽ
mở rộng cho các hàm phi tuyến và cho trường hợp dữ liệu có trọng số.
4.2. NỘI SUY ĐA THỨC
Nội suy đa thc là trường hợp phổ biến nhất của phương pháp nội suy. Với 𝑛+1 điểm
dữ liệu cho trước, luôn tồn tại duy nhất đa thức bậc n đi qua các điểm dữ liệu này. Chẳng
hạn, với hai điểm dữ liệu thì ta luôn xác định được một đường thẳng (đa thc bậc một) qua
hai điểm này; với ba điểm dữ liu thì tồn tại một đa thức bậc 2 (parabola) đi qua ba đim
này, Như vậy, vi 𝑛+1 điểm dữ liệu không trùng lặp cho trước, luôn tồn tại một đa thức
bậc 𝑛 đi qua các điểm này. Mục này sẽ giới thiệu một số cách xây dựng đa thức nội suy đi
qua n điểm dữ liệu.
137
4.2.1. Phương pháp ni suy Lagrange (Polynomial Interpolation)
Phương pháp nội suy Lagrange là một công cụ mạnh mẽ trong lĩnh vực toán học, giúp
chúng ta hiểu ứng dụng dữ liệu một cách linh hoạt. Được đặt theo tên của nhà toán học
người Pháp Joseph-Louis Lagrange, phương pháp này một cách tuyệt vời để xấp xỉ và ni
suy giá trtại các điểm dữ liệu chưa biết. Phương pháp Nội Suy Lagrange một cách tiếp
cận độc đáo để xây dựng đa thức nội suy dựa trên các điểm dliệu đã biết. Ý tưởng cơ bn
sử dụng nhiều đa thức Lagrange nhỏ để "kết hợp" thành một đa thức lớn hơn, có khả năng
đi qua tất ccác điểm dliệu.
Phương pháp Lagrange tìm đa thức bậc 𝑛 đi qua 𝑛+1 điểm dữ liệu trong Bảng 4.1
dưới dạng 𝑃𝑛(𝑥)=𝑦𝑖𝑙𝑖(𝑥),
𝑛
𝑖=0 (4.1𝑎)
với 𝑙𝑖(𝑥)=𝑥𝑥0
𝑥𝑖𝑥0𝑥𝑥1
𝑥𝑖𝑥1𝑥𝑥𝑖−1
𝑥𝑖𝑥𝑖−1𝑥𝑥𝑖+1
𝑥𝑖𝑥𝑖+1𝑥𝑥𝑛
𝑥𝑖𝑥𝑛=𝑥𝑥𝑗
𝑥𝑖𝑥𝑗
𝑛
𝑗=0 (4.1𝑏)
𝑖=0,1,,𝑛 được gi là các hàm cơ bản.
Chẳng hạn, nếu n = 1, đa thức nội suy là đường thẳng P1(x) = y0l0(x) + y1l1(x), với
𝑙0(𝑥)=𝑥𝑥1
𝑥0𝑥1,𝑙1(𝑥)=𝑥𝑥0
𝑥1𝑥0
Với n = 2, đa thức nội suy là parabolic P2 (x)= y1l1(x) + y2l2(x) + +y3l3(x), với
𝑙0(𝑥)=𝑥𝑥1
𝑥0𝑥1𝑥𝑥2
𝑥0𝑥2,𝑙1(𝑥)=𝑥𝑥0
𝑥1𝑥0𝑥𝑥2
𝑥1𝑥2,𝑙2(𝑥)=𝑥𝑥0
𝑥2𝑥0𝑥𝑥1
𝑥2𝑥1.
Các hàm cơ bản là đa thức bc n − 1 và có tính chất
𝑙𝑖(𝑥𝑗)={0 Nếu 𝑖𝑗
1 Nếu 𝑖=𝑗}=𝛿𝑖𝑗,(4.2)
với 𝛿𝑖𝑗hàm Kronecker. Tính chất này được minh họa bằng Hình 4.4 trong trường hợp
𝑛=2.
Hình 4. 4: Đồ thị các hàm cơ bản trong phương pháp nội suy Lagrange.
138
Để chỉ ra đa thức nội suy đi qua các điểm dữ liệu, ta thay x = xj vào (4.1a) và sử dụng (4.2)
ta có 𝑃𝑛(𝑥𝑗)=𝑦𝑖𝑙𝑖(𝑥𝑗)
𝑛
𝑖=0 =𝑦𝑖𝛿𝑖𝑗
𝑛
𝑖=0 =𝑦𝑗.
Ta có thể chỉ ra hàm sai số của đa thức nội suy là
𝑓(𝑥)𝑃𝑛(𝑥)=(𝑥𝑥0)(𝑥𝑥1)(𝑥𝑥𝑛)
(𝑛+1)!𝑓(𝑛+1)(𝜉),(4.3)
với ξ là một hằng số nằm trong khoảng (x1, xn). Tcông thức của hàm sai số, lưu ý rằng nếu
giá trị xấp xỉ x càng xa khoảng dữ liệu thì sai số càng ln.
VÍ DỤ 4.2.1. Cho các điểm dliệu
x
0
2
3
y
7
11
28
sử dụng phương pháp Lagrange xấp xỉ y tại x = 1.
Giải
Ta thực hiện xấp xỉ: 𝑦(1)𝑃2(1).
Trước hết tính 𝑙𝑖(𝑥)=𝑙𝑖(1),𝑖=0,1,2:
𝑙0(𝑥)=𝑥𝑥1
𝑥0𝑥1𝑥𝑥2
𝑥0𝑥2=12
0213
03=13,
𝑙1(𝑥)=𝑥𝑥0
𝑥1𝑥0𝑥𝑥2
𝑥1𝑥2=10
2013
23=1,
𝑙2(𝑥)=𝑥𝑥0
𝑥2𝑥0𝑥𝑥1
𝑥2𝑥1=10
3012
32=13.
Suy ra 𝑦(1)𝑃2(1)=13(7)+1(11)+(13)(28)=4.
Trong trương hợp tổng quát, để tính 𝑃𝑛(𝑥) từ công thc (4.1a) ta thực hiện:
𝑃𝑛(𝑥)0.
Thc hiện lặp 𝑖=0,1,,𝑛:
𝑃𝑛 (𝑥)𝑃𝑛(𝑥)+𝑦𝑖𝑙𝑖(𝑥).
Để tính 𝑙𝑖(𝑥) từ công thức (4.1b) ta thực hiện:
𝑙𝑖(𝑥)1.
Thc hiện lặp 𝑗=0,1,,𝑛:
Nếu 𝑗𝑖: