
134
Chương 4
NỘI SUY VÀ PHƯƠNG PHÁP BÌNH PHƯƠNG NHỎ NHẤT
4.1. GIỚI THIỆU
Tập các điểm dữ liệu (dataset) cho dưới dạng bảng
Bảng 4. 1: Bảng các điểm dữ liệu rời rạc.
𝑥0
𝑥1
𝑥2
…
𝑥𝑛
𝑦0
𝑦1
𝑦2
…
𝑦𝑛
thường tham gia vào các tính toán kỹ thuật. Nguồn của dữ liệu có thể là các quan sát thực
nghiệm hoặc tính toán số. Bộ dữ liệu thường được trực quan bằng biểu đồ phân tán (scatter
diagram) như Hình 4.1, trong đó mỗi điểm dữ liệu là điểm trên đồ thị.
Hình 4. 1: Biểu đồ phân tán của bộ dữ liệu.
Chương này giới thiệu về nội suy và khớp đường cong, hai kỹ thuật quan trọng để xử
lý và phân tích dữ liệu rời rạc. Có sự khác biệt giữa phép nội suy và khớp đường cong. Trong
phép nội suy, chúng ta dựng một đường cong qua các điểm dữ liệu. Khi làm như vậy, chúng
ta ngầm giả định rằng các điểm dữ liệu là chính xác và khác biệt. Mục 4.2 của chương này
sẽ thảo luận về một số phương pháp nội suy phổ biến. Ngược lại, khớp đường cong được áp
dụng cho dữ liệu có chứa phân tán (nhiễu), thường do lỗi đo lường gây ra. Nghĩa là, chúng
ta muốn tìm một đường cong trơn mà xấp xỉ dữ liệu theo một nghĩa nào đó. Do đó, đường
cong không nhất thiết phải đi qua các điểm dữ liệu. Vấn đề này sẽ được thảo luận chi tiết
trong Mục 4.3. Hình 4.2 minh họa 2 phương pháp này.

135
Hình 4. 2: Đường cong nội suy và khớp các điểm dữ liệu.
Nội suy là quá trình sử dụng các điểm dữ liệu đã biết để ước tính giá trị của các điểm
dữ liệu chưa biết trong phạm vi một tập hợp rời rạc. Nội suy quan trọng và hữu ích trong
việc xử lý và phân tích dữ liệu vì:
Nội suy giúp dự đoán các giá trị chưa biết cho bất kỳ điểm dữ liệu địa lý nào, như độ
cao, lượng mưa, nồng độ hóa chất, mức độ ồn, v.v. Điều này có thể hỗ trợ các quyết
định và giải pháp liên quan đến môi trường, khí hậu, y tế, kinh tế, v.v.
Nội suy giúp giảm khối lượng dữ liệu và cải thiện chất lượng dữ liệu bằng cách kết
hợp các nguồn dữ liệu khác nhau và loại bỏ các nhiễu và sai số. Điều này có thể tăng
hiệu quả và độ tin cậy của việc xử lý và phân tích dữ liệu.
Nội suy giúp tạo ra các bề mặt liên tục từ các điểm dữ liệu rời rạc bằng cách sử dụng
các phương pháp như nội suy spline, nội suy Lagrange, v.v. Điều này có thể giúp trực
quan hóa và mô hình hóa dữ liệu một cách sinh động và chính xác (Hình 4.3).
Hình 4. 3: Sử dụng nôi suy tạo bề mặt liên tục.
Bên cạnh phương pháp nội suy, một phương pháp phổ biến khác để xấp xỉ các điểm
dữ liệu là phương pháp khớp đường cong (curve fitting). Khớp đường cong là quá trình xây
dựng một đường cong hoặc một hàm số có sự phù hợp tốt nhất với một loạt các điểm dữ
liệu, có thể có ràng buộc. Khớp đường cong là phương pháp thay thế nội suy, khi độ chính
xác của dữ liệu chưa cao dữ liệu và yêu cầu một hàm số "mượt" để xấp xỉ dữ liệu.

136
Khớp đường cong có vai trò quan trọng trong khoa học dữ liệu vì nó có thể được sử
dụng như một công cụ để trực quan hóa dữ liệu, để suy ra các giá trị của một hàm số khi
không có dữ liệu nào khả dụng và để tóm tắt các mối quan hệ giữa hai hoặc nhiều biến.
Khớp đường cong cũng giúp xác định các tham số tối ưu cho một hàm số cho trước để biểu
diễn tốt nhất các tập dữ liệu. Ngoài ra, khớp đường cong cũng cho phép chúng ta nắm bắt
xu hướng trong dữ liệu và thực hiện các dự đoán về cách dữ liệu sẽ biến động trong tương
lai. Khớp đường cong có thể là tuyến tính hoặc phi tuyến, tùy thuộc vào tính chất của mối
quan hệ giữa các biến.
Các bước để khớp đường cong cho các điểm dữ liệu cho trước có thể khác nhau tùy
thuộc vào loại hàm số và phương pháp khớp đường cong được sử dụng. Tuy nhiên, một quy
trình chung có thể bao gồm các bước sau :
Bước 1: Vẽ biểu đồ phân tán của các điểm dữ liệu để xem xu hướng và mối quan hệ
giữa các biến.
Bước 2: Chọn một hàm số phù hợp với dạng của dữ liệu, ví dụ như đường thẳng, đa
thức, hàm mũ, hàm lôgarit, hàm Gaussian, v.v.
Bước 3: Xác định các tham số của hàm số và giá trị ban đầu cho chúng. Các tham số
có thể được ước lượng bằng cách sử dụng các phương pháp như phương pháp bình
phương nhỏ nhất (least squares method), phương pháp tối ưu hóa (optimization
method), v.v.
Bước 4: Sử dụng một công cụ toán học hoặc lập trình để khớp đường cong với các
điểm dữ liệu bằng cách điều chỉnh các tham số cho đến khi tìm được giá trị tối ưu
cho chúng. Có thể sử dụng các tiêu chí như sai số bình phương (sum of squared
errors), chỉ số tương quan (correlation coefficient), v.v để đánh giá độ phù hợp của
đường cong.
Bước 5: Vẽ biểu đồ của đường cong đã khớp và so sánh nó với các điểm dữ liệu.
Kiểm tra xem có điểm nào bị loại bỏ hoặc ngoại lai không và xem xét việc sử dụng
một hàm số khác nếu cần.
Trong phạm vi môn học này, chúng ta sẽ tập chung thảo luận về phương pháp nội suy
bằng đa thức và phương pháp bình phương nhỏ nhất để xấp xỉ các điểm dữ liệu. Sau đó sẽ
mở rộng cho các hàm phi tuyến và cho trường hợp dữ liệu có trọng số.
4.2. NỘI SUY ĐA THỨC
Nội suy đa thức là trường hợp phổ biến nhất của phương pháp nội suy. Với 𝑛+1 điểm
dữ liệu cho trước, luôn tồn tại duy nhất đa thức bậc n đi qua các điểm dữ liệu này. Chẳng
hạn, với hai điểm dữ liệu thì ta luôn xác định được một đường thẳng (đa thức bậc một) qua
hai điểm này; với ba điểm dữ liệu thì tồn tại một đa thức bậc 2 (parabola) đi qua ba điểm
này, … Như vậy, với 𝑛+1 điểm dữ liệu không trùng lặp cho trước, luôn tồn tại một đa thức
bậc 𝑛 đi qua các điểm này. Mục này sẽ giới thiệu một số cách xây dựng đa thức nội suy đi
qua n điểm dữ liệu.

137
4.2.1. Phương pháp nội suy Lagrange (Polynomial Interpolation)
Phương pháp nội suy Lagrange là một công cụ mạnh mẽ trong lĩnh vực toán học, giúp
chúng ta hiểu và ứng dụng dữ liệu một cách linh hoạt. Được đặt theo tên của nhà toán học
người Pháp Joseph-Louis Lagrange, phương pháp này là một cách tuyệt vời để xấp xỉ và nội
suy giá trị tại các điểm dữ liệu chưa biết. Phương pháp Nội Suy Lagrange là một cách tiếp
cận độc đáo để xây dựng đa thức nội suy dựa trên các điểm dữ liệu đã biết. Ý tưởng cơ bản
là sử dụng nhiều đa thức Lagrange nhỏ để "kết hợp" thành một đa thức lớn hơn, có khả năng
đi qua tất cả các điểm dữ liệu.
Phương pháp Lagrange tìm đa thức bậc 𝑛 đi qua 𝑛+1 điểm dữ liệu trong Bảng 4.1
dưới dạng 𝑃𝑛(𝑥)=∑𝑦𝑖𝑙𝑖(𝑥),
𝑛
𝑖=0 (4.1𝑎)
với 𝑙𝑖(𝑥)=𝑥−𝑥0
𝑥𝑖−𝑥0∙𝑥−𝑥1
𝑥𝑖−𝑥1⋯𝑥−𝑥𝑖−1
𝑥𝑖−𝑥𝑖−1∙𝑥−𝑥𝑖+1
𝑥𝑖−𝑥𝑖+1⋯𝑥−𝑥𝑛
𝑥𝑖−𝑥𝑛=∏𝑥−𝑥𝑗
𝑥𝑖−𝑥𝑗
𝑛
𝑗=0 (4.1𝑏)
𝑖=0,1,…,𝑛 được gọi là các hàm cơ bản.
Chẳng hạn, nếu n = 1, đa thức nội suy là đường thẳng P1(x) = y0l0(x) + y1l1(x), với
𝑙0(𝑥)=𝑥−𝑥1
𝑥0−𝑥1,𝑙1(𝑥)=𝑥−𝑥0
𝑥1−𝑥0∙
Với n = 2, đa thức nội suy là parabolic P2 (x)= y1l1(x) + y2l2(x) + +y3l3(x), với
𝑙0(𝑥)=𝑥−𝑥1
𝑥0−𝑥1∙𝑥−𝑥2
𝑥0−𝑥2,𝑙1(𝑥)=𝑥−𝑥0
𝑥1−𝑥0∙𝑥−𝑥2
𝑥1−𝑥2,𝑙2(𝑥)=𝑥−𝑥0
𝑥2−𝑥0∙𝑥−𝑥1
𝑥2−𝑥1.
Các hàm cơ bản là đa thức bậc n − 1 và có tính chất
𝑙𝑖(𝑥𝑗)={0 Nếu 𝑖≠𝑗
1 Nếu 𝑖=𝑗}=𝛿𝑖𝑗,(4.2)
với 𝛿𝑖𝑗 là hàm Kronecker. Tính chất này được minh họa bằng Hình 4.4 trong trường hợp
𝑛=2.
Hình 4. 4: Đồ thị các hàm cơ bản trong phương pháp nội suy Lagrange.

138
Để chỉ ra đa thức nội suy đi qua các điểm dữ liệu, ta thay x = xj vào (4.1a) và sử dụng (4.2)
ta có 𝑃𝑛(𝑥𝑗)=∑𝑦𝑖𝑙𝑖(𝑥𝑗)
𝑛
𝑖=0 =∑𝑦𝑖𝛿𝑖𝑗
𝑛
𝑖=0 =𝑦𝑗.
Ta có thể chỉ ra hàm sai số của đa thức nội suy là
𝑓(𝑥)−𝑃𝑛(𝑥)=(𝑥−𝑥0)(𝑥−𝑥1)…(𝑥−𝑥𝑛)
(𝑛+1)!𝑓(𝑛+1)(𝜉),(4.3)
với ξ là một hằng số nằm trong khoảng (x1, xn). Từ công thức của hàm sai số, lưu ý rằng nếu
giá trị xấp xỉ x càng xa khoảng dữ liệu thì sai số càng lớn.
VÍ DỤ 4.2.1. Cho các điểm dữ liệu
x
0
2
3
y
7
11
28
sử dụng phương pháp Lagrange xấp xỉ y tại x = 1.
Giải
Ta thực hiện xấp xỉ: 𝑦(1)≈𝑃2(1).
Trước hết tính 𝑙𝑖(𝑥)=𝑙𝑖(1),𝑖=0,1,2:
𝑙0(𝑥)=𝑥−𝑥1
𝑥0−𝑥1∙𝑥−𝑥2
𝑥0−𝑥2=1−2
0−2∙1−3
0−3=13,
𝑙1(𝑥)=𝑥−𝑥0
𝑥1−𝑥0∙𝑥−𝑥2
𝑥1−𝑥2=1−0
2−0∙1−3
2−3=1,
𝑙2(𝑥)=𝑥−𝑥0
𝑥2−𝑥0∙𝑥−𝑥1
𝑥2−𝑥1=1−0
3−0∙1−2
3−2=−13.
Suy ra 𝑦(1)≈𝑃2(1)=13(7)+1(11)+(−13)(28)=4.
Trong trương hợp tổng quát, để tính 𝑃𝑛(𝑥) từ công thức (4.1a) ta thực hiện:
𝑃𝑛(𝑥)≔0.
Thực hiện lặp 𝑖=0,1,…,𝑛:
𝑃𝑛 (𝑥)≔𝑃𝑛(𝑥)+𝑦𝑖𝑙𝑖(𝑥).
Để tính 𝑙𝑖(𝑥) từ công thức (4.1b) ta thực hiện:
𝑙𝑖(𝑥)≔1.
Thực hiện lặp 𝑗=0,1,…,𝑛:
Nếu 𝑗≠𝑖:

