Sigma: bao nhiêu thì
đáng tin cậy?
Đó là câu hỏi phát sinh với hầu như mọi kết quả mới trong khoa học hoặc y
khoa: Cái gì khiến một kết quả đủ tin cậy để xem xét nghiêm túc? Câu trả lời
là phải tính ý nghĩa thống kê nhưng cũng phải tính đến những tiêu chuẩn
nào là có nghĩa trong một tình huống cho trước.
Số liệu thực nghiệm thường được cung cấp cùng vi ý nghĩa thống kê là độ
lệch chuẩn, biểu diễn bằng chữ cái Hi Lạp in thường sigma (σ). Thuật ngữ
này chỉ lượng biến thiên trong một tập số liệu cho trước: các điểm số liệu có
hội tvới nhau hay là rất phân tán.
Trong nhiều trường hợp, kết quả của một thí nghiệm tuân theo cái gọi là
“phân bbình thường”. Chẳng hạn, nếu bạn tung một đồng xu 100 lần và
đếm xem bao nhiêu lần nó lật ngửa, thì kết quả trung bình sẽ là 50. Nhưng
nếu bạn làm phép thnày 100 lần, thì đa số kết quả sẽ gần giá trị 50, nhưng
không đúng bằng 50. Phần lớn trường hợp bạn thu được kết quả là 49, hoặc
51. Bn ít khi thu được kết quả 45 hoặc 55, còn 20 và 80 thì hầu như không
có. Nếu bạn vẽ đồ thị 100 lần thử đó, bạn sẽ thu được một hình dạng nổi
tiếng gọi là đường cong hình chuông cao nhất ở chính giữa và hạ dần ở hai
bên. Đó là một phân bố bình thường.
Đồ thị hình chuông của một phân bthường”. Những đường thẳng đứng ở
hai bên biểu diễn những khoảng một, hai và ba sigma.
Độ lệch cho biết một điểm số liệu cho trước sai khác với giá trị trung bình là
bao nhiêu. Trong ví dụ tung đng xu, một kết quả 47 có độ lệch là 3 khỏi g
trị trung bình 50. Độ lệch chuẩn là căn bậc hai của giá trị trung bình của tất cả
độ lệch bình phương lên. Một độ lệch chuẩn, hay một sigma, vẽ phía trên
hoặc phía dưới giá trị trung bình trên đường cong phân bố bình thường, sẽ
định ra một vùng gồm 68% của toàn bộ các điểm dữ liệu. Hai sigma ở phía
trên hoặc phía dưới sẽ bao gồm khoảng 95% số liệu, và ba sigma sbao gồm
99,7%.
Vậy khi nào một điểm số liệu nhất định – hay kết quả nghiên cứu được xem
là có nghĩa? Độ lệch chuẩn có thể mang lại một thước đo: Nếu một điểm số
liệu cách mô hình được kiểm tra một vài độ lệch chuẩn, thì đây là bằng chứng
mạnh mẽ cho thấy điểm số liệu đó không khớp với mô hình đó. Tuy nhiên,
làm thế nào sử dụng thước đo này thì tùy thuộc vào tình huống cụ thể. Giáo
sư John Tsitsiklis tại MIT, người giảng dạy Cơ s Xác suất, phát biểu,
“Thống kê là một nghệ thuật, với rất nhiều chỗ cho sự sáng tạo và sai lầm”.
Một phần của nghệ thuật đó là xác định xem những số đo nào là có nghĩa
trong một tình hung đã cho.
Ví dụ, nếu bạn tổ chức một cuộc trưng cầu xem có bao nhiêu người định bỏ
phiếu cho một ứng cử viên nào đó, thì quy ước được chấp nhận là hai độ lệch
chuẩn phía trên hoặc phía dưới trị trung bình, cái cho mức độ tin cậy 95%, là
hợp lí. Khoảng hai sigma đó là cái mà nhng người đi trưng cầu dân ý muốn
nói khi họ nói tới “biên của sai số lấy mẫu”, ví dụ 3%, trong kết quả của họ.
Điều đó có nghĩa nếu bạn hỏi toàn bmột nhóm dân cư một câu hỏi khảo sát
và thu được một câu trả lời nhất định, sau đó bạn hỏi câu hỏi đó với một
nhóm ngu nhiên gồm 1000 người, thì có 95% khả năng kết quả của nhóm
thứ hai sẽ i vào trong vùng hai sigma với kết quả thứ nhất. Nếu một cuộc
trưng cầu ý kiến tìm thấy rằng 55% số người nghiêng về ứng cử viên A, thì
95% lần hỏi, kết quả của lần trưng cầu thứ hai sẽ là đâu đó giữa 52 và 58%.
Tất nhiên, điều đó cũng có nghĩa 5% slần hỏi, kết quả sẽ nằm ngoài vùng
hai sigma đó. Sai số nhiều như thế là cái hay cho một cuộc trưng cầu ý kiến,
nhưng có lẽ không tốt cho kết quả của một thí nghiệm quan trọng đang thách
thức kiến thức của các nhà khoa học về một hiện tượng quan trọng – ví d
như hồi mùa thu năm ngoái người ta công bố có khả năng phát hiện ra những
hạt neutirno chuyển động nhanh hơn tốc độ ánh sáng trong một thí nghiệm tại
Trung tâm nghiên cứu Hạt nhân châu Âu (CERN).
Sáu sigma có khi vẫn sai
Về mặt kĩ thuật, kết quả của thí nghiệm đó có độ tin cậy rất cao: sáu sigma.
Trong đa số trường hợp, một kết quả năm sigma được xem là tiêu chuẩn vàng
có nghĩa, tương ứng với khoảng một phần một triệu khả năng tìm kiếm đó chỉ
là một kết quả của sự biến thiên ngẫu nhiên; sáu sigma được dịch là một
trong nửa tỉ cơ hội kết quả đó là một sai số ngẫu nhiên. (Mt chiến lược quản
lí kinh doanh nổi tiếng có tên gọi là “Sáu Sigma” lấy ý nghĩa từ thuật ngữ
này, và được xây dựng trên những thủ tục quản lí chất lượng hết sức nghiêm
ngặt để giảm thiểu lãng phí.)
Nhưng trong thí nghiệm CERN đó, thí nghiệm có khả năng lật đổ một cột trụ
vật lí đã được chấp nhận một thế kỉ qua và đã được xác nhận trong hàng
nghìn loại kiểm nghiệm khác nhau, kết quả vẫn chưa gần như đủ tốt. Trước
tiên, gisử rằng các nhà nghiên cứu đã thực hiện phân tích đúng và đã không
bsót một số nguồn sai số hệ thống. Và vì kết quả quá bất ngờ và mang tính
cách mạng, nên cái đa số các nhà vt nghĩ tới là một nguồn sai số nào đó
chưa phát hiện ra.
Thật thú vị, một bộ kết quả khác cũng từ chính máy gia tốc hạt CERN lại
được lí giải khá khác.
Một phát hiện có khả năng xảy ra của cái gọi là boson Higgs – hạt hạ nguyên
tử trên lí thuyết sẽ giúp giải thích tại sao các hạt có khối lượng cũng được
công bhồi năm ngoái. Kết quả đó chỉ có mức độ tin cậy 2,3 sigma, tương
ứng với khoảng một trong 50 cơ hội kết quả đó là một sai số ngẫu nhiên (độ
tin cậy 98%). Nhưng vì nó khp với cái được trông đợi dựa trên lí thuyết vật
lí hiện nay, nên đa số các nhà vật lí nghĩ rằng kết quả trên có khả năng là
đúng, bất chấp mức độ tin cậy thống kê nhỏ hơn nhiều của nó.
Có nghĩa nhưng không đúng
Nhưng trong nhng lĩnh vực khác, vấn đề còn phức tạp hơn. “Nơi khái niệm
này thật sự náo nhiệt là trong khoa học xã hội và trong y khoa,” Tsitsiklis nói.
Ví dụ, một bài báo hồi năm 2005 được trích dẫn rộng rãi trên tạp chí Public
Library of Science — mang tựa đề “Tại sao đa số các kết quả nghiên cứu
được công bố là sai” — có cung cấp một phân tích chi tiết gồm nhiều yếu tố
phong phú có thể dẫn tới những kết lun phi lí. Tuy nhiên, những yếu tố này