<br />
<br />
Các phương pháp thống kê mới sẽ<br />
cho phép các nhà nghiên cứu xử lý dữ liệu<br />
một cách tốt hơn, chính xác hơn<br />
Rand Wilcox, Giáo sư Thống kê, Đại học Nam California, Mỹ<br />
<br />
<br />
Tóm tắt:<br />
Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được<br />
tổng thể dựa trên một mẫu tương đối nhỏ. Tuy nhiên nhiều phương pháp thống kê cũ có khả<br />
năng làm cho kết quả sai lệch. Bài viết này đưa ra các ví dụ và phương pháp thống kê mới<br />
giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn.<br />
<br />
Ở bất kỳ lĩnh vực nào, nếu một nhà này tạo cơ hội để hiểu biết chính xác hơn và<br />
nghiên cứu đang thu thập dữ liệu dưới bất kỳ mang sắc thái hơn về dữ liệu. Vấn đề là hiện<br />
hình thức nào, tại một thời điểm nào đó sẽ những kỹ thuật tốt hơn này được áp dụng<br />
phải phân tích nó. Và chắc chắn là người đó rộng rãi trong phạm vi cộng đồng khoa học<br />
sẽ chuyển sang số liệu thống kê để biết dữ với một tiến độ rất chậm.<br />
liệu đó nói lên điều gì.<br />
Khi các phƣơng pháp cổ điển<br />
Một loạt các lĩnh vực - chẳng hạn như không hiệu quả<br />
khoa học xã hội, tiếp thị, sản xuất, ngành Ví dụ, hãy tưởng tượng rằng các nhà<br />
dược phẩm và vật lý - cố gắng để làm sao nghiên cứu thu thập một nhóm 40 người có<br />
suy luận được tổng thể dựa trên một mẫu cholesterol cao. Một nửa uống thuốc A, một<br />
tương đối nhỏ. Tuy nhiên, nhiều nhà nghiên nửa khác uống một giả dược. Các nhà nghiên<br />
cứu đang sử dụng các kỹ thuật thống kê cũ<br />
có khả năng làm cho kết quả sai lệch. Và đó là<br />
một vấn đề nếu như chúng ta hiểu sai về một<br />
loại thuốc mới có tiềm năng hay một số tác<br />
động của việc cung cấp nước cho thành phố.<br />
<br />
Là một nhà thống kê đã theo đuổi<br />
những tiến bộ trong lĩnh vực này, tôi biết có<br />
rất nhiều phương pháp được cải tiến để so<br />
sánh các nhóm cá thể hoặc sự vật, cũng như<br />
Điều gì sẽ xảy ra nếu những con chuột này<br />
hiểu biết về sự liên kết giữa hai hay nhiều không thực sự đại diện cho tất cả những con chuột<br />
biến. Những phương pháp mạnh mẽ hiện đại khác ngoài chúng<br />
<br />
<br />
<br />
25<br />
<br />
cứu phát hiện ra rằng những người trong trong số hàng triệu người dùng thuốc. Các kỹ<br />
nhóm uống thuốc A có mức giảm cholesterol thuật cổ điển cho rằng số lượng thay đổi<br />
trung bình lớn hơn. Tuy nhiên, kết quả của trong số những người nhận thuốc tiềm năng<br />
20 người chưa phản ánh hết những gì sẽ xảy là chính xác như số lượng thay đổi trong<br />
ra nếu hàng ngàn người uống thuốc A?. nhóm giả dược.<br />
<br />
Hoặc trên một quy mô vũ trụ, hãy xem Hình 1: Các đường cong dựa trên phương<br />
xét nhà thiên văn học Edwin Hubble, người trình mô tả các bộ dữ liệu đối xứng khác nhau<br />
đã đo được 24 thiên hà từ trái đất và tốc độ<br />
chúng di chuyển so với trái đất như thế nào.<br />
Dữ liệu từ nhóm nhỏ này cho phép ông vẽ ra<br />
một phương trình dự đoán vận tốc hồi quy<br />
được gọi là tốc độ suy thoái cho khoảng cách<br />
của nó. Nhưng kết quả của Hubble có phản<br />
ánh được mối liên hệ giữa hàng triệu thiên<br />
hà trong vũ trụ nếu chúng được đo lường?<br />
<br />
Trong những tình huống này và nhiều<br />
tình huống khác, các nhà nghiên cứu sử<br />
dụng các mẫu nhỏ đơn giản do chi phí hạn<br />
hẹp và khó khăn khi thu thập dữ liệu. Các<br />
phương pháp cổ điển, thường được giảng Một giả định tương tự cũng được thực<br />
dạy và sử dụng, cố gắng giải quyết những hiện khi nghiên cứu các mối liên hệ. Ví dụ,<br />
vấn đề này bằng cách đưa ra hai giả thuyết hãy xem xét một nghiên cứu kiểm tra mối<br />
chính. liên hệ giữa độ tuổi và mức độ trầm cảm.<br />
Trong số hàng triệu người ở độ tuổi 20, sẽ có<br />
Thứ nhất, các nhà khoa học cho rằng<br />
sự khác biệt về tỷ lệ trầm cảm. Điều này<br />
có một phương trình cụ thể cho từng tình<br />
cũng đúng ở tuổi 30, 80 hoặc ở bất kỳ độ<br />
huống riêng lẻ sẽ mô hình chính xác các xác<br />
tuổi nào. Các phương pháp cổ điển cho rằng<br />
suất liên quan đến các kết quả có thể xảy ra.<br />
số lượng thay đổi là giống nhau đối với bất<br />
Phương trình phổ biến nhất được sử dụng<br />
kỳ hai lứa tuổi mà chúng ta có thể chọn.<br />
tương ứng với cái gọi là phân phối chuẩn.<br />
Các biểu đồ kết quả của dữ liệu có hình Tất cả những giả định này cho phép<br />
chuông và đối xứng xung quanh một số giá các nhà nghiên cứu sử dụng các phương<br />
trị trung tâm. pháp lý thuyết và tính toán thuận tiện. Thật<br />
không may, họ có thể không mang lại kết<br />
Thứ hai, các nhà nghiên cứu giả định<br />
quả chính xác hợp lý.<br />
số lượng biến thể là như nhau đối với cả hai<br />
nhóm họ đang so sánh. Ví dụ, trong nghiên Trong khi viết cuốn sách “Giới thiệu về<br />
cứu về thuốc, mức cholesterol sẽ thay đổi Ước lượng chính xác và Kiểm định giả<br />
<br />
<br />
26<br />
<br />
thuyết”, tôi đã phân tích hàng trăm bài báo Các phương pháp thông thường cung<br />
và nhận thấy rằng những phương pháp này cấp các giải pháp chính xác khi tất cả các giả<br />
có thể không đáng tin cậy. Thật vậy, mối định đã đề cập trước đó được đáp ứng.<br />
quan tâm về các kết quả lý thuyết và thực Nhưng ngay cả những vi phạm nhỏ của những<br />
nghiệm xảy ra trong hai thế kỷ qua. giả định này có thể là hủy hoại kết quả.<br />
<br />
Khi các nhóm mà các nhà nghiên cứu Mặt khác, các phương pháp mạnh mẽ<br />
đang so sánh không khác nhau dưới bất kỳ mới cung cấp các giải pháp gần đúng khi<br />
hình thức nào, hoặc không có mối liên hệ, những giả định này là đúng, làm cho chúng<br />
các phương pháp cổ điển sẽ thực hiện tốt. gần như chính xác như các phương pháp<br />
Nhưng nếu các nhóm khác nhau hoặc có mối thông thường. Nhưng khi tình hình thay đổi<br />
liên hệ - điều đó chắc chắn không phải là và các giả định không đúng thì các phương<br />
hiếm - các phương pháp cổ điển có thể chùn pháp mạnh mẽ mới sẽ tỏa sáng: Chúng tiếp<br />
bước. Sự khác biệt và các mối liên hệ quan tục cung cấp các giải pháp hợp lý chính xác<br />
trọng có thể bị bỏ sót và kết luận có thể gây cho một phạm vi rộng các tình huống mà<br />
ra sai lệch rất lớn. theo phương pháp truyền thống sẽ không<br />
cho kết quả chính xác.<br />
Ngay cả khi nhận ra những vấn đề này<br />
có thể làm cho mọi thứ tồi tệ hơn, nếu các Một mối quan tâm cụ thể là tình huống<br />
nhà nghiên cứu cố gắng làm việc xung quanh thường xảy ra khi các mô hình dữ liệu không<br />
những hạn chế của các phương pháp thống đối xứng. Ví dụ, trong một nghiên cứu về<br />
kê cổ điển bằng cách sử dụng phương pháp trầm cảm ở người lớn tuổi, một mô hình của<br />
không hiệu quả hoặc kỹ thuật không hợp lệ. dữ liệu không đối xứng - vì hầu hết người lớn<br />
Chuyển đổi dữ liệu hoặc loại trừ các điểm không bị trầm cảm quá mức.<br />
ngoại lai - bất kỳ điểm dữ liệu cực đoan nào<br />
Hình 2: Mô hình trầm cảm ở người lớn tuổi<br />
khác xa các giá trị dữ liệu khác - những chiến<br />
lược này không nhất thiết phải cố định ở các<br />
vấn đề cơ bản.<br />
<br />
Phƣơng pháp mới<br />
<br />
Những tiến bộ đáng kể gần đây trong<br />
thống kê cung cấp các phương pháp tốt hơn<br />
để đối phó với những thiếu sót này. Trong 30<br />
năm qua, các nhà thống kê đã tạo ra nền<br />
tảng toán học cho những phương pháp mới<br />
này. Chúng tôi gọi những kết quả kỹ thuật<br />
này là mạnh mẽ, bởi vì chúng tiếp tục hoạt Giá trị ngoại lai là một thách thức phổ<br />
động tốt trong các tình huống mà các biến. Các phương pháp thông thường giả<br />
phương pháp thông thường không đáp ứng. định rằng các giá trị ngoại lai không có tầm<br />
<br />
<br />
27<br />
<br />
quan trọng thực tiễn. Nhưng tất nhiên điều rằng những cách thức cũ vẫn hoạt động tốt<br />
đó không phải lúc nào cũng đúng, do đó, các ngay cả khi các giả định cơ bản là sai - mặc<br />
giá trị ngoại lai có thể là tai hại khi sử dụng dù điều đó không phải vậy. Và hầu hết các<br />
các phương pháp thông thường. Các phương nhà nghiên cứu ngoài lĩnh vực thống kê<br />
pháp mạnh mẽ mang lại cảnh báo kỹ thuật - không cập nhật các tài liệu thống kê mới<br />
mặc dù không rõ ràng, dựa trên cách đào tạo nhất.<br />
tiêu chuẩn - để giải quyết vấn đề này, sẽ<br />
Có một trở ngại cuối cùng cần phải<br />
cung cấp một cách diễn giải dữ liệu chính xác<br />
được giải quyết nếu công nghệ hiện đại có<br />
hơn nhiều.<br />
ảnh hưởng lớn đến dữ liệu hiểu biết của<br />
Một bước tiến quan trọng khác là tạo chúng ta đó là đào tạo cơ bản.<br />
ra các phương pháp Bootstrap, những kỹ<br />
Hầu hết sách giáo khoa giới thiệu<br />
thuật suy luận linh hoạt hơn. Kết hợp phương<br />
thống kê không thảo luận nhiều về tiến bộ và<br />
pháp Bootstrap và phương pháp mạnh mẽ đã<br />
hiểu biết đã xảy ra trong vài thập kỷ qua.<br />
mang lại một loạt các kỹ thuật mới và cải tiến<br />
Điều này làm cho quan điểm sai lầm về các<br />
để hiểu dữ liệu hơn.<br />
nguyên tắc cơ bản đã không có sự tiến bộ<br />
Những kỹ thuật hiện đại này không chỉ quan trọng nào kể từ năm 1955. Tuy các<br />
tăng khả năng phát hiện sự khác biệt quan sách hướng dẫn nhằm khắc phục vấn đề này<br />
trọng và mối quan hệ mà còn cung cấp có sẵn và bao gồm các minh họa về cách áp<br />
những quan điểm mới có thể làm cho chúng dụng các phương pháp hiện đại với các phần<br />
ta hiểu biết sâu sắc hơn về những gì dữ liệu mềm hiện có.<br />
đang cố gắng nói cho chúng ta biết. Không<br />
Với hàng triệu đô la và khoảng thời<br />
có quan điểm duy nhất mà luôn luôn cung<br />
gian dành cho việc thu thập dữ liệu, việc<br />
cấp một bản tóm tắt chính xác của dữ liệu.<br />
hiện đại hóa đào tạo cơ bản là hoàn toàn<br />
Nhiều quan điểm có thể là rất quan trọng.<br />
cần thiết - đặc biệt đối với các nhà khoa học<br />
Trong một số trường hợp, các phương pháp không chuyên về thống kê. Nếu không,<br />
hiện đại cung cấp ít hoặc không cải tiến khám phá quan trọng sẽ bị mất và trong<br />
nhiều kỹ thuật cổ điển. Nhưng có rất nhiều nhiều trường hợp, sẽ không thể hiểu biết<br />
bằng chứng cho thấy rằng chúng có thể làm sâu sắc về dữ liệu.<br />
thay đổi đáng kể sự hiểu biết của chúng ta<br />
Anh Tuấn (dịch)<br />
về dữ liệu.<br />
Nguồn:<br />
Thiếu sót của giáo dục<br />
http://theconversation.com/new-statistical-<br />
Vậy tại sao những phương pháp hiện methods-would-let-researchers-deal-with-<br />
đại này lại không thay thế các phương pháp data-in-better-more-robust-ways-67981<br />
cổ điển? Sự khôn ngoan thông thường cho<br />
<br />
<br />
<br />
28<br />