intTypePromotion=1
zunia.vn Tuyển sinh 2024 dành cho Gen-Z zunia.vn zunia.vn
ADSENSE

Các phương pháp thống kê mới sẽ cho phép các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn

Chia sẻ: Nhadamne Nhadamne | Ngày: | Loại File: PDF | Số trang:4

60
lượt xem
3
download
 
  Download Vui lòng tải xuống để xem tài liệu đầy đủ

Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được tổng thể dựa trên một mẫu tương đối nhỏ. Tuy nhiên nhiều phương pháp thống kê cũ có khả năng làm cho kết quả sai lệch. Bài viết này đưa ra các ví dụ và phương pháp thống kê mới giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn.

Chủ đề:
Lưu

Nội dung Text: Các phương pháp thống kê mới sẽ cho phép các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn

<br /> <br /> Các phương pháp thống kê mới sẽ<br /> cho phép các nhà nghiên cứu xử lý dữ liệu<br /> một cách tốt hơn, chính xác hơn<br /> Rand Wilcox, Giáo sư Thống kê, Đại học Nam California, Mỹ<br /> <br /> <br /> Tóm tắt:<br /> Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được<br /> tổng thể dựa trên một mẫu tương đối nhỏ. Tuy nhiên nhiều phương pháp thống kê cũ có khả<br /> năng làm cho kết quả sai lệch. Bài viết này đưa ra các ví dụ và phương pháp thống kê mới<br /> giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn.<br /> <br /> Ở bất kỳ lĩnh vực nào, nếu một nhà này tạo cơ hội để hiểu biết chính xác hơn và<br /> nghiên cứu đang thu thập dữ liệu dưới bất kỳ mang sắc thái hơn về dữ liệu. Vấn đề là hiện<br /> hình thức nào, tại một thời điểm nào đó sẽ những kỹ thuật tốt hơn này được áp dụng<br /> phải phân tích nó. Và chắc chắn là người đó rộng rãi trong phạm vi cộng đồng khoa học<br /> sẽ chuyển sang số liệu thống kê để biết dữ với một tiến độ rất chậm.<br /> liệu đó nói lên điều gì.<br /> Khi các phƣơng pháp cổ điển<br /> Một loạt các lĩnh vực - chẳng hạn như không hiệu quả<br /> khoa học xã hội, tiếp thị, sản xuất, ngành Ví dụ, hãy tưởng tượng rằng các nhà<br /> dược phẩm và vật lý - cố gắng để làm sao nghiên cứu thu thập một nhóm 40 người có<br /> suy luận được tổng thể dựa trên một mẫu cholesterol cao. Một nửa uống thuốc A, một<br /> tương đối nhỏ. Tuy nhiên, nhiều nhà nghiên nửa khác uống một giả dược. Các nhà nghiên<br /> cứu đang sử dụng các kỹ thuật thống kê cũ<br /> có khả năng làm cho kết quả sai lệch. Và đó là<br /> một vấn đề nếu như chúng ta hiểu sai về một<br /> loại thuốc mới có tiềm năng hay một số tác<br /> động của việc cung cấp nước cho thành phố.<br /> <br /> Là một nhà thống kê đã theo đuổi<br /> những tiến bộ trong lĩnh vực này, tôi biết có<br /> rất nhiều phương pháp được cải tiến để so<br /> sánh các nhóm cá thể hoặc sự vật, cũng như<br /> Điều gì sẽ xảy ra nếu những con chuột này<br /> hiểu biết về sự liên kết giữa hai hay nhiều không thực sự đại diện cho tất cả những con chuột<br /> biến. Những phương pháp mạnh mẽ hiện đại khác ngoài chúng<br /> <br /> <br /> <br /> 25<br /> <br /> cứu phát hiện ra rằng những người trong trong số hàng triệu người dùng thuốc. Các kỹ<br /> nhóm uống thuốc A có mức giảm cholesterol thuật cổ điển cho rằng số lượng thay đổi<br /> trung bình lớn hơn. Tuy nhiên, kết quả của trong số những người nhận thuốc tiềm năng<br /> 20 người chưa phản ánh hết những gì sẽ xảy là chính xác như số lượng thay đổi trong<br /> ra nếu hàng ngàn người uống thuốc A?. nhóm giả dược.<br /> <br /> Hoặc trên một quy mô vũ trụ, hãy xem Hình 1: Các đường cong dựa trên phương<br /> xét nhà thiên văn học Edwin Hubble, người trình mô tả các bộ dữ liệu đối xứng khác nhau<br /> đã đo được 24 thiên hà từ trái đất và tốc độ<br /> chúng di chuyển so với trái đất như thế nào.<br /> Dữ liệu từ nhóm nhỏ này cho phép ông vẽ ra<br /> một phương trình dự đoán vận tốc hồi quy<br /> được gọi là tốc độ suy thoái cho khoảng cách<br /> của nó. Nhưng kết quả của Hubble có phản<br /> ánh được mối liên hệ giữa hàng triệu thiên<br /> hà trong vũ trụ nếu chúng được đo lường?<br /> <br /> Trong những tình huống này và nhiều<br /> tình huống khác, các nhà nghiên cứu sử<br /> dụng các mẫu nhỏ đơn giản do chi phí hạn<br /> hẹp và khó khăn khi thu thập dữ liệu. Các<br /> phương pháp cổ điển, thường được giảng Một giả định tương tự cũng được thực<br /> dạy và sử dụng, cố gắng giải quyết những hiện khi nghiên cứu các mối liên hệ. Ví dụ,<br /> vấn đề này bằng cách đưa ra hai giả thuyết hãy xem xét một nghiên cứu kiểm tra mối<br /> chính. liên hệ giữa độ tuổi và mức độ trầm cảm.<br /> Trong số hàng triệu người ở độ tuổi 20, sẽ có<br /> Thứ nhất, các nhà khoa học cho rằng<br /> sự khác biệt về tỷ lệ trầm cảm. Điều này<br /> có một phương trình cụ thể cho từng tình<br /> cũng đúng ở tuổi 30, 80 hoặc ở bất kỳ độ<br /> huống riêng lẻ sẽ mô hình chính xác các xác<br /> tuổi nào. Các phương pháp cổ điển cho rằng<br /> suất liên quan đến các kết quả có thể xảy ra.<br /> số lượng thay đổi là giống nhau đối với bất<br /> Phương trình phổ biến nhất được sử dụng<br /> kỳ hai lứa tuổi mà chúng ta có thể chọn.<br /> tương ứng với cái gọi là phân phối chuẩn.<br /> Các biểu đồ kết quả của dữ liệu có hình Tất cả những giả định này cho phép<br /> chuông và đối xứng xung quanh một số giá các nhà nghiên cứu sử dụng các phương<br /> trị trung tâm. pháp lý thuyết và tính toán thuận tiện. Thật<br /> không may, họ có thể không mang lại kết<br /> Thứ hai, các nhà nghiên cứu giả định<br /> quả chính xác hợp lý.<br /> số lượng biến thể là như nhau đối với cả hai<br /> nhóm họ đang so sánh. Ví dụ, trong nghiên Trong khi viết cuốn sách “Giới thiệu về<br /> cứu về thuốc, mức cholesterol sẽ thay đổi Ước lượng chính xác và Kiểm định giả<br /> <br /> <br /> 26<br /> <br /> thuyết”, tôi đã phân tích hàng trăm bài báo Các phương pháp thông thường cung<br /> và nhận thấy rằng những phương pháp này cấp các giải pháp chính xác khi tất cả các giả<br /> có thể không đáng tin cậy. Thật vậy, mối định đã đề cập trước đó được đáp ứng.<br /> quan tâm về các kết quả lý thuyết và thực Nhưng ngay cả những vi phạm nhỏ của những<br /> nghiệm xảy ra trong hai thế kỷ qua. giả định này có thể là hủy hoại kết quả.<br /> <br /> Khi các nhóm mà các nhà nghiên cứu Mặt khác, các phương pháp mạnh mẽ<br /> đang so sánh không khác nhau dưới bất kỳ mới cung cấp các giải pháp gần đúng khi<br /> hình thức nào, hoặc không có mối liên hệ, những giả định này là đúng, làm cho chúng<br /> các phương pháp cổ điển sẽ thực hiện tốt. gần như chính xác như các phương pháp<br /> Nhưng nếu các nhóm khác nhau hoặc có mối thông thường. Nhưng khi tình hình thay đổi<br /> liên hệ - điều đó chắc chắn không phải là và các giả định không đúng thì các phương<br /> hiếm - các phương pháp cổ điển có thể chùn pháp mạnh mẽ mới sẽ tỏa sáng: Chúng tiếp<br /> bước. Sự khác biệt và các mối liên hệ quan tục cung cấp các giải pháp hợp lý chính xác<br /> trọng có thể bị bỏ sót và kết luận có thể gây cho một phạm vi rộng các tình huống mà<br /> ra sai lệch rất lớn. theo phương pháp truyền thống sẽ không<br /> cho kết quả chính xác.<br /> Ngay cả khi nhận ra những vấn đề này<br /> có thể làm cho mọi thứ tồi tệ hơn, nếu các Một mối quan tâm cụ thể là tình huống<br /> nhà nghiên cứu cố gắng làm việc xung quanh thường xảy ra khi các mô hình dữ liệu không<br /> những hạn chế của các phương pháp thống đối xứng. Ví dụ, trong một nghiên cứu về<br /> kê cổ điển bằng cách sử dụng phương pháp trầm cảm ở người lớn tuổi, một mô hình của<br /> không hiệu quả hoặc kỹ thuật không hợp lệ. dữ liệu không đối xứng - vì hầu hết người lớn<br /> Chuyển đổi dữ liệu hoặc loại trừ các điểm không bị trầm cảm quá mức.<br /> ngoại lai - bất kỳ điểm dữ liệu cực đoan nào<br /> Hình 2: Mô hình trầm cảm ở người lớn tuổi<br /> khác xa các giá trị dữ liệu khác - những chiến<br /> lược này không nhất thiết phải cố định ở các<br /> vấn đề cơ bản.<br /> <br /> Phƣơng pháp mới<br /> <br /> Những tiến bộ đáng kể gần đây trong<br /> thống kê cung cấp các phương pháp tốt hơn<br /> để đối phó với những thiếu sót này. Trong 30<br /> năm qua, các nhà thống kê đã tạo ra nền<br /> tảng toán học cho những phương pháp mới<br /> này. Chúng tôi gọi những kết quả kỹ thuật<br /> này là mạnh mẽ, bởi vì chúng tiếp tục hoạt Giá trị ngoại lai là một thách thức phổ<br /> động tốt trong các tình huống mà các biến. Các phương pháp thông thường giả<br /> phương pháp thông thường không đáp ứng. định rằng các giá trị ngoại lai không có tầm<br /> <br /> <br /> 27<br /> <br /> quan trọng thực tiễn. Nhưng tất nhiên điều rằng những cách thức cũ vẫn hoạt động tốt<br /> đó không phải lúc nào cũng đúng, do đó, các ngay cả khi các giả định cơ bản là sai - mặc<br /> giá trị ngoại lai có thể là tai hại khi sử dụng dù điều đó không phải vậy. Và hầu hết các<br /> các phương pháp thông thường. Các phương nhà nghiên cứu ngoài lĩnh vực thống kê<br /> pháp mạnh mẽ mang lại cảnh báo kỹ thuật - không cập nhật các tài liệu thống kê mới<br /> mặc dù không rõ ràng, dựa trên cách đào tạo nhất.<br /> tiêu chuẩn - để giải quyết vấn đề này, sẽ<br /> Có một trở ngại cuối cùng cần phải<br /> cung cấp một cách diễn giải dữ liệu chính xác<br /> được giải quyết nếu công nghệ hiện đại có<br /> hơn nhiều.<br /> ảnh hưởng lớn đến dữ liệu hiểu biết của<br /> Một bước tiến quan trọng khác là tạo chúng ta đó là đào tạo cơ bản.<br /> ra các phương pháp Bootstrap, những kỹ<br /> Hầu hết sách giáo khoa giới thiệu<br /> thuật suy luận linh hoạt hơn. Kết hợp phương<br /> thống kê không thảo luận nhiều về tiến bộ và<br /> pháp Bootstrap và phương pháp mạnh mẽ đã<br /> hiểu biết đã xảy ra trong vài thập kỷ qua.<br /> mang lại một loạt các kỹ thuật mới và cải tiến<br /> Điều này làm cho quan điểm sai lầm về các<br /> để hiểu dữ liệu hơn.<br /> nguyên tắc cơ bản đã không có sự tiến bộ<br /> Những kỹ thuật hiện đại này không chỉ quan trọng nào kể từ năm 1955. Tuy các<br /> tăng khả năng phát hiện sự khác biệt quan sách hướng dẫn nhằm khắc phục vấn đề này<br /> trọng và mối quan hệ mà còn cung cấp có sẵn và bao gồm các minh họa về cách áp<br /> những quan điểm mới có thể làm cho chúng dụng các phương pháp hiện đại với các phần<br /> ta hiểu biết sâu sắc hơn về những gì dữ liệu mềm hiện có.<br /> đang cố gắng nói cho chúng ta biết. Không<br /> Với hàng triệu đô la và khoảng thời<br /> có quan điểm duy nhất mà luôn luôn cung<br /> gian dành cho việc thu thập dữ liệu, việc<br /> cấp một bản tóm tắt chính xác của dữ liệu.<br /> hiện đại hóa đào tạo cơ bản là hoàn toàn<br /> Nhiều quan điểm có thể là rất quan trọng.<br /> cần thiết - đặc biệt đối với các nhà khoa học<br /> Trong một số trường hợp, các phương pháp không chuyên về thống kê. Nếu không,<br /> hiện đại cung cấp ít hoặc không cải tiến khám phá quan trọng sẽ bị mất và trong<br /> nhiều kỹ thuật cổ điển. Nhưng có rất nhiều nhiều trường hợp, sẽ không thể hiểu biết<br /> bằng chứng cho thấy rằng chúng có thể làm sâu sắc về dữ liệu.<br /> thay đổi đáng kể sự hiểu biết của chúng ta<br /> Anh Tuấn (dịch)<br /> về dữ liệu.<br /> Nguồn:<br /> Thiếu sót của giáo dục<br /> http://theconversation.com/new-statistical-<br /> Vậy tại sao những phương pháp hiện methods-would-let-researchers-deal-with-<br /> đại này lại không thay thế các phương pháp data-in-better-more-robust-ways-67981<br /> cổ điển? Sự khôn ngoan thông thường cho<br /> <br /> <br /> <br /> 28<br />
ADSENSE

CÓ THỂ BẠN MUỐN DOWNLOAD

 

Đồng bộ tài khoản
4=>1