Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được tổng thể dựa trên một mẫu tương đối nhỏ. Tuy nhiên nhiều phương pháp thống kê cũ có khả năng làm cho kết quả sai lệch. Bài viết này đưa ra các ví dụ và phương pháp thống kê mới giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn.
Trang 1
Các phương pháp thống kê mới sẽ cho phép các nhà nghiên cứu xử lý dữ liệu
một cách tốt hơn, chính xác hơn
Rand Wilcox, Giáo sư Thống kê, Đại học Nam California, Mỹ
Tóm tắt:
Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được
tổng thể dựa trên một mẫu tương đối nhỏ Tuy nhiên nhiều phương pháp thống kê cũ có khả
năng làm cho kết quả sai lệch Bài viết này đưa ra các ví dụ và phương pháp thống kê mới
giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn
Ở bất kỳ lĩnh vực nào, nếu một nhà
nghiên cứu đang thu thập dữ liệu dưới bất kỳ
hình thức nào, tại một thời điểm nào đó sẽ
phải phân tích nó Và chắc chắn là người đó
sẽ chuyển sang số liệu thống kê để biết dữ
liệu đó nói lên điều gì
Một loạt các lĩnh vực - chẳng hạn như
khoa học xã hội, tiếp thị, sản xuất, ngành
dược phẩm và vật lý - cố gắng để làm sao
suy luận được tổng thể dựa trên một mẫu
tương đối nhỏ Tuy nhiên, nhiều nhà nghiên
cứu đang sử dụng các kỹ thuật thống kê cũ
có khả năng làm cho kết quả sai lệch Và đó là
một vấn đề nếu như chúng ta hiểu sai về một
loại thuốc mới có tiềm năng hay một số tác
động của việc cung cấp nước cho thành phố
Là một nhà thống kê đã theo đuổi
những tiến bộ trong lĩnh vực này, tôi biết có
rất nhiều phương pháp được cải tiến để so
sánh các nhóm cá thể hoặc sự vật, cũng như
hiểu biết về sự liên kết giữa hai hay nhiều
biến Những phương pháp mạnh mẽ hiện đại
này tạo cơ hội để hiểu biết chính xác hơn và mang sắc thái hơn về dữ liệu Vấn đề là hiện những kỹ thuật tốt hơn này được áp dụng rộng rãi trong phạm vi cộng đồng khoa học với một tiến độ rất chậm
Khi các phương pháp cổ điển không hiệu quả
Ví dụ, hãy tưởng tượng rằng các nhà nghiên cứu thu thập một nhóm 40 người có cholesterol cao Một nửa uống thuốc A, một nửa khác uống một giả dược Các nhà nghiên
Điều gì sẽ xảy ra nếu những con chuột này không thực sự đại diện cho tất cả những con chuột
khác ngoài chúng
Trang 2cứu phát hiện ra rằng những người trong
nhóm uống thuốc A có mức giảm cholesterol
trung bình lớn hơn Tuy nhiên, kết quả của
20 người chưa phản ánh hết những gì sẽ xảy
ra nếu hàng ngàn người uống thuốc A?
Hoặc trên một quy mô vũ trụ, hãy xem
xét nhà thiên văn học Edwin Hubble, người
đã đo được 24 thiên hà từ trái đất và tốc độ
chúng di chuyển so với trái đất như thế nào
Dữ liệu từ nhóm nhỏ này cho phép ông vẽ ra
một phương trình dự đoán vận tốc hồi quy
được gọi là tốc độ suy thoái cho khoảng cách
của nó Nhưng kết quả của Hubble có phản
ánh được mối liên hệ giữa hàng triệu thiên
hà trong vũ trụ nếu chúng được đo lường?
Trong những tình huống này và nhiều
tình huống khác, các nhà nghiên cứu sử
dụng các mẫu nhỏ đơn giản do chi phí hạn
hẹp và khó khăn khi thu thập dữ liệu Các
phương pháp cổ điển, thường được giảng
dạy và sử dụng, cố gắng giải quyết những
vấn đề này bằng cách đưa ra hai giả thuyết
chính
Thứ nhất, các nhà khoa học cho rằng
có một phương trình cụ thể cho từng tình
huống riêng lẻ sẽ mô hình chính xác các xác
suất liên quan đến các kết quả có thể xảy ra
Phương trình phổ biến nhất được sử dụng
tương ứng với cái gọi là phân phối chuẩn
Các biểu đồ kết quả của dữ liệu có hình
chuông và đối xứng xung quanh một số giá
trị trung tâm
Thứ hai, các nhà nghiên cứu giả định
số lượng biến thể là như nhau đối với cả hai
nhóm họ đang so sánh Ví dụ, trong nghiên
cứu về thuốc, mức cholesterol sẽ thay đổi
trong số hàng triệu người dùng thuốc Các kỹ thuật cổ điển cho rằng số lượng thay đổi trong số những người nhận thuốc tiềm năng
là chính xác như số lượng thay đổi trong nhóm giả dược
Hình 1: Các đường cong dựa trên phương
trình mô tả các bộ dữ liệu đối xứng khác nhau
Một giả định tương tự cũng được thực hiện khi nghiên cứu các mối liên hệ Ví dụ, hãy xem xét một nghiên cứu kiểm tra mối liên hệ giữa độ tuổi và mức độ trầm cảm Trong số hàng triệu người ở độ tuổi 20, sẽ có
sự khác biệt về tỷ lệ trầm cảm Điều này cũng đúng ở tuổi 30, 80 hoặc ở bất kỳ độ tuổi nào Các phương pháp cổ điển cho rằng
số lượng thay đổi là giống nhau đối với bất
kỳ hai lứa tuổi mà chúng ta có thể chọn Tất cả những giả định này cho phép các nhà nghiên cứu sử dụng các phương pháp lý thuyết và tính toán thuận tiện Thật không may, họ có thể không mang lại kết quả chính xác hợp lý
Trong khi viết cuốn sách “Giới thiệu về Ước lượng chính xác và Kiểm định giả
Trang 3 thuyết”, tôi đã phân tích hàng trăm bài báo
và nhận thấy rằng những phương pháp này
có thể không đáng tin cậy Thật vậy, mối
quan tâm về các kết quả lý thuyết và thực
nghiệm xảy ra trong hai thế kỷ qua
Khi các nhóm mà các nhà nghiên cứu
đang so sánh không khác nhau dưới bất kỳ
hình thức nào, hoặc không có mối liên hệ,
các phương pháp cổ điển sẽ thực hiện tốt
Nhưng nếu các nhóm khác nhau hoặc có mối
liên hệ - điều đó chắc chắn không phải là
hiếm - các phương pháp cổ điển có thể chùn
bước Sự khác biệt và các mối liên hệ quan
trọng có thể bị bỏ sót và kết luận có thể gây
ra sai lệch rất lớn
Ngay cả khi nhận ra những vấn đề này
có thể làm cho mọi thứ tồi tệ hơn, nếu các
nhà nghiên cứu cố gắng làm việc xung quanh
những hạn chế của các phương pháp thống
kê cổ điển bằng cách sử dụng phương pháp
không hiệu quả hoặc kỹ thuật không hợp lệ
Chuyển đổi dữ liệu hoặc loại trừ các điểm
ngoại lai - bất kỳ điểm dữ liệu cực đoan nào
khác xa các giá trị dữ liệu khác - những chiến
lược này không nhất thiết phải cố định ở các
vấn đề cơ bản
Phương pháp mới
Những tiến bộ đáng kể gần đây trong
thống kê cung cấp các phương pháp tốt hơn
để đối phó với những thiếu sót này Trong 30
năm qua, các nhà thống kê đã tạo ra nền
tảng toán học cho những phương pháp mới
này Chúng tôi gọi những kết quả kỹ thuật
này là mạnh mẽ, bởi vì chúng tiếp tục hoạt
động tốt trong các tình huống mà các
phương pháp thông thường không đáp ứng
Các phương pháp thông thường cung cấp các giải pháp chính xác khi tất cả các giả định đã đề cập trước đó được đáp ứng Nhưng ngay cả những vi phạm nhỏ của những giả định này có thể là hủy hoại kết quả Mặt khác, các phương pháp mạnh mẽ mới cung cấp các giải pháp gần đúng khi những giả định này là đúng, làm cho chúng gần như chính xác như các phương pháp thông thường Nhưng khi tình hình thay đổi
và các giả định không đúng thì các phương pháp mạnh mẽ mới sẽ tỏa sáng: Chúng tiếp tục cung cấp các giải pháp hợp lý chính xác cho một phạm vi rộng các tình huống mà theo phương pháp truyền thống sẽ không cho kết quả chính xác
Một mối quan tâm cụ thể là tình huống thường xảy ra khi các mô hình dữ liệu không đối xứng Ví dụ, trong một nghiên cứu về trầm cảm ở người lớn tuổi, một mô hình của
dữ liệu không đối xứng - vì hầu hết người lớn không bị trầm cảm quá mức
Hình 2: Mô hình trầm cảm ở người lớn tuổi
Giá trị ngoại lai là một thách thức phổ biến Các phương pháp thông thường giả định rằng các giá trị ngoại lai không có tầm
Trang 4quan trọng thực tiễn Nhưng tất nhiên điều
đó không phải lúc nào cũng đúng, do đó, các
giá trị ngoại lai có thể là tai hại khi sử dụng
các phương pháp thông thường Các phương
pháp mạnh mẽ mang lại cảnh báo kỹ thuật -
mặc dù không rõ ràng, dựa trên cách đào tạo
tiêu chuẩn - để giải quyết vấn đề này, sẽ
cung cấp một cách diễn giải dữ liệu chính xác
hơn nhiều
Một bước tiến quan trọng khác là tạo
ra các phương pháp Bootstrap, những kỹ
thuật suy luận linh hoạt hơn Kết hợp phương
pháp Bootstrap và phương pháp mạnh mẽ đã
mang lại một loạt các kỹ thuật mới và cải tiến
để hiểu dữ liệu hơn
Những kỹ thuật hiện đại này không chỉ
tăng khả năng phát hiện sự khác biệt quan
trọng và mối quan hệ mà còn cung cấp
những quan điểm mới có thể làm cho chúng
ta hiểu biết sâu sắc hơn về những gì dữ liệu
đang cố gắng nói cho chúng ta biết Không
có quan điểm duy nhất mà luôn luôn cung
cấp một bản tóm tắt chính xác của dữ liệu
Nhiều quan điểm có thể là rất quan trọng
Trong một số trường hợp, các phương pháp
hiện đại cung cấp ít hoặc không cải tiến
nhiều kỹ thuật cổ điển Nhưng có rất nhiều
bằng chứng cho thấy rằng chúng có thể làm
thay đổi đáng kể sự hiểu biết của chúng ta
về dữ liệu
Thiếu sót của giáo dục
Vậy tại sao những phương pháp hiện
đại này lại không thay thế các phương pháp
cổ điển? Sự khôn ngoan thông thường cho
rằng những cách thức cũ vẫn hoạt động tốt ngay cả khi các giả định cơ bản là sai - mặc
dù điều đó không phải vậy Và hầu hết các nhà nghiên cứu ngoài lĩnh vực thống kê không cập nhật các tài liệu thống kê mới nhất
Có một trở ngại cuối cùng cần phải được giải quyết nếu công nghệ hiện đại có ảnh hưởng lớn đến dữ liệu hiểu biết của chúng ta đó là đào tạo cơ bản
Hầu hết sách giáo khoa giới thiệu thống kê không thảo luận nhiều về tiến bộ và hiểu biết đã xảy ra trong vài thập kỷ qua Điều này làm cho quan điểm sai lầm về các nguyên tắc cơ bản đã không có sự tiến bộ quan trọng nào kể từ năm 1955 Tuy các sách hướng dẫn nhằm khắc phục vấn đề này
có sẵn và bao gồm các minh họa về cách áp dụng các phương pháp hiện đại với các phần mềm hiện có
Với hàng triệu đô la và khoảng thời gian dành cho việc thu thập dữ liệu, việc hiện đại hóa đào tạo cơ bản là hoàn toàn cần thiết - đặc biệt đối với các nhà khoa học không chuyên về thống kê Nếu không, khám phá quan trọng sẽ bị mất và trong nhiều trường hợp, sẽ không thể hiểu biết sâu sắc về dữ liệu
Anh Tuấn (dịch)
Nguồn: http://theconversation.com/new-statistical- methods-would-let-researchers-deal-with-data-in-better-more-robust-ways-67981