1. Trang chủ
  2. » Giáo án - Bài giảng

Các phương pháp thống kê mới sẽ cho phép các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn

4 42 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 4
Dung lượng 662,2 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được tổng thể dựa trên một mẫu tương đối nhỏ. Tuy nhiên nhiều phương pháp thống kê cũ có khả năng làm cho kết quả sai lệch. Bài viết này đưa ra các ví dụ và phương pháp thống kê mới giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn.

Trang 1



Các phương pháp thống kê mới sẽ cho phép các nhà nghiên cứu xử lý dữ liệu

một cách tốt hơn, chính xác hơn

Rand Wilcox, Giáo sư Thống kê, Đại học Nam California, Mỹ

Tóm tắt:

Các nhà nghiên cứu trong các ngành, lĩnh vực đều cố gắng làm sao để suy luận được

tổng thể dựa trên một mẫu tương đối nhỏ Tuy nhiên nhiều phương pháp thống kê cũ có khả

năng làm cho kết quả sai lệch Bài viết này đưa ra các ví dụ và phương pháp thống kê mới

giúp các nhà nghiên cứu xử lý dữ liệu một cách tốt hơn, chính xác hơn

Ở bất kỳ lĩnh vực nào, nếu một nhà

nghiên cứu đang thu thập dữ liệu dưới bất kỳ

hình thức nào, tại một thời điểm nào đó sẽ

phải phân tích nó Và chắc chắn là người đó

sẽ chuyển sang số liệu thống kê để biết dữ

liệu đó nói lên điều gì

Một loạt các lĩnh vực - chẳng hạn như

khoa học xã hội, tiếp thị, sản xuất, ngành

dược phẩm và vật lý - cố gắng để làm sao

suy luận được tổng thể dựa trên một mẫu

tương đối nhỏ Tuy nhiên, nhiều nhà nghiên

cứu đang sử dụng các kỹ thuật thống kê cũ

có khả năng làm cho kết quả sai lệch Và đó là

một vấn đề nếu như chúng ta hiểu sai về một

loại thuốc mới có tiềm năng hay một số tác

động của việc cung cấp nước cho thành phố

Là một nhà thống kê đã theo đuổi

những tiến bộ trong lĩnh vực này, tôi biết có

rất nhiều phương pháp được cải tiến để so

sánh các nhóm cá thể hoặc sự vật, cũng như

hiểu biết về sự liên kết giữa hai hay nhiều

biến Những phương pháp mạnh mẽ hiện đại

này tạo cơ hội để hiểu biết chính xác hơn và mang sắc thái hơn về dữ liệu Vấn đề là hiện những kỹ thuật tốt hơn này được áp dụng rộng rãi trong phạm vi cộng đồng khoa học với một tiến độ rất chậm

Khi các phương pháp cổ điển không hiệu quả

Ví dụ, hãy tưởng tượng rằng các nhà nghiên cứu thu thập một nhóm 40 người có cholesterol cao Một nửa uống thuốc A, một nửa khác uống một giả dược Các nhà nghiên

Điều gì sẽ xảy ra nếu những con chuột này không thực sự đại diện cho tất cả những con chuột

khác ngoài chúng

Trang 2

cứu phát hiện ra rằng những người trong

nhóm uống thuốc A có mức giảm cholesterol

trung bình lớn hơn Tuy nhiên, kết quả của

20 người chưa phản ánh hết những gì sẽ xảy

ra nếu hàng ngàn người uống thuốc A?

Hoặc trên một quy mô vũ trụ, hãy xem

xét nhà thiên văn học Edwin Hubble, người

đã đo được 24 thiên hà từ trái đất và tốc độ

chúng di chuyển so với trái đất như thế nào

Dữ liệu từ nhóm nhỏ này cho phép ông vẽ ra

một phương trình dự đoán vận tốc hồi quy

được gọi là tốc độ suy thoái cho khoảng cách

của nó Nhưng kết quả của Hubble có phản

ánh được mối liên hệ giữa hàng triệu thiên

hà trong vũ trụ nếu chúng được đo lường?

Trong những tình huống này và nhiều

tình huống khác, các nhà nghiên cứu sử

dụng các mẫu nhỏ đơn giản do chi phí hạn

hẹp và khó khăn khi thu thập dữ liệu Các

phương pháp cổ điển, thường được giảng

dạy và sử dụng, cố gắng giải quyết những

vấn đề này bằng cách đưa ra hai giả thuyết

chính

Thứ nhất, các nhà khoa học cho rằng

có một phương trình cụ thể cho từng tình

huống riêng lẻ sẽ mô hình chính xác các xác

suất liên quan đến các kết quả có thể xảy ra

Phương trình phổ biến nhất được sử dụng

tương ứng với cái gọi là phân phối chuẩn

Các biểu đồ kết quả của dữ liệu có hình

chuông và đối xứng xung quanh một số giá

trị trung tâm

Thứ hai, các nhà nghiên cứu giả định

số lượng biến thể là như nhau đối với cả hai

nhóm họ đang so sánh Ví dụ, trong nghiên

cứu về thuốc, mức cholesterol sẽ thay đổi

trong số hàng triệu người dùng thuốc Các kỹ thuật cổ điển cho rằng số lượng thay đổi trong số những người nhận thuốc tiềm năng

là chính xác như số lượng thay đổi trong nhóm giả dược

Hình 1: Các đường cong dựa trên phương

trình mô tả các bộ dữ liệu đối xứng khác nhau

Một giả định tương tự cũng được thực hiện khi nghiên cứu các mối liên hệ Ví dụ, hãy xem xét một nghiên cứu kiểm tra mối liên hệ giữa độ tuổi và mức độ trầm cảm Trong số hàng triệu người ở độ tuổi 20, sẽ có

sự khác biệt về tỷ lệ trầm cảm Điều này cũng đúng ở tuổi 30, 80 hoặc ở bất kỳ độ tuổi nào Các phương pháp cổ điển cho rằng

số lượng thay đổi là giống nhau đối với bất

kỳ hai lứa tuổi mà chúng ta có thể chọn Tất cả những giả định này cho phép các nhà nghiên cứu sử dụng các phương pháp lý thuyết và tính toán thuận tiện Thật không may, họ có thể không mang lại kết quả chính xác hợp lý

Trong khi viết cuốn sách “Giới thiệu về Ước lượng chính xác và Kiểm định giả

Trang 3

 thuyết”, tôi đã phân tích hàng trăm bài báo

và nhận thấy rằng những phương pháp này

có thể không đáng tin cậy Thật vậy, mối

quan tâm về các kết quả lý thuyết và thực

nghiệm xảy ra trong hai thế kỷ qua

Khi các nhóm mà các nhà nghiên cứu

đang so sánh không khác nhau dưới bất kỳ

hình thức nào, hoặc không có mối liên hệ,

các phương pháp cổ điển sẽ thực hiện tốt

Nhưng nếu các nhóm khác nhau hoặc có mối

liên hệ - điều đó chắc chắn không phải là

hiếm - các phương pháp cổ điển có thể chùn

bước Sự khác biệt và các mối liên hệ quan

trọng có thể bị bỏ sót và kết luận có thể gây

ra sai lệch rất lớn

Ngay cả khi nhận ra những vấn đề này

có thể làm cho mọi thứ tồi tệ hơn, nếu các

nhà nghiên cứu cố gắng làm việc xung quanh

những hạn chế của các phương pháp thống

kê cổ điển bằng cách sử dụng phương pháp

không hiệu quả hoặc kỹ thuật không hợp lệ

Chuyển đổi dữ liệu hoặc loại trừ các điểm

ngoại lai - bất kỳ điểm dữ liệu cực đoan nào

khác xa các giá trị dữ liệu khác - những chiến

lược này không nhất thiết phải cố định ở các

vấn đề cơ bản

Phương pháp mới

Những tiến bộ đáng kể gần đây trong

thống kê cung cấp các phương pháp tốt hơn

để đối phó với những thiếu sót này Trong 30

năm qua, các nhà thống kê đã tạo ra nền

tảng toán học cho những phương pháp mới

này Chúng tôi gọi những kết quả kỹ thuật

này là mạnh mẽ, bởi vì chúng tiếp tục hoạt

động tốt trong các tình huống mà các

phương pháp thông thường không đáp ứng

Các phương pháp thông thường cung cấp các giải pháp chính xác khi tất cả các giả định đã đề cập trước đó được đáp ứng Nhưng ngay cả những vi phạm nhỏ của những giả định này có thể là hủy hoại kết quả Mặt khác, các phương pháp mạnh mẽ mới cung cấp các giải pháp gần đúng khi những giả định này là đúng, làm cho chúng gần như chính xác như các phương pháp thông thường Nhưng khi tình hình thay đổi

và các giả định không đúng thì các phương pháp mạnh mẽ mới sẽ tỏa sáng: Chúng tiếp tục cung cấp các giải pháp hợp lý chính xác cho một phạm vi rộng các tình huống mà theo phương pháp truyền thống sẽ không cho kết quả chính xác

Một mối quan tâm cụ thể là tình huống thường xảy ra khi các mô hình dữ liệu không đối xứng Ví dụ, trong một nghiên cứu về trầm cảm ở người lớn tuổi, một mô hình của

dữ liệu không đối xứng - vì hầu hết người lớn không bị trầm cảm quá mức

Hình 2: Mô hình trầm cảm ở người lớn tuổi

Giá trị ngoại lai là một thách thức phổ biến Các phương pháp thông thường giả định rằng các giá trị ngoại lai không có tầm

Trang 4

quan trọng thực tiễn Nhưng tất nhiên điều

đó không phải lúc nào cũng đúng, do đó, các

giá trị ngoại lai có thể là tai hại khi sử dụng

các phương pháp thông thường Các phương

pháp mạnh mẽ mang lại cảnh báo kỹ thuật -

mặc dù không rõ ràng, dựa trên cách đào tạo

tiêu chuẩn - để giải quyết vấn đề này, sẽ

cung cấp một cách diễn giải dữ liệu chính xác

hơn nhiều

Một bước tiến quan trọng khác là tạo

ra các phương pháp Bootstrap, những kỹ

thuật suy luận linh hoạt hơn Kết hợp phương

pháp Bootstrap và phương pháp mạnh mẽ đã

mang lại một loạt các kỹ thuật mới và cải tiến

để hiểu dữ liệu hơn

Những kỹ thuật hiện đại này không chỉ

tăng khả năng phát hiện sự khác biệt quan

trọng và mối quan hệ mà còn cung cấp

những quan điểm mới có thể làm cho chúng

ta hiểu biết sâu sắc hơn về những gì dữ liệu

đang cố gắng nói cho chúng ta biết Không

có quan điểm duy nhất mà luôn luôn cung

cấp một bản tóm tắt chính xác của dữ liệu

Nhiều quan điểm có thể là rất quan trọng

Trong một số trường hợp, các phương pháp

hiện đại cung cấp ít hoặc không cải tiến

nhiều kỹ thuật cổ điển Nhưng có rất nhiều

bằng chứng cho thấy rằng chúng có thể làm

thay đổi đáng kể sự hiểu biết của chúng ta

về dữ liệu

Thiếu sót của giáo dục

Vậy tại sao những phương pháp hiện

đại này lại không thay thế các phương pháp

cổ điển? Sự khôn ngoan thông thường cho

rằng những cách thức cũ vẫn hoạt động tốt ngay cả khi các giả định cơ bản là sai - mặc

dù điều đó không phải vậy Và hầu hết các nhà nghiên cứu ngoài lĩnh vực thống kê không cập nhật các tài liệu thống kê mới nhất

Có một trở ngại cuối cùng cần phải được giải quyết nếu công nghệ hiện đại có ảnh hưởng lớn đến dữ liệu hiểu biết của chúng ta đó là đào tạo cơ bản

Hầu hết sách giáo khoa giới thiệu thống kê không thảo luận nhiều về tiến bộ và hiểu biết đã xảy ra trong vài thập kỷ qua Điều này làm cho quan điểm sai lầm về các nguyên tắc cơ bản đã không có sự tiến bộ quan trọng nào kể từ năm 1955 Tuy các sách hướng dẫn nhằm khắc phục vấn đề này

có sẵn và bao gồm các minh họa về cách áp dụng các phương pháp hiện đại với các phần mềm hiện có

Với hàng triệu đô la và khoảng thời gian dành cho việc thu thập dữ liệu, việc hiện đại hóa đào tạo cơ bản là hoàn toàn cần thiết - đặc biệt đối với các nhà khoa học không chuyên về thống kê Nếu không, khám phá quan trọng sẽ bị mất và trong nhiều trường hợp, sẽ không thể hiểu biết sâu sắc về dữ liệu

Anh Tuấn (dịch)

Nguồn: http://theconversation.com/new-statistical- methods-would-let-researchers-deal-with-data-in-better-more-robust-ways-67981

Ngày đăng: 13/01/2020, 11:03

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w