Pdfcoffee com how to lie with statistics tieng viet pdf free Pdfcoffee com how to lie with statistics tieng viet pdf free Pdfcoffee com how to lie with statistics tieng viet pdf free Pdfcoffee com how to lie with statistics tieng viet pdf free Pdfcoffee com how to lie with statistics tieng viet pdf free Pdfcoffee com how to lie with statistics tieng viet pdf free Pdfcoffee com how to lie with statistics tieng viet pdf free
Trang 1HOW TO LIE WITH STATISTICS
Trang 2How To Lie With Statistics (Darrel Huff)
Darrell Huff
Trang 3Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
3
GIỚI THIỆU
Nhằm rộng đường dư luận trước khi tiến đến việc chấm dứt sử dụng hệ thống đo lường phiềntoái của Anh với những đơn vị rối rắm như inch và feet và cân Anh, viện thăm dò Gallup muốnbiết hệ mét (hệ đo lường của Âu châu mà nước ta sử dụng) thay thế có được nhiều người biếtđến hay không Họ thăm dò theo cách thông thường và thấy rằng trong số những người đượcphỏng vấn đã từng qua trường đại học có 33 phần trăm chưa bao giờ nghe nói đến hệ mét.Sau đó một tuần báo Chủ nhật tiến hành một cuộc thăm dò của riêng mình – và loan báo là cóđến 98 % độc giả có biết về mét hệ Thế là tờ báo này khoe khoang là độc giả của mình cótrình độ văn hóa cao phần lớn dân chúng
Làm thế nào hai cuộc thăm dò khác nhau lại có kết quả khác biệt đến thế Các phỏng vấn viênGallup đã chọn, và nói chuyện với những nhóm công luận có chọn lọc Còn tuần báo thì chỉ căn
cứ một cách đơn giản và tiết kiệm vào những phiếu tham dự in sẵn trên mặt báo và độc giả chỉviệc điền ý kiến và cắt phiếu gởi về tòa soạn
Ta không khó đoán là hầu hết độc giả nào nếu không nghe nói đến hệ mét sẽ không quan tâmđến phiếu thăm dò; và đương nhiên đã tự loại mình ra khỏi cuộc thăm dò vì không điền và gởiphiếu về tòa soạn Sự tự chọn lọc đã sinh ra, nói theo thuật ngữ thống kê, một mẫu thống kêthiên lệch hoặc không đại diện, là tác nhân của vô số kết luận lạc hướng tồn tại nhiều năm qua.Cách đây vài mùa đông một chục các nhà thăm dò đã độc lập công bố những số liệu về loạithuốc kháng histamine Mỗi người đều cố chứng tỏ là một số phần trăm đáng kể những cơncảm lạnh đã khỏi hẳn sau khi được điều trị bằng loại thuốc đó Thế là dư luận sôi nổi cả lên, ítnhất là trong quảng cáo, và thế là khởi phát một vụ sản xuất thuốc bùng nổ Sự kiện này dựavào tâm lý muôn đời là hy vọng vào thuốc mới của người bệnh và cũng do người ta nực cườilàm sao khi không chịu nhìn quá qua thống kê một chút để đưa mắt đến một sự kiện đã biết từlâu Nói theo nhà khôi hài không có chuyên môn gì về y khoa, Henry G Felsen, đã phát biểu
Trang 4How To Lie With Statistics (Darrel Huff)
cách đây không lâu, là nếu được điều trị đúng cách một cơn cảm cúm sẽ khỏi trong vòng bảyngày, còn nếu để mặc thì cơn cảm cúm sẽ kéo dài trong vòng một tuân
Như bạn đã đọc và nghe nhiều rồi đó Các số trung bình, các hệ số tương quan cùng khuynhhướng và đồ thị không phải lúc nào cũng như chúng chỉ ra Chúng chứa nhiều chuyện kháchơn là những gì ta thấy bên ngoài, và cũng có khi là ít hơn nhiều
Thuật ngữ bí hiểm của thống kê học, quá ấn tượng đối với những người các con số, đã được
sử dụng để gây choáng, để thổi phòng, để làm hoang mang, và để giản lược quá đáng Nhữngphương pháp và thuật ngữ thống kê là cần thiết khi thông tin về những khối lượng dữ liệu lớn
về những khuynh hướng xã hội và kinh tế, những dự đoán kinh doanh, ý kiến công luận, điềutra dân số Nhưng nếu không có tác giả sử dụng từ ngữ một cách lương thiện và hiểu biết vànhững độc giả am tường những gì họ muốn nói, kết quả thống kê có thể chỉ là những điều vônghĩa về từ ngữ
Trong những trang báo cáo khoa học, sự lạm dụng thống kê hầu tràn ngập hình ảnh về mộtnhân vật vận áo blu trắng đang miệt mài trong phòng thí nghiệm lờ mờ Một sự kiện thống kêđóng gói đàng hoàng còn hiệu quả hơn ‘lời dối trá ghê gớm’ của Hitler; nó đánh lạc hướng dưluận, nhưng không ai có thể chỉ mặt bạn được
Quyễn sách này là quyễn sách vỡ lòng chỉ cho bạn những cách sử dụng thống kê để gian dối
Nó có vẻ là một cẩm nang dành cho những tên bịp bợm Nhưng tôi có thể bào chữa khi chorằng quyễn sách không khác một hồi ký của những tên trộm hồi hưu Nó sẽ trở thành giáo trìnhchuyên nghiệp chỉ cách bẻ khóa và đi rình mò mà tác giả luôn tin chắc rằng những tên lưumanh đã biết tỏng các mánh khóe này; còn những người lương thiện cần đọc nó để trau giồikhả năng tự vệ
Trang 5Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
5
1 Mẫu thống kê thiên lệch từ đầu
Nếu bạn có một thùng đậu, trong đó có đậu đỏ và đậu trắng, chỉ có một cách duy nhất để biếtchính xác có bao nhiêu đậu thuộc mỗi loại là trút ra và đếm
Có một cách dễ hơn để tìm ra có khoảng bao nhiêu đậu đỏ Bốc ra một nắm đậu và đếm số
đậu đỏ trong đó, giả đinh là tỷ lệ này được bảo toàn như nhau trong thùng Nếu mẫu lấy ra đủlớn và được lựa chọn thích đáng, thì kết quả có thể đại diện cho toàn thể trong hầu hết mụcđích khảo sát Tuy nhiên, nếu chúng thiếu một trong các điều kiện nêu trên thì kết quả có khikém chính xác hơn một ước đoán thông minh và không đáng một xu nhỏ vì nó chỉ khoác mộtdáng vẻ giả mạo của tính chính xác khoa học Một sự thật đáng buồn là những kết luận rút ra
từ những mẫu thống kê thiên lệch do phương pháp chọn mẫu hoặc do mẫu quá nhỏ, hoặc cảhai, có quá nhiều qua những gì ta đọc được hoặc cho là mình biết
Cách thức mà một mẫu lấy ra bị thiên lệch có thể thấy rõ nhất bằng cách nhìn vào ví dụ cựcđoan sau đây Giả sử bạn muốn gởi đến một nhóm công dân một bảng câu hỏi trong đó có câu:
“Bạn có thích trả lời bảng câu hỏi này không?” Tổng kết những phản hồi, bạn có thể tự tin thôngbáo là một đa số áp đảo- và để cho kết quả đáng tin cậy hơn, kết quả bạn sẽ trình bày dướidạng một số có vài chữ số thập phân - các mẫu dân số tiêu biểu điển hình đều xác nhận làđồng thuận Dĩ nhiên kết quả đó là điều dễ hiểu vì những người nói không với câu hỏi đã tự loạimình ra khỏi cuộc thăm dò bằng cách ném bảng câu hỏi vào sọt rác Dù cho số người bỏ rácnày chiếm đến 9 phần 10 mẫu thống kê ban đầu bạn sẽ không mất nhiều thì giờ khi phớt lờ họtrong báo cáo của mình
Liệu những mẫu thống kê thiên lệch như thế có xảy ra trong thực thế hay không? Chắc chắn làcó
Những nhật báo và tạp chí cách đây không lâu cho ta biết rằng khoảng bốn triệu người ThiênChúa giáo Mỹ đã cải theo đạo Tin Lành trong vòng mười năm qua Nguồn thông tin là từ cuộcthăm dò do Đức Cha Daniel A Poling, chủ biên tờ Christian Herald, thực hiện, tóm tắt kết quảnhư sau:
Tạp chí Herald đã tìm đư ợc con số này từ cuộc thăm dò một mẫu dân số các mục sư Tin Lành.Trong số 2.219 giáo sĩ trả lời bảng câu hỏi (trong tổng số 25.000 được thăm dò) báo cáo rằng
họ đã đón nhận vào nhà thờ của họ tổng số 51.361 các giáo hữu trước kia là tín đồ Thiên Chúa
La Mã trong vòng mười năm qua Dựa vào mẫu này, Poling đã ước tính ra được 4,144,366người đã cải đạo từ Thiên Chúa sang Tin Lành trong một thập kỹ
Nhưng tạp chí Time xứng đáng được ta ngả mũ chào khi tiết lộ rằng hơn 90 phần trăm các mục
sư được thăm dò không trả lời phiếu thăm dò Để đánh đỗ hoàn toàn kết quả của cuộc thăm dònày bạn chỉ cần lưu ý một khả năng hợp lý là hầu hết 90 phần trăm này đã quẳng phiếu thăm
dò vào sọt rác vì họ không có con chiên nào đã cải đạo để báo cáo
Sử dụng giả định này và dùng cùng con số - 181.000 – đó là tổng số mục sư Tin lành mà tiến sĩPoling cho biết, ta có thể qui chiếu theo cách của mình Vì ông ta đi đến 25.000 người trong
Trang 6How To Lie With Statistics (Darrel Huff)
tổng số 181.000 người và thấy rằng có 51.361 người cải đạo, như vậy ai cũng biết số cải đạotổng cộng là khoảng 370,000
Phương pháp thô sơ của ta đã đưa ra một con số đáng ngờ, nhưng ít ra cũng đáng tin cậy nhưbất kỳ con số nào đã báo cáo công khai – con số lớn hơn gấp mười một lần con số chúng taước tính và do đó ấn tượng hơn nhiều
Với cơ sở này, ta tiếp tục làm việc với một báo cáo khác – cách đây vài năm khi đồng tiền cógiá trị hơn bây giờ - thống kê cho rằng một sinh viên trung bình tốt nghiệp đại học Yale, ratrường năm 1924, kiếm được $25.111 mỗi năm vào thời điểm của cuộc thăm dò (khoảng năm1950)
Hơn nữa, số trung bình đáng yêu này không nghi ngờ gì nữa được tính ra từ số tiền mà cácngười tốt nghiệp Đại học Yale khai ra số lợi tức của họ Mặc dù ta biết rằng những người tríthức tốt nghiệp từ những năm 1924 này có tiếng là trọng danh dự, nhưng ta không thể tin chắc
là sau một phần tư thế kỷ những lời khai của họ có còn trung thực hay không Một số ngườiđược hỏi lợi tức của mình thường nói quá đáng số lợi tức vì muốn khoe khoang hay vì lạc
Trang 7Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
7
quan Một số khác nói ít hơn sự thực vì có thể đã lỡ khai ít trong tờ khai thuế, do đó sẽ sợ sởthuế có thể ngó mắt vào Bạn có thể cho rằng hai khuynh hướng cực đoan này bù trừ nhau,nhưng điều đó chưa chắc Khuynh hướng này có thể mạnh hơn khuynh hướng kia; và chúng takhông biết chính xác đó là khuynh hướng nào
Như vậy ta đã bắt đầu giải thích được rằng lương tri thông thường mách bảo mình là con số ấykhó lòng biểu thị được sự thật Tiếp theo chúng ta sẽ chỉ ra nguyên nhân tạo ra sai lầm lớnnhất, nguyên nhân sản sinh ra con số 25.111 $ là ‘lợi tức trung bình’ của nhóm người mà thực
ra lợi tức trung bình thực sự của họ có thể chỉ bằng nửa con số đó mà thôi
Báo cáo của nhóm cựu sinh viên Yale được rút ra từ một mẫu dân số Lý trí cho ta tin rằngkhông ai có thể biết tất cả những thành viên của khóa 24 hiện đang còn sống Sau hai mươilăm năm sẽ có nhiều địa chỉ bị thất lạc
Với số địa chỉ liên lạc được, có nhiều người không trả lời bảng câu hỏi đưa đến, nhất là đây làbảng câu hỏi tế nhị có tính cá nhân Với một số loại câu hỏi trả lời bằng thư, năm hay mườiphần trăm thư được trả lời đã là cao Bảng trả lời trong trường hợp này có thể cao hơn, nhưngmột trăm phần trăm thì là điều không tưởng
Như vậy số lợi tức trung bình này dựa trên một mẫu dân số gồm những thành viên mà địa chỉđược biết rõ và chịu trả lời bảng câu hỏi Đây có phải là một mẫu đại diện tốt hay không? Nghĩa
là có thể cho rằng nhóm trả lời này có lợi tức bằng với nhóm còn lại, nhóm những người khôngđược hỏi hay không thèm trả lời hay không?
Loại người nào trong danh sách mà ta không liên lạc được vì không biết địa chỉ ? Có phải lànhững người kiếm được bộn tiền – chẳng hạn dân Wall Street, các giám đốc tập đoàn, các nhàđiều hành sản xuất và dịch vụ? Không, địa chỉ những người giàu có không khó tìm Phần đông
những thành viên thành đạt nhất của khóa học đều có tên trong cuốn Who’s Who in America và
những sách tham khảo khác dù cho họ có chễng mãng trong việc liên lạc với văn phòng đạihọc Như vậy không khó đoán là những người thất lạc là những người, sau hai mươi lăm tốtnghiệp Yale, đã không có được tương lại hứa hẹn Họ là những thư ký, thợ máy, kẻ lang thang,bọn nghiện ngập vô công rồi nghề, những tay viết lách hay nghệ sỹ sống dở chết dở tóm lạinhững người mà gom lại nữa tá thì lợi tức cũng chưa đến 25.111 $ Những người này không
hề lui tới các buổi họp lớp, chỉ vì không có tiền đóng phí tham dự
Còn ai là người ném ngay bảng câu hỏi vào sọt rác? Ta không thể biết chắc, nhưng có thểđoán ra ngay phần lớn đó là những người mà mức lợi tức của mình không có gì đáng khoekhoang Họ cũng hơi giống những người khi nhận bao thư tiền lương tháng đầu tiên có kèm lờighi chú là số lương này là riêng tư không nên trao đổi với các nhân viên khác, liền trả lời ‘Ôngchủ đừng lo, tôi cũng xấu hổ vì tiền lương này như ngài vậy.’
Và như vậy mẫu thống kê này đã loại ra hai nhóm có thể làm giảm số trung bình một cách thêthảm Con số 25.111$ bắt đầu đã tự nói lên rồi Đó chỉ là trung bình của một nhóm người cábiệt của nhóm tốt nghiệp Yale khóa 1924 mà địa chỉ được biết rõ và muốn chứng tỏ ta đây kiếmđược bao nhiêu Chưa kể là ta đã giả định là họ nói lên sự thật
Trang 8How To Lie With Statistics (Darrel Huff)
Giả định như thế không thể coi thường Kinh nghiệm từ một dòng nghiên cứu theo mẫu, cái gọi
là nghiên cứu thị trường, cho ta biết rằng một việc như thế rất khó kiểm tra Một cuộc thăm dòđến từng nhà có mục đích tìm xem tạp chí nào được gia đình ưa đọc nhất Khi tính toán và
phân tích dữ liệu, kết quả là đa số thích đọc Harper ( một tạp chí dành cho dân trí thức), đó là
tờ báo nếu không nói là cao cấp thì cũng ít ra cũng khá cao, và không có nhiều gia đình đọc tờ
True Story, một tạp chí lá cải giật gân Nhưng thực tế phát hành cho thấy số ấn bản của tờ True Story nhiều hơn Harper đến vài triệu Như vậy có thể ta đã phỏng vấn lầm đối tượng chăng,
các nhà thiết kế cuộc thăm dò tự hỏi Nhưng không, các câu hỏi đã được gởi đến mọi nhóm đốitượng trên khắp đất nước Hóa ra kết luận hợp lý duy nhất là đa số những người trả lời đãkhông nói sự thật Và cái mà cuộc thăm dò tìm được chỉ là sự hợm hĩnh
Thế thì muốn biết sự thật bạn buộc phải đếm số tạp chí Yale Reviews và Love Romances
(Chuyện Tình) mà các hộ gia đình đặt mua Nhưng cũng chưa chắc, vì điều đó không cho bạnbiết những gì các hộ gia đình tìm đọc, mà chỉ những gì họ mua mà thôi
Tương tự như thế, lần sau nếu bạn đọc được thống kê cho biết một người trung bình đánhrăng 1.02 lần một ngày-đây chỉ là con số do tôi tưởng tượng, nhưng chưa chắc tệ hơn các con
số khác- hãy tự hỏi mình câu hỏi sau Làm sao người ta có thể tìm ra một điều như thế được?Nếu một phụ nữ đã đọc vô số quảng cáo, nhất là của các hảng làm kem đánh răng, bi bô rằngnhững người không đánh răng là thiếu văn hoá, có thể nào họ dám thổ lộ là mình không đánhrăng đều đặn với một người lạ hay không? Thống kê chỉ có nghĩa đối với những người muốnbiết những gì người ta nói về việc đánh răng chứ không cho biết nhiều về tần số bàn chải chàsát vào lợi
Trang 9Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
9
Để có giá trị cao, báo cáo phải dựa trên một mẫu đại diện, đó là một mẫu đã bị loại bỏ mọinguồn gốc thiên lệch Đây cũng chính là những nguồn gốc khiến những số liệu bạn đọc thấytrong báo thiếu hẳn ý nghĩa
Có lần một nhà phân tâm học báo cáo là phần đông mọi người đều mắc bịnh tâm thần Ngoài
sự kiện là phát biểu như thế vô tình đã phủ định ý nghĩa của từ ‘tâm thần’, hãy nhìn kỹ vào mẫuthống kê của tay bác sỹ ấy Nhà phân tâm học ấy đã quan sát những ai? Hóa ra là ông ta đã điđến kết luận ‘mở rộng tầm mắt’ ấy từ hồ sơ những bệnh nhân của ông ta, đó là mẫu thống kêcách xa một trời một vực với một mẫu dân số bình thường Nếu một người là bình thường, bác
sỹ của chúng ta không bao giờ có dịp tiếp xúc với anh ta
Hãy nhìn lại hai lần những gì bạn đọc được để bạn có thể tránh tiếp thu nhiều thông tin sai lầm.Cần nhớ là độ tin cậy của một mẫu dễ dàng bị sụp đỗ bởi những nguồn vô hình cũng như hữuhình Nghĩa là, dù bạn không tìm thấy những nguyên nhân gây ra những thiên lệch có thểchứng minh được, hãy tự cho phép mình một mức độ hoài nghi về kết quả chừng nào còn cókhả năng thiên lệch ở đâu đó Luôn luôn xảy ra điều này Cuộc bầu cử tổng thống Mỹ năm
1948 và 1952 đã chứng tỏ việc này nếu ai còn chút nghi ngờ
Để tìm chứng cớ xa hơn hãy trở lại năm 1936 và sự thất bại tai tiếng của tờ Literary Digest Mười triệu độc giả có điện thoại của tờ Literary đã tuyên bố với các chủ bút của tạp chí bị ma
ám là Landon là 370 và Roosevelt là 161 đến từ danh sách đã tiên đoán chính xác kết quả cuộcbầu cử 1932 Làm thế nào có sự thiên lệch trong một danh sách đã qua kiểm nghiệm như thế?
Sở dĩ có thiên lệch, sau này người ta đã khám phá ra, là do những người có điện thoại và có
đăng ký mua dài hạn tờ Literary trong năm 1936 không phải là mẫu cắt ngang của dân số
người đi bầu Về kinh tế thì đây là một hạng người đặc biệt, một mẫu thiên lệch vì chứa phầnlớn những người bầu cho Đảng Cộng Hòa Mẫu này bầu cho Landon, trong khi dân chúng lạinghĩ khác
Mẫu cơ bản là mẫu được gọi là ‘ngẫu nhiên’ Nó được lựa chọn một cách may rủi từ ‘khônggian mẫu’, một thuật ngữ mà các nhà thống kê dùng để chỉ toàn thể đối tượng từ đó một mẫubất kỳ được lấy ra Mỗi cái tên thứ 10 được lấy ra từ một tệp những thẻ chỉ số Năm chục phiếuđược rút ra từ một lô phiếu đựng trong một thùng phiều Mỗi người thứ hai mươi gặp được tại
Trang 10How To Lie With Statistics (Darrel Huff)
Công viên Piccadilly được chọn để phỏng vấn (Nhưng nhớ là mẫu cuối cùng này không phải là
một mẫu dân số của thế giới, hoặc của nước Anh, hoặc của thành phố San Francisco, nhưng
chỉ là mẫu dân số ở Piccadilly vào thời điểm đó Một người phỏng vấn nhằm thăm dò ý kiếncông luận cho biết bà ta tìm người phỏng vấn tại nhà ga xe lửa vì theo bà mọi hạng người đều
có thể tìm thấy tại đó Nhưng bà ta không biết rằng các bà mẹ có con nhỏ, chẳng hạn, hiếm khiđến đó.)
Muốn kiểm tra một mẫu là ngẫu nhiên, cần trả lời câu hỏi này: Có phải mỗi tên người hoặc sựvật trong toàn thể đều có cơ hội xuất hiện như nhau trong mẫu?
Mẫu ngẫu nhiên thuần túy là loại duy nhất có thể được nghiên cứu một cách tin cậy bằng lýthuyết thống kê, nhưng có một điều không hay với nó Đó là việc tìm được mẫu như thế rất khó
và tốn tiền nên không ai muốn chọn nó Một cách thay thế tiết kiệm hơn được dùng hầu hếttrong những lãnh vực như thăm dò ý kiến và nghiên cứu thị trường, được gọi là cách lấy mẫungẫu nhiên phân tầng
Để được loại mẫu phân tầng này bạn chia không gian mẫu của bạn thành nhiều nhóm tỷ lệ vớimức độ phổ biến được biết trước của nó Và đến đây thì rắc rối bắt đầu: Thông tin của bạn về
tỷ lệ này có thể không đúng Bạn chỉ dẫn cho các nhân viên đi phỏng vấn của mình là nhớ điđến một tỷ lệ nào đó người da màu, hay một bách phân nào đó những người có số lợi tức trongmột lớp nào đó, hay đến một số đặc biệt nào đó những nông dân, và vân vân Cùng một lúcnhóm phải được chia đều giữa những người trên và dưới bốn mươi tuổi
Nghe có vẻ ổn thỏa - nhưng điều gì xảy ra? Về vấn đề màu da người phỏng vấn có thể quyếtđịnh chính xác mọi lúc Về lợi tức y sẽ phạm nhiều sai sót hơn Về phần nông dân – làm saobạn có thể xếp loại một người là nông dân khi anh ta làm công việc nông bán phần và thời giancòn lại làm ở thành phố? Ngay cả chuyện tuổi tác có thể đặt ra nhiều vấn đề Nếu muốn an tâm
ta chọn những người thật nhỏ hơn bốn mươi hay thật nhiều hơn bốn mươi Như vậy mẫu nàycũng bị thiên lệch vì bỏ sót những người mới qua bốn mươi hay gần mức bốn mươi Bạnkhông thể thắng được
Trang 11Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
11
Trên tất cả những điều này, làm sao bạn tìm được một mẫu ngẫu nhiên trong phân tầng? Việchiển nhiên là bắt đầu bằng danh sách của tât cả mọi người và chọn ngẫu nhiên từ danh sáchnày; nhưng biện pháp này tốn tiền lắm Thế là bạn đi từ nhà này đến nhà khác vào ban ngày –
và như thế bỏ sót hầu hết những người có việc làm Nếu bạn đổi sang buổi chiều – bạn sẽ bỏqua những người xem hát bóng và đi chơi đêm
Việc thực hiện thăm dò rút cuộc trở thành trận chiến chống lại những nguyên nhân gây thiênlệch, và trận chiến này xảy ra mọi lúc với những tổ chức thăm dò danh tiếng Khi đọc các báocáo thống kê bạn cần nhớ là bạn không bao giờ thắng trong trận chiến này được Bạn khôngthể đọc thấy kết luận là có đến ‘sáu mưới bảy phần trăm dân Anh chống lại’ một điều nào đó
mà không có thắc mắc kèm theo Sáu mươi bảy phần trăm số dân Anh nào?
Báo cáo của Bs Alfred C Kinsey quá cố về ‘sức khỏe tình dục’ của nam và nữ cũng khôngngoại lệ Mặc dù kết quả là rất ấn tượng nhưng chúng cũng không tránh khỏi tỳ vết là việc lấymẫu chưa hẳn là ngẫu nhiên Tệ làm sao khi danh sách để lấy mẫu lại theo chiều hướng đặcbiệt là gồm những người tốt nghiệp cao đẳng (bảy mươi lăm phần trăm số phụ nữ) và trại tù.Khuyết điểm càng khó tha thứ khi xác suất lại thiên về phía những người thích phô trương tìnhdục; số các ông tình nguyện thích nói về chuyện chăn gối đối nghịch với số những ông lầm lì ítnói tự mình loại trừ ra khỏi các mẫu thống kê bằng cách nói không với các nhà phỏng vấn.Điều này không phải chỉ là sự suy đoán mà được khẳng định bởi một nghiên cứu của A H.Maslow tại Đại học Brooklin Trong số những nữ sinh viên trong mẫu của ông có nhiều ngườisau đó tình nguyện tham gia với Kinsey, và Maslow nhận thấy rằng những cô gái này thường là
có khuynh hướng tình dục bất thường và thành thạo
Có ít nhất ba mức độ lấy mẫu trong công trình như của Kinsey Như đã nói, những mẫu lấy ra
từ dân số (mức độ 1) còn xa mới là ngẫu nhiên và do đó có thể không đại diện cho bất kỳ dân
Trang 12How To Lie With Statistics (Darrel Huff)
số nào Cũng quan trọng khi nhớ rằng bất kỳ bảng câu hỏi nào cũng là một mẫu (mức độ khác)của tất cả những câu hỏi có thể; và bảng trả lời mà một quý ông hay quý bà đưa ra cũng khônghơn là một mẫu (mức độ ba) của những thái độ và trải nghiệm của mình về bộ câu hỏi đó.Trong loại công trình của Kinsey, cũng như ở những nơi khác, đúng là thành phần nhữngngười làm công tác phỏng vấn có thể làm lệch lạc những kết quả một cách thú vị Chẳng hạn,trong thời Thế Chiến Hai, Trung Tâm Nghiên Cứu Công Luận Quốc Gia phái hai nhóm phỏngvấn viên hỏi ba câu hỏi cho năm trăm người da đen ở các thị trấn phía Nam Hoa Kỳ Một nhóm
da trắng và nhóm kia da đen
Một câu hỏi là,’Theo bạn những người da đen sẽ được đối xử tệ hơn hay tốt hơn nếu Nhật Bảnxâm lược Hoa Kỳ?’ Các phỏng vấn viên người da đen thông báo có chín phần trăm ngườiđược hỏi trả lời là ‘tốt hơn’ Các phỏng vấn viên người da trắng thông báo là chỉ có hai phầntrăm Và trong khi các phỏng vấn viên da đen chỉ tìm được hai mươi lăm phần trăm cho rằngngười da đen sẽ bị đối xử tệ hơn, người da trắng cho biết có đến bốn mươi lăm phần trăm.Khi thay từ ‘Nhật Bản’ bằng ‘Đức Quốc Xã’ trong bảng điều tra, kết quả cũng như nhau
Câu hỏi thứ ba thăm dò những thái độ dựa trên những cảm xúc do hai câu hỏi trên tạo ra ‘Bạn
có cho rằng tập trung lực lượng đập tan phe Trục quan trọng hơn là cải thiện tình trạng dân chủtại đất nước?’ ‘Đập tan phe Trục’ nhận được ba mươi chin phần trăm trả lời, theo các phỏngvấn viên da đen; và sáu mươi hai phần trăm theo các phỏng vấn viên da trắng
Đây là loại thiên lệch phát sinh do những yếu tố chưa được biết Trong đó chắc hẳn yếu tố cóảnh hưởng nhất là khuynh hướng phải luôn được kể đến khi đọc những kết quả thăm dò, đó là
Trang 13Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
13
Trong bất kỳ trường hợp nào kết quả rõ ràng là thiên lệch đến mức thành ra vô dụng Bạn tựmình có thể xét đoán có bao nhiêu cuộc thăm dò cũng thiên l ệch như thế, cũng vô dụng nhưthế - nhưng không có cách nào kiểm tra điều đó được
Bạn có chứng cứ khá tốt để bắt đầu nếu bạn nghi ngờ là cuộc thăm dò đó thiên lệch theo mộtchiều hướng đặc biệt, chiều hướng theo kiểu sai sót của tờ Literary Digest Thiên lệch này lànghiêng về những người có nhiều tiền hơn, nhiều học vấn hơn, nhiều thông tin và nhanh nhẩuhơn, có ngoại hình bắt mắt hơn, có tư cách hơn, và có những thói quen chin chắn hơn đối vớitrung bình dân số mà anh ta được chọn làm đại diện
Bạn có thể tìm ra nguyên nhân là do đâu Hãy giả sử bạn là một phỏng vấn viên được giaonhiêm vụ đứng tại một góc phố và chọn người qua lại để phỏng vấn Bạn chấm hai người có vẻthích hợp với lớp đối tượng bạn đang nhắm tới: trên bốn mươi, da đen, người thành phố Mộtngười sạch sẽ, áo quần tươm tất, cử chỉ mực thước Người kia thì luộm thuộm, thiểu não Cốnhiên, bạn sẽ tiến đến người ăn mặc đàng hoàng hơn, và các đồng nghiệp của bạn ở khắp nơitrên thế giới cũng đều làm như vậy
Một số ý kiến mạnh mẽ nhất chống lại việc thăm dò công luận xảy ra trong nhóm cánh tả hay tự
do, ở đó họ thường cho rằng những cuộc thăm dò thường bị ngụy tạo Đứng đằng sau quanđiểm này là sự kiện những kết quả thăm dò quá thường không ăn khớp với ý kiến và ý muốncủa những người có nếp suy nghĩ không theo chiều hướng bảo thủ Họ chỉ rằng những cuộcthăm dò hình như chỉ bầu cho Đảng Cộng Hòa ngay cả khi cử tri không lâu sau đó lại bầungược lại
Thật ra, như ta đã thấy, một cuộc thăm dò không cần thiết bị bóp mép một cách có chủ đích đểngụy tạo ra kết quả Khuynh hướng chọn mẫu thiên lệch theo chiều hướng nhất định đã có thểngụy tao nó ra một cách tự động rồi
Trang 15How To Lie With Statistics (Darrel Huff)
2
Darrell Huff
Trang 16Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
CHƯƠNG 2 SỐ BINH QUÂN KHÉO CHỌN
Bạn, tôi tin, không phải là một người hợm mình, còn tôi không phải là tay giao dịch bất động sản Nhưng giả sử bạn và tôi đều là những người đó và bạn đang đi tìm mua một ngôi nhà nằm trên con đường tôi rất quen thuộc Đã biết tỏng bạn, tôi bỏ công sức nói cho bạn biết là thu nhập binh quân của những người sống trong vùng này là 10,000$ một năm Con số mỹ miều này đã đánh gục bạn, và thế là bạn mua nhà để cư ngụ trong vùng có thu nhập hấp dẫn
Một hai năm sau chúng ta lại gặp nhau Lúc này tôi là một thành viên của ủy ban xin giảm thuế
và tôi đang phân phát một thỉnh nguyện thư yêu cầu giảm thuế hay giảm định mức thuế hay giảm giá xe buýt Trong tờ rơi tôi lấy cớ là chúng tôi không đủ sức trả thuế gia tăng: Lý do chính
là do thu nhập binh quân của vùng này chỉ là 2.000$ một năm
Và có thể bạn đồng tình với tôi và ủy ban của tôi về vấn đề xin giảm thuế-cho thấy bạn không chỉ là tên hợm mình, mà còn keo kiệt nữa - nhưng bạn không khỏi ngạc nhiên khi nghe con số tồi tệ 2.000$ đó Tôi hiện giờ đang nói dối, hay nói dối năm ngoái?
Bạn không thể kết tội tôi cách nào được Đây chính là vẻ đẹp của khả năng nói bịp bằng thống
kê Cả hai con số đều là số binh quân hợp lý, được tìm ra một cách hợp pháp Cả hai đều đại diện cùng một dữ liệu, cùng một người, cùng số thu nhập Như vậy thì hiển nhiên có một số cố tình làm sai lạc để lừa phĩnh
Trang 17How To Lie With Statistics (Darrel Huff)
4
Con số 10.000$ mà tôi dùng khi muốn trưng ra một số lớn là số trung bình, số trung bình thống
kê của những thu nhập của tất cả gia đình cư ngụ trong vùng Bạn có được số đó bằng cách cộng tất cả số thu nhập rồi chia cho số gia đình trong vùng Số nhỏ hơn là một số trung vị, nó cho bạn biết có phân nửa số gia đình có thu nhập cao hơn 2.000$ và phân nửa gia đình có thấp hơn Tôi cũng có thể dùng số mốt, cho biết thu nhập mà nhiều gia đình có nhất Nếu trong một vùng có nhiều gia đình có thu nhập là 3.000$ hơn cả thì 3.000$ là thu nhập mốt của vùng
đó
Trong trường hợp này, như ta đã thấy ở trên, số binh quân không định rõ sẽ thực sự là vô nghĩa Một yếu tố làm cho vấn đề thêm rối rắm là trong một số dữ kiện thông tin tất cả số binh quân xấp xỉ gần bằng nhau đến nổi ta không cần phải phân biệt chúng
Nếu bạn đọc thấy chiều cao binh quân của các ông trong một bộ lạc nguyên thủy nào đó chỉ là năm bộ, bạn sẽ có được cái nhìn khá tốt về vóc dáng của nhóm người này Bạn không phải hỏi
số đó là trung bình hay trung vị hay số mốt; chúng cũng xấp xỉ như nhau (Dĩ nhiên, nếu bạn đang sản xuất quần áo bán cho châu Phi thì bạn sẽ cần nhiều thông tin hơn chỉ là số trung bình
đó Chẳng hạn thông tin về hàng số và độ lệch, và những loại số này ta sẽ giải quyết trong những chương sau.)
Những số binh quân khác nhau xuất hiện xấp xỉ nhau khi bạn xét đến những dữ liệu, như là những dữ liệu liên quan đến đặc tính của con người, khi đó những dữ liệu có sắp xếp theo một cách thức mà ta gọi là phân phối bình thường Nếu bạn vẽ một đường cong biểu thị nó bạn sẽ được một đồ thị có dáng vấp một cái chuông, và số trung bình, trung vị, số mốt đều rơi vào cùng một điểm
Kết quả là số binh quân thuộc loại nào cũng đều tốt khi mô tả chiều cao của con người, nhưng khi mô tả tiền bạc của họ thì không hẳn như vậy Khi bạn liệt kê tất cả thu nhập hàng năm của tất cả mọi người trong một thành phố nào đó bạn sẽ thấy số gia đình có thu nhập 20.000$ sẽ rất ít Hơn 95% gia đình có số thu nhập dưới 5.000$, khiến đường cong sẽ đi lệch về bên trái của đường cong Thay vì đối xứng như hình chuông, đồ thị lúc này sẽ lệch đi Hình dạng lúc này giống như cầu trượt của trẻ em, lúc đầu dâng cao lên rồi tiếp theo là dốc thoai thoải để trượt xuống từ từ Số trung vị bây giờ sẽ cách số trung bình một khoảng Và như thế việc so sánh giữa hai số này thực sự là có ý nghĩa
Trong vùng mà tôi bán nhà cho bạn hai số binh quân đặc biệt cách xa nhau vì phân phối thu nhập lệch đi đáng kể Điều xảy ra phần lớn số gia đình trong vùng là những trại chủ nhỏ hoặc những lao động ở một làng gần đấy hoặc là những người về hưu sống bằng tiền trợ cấp Nhưng ba gia đình trong số đó là triệu phú và số thu nhập của họ đã đẩy tổng thu nhập của vùng lên cao, do đó số trung bình thống kê cũng lớn thêm đáng kể Thành ra hầu như mọi người khác trong vùng đều có thu nhập thấp hơn số trung bình này nhiều Bạn lâm vào tình huống nực cười, giống như một trò đùa là hầu hết mọi người đều thấp hơn trung bình
Đó là lý do tại sao khi bạn đọc một thông báo của một nhà quản trị công ty hay một chủ hảng cho biết số lương bình quân của nhân viên của ông ta rất cao, con số đưa ra có thể có ý nghĩa hoặc có thể không có Nếu số bình quân là số trung vị, bạn có thể biết được một điều có ý nghĩa về nó: Phân nửa nhân viên kiếm nhiều hơn số đól; và phân nửa còn lại được ít hơn
Trang 18Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
Nhưng nếu đó là số trung bình (và hãy tin tôi đây chính là số đó nếu bản chất của số đó không được chỉ rõ) bạn sẽ được một bức tranh trần trụi là bình quân thu nhập của một người được 25.000$ - là của ông chủ - và lương bổng thấp kém của đám nhân viên ‘Bình quân hàng năm
là 3.800$ có thể che dấu cả hai điều là các mức lương 1.400$ và thu nhập kết sù của ông chủ Làm thế nào việc này có thể biến hóa tinh tế đến như vậy trong đó bức tranh càng tệ, thì càng trông tốt mã hơn, thường được minh họa trong vài báo cáo của công ty Ta hãy bắt tay thực nghiệm trong phạm vi thu nhỏ
Giả dụ bạn là một trong ba người hùn hạp cùng làm chủ một công ty sản xuất nhỏ Bây giờ đã đến cuối năm kết toán tài chính Bạn đã trả 99.000$ cho 90 công nhân chế tạo và vận chuyển bàn ghế hoặc bất kỳ sản phẩm nào bạn muốn Bạn và người đồng sở hữu của mình đã tự trả lương mỗi người 5.500$ Sau khi kết toán bạn có lãi 21.000$ trong vòng một năm, được chia đều cho ba người Làm sao anh mô tả sự kiện này Để dễ hiểu bạn dùng số bình quân Vì mọi công nhân đều làm cùng một việc như nhau nên lãnh một số lương như nhau, cho nên dùng số
Trang 19How To Lie With Statistics (Darrel Huff)
6
trung bình hay trung vị không có gì khác Ta tìm được kết quả sau:
Lương bình quân của công nhân 1.100$
Lương bình quân và lợi tức của chủ nhân 12.500$
Trông thực khủng khiếp, phải không? Hãy thử cách khác Lấy ra 15.000$ lợi tức và chia cho ba người chủ như tiền thưởng Và lần này bạn tính bình quân lương bao gồm cả bạn và những người hùn hạp Và hãy nhớ là sử dụng số trung bình
Lương bình quân 1.403$
Lợi tức bình quân của chủ 2.000$
À, bây giờ bức tranh đã khá hơn Không tốt như bạn có thể làm hơn được, nhưng cũng là tốt rồi Ít hơn sáu phần trăm số tiền lương và lợi tức đã tính vào lợi tức, và bạn có thể đi xa hơn và chứng tỏ điều đó nếu bạn thích Dù sao, bạn đã được những con số mà bạn có thể báo cáo, cho xuất hiện trên bản tin, hoặc dùng để mặc cả
Minh họa này thật thô sơ vì ví dụ quá đơn giản, nhưng không là gì so với những điều xảy ra nhân danh kế toán Cho một tập đoàn phức hợp có nhiếu phân cấp nhân viên từ thư ký đánh máy mới ra trường đến chủ tịch với vài trăm ngàn đô la tiền thưởng, mọi chuyện lỉnh kỉnh đều
có thể che đậy theo cách này
Vì thế khi bạn nhìn con số lương bình quân, hãy hỏi ngay: Quân bình thuộc loại gì? Có bao gồm những ai? Tập đoàn Thép Hoa Kỳ một lần tuyên bố rằng số tiền bình quân kiếm được hàng tuần của công nhân đã tăng 107 % trong không đầy một thế hệ Đúng là như vậy – nhưng
ấn tượng sẽ mất đi nếu bạn nhận xét rằng số trước bao gồm một số nhiều hơn những người làm việc bán phần Nếu bạn làm việc bán phần một năm và năm sau làm việc toàn phần, số tiền kiếm được của bạn sẽ tăng gấp đôi, nhưng cái đó không chỉ ra điều gì cả về sự tăng lương của bạn
Bạn có thể đã đọc được trong báo là thu nhập bình quân của một gia đình người Mỹ là 6.940$ trong một năm cá biệt nào đó Bạn không nên cố hình dung quá nhiều về con số đó trừ khi bạn
đã biết từ ‘gia đình’ được dùng ở đây có nghĩa là gì, cũng như loại bình quân thuộc loại gì (Và
ai đã tuyên bố như thế và làm sao y biết và hiểu được con số chính xác thế nào.)
Con số bạn nhìn thấy có thể đã đến từ Văn Phòng Thống Kê Nếu bạn có báo cáo đầy đủ của Văn Phòng Thống Kê bạn sẽ không khó khăn tìm thấy ở đó phần còn lại của thông tin bạn cần: rằng số bình quân này là số trung bình; rằng ‘gia đình’ có nghĩa là ‘hai hay nhiều hơn những người có liên hệ và sống cùng nhau’ Bạn cũng biết được, nếu quay nhìn vào các bảng kê, là con số được dựa trên một mẫu có kích thước sao cho mười chín trên hai mươi trường hợp số ước tính đúng trong khoảng, chẳng hạn, 71$
Xác suất và khoảng gần đúng đó cho ta một ước tính tương đối tốt Những nhân viên Thống Kê
có đủ năng lực và tiền bạc để điều chỉnh những nghiên cứu của họ đến một mức độ chính xác tốt đẹp Có thể họ không có cái rìu đặc biệt nào để mài Không phải mọi con số bạn thấy đều
Trang 20Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
được sinh ra dưới những tình huống vui vẻ đó, cũng không phải tất cả con số đều được đi kèm những thông tin chứng tỏ chúng chính xác hay không chính xác đến đâu Chúng ta sẽ xét việc
đó trong chương sau
Trong phút này có thể bạn muốn thử thách sự hoài nghi của mình vào một số tiết mục từ ‘Thư ngỏ của Tòa Soạn Times Nói về những độc giả mới đăng ký mua báo dài hạn của mình, bức thư nói, ‘ Tuổi trung vị của họ là 34 và thu nhập bình quân gia đình là 7.270$ một năm.’ Một cuộc khảo sát trước đây về những độc giả “luống tuổi của Times” cho thấy ‘tuổi trung vị của họ
là 41 tuổi Lợi tức bình quân là 9.535$ ’ Câu hỏi tự nhiên nảy sinh là tại sao, khi tuổi trung
vị được cho biết cả hai báo cáo, thì loại bình quân của lợi tức đã được che dấu cẩn thận Có thể là báo cáo đã dùng số trung vị để có số to hơn, do đó đu đưa trước mắt ta một hình ảnh của loại độc giả giàu có hơn trước mắt những nhà quảng cáo?
Bạn có thể cũng có thể chơi trò ú tim bạn là loại bình quân nào đối với những sinh viên khóa
1924 của Yales đã được báo cáo trong Chương 1
Trang 21
HOW TO LIE WITH STATISTICS
Trang 22How To Lie With Statistics (Darrel Huff)
Darrell Huff
Trang 23Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
3
CHƯƠNG 3 NHỮNG CON SỐ NHỎ BÉ KHÔNG CÓ MẶT Ở ĐÓ
Bạn nên làm gì khi được cho biết về kết quả của một cuộc điều tra công luận, theo lờikhuyên của một nhà thống kê, là hỏi, ‘Anh đã thăm dò bao nhiêu người trước khi tìmđược bồi thẩm này?’
Như đã nói trong chương trước, những mẫu rất thiên lệch có thể được sử dụng để cho
ta bất kỳ kết quả nào mình muốn Những mẫu chọn ngẫu nhiên đúng cách, nếu kíchthước chúng nhỏ và bạn thử đi thử lại chúng, cũng làm được như thế
Những khách hàng thông báo là khi sử dụng kem đánh răng Doakes kẻ răng đau giảm
đi 23%, một tít lớn trên măt báo cho biết như thế Nếu bạn bằng lòng với 23% kẻ răng ítđau hơn bạn cứ đọc tiếp Và bạn tìm thấy là những kết quả này đến từ một phòng thínghiệm ‘độc lập’ đầy trấn an, và việc tính toán được giao cho một nhà chuyên môn cóđặc quyền Bạn còn muốn gì thêm nữa?
Vậy mà nếu bạn không cực kỳ ngây thơ hay lạc quan tếu, bạn sẽ rút ra được từ kinhnghiệm là ít khi có kem đánh răng tốt hơn kem đánh răng nào thật nhiều Thế thì bằngcách nào công ty Doakes có thể thông báo một kết quả như thế? Họ có thể nào thoátkhỏi tội nói khoác, một sự khoác lác trắng trợn như thế không? Không, và họ không cầnphải như thế Có những phương cách dễ dàng hơn và hiệu quả hơn
Lá bày tấy chính yếu trong việc này là do mẫu không thích đáng- không thích đáng theonghĩa thống kê, nghĩa là; nó chỉ đúng cho ý đồ của Doakes Nhóm khách hàng được
Trang 24How To Lie With Statistics (Darrel Huff)
chọn để kiểm tra, sau khi bạn đọc đến hàng chữ nhỏ bên dưới, chỉ có non một tá người.(Bạn phải cho điểm Doakes là có tinh thần thể thao khi cho bạn chi tiết này Một sốquảng cáo sẽ loại bỏ thông tin này và bạn sẽ không biết mình bị lừa bịp đến mức nào.Mẫu một tá người thì cũng không quá tệ Một sản phẩm gọi là bột đánh răng của BsCornish xuất hiện ở thị trường cách đây vài năm đã tuyên bố là bột ‘tỏ ra hữu hiệu trongviệc điều trị bệnh mục men răng’ Lý do là trong bột có chứa chất urê, mà kết quảtrong phòng thí nghiệm đã chứng minh urê có tác dụng cho mục đích đó Tuy vậy điều
vô nghĩa của việc này là kết quả thực nghiệm này chỉ là bước sơ khởi và chỉ được tiếnhành trong sáu trường hợp mà thôi.)
Hãy trở lại với trường hợp của Doakes để tìm hiểu họ đã làm sao chạy được cái tít ấntượng như thế mà không phạm sai lầm và mọi việc đều được xác nhận Hãy cho mộtnhóm nhỏ khách hàng đếm số kẻ răng trong sáu tháng, rồi sau đó chuyển qua dùngkem Doakes Một trong ba tình huống có thể xảy ra: có nhiều kẻ răng hơn, có ít kẻ rănghơn, hoặc sổ kẻ răng không đổi
Nếu tình huống đầu tiên và cuối cùng xảy ra, công ty Doakes xếp xó dữ liệu ở đâu đó vàthử lại lần nữa Sớm hay muộn, do yếu tố may rủi, nhóm thí nghiệm sẽ trình diễn mộttình trạng được cải thiện xứng đáng được giật một tít lớn hay có thể một chiến dịch
Trang 25Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
Bao nhiêu là đủ? Đây là việc tinh tế Nó phụ thuộc vào nhiều thứ trong đó phải xem dân
số bạn đang khảo sát để lấy mẫu có kích thước lớn và đa dạng cỡ nào Và đôi khi sốtrong mẫu không phải đúng như nó phải là
Một ví dụ đáng kể của tình huống này xảy ra liên quan đến một cuộc kiểm tra thuốcchủng bệnh bại liệt cách đây vài năm Hình như đó là một thí nghiệm vĩ mô đầy ấntượng theo như số liệu nêu ra: 450 em được chủng ngừa trong một cộng đồng và 680
em không được chủng làm dữ kiện đối chứng Không lâu sau đó một bệnh dịch bùngphát tại cộng đồng dân cứ đó Không đứa trẻ nào đã được chủng ngừa bị mắc bênh bạiliệt trầm trọng
Trang 26How To Lie With Statistics (Darrel Huff)
Những đứa trẻ trong nhóm đối chứng cũng vậy Điều mà các nhà thí nghiệm bỏ quahoặc không hiểu khi thiết lập dự án là sự tác động của bệnh bại liệt rất thấp Trung bìnhchỉ có hai trường hợp mắc bệnh trong một nhóm có kích thước cỡ này và như thế kếtquả thí nghiệm coi như vô nghĩa ngay từ đầu Phải cần một số khoảng 15 đến 25 lầnlớn hơn số trẻ em đó thì mới được một kết quả có ý nghĩa nào đó
Nhiều phát hiện y học đã đư ợc phát động tương tự ‘ Nhanh lên’, như lời một bác sỹ, ‘hãy sử dụng loại thuốc mới trước khi quá trễ.’
Cái tội không phải lúc nào cũng thuộc lãnh vực y khoa mà thôi Sức ép công luận vànghề làm báo khinh suất thường tạo ra quá trình không được kiểm chứng, đặc biệt khiyêu cầu rất lớn và nền tảng thống kê mờ nhạt Đó là tình huống xảy ra với thuốc chủngngừa cảm cúm phổ biến cách đây vài năm và thuốc kháng histamine gần đây hơn Phầnlớn sự thông dụng của những ‘phương thuốc’ thất bại này xuất phát từ bản chất thiếu tincậy của căn bệnh và từ sự hỏng hóc của lôgic Cho đủ thời gian, một cơn cảm cúm sẽ
tự nhiên chấm dứt
Làm thế nào tránh bị lừa phĩnh bằng những kết quả thiếu thuyết phục? Có cần thiết mỗingười phải là nhà thống kê cho riêng mình và nghiên cứu dữ liệu thô cho bản thânmình Không đến nổi tệ như thế; ta có một cách kiểm tra ý nghĩa thật dễ hiểu Đó đơngiản là một cách thông báo con số kiểm tra đó biểu thị một kết quả thực sự chắc chắnđến cỡ nào hơn là điều gì đó sinh ra từ sự may rủi Đây là con số nhỏ bé không có mặt
ở đó – với giả định là bạn, một độc giả bình thường, sẽ không hiểu được nó Hay là, chỗnào có một điều gì đáng phàn nàn, bạn sẽ hiểu
Nếu nguồn thông tin của bạn cho bạn một mức độ ý nghĩa, bạn sẽ có một ý niệm tốthơn về vị trí mình đang đứng Mức độ ý nghĩa này ph ần lớn được biểu thị như một xácsuất, như khi Văn Phòng Thống Kê cho bạn biết là có 19 phần cơ may trong số 20 lànhững con số họ đưa ra có một mức độ chính xác đặc biệt Với hầu hết các mục đíchkhông kém hơn mức độ ý nghĩa 5% này là đủ tốt rồi Với một số mục đích mức độ yêucầu là 1%, nghĩa là có 99 cơ may trong số 100 là sự khác biệt hiện ra là có thật Sự kiệnnào có mức độ chắn chắn như này đôi khi được mô tả là ‘chắc chắn một cách thiếtthực’
Có một loại số nhỏ bé khác không có mặt ở đấy, con số mà sự vắng mặt của nó có thểcũng tác hại không kém Đó là con số cho ta biết hàng số (1) của dữ liệu hay độ lệchcủa chún so với số bình quân được cho biết Thường một số bình quân – số trung bìnhhay trung vị, nói rõ hay không nói rõ – là một con số giản lược đại khái đến nổi còn tệhơn là vô dụng Không biết gì về một sự kiện có lẽ còn lành mạnh hơn là biết một điều
Trang 27Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
7
bốn người, cũng tức là hai phòng ngủ Và kích thước gia đình này, dù là ‘bình quân’,thực sự chỉ là một thiểu số trong tất cả số gia đình ‘Chúng tôi xây dựng những ngôi nhàbình quân cho những gia đình bình quân’, nhà xây dựng nói – và bỏ qua đa số nhữnggia đình đông hơn hoặc ít người hơn Hậu quả là một số vùng đã quá tải với những loạinhà có hai phòng ngủ, trong khi những nhà cho hai người hoặc nhiều người lại thiếuthốn
Đây là loại thống kê mà sự thiếu cân nhắc đã dẫn đến sự lãng phí lớn Về sự kiện nàymột nhóm lớn hoạt động cho sức khỏe cộng đồng đã phát biểu: ‘Khi chúng ta nhìn vượtqua số bình quân số học và đưa mắt đến hàng số thực tế đã bị số bình quân biểu thịmột cách méo mó sai lạc, ta mới biết rằng những gia đình từ ba đến bốn người chỉchiếm 45% tổng số gia đình 35% là số gia đình một hay hai người và 20% có bốnngười trở lên.’
Lý trí thông thường phần nào đã thất bại trước diện mạo của con số 3.6 đầu uy quyền
và chính xác một cách thuyết phục Nó đã phần nào thắng thế trước những gì mọingười biết được từ quan sát: là nhiều gia đình có ít người và rất ít gia đình có nhiềungười
Cũng trong tình cảnh như vậy những con sồ nhỏ bé đã vắng mặt trong cái gọi là ‘chuẩncủa Gesell’ đã khiến nhiều bậc cha mẹ đau khổ Một phụ huynh đã đọc trong một tờ báođại loại như tạp chí Chủ Nhật cho biết rằng đến một số tháng nào đó thì ‘một đứa trẻ’
Trang 28How To Lie With Statistics (Darrel Huff)
tập ngồi thẳng lưng được và lập tức ông ta nghĩ ngay đến đứa con nhỏ của mình Nếuthấy con mình đúng tháng tuổi đã nêu vẫn không ngồi thẳng được, ông ta kết luận làcục cưng của mình ‘chậm phát triển’ hay ‘bất bình thường’ hay một khiếm khuyết gì đórất hiểm nghèo Vì phân nửa số trẻ đến tháng tuổi đó vẫn chưa ngồi thẳng được nên córất nhiều phụ huynh phải khổ sở Dĩ nhiên, nói một cách toán học, nổi khổ này được cânbằng với số năm mươi phần trăm phụ huynh vui sướng khi thấy con mình ‘phát triển tốt’.Nhưng tác hại có thể sinh ra do những nỗ lực không đúng cách khi các phụ huynh khổ
sở cưỡng ép con mình phải đạt chuẩn để không còn chậm tiến nữa
Tất cả những sự cố này không phải lỗi của BS Arnold Gesell hay các phương pháp ông
ta dùng Sai lầm là ở chỗ quá trình chắt lọc từ nhà nghiên cứu xuống đến phóng viênviết bài thiếu trình độ hay giật gân qua đến độc giả không nhớ được con số đã mất húttrong quá trình Phần lớn các hiểu lầm có thể tránh được nếu thêm vào cái chuẩn hay
số bình quân đó ta được cho biết cả chỉ dẫn về hàng số Các phụ huynh thấy con mìnhrơi vào vùng bình thường sẽ ngừng lo lắng về những sai biệt nhỏ bé và vô nghĩa Hiếm
có người nào bình thường một cách hoàn toàn trong bất kỳ phương diện nào, cũnggiống như ném một đồng tiền 100 lần hiếm khi được đúng 50 lần mặt hình và 50 lần mặtchữ
Lầm lẫn giữa ‘bình thường’ và ‘mong muốn’ lại càng tệ hơn Bs Gesell chỉ đơn giản phátbiểu một số sự kiện quan sát được; chỉ tại phụ huynh, khi đọc bài viết trên báo, vội kếtluận rằng một đứa trẻ biết đi trễ một ngày hay một tháng là thấp kém
Phần lớn những chỉ trích ngu ngốc hơn về bản báo cáo nổi tiếng (nhưng ít được đọc kỹ)của Bs Alfred Kinsey xuất phát từ việc cho rằng bình thường cũng tương đương với tốt,đúng, và đáng mong muốn Bs Kinsey bị kết tội là làm hư đốn tuổi trẻ khi cung cấp cho
họ những ý tưởng và nhất là khi gọi mọi cách hoạt động tình dục phổ biến nhưng khôngđược tán thành là bình thường Nhưng ông ta chỉ đơn giản nói rằng ông đã phát hiện ra
là những hoạt động này là thông thường, có nghĩa là bình thường, nhưng ông ta khôngđóng con dấu tán thành nào cho chúng Việc những hoạt động tinh dục ấy là hư đốn haykhông không thuộc lãnh vực nghề nghiệp của bác sỹ Ông đã đi ngược lại nguyên tắc
đã dầy vò nhiều quan sát viên: Đó là đề cập đến một vấn đề nhạy cảm nào mà khôngvội vàng nói ra bạn bênh vực hay chống đối nó là một điều nguy hiểm
Điều tráo trở của con số nhỏ bé không có mặt ở đó là sự vắng mặt của nó thườngkhông được chú ý Đây dĩ nhiên chính là yếu tố thành công của nó Các giời phê bình
về nghề làm báo ngày nay thường than phiền có quá ít phóng viên xông xáo truyềnthống yêu nghề trong khi đầy dẫy những phóng viên ghế bành chỉ sống bằng cách viết
Trang 29Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
9
cho ra một loại thép cứng gấp ba lần bất kỳ loại thép nào có trước? Hay là điều gì khácnữa? Có vẻ như là phóng viên đã lướt qua một số từ mà không tìm hiểu kỹ ý nghĩa củachúng, và người ta hy vọng các độc giả của tin tức này không hề thắc mắc với ảo giác
là mình đã học hỏi được một kiến thức mới mẻ Nó cũng nhắc ta nhớ đến một địnhnghĩa cũ xưa về phương pháp thuyết giảng trong lớp học: một quá trình theo đó nhữngnội dung trong giáo trình của giảng viên được truyền đạt đến quyễn vỡ của học viên màkhông cần đi qua những cái đầu của bên thứ ba
Cách đây ít phút, trong khi tìm lại tài liệu về Bs Kinsey trong báo Time, tôi bắt gặp mộtphát biểu khác trong số những phát biểu đã sụp đổ khi nhìn kỹ lại Nó xuất hiện trongmột quảng cáo của một nhóm công ty điện vào năm 1948 ‘Ngày nay, điện lực đã sẵn cócho hơn ba phần tư số nông trại Mỹ ’ Nghe có vẻ ngon lành Các công ty này thực là
ăn nên làm ra Dĩ nhiên, nếu bạn muốn hoa mỹ, bạn có thể nói nhại lại như sau ‘Ngàynay hầu như một phần tư số nông trại của Mỹ không sẵn có điện lực để xài.’ Cái mẹothực sự là ở cái từ ‘sẵn có’, dùng từ này các công ty có thể nói về bất kỳ điều gì họmuốn Hiển nhiên điều này không có nghĩa là tất cả những nông dân đó đều thực sự cóđiện, hoặc quảng có chắc chắn đã muốn nói như thế Họ chỉ dùng từ ‘sẵn có’ – và theotôi được biết - từ đó có nghĩa là các đường dây điện đi ngang qua nông trại của họ haychỉ cách nông trại trong vòng 10 hay 100 dặm mà thôi
Tôi xin trích một tít trong một mục in trong một tạp chí phổ thông: “Giờ Đây Bạn Có Thể
Biết Con Bạn Sẽ Cao Bao Nhiêu.’ Trong mục đó có in một cặp giãn đồ, một của các bé
trai và một của các bé gái, cho thấy số phần trăm các bé có thể đạt đến chiều cao tốithiểu ở từng độ tuổi ‘Để xác định chiều cao của con bạn vào tuổi thành niên,’ mục đóviết, ‘hãy kiểm tra số đo hiện tại dựa trên giãn đồ này.’
Điều buồn cười về chuyện này là chính mục đó – nếu bạn đọc tiếp – cho ta biết điểmyếu chết người của giãn đồ đó là gì Không phải mọi trẻ em đều lớn lên theo cùng mộtkiểu Một số em lúc đầu lớn chậm rồi sau đó tăng tốc; trong khi số khác lớn như thổitrong một thời gian rồi thì chậm lớn lại; và còn số bé khác thì tăng trưởng với tốc độ ổnđịnh Như bạn có thể đoán được, giãn đồ dựa trên số bình quân lấy ra từ một số lớn các
số đo Đối với chiều cao bình quân của 100 em được chọn ngẫu nhiên thì kết quả nàykhông nghi ngờ gì nữa là đủ chính xác, nhưng một bậc phụ huynh chỉ quan tâm đến mộtchiều cao tại mỗi thời điểm, một yêu cầu mà một giãn đồ như thế rõ ràng là vô dụng.Nếu muốn biết con mình sẽ cao lớn cỡ nào, chắc chắn bạn sẽ có một dự đoán tốt hơnchỉ bằng cách nhìn vào chiều cao của phụ huynh hay ông bà của em Phương pháp nàykhông khoa học và tỉ mỉ như giãn đồ nhưng ít ra cũng chính xác không kém
Tôi khoái trá nói thêm là, khi lấy chiều cao của tôi còn ghi lại lúc đăng ký vào trại huấnluyện quân sự lúc mười bốn tuổi, và được xếp vào hàng sau của tiều đội người lùn, dựavào giãn đồ thì hiện nay tôi chỉ cao 5 ft 8 inc Trong khi thực sự tôi cao đến 5 ft 11 inc.Sai số 3 inc so với chiều cao con người đúng là một sai số quá tồi
Trang 30How To Lie With Statistics (Darrel Huff)
Trước mặt tôi là hai hộp ngũ cốc cùng nhản hiệu Grape-Nuts Flakes, nhưng bao bìamới cũ khác nhau Ở ngoài bao đều in hai giãn đồ quảng cáo, ghi chú dòng chữ ‘Cáckhoa học gia đã chứng minh rằng chỉ sau khi dùng hai phút những hạt ngũ cốc này đãbắt đầu cung cấp năng lượng cho bạn!’ Hai giãn đồ, tuy thế, có khác nhau đôi chút Mộtgiãn đồ có ghi số ở cột dọc, bản đồ kia thì không Những số mà không ghi rõ thuộc loạinào thì có cũng như không Cả hai giãn đồ cho thấy một đường cong đi lên màu đỏ(‘đường cong phóng thích năng lượng’), nhưng một đường cong bắt đầu từ thời điểm 1
Trang 31Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
11
Dễ thấy là sự ngờ nghệch như thế chỉ có thể tìm thấy trên những sản phẩm dành cholớp thiếu niên hay những bậc phụ huynh mắt còn ngái ngủ Không ai sẽ sỉ nhục sựthông minh của một doanh nhân tầm cỡ bằng một chuyện vớ vẩn về thống kê như thế có phải không nào? Cho phép tôi kể cho bạn một đồ thị được sử dụng để quảng cáocho một công ty quảng cáo (Tôi hi vọng việc này không làm bạn bối rối) trong cột báokhá đặc biệt của tạp chí Fortune Đồ thị này là một đường dốc lên đầy ấn tượng chothấy doanh số của công ty đi lên từng năm Không có số liệu Công bằng mà nói đồ thị
này có thể biểu thị một sự tăng trưởng khủng, với doanh số tăng gấp đôi hay tăng hàngtriệu đôla mỗi năm, hay một sự tăng trưởng rùa bò doanh số chỉ tăng một hai đôla mỗinăm Cũng đều là hai hình ảnh ấn tượng cả
Đừng đặt nhiều lòng tin vào số bình quân hay đồ thị hay một chiều hướng khi nhữngcon số quan trọng không có mặt Nếu không bạn sẽ như một người mù đi chọn lựa một
vị trí cắm trại chỉ dựa vào thông báo về nhiệt độ bình quân mà thôi Nếu coi 61 độ F(khoảng 16oC)) là nhiệt độ trung bình hàng năm dễ chịu, bạn có thể chọn ở Californiagiữa những vùng như sa mạc nội địa và San Nicolas Island ở tận bờ nam Nhưng bạn
có thể bị chết cóng hay bị chiên dòn nếu bạn bỏ qua hàng số Đồi với Nicolas nhiệt độ là
từ 47 F (8oC) đến 87 F (30.5oC) nhưng trên sa mạc nhiệt độ có thể đi từ 15 F (- 9.4oC) đến 104 F (40oC)
Thành phố Oklahoma có thể tuyên bố là mình có một nhiệt độ bình quân giống nhautrong sáu mươi năm qua: 60.2 độ F Nhưng khi bạn nhìn vào biểu đồ bên dưới, con số
dễ chịu và mát mẻ này đã che dấu một hàng số đến 130 độ
Trang 32How To Lie With Statistics (Darrel Huff)
Trang 33HOW TO LIE WITH STATISTICS
Trang 34How To Lie With Statistics (Darrel Huff)
Darrell Huff
Trang 35Bịp Bằng Thống Kê Như Thế Nào (Darrel Huff)
3
CHƯƠNG 4 CHUYỆN KHÔNG CÓ GÌ MÀ ẦM Ĩ
Ngài Josiah Stamp đã kể lại một trường hợp khi
Thủ Tướng Randolph đang xem xét một báo cáo
về thu nhập Thư ký riêng của ông ở phía sau
nhìn qua vai ông Randolph đưa nhận xét là thu
nhập thuế quan tăng lên 34% so với cùng kỳ năm
trước nghe rất phấn khởi
Cô thư ký liền sửa sai ông, chỉ ra là mức gia tăng chỉ là 0.34%
Có gì khác đâu? Ngài Randolph hòi
Khi được giải thích là số này lớn gấp 100 lần số kia, Randolph nói, ‘Tôi đã gặpnhững cái dấu chấm khốn kiếp này trước đây rồi, nhưng chỉ đến bây giờ tôi mới hiểu ýnghĩa của chúng.’
Không phải những dấu chấm mà là những khác biệt nhỏ khốn kiếp đã nổi lênnhư là nguyên nhân gây ra những phiền toái khi so sánh những điểm trắc nghiệm Đểminh họa điều này, nếu bạn không phiền, tôi xin giả sử bạn có 2 con, Peter và Linda(bạn có thích tên chúng không, coi bộ không sang trọng lắm), được giao làm một bàitrắc nghiệm trí thông minh, như hầu hết các trẻ em trong độ tuổi của chúng thường làm.Bây giờ các loại trắc nghiệm trí tuệ đủ các loại là một trong những linh vật phù phép chủyếu của thời đại chúng ta, thế nên bạn cần biện bác một chút để tìm ra kết quả của bàitrắc nghiệm; đây là loại thông tin lạ lẫm thường chỉ được an toàn khi ở trong tay các nhàtâm lý hay sư phạm, và họ xử lý đúng loại thông tin này Và thế là bạn được biết IQ(thương số thông minh) của Peter là 98 và của Linda là 101 Bạn biết rằng IQ dựa trêncăn cứ 100 là điểm số trung bình hay ‘bình thường’
Aha, Linda là đứa con sáng dạ hơn của bạn Hơn nữa, điểm em cao hơn số bìnhquân Còn Peter thì dưới điểm bình quân, nhưng đừng coi trọng kết quả đó quá
Bất kỳ kết luận nào giống như thế đều là một sự vô lý trắng trợn