Cụ thể, phần này sẽ trình bày những nội dung sau: a cách tính toán các con số tập trung, biến thiên, độ lệch, độ cong; b mô tả số liệu bằng phương pháp trực quan; c phân phối bình thường
Trang 1GIỚI THIỆU
Mục đích của phần giới thiệu này là nhằm cung cấp
cho người đọc một cái nhìn tổng quát về các thuật ngữ cơ bản, các khái niệm, và những phương pháp được sử dụng trong lĩnh vực thống kê mô tả cũng như thiết kế thử nghiệm Cụ thể, phần này sẽ trình bày những nội dung sau: a) cách tính toán các con số tập trung, biến thiên, độ lệch, độ cong; b) mô tả số liệu bằng phương pháp trực quan; c) phân phối bình thường; d) kiểm định giả thuyết; e) thiết kế thử nghiệm Về phần nội dung người đọc sẽ được cung cấp những thông tin cần thiết để vừa hiểu và vừa có thế áp dụng những phương pháp thống kê được đề cập trong cuốn sách
này Cuối phần giới thiệu là phần tóm tắt tất cả
các phương pháp được đề cập trước đó và một “bảng quyết định” giúp người đọc có thể chọn lựa phương pháp thống kê thích hợp
Thống kê mô tả và thống kê suy luận.
Thuật ngữ thống kê (statistic) bắt nguồn từ chữ
Latinh và La Mã có nghĩa là “trạng thái” và “số học trạng thái” (có nghĩa là tình trạng hiện tại của một nhà nước hay một quốc gia) Nói theo cách khoa học hơn, thống kê là một lĩnh vực toán học dùng để tóm tắt và phân tích số liệu lĩnh vực thống kê có thể chia
thành hai nhánh lớn là thống kê mô tả (descriptive
statistic) và thống kê suy luận (inferential statistic)
Thống kê mô tả là một nhánh của thống kê
trong đó số liệu chỉ được sử dụng cho mục đích mô tả chứ không dùng để đưa ra những dự đoán Vì vậy, thống kê mô tả sẽ bao gồm những phương phá, cách thức trình bày và tóm tắt số liệu Cách thức được sử dụng nhiều nhất trong thống kê mô tả là vẽ đồ thị, lập bảng và tính toán các con số tập trung cũng như
phân tán Đo lường sự kết hợp hay tương quan
(measures of association or correlation), sẽ được đề cập
trong cuốn sách này, cũng được hầu hết các nguồn cho rằng là một phương pháp thống kê mô tả, bởi vì phương pháp này dùng để mô tả mối liên hệ giữa hai
Trang 2hoặc nhiều biến Một biến (variable) là bất cứ đặc
tính nào của một đối tượng hay một sinh vật có sự biến thiên- nghĩa là khi xét đến đặc tính đó thì không có đối tượng hay sinh vật nào giống hệt nhau Một số ví dụ về biến như là màu sắc, cân nặng, giới tính, chỉ số thông minh vv…
Thống kê suy luận (inferential statistic) sử dụng
số liệu để rút ra kết luận hay đưa ra một dự đoán nào đó Cụ thể, trong thống kê suy luận số liệu của mẫu sẽ được dùng để rút ra kết luận cho dân số được dùng
để rút ra mẫu đó Trong khi một dân số (population)
bao gồm tổng toàn bộ các chủ thể hay đối tượng có
chung một số đặc điểm, thì mẫu (sample) là tập hợp
các chủ thể hay đối tượng được rút ra từ dân số đó Để những kết luận về dân số có ý nghĩa, mẫu phải thật sự đại diện cho dân số Vì vậy, mẫu lý tưởng
nhất là mẫu ngẫu nhiên (random sample) Một mẫu
ngẫu nhiên phải thoả những điều kiện sau: a) mỗi chủ thể hay đối tượng trong dân số phải có cơ hội được chọn lựa vào mẫu là như nhau; b) việc lựa chọn chủ thể/đối tượng này sẽ hoàn toàn độc lập so với đối tượng kia; c) đối với một mẫu nhất định, bất cứ mẫu nào tương tự cùng rút ra từ một dân số đều có cơ hội xuất hiện như nhau
Tuy nhiên trong thực tế chúng ta khó có thể chọn được một mẫu ngẫu nhiên vì các lý do khách quan và/hoặc đạo đức Chính vì khó chọn được như vậy nên một nhà nghiên cứu sẽ gặp phải giới hạn khi muốn rút ra kết luận cho một dân số nào đó
Số thống kê và tham số
Một số thống kê (statistic) là một đặc tính của mẫu,
chẳng hạn như chỉ số trung bình (cũng được gọi là trung
bình (mean) ) trong khi một tham số là đặc tính của một
dân số (chẳng hạn như trung bình của toàn bộ dân số) Một số thống kê có thể được dùng trong cả thống kê mô tả và thống kê suy luận Ví dụ nếu chúng ta sử dụng trung bình của một nhóm (nhóm này đại diện cho mẫu) để tóm tắt số liệu trung bình cho nhóm đó thì con số trung bình này mang tính thống kê mô tả Nhưng nếu chúng ta sử dụng con số trung bình này để ước lượng con
Trang 3số trung bình của một dân số lớn hơn mà nhóm đó được rút ra thì khi đó con số trung bình sẽ được sử dụng cho mục đích thống kê suy luận Con số thống kê cơ bản nhất được sử dụng cho cả thống kê mô tả và thống
kê suy luận là các con số đo lường độ tập trung
(measures of central tendency) (trung bình là một trong
những con số đó) và các con số đo lường mức độ
phân tán ( mearsures of variability)
Trong thống kê mô tả, các giá trị của con số thống kê (chẳng hạn trung bình mẫu) được sử dụng để rút ra kết luận cho một tham số của dân số mà mẫu được rút ra từ đó (ví dụ trung bình dân số) Tất cả các phương pháp thống kê suy luận được đề cập trong cuốn sách này đều sử dụng những con số thống kê của một hoặc nhiều mẫu để đưa ra kết luận hay dự đoán cho dân số mà mẫu được rút ra từ đó
Sai số mẫu (sampling error) chính là sự khác biệt
giữa giá trị số thống kê và tham số mà số thống kê được dùng để ước lượng tham số đó Chính vì sai số này mà con số thống kê không bao giờ bằng chính xác tham số mà nó ước lượng Mẫu càng lớn thì sai số mẫu càng nhỏ, nghĩa là khả năng người nghiên cứu ước lượng gần đúng với tham số càng cao
Khi áp dụng các số liệu từ một mẫu để ước lượng cho tham số thì bất cứ con số thống kê nào phải
không được sai lệch (unbiased) Mặc dù, sai số mẫu
luôn đi kèm với số thống kê không sai lệch, một con số thống kê không sai lệch sẽ giúp đưa ra một ước lượng chính xác hơn cho tham số Còn nếu chúng ta sử
dụng một số thống kê sai lệch (biased statistic) thì
sai số mẫu ngày càng tăng lên Hay nói một cách chính xác hơn, số thống kê không sai lệch (hay còn gọi
là chỉ tố ước lượng không sai lệch (unbiased
estimator)) là một con số mà vọng trị (expected value)
của nó sẽ tương đương với tham số mà nó ước lượng
Vọng trị của một số thống kê được tính toán dựa trên
tiền đề sau đây: một số vô hạn các mẫu với kích cỡ bằng nhau được rút ra từ dân số, mỗi mẫu này sẽ được tính giá trị của số thống kê Trung bình cộng của các giá trị này sẽ trở thành vọng trị của của con số thống kê đó Phân phối dùng để mô tả các giá trị
Trang 4của con số thống kê cũng như vọng trị của nó được gọi là phân phối mẫu (sampling distribution)
Mức đo lường
Thường thì các thông tin được lượng hoá vì mục đích nghiên cứu được phân loại tuỳ vào mức đo lường mà số liệu đó đại diện Sự khác biệt về mức đo lường sẽ đưa đến những thông tin khác nhau cho dù số liệu đó được tính toán như thế nào Một hệ thống phân loại số liệu được áp dụng trong nhiều ngành khoa học do Stevens (1946) đưa ra sẽ được giới thiệu trong mục này
Các nhà thống kê thường khái niệm hoá một cách tổng quát các số liệu dưới một trong bốn dạng
sau đây: số liệu danh định (nominal data) (hay còn gọi là số liệu phân loại (categorical data)), số liệu thứ tự (ordinal data (hay còn gọi là số liệu thứ tự-xếp hạng (rank-order data), số liệu khoảng (interval data), và số liệu tỷ lệ (ratio data) Khi chúng ta đi từ mức đo lường
thấp nhất, số liệu danh định, đến số liệu cao nhất, số liệu tỷ lệ, thì lượng thông tin thu được từ các con số cũng như các phương pháp toán học được sử dụng cũng tăng theo các mức đo lường Mỗi mức đo lường sẽ được trình bày kỹ hơn sau đây:
a) Mức đo lường danh định/phân loại: ở mức này,
các con số được sử dụng chỉ với mục đích xác nhận chứ không thể được điều chỉnh toán họa được Một
ví dụ là số bảo hiểm xã hội của một người chỉ mang tính chất nhận dạng người đó chứ không thể áp dụng các phương pháp toán học trên con số đó (ví dụ như cộng, trừ , nhân, chia )
b) Mức đo lường thứ tự: trong thang đo thứ tự, các con
số tượng trưng cho thứ tự sắp hạng, và không đưa ra được bất kỳ thông tin nào về sự khác biệt giữa các thứ hạng kế tiếp nhau Vì vậy, thứ tự kết thúc vòng đua trong một cuộc đua ngựa là biến thứ tự Giả dụ, nếu ngựa A kết thúc vòng đua nhanh hơn ngựa B chỉ vào giây trong khi ngựa B về trước ngựa C vài phút, thì thứ tự ngựa về nhất nhì chẳng cho biết thông tin gì ngoài việc chúng ta biết rằng khoảng cách giữa ngựa về nhất và về nhì là rất ngắn trong khi khoảng cách giữa ngựa về ba và về nhì thì dài hơn
Trang 5c) Mức đo lường khoảng: một thang đo khoảng không
chỉ xem xét đến thứ tự của các con số mà còn mô tả sự khác biệt giữa các con số đo lường sẽ tương đương sự khác biệt giữa các lượng thuộc tính được đo lường Điều đó có nghĩa, nếu chỉ số IQ được xem như là một thang đo khoảng, thì một điểm khác biệt về chỉ số IQ giữa người có chỉ số IQ bằng 100 và 101 sẽ bằng với một điểm khác biệt về chỉ số IQ giữa một người có chỉ số IQ bằng 140 và 141 Tuy nhiên một số nhà tâm lý học sẽ không chấp nhận điều này bởi vì để tăng lên một điểm từ 140 lên 141 thì cần nhiều sự thông minh hơn là để tăng một điểm từ 100 lên 101 Nếu theo các nhà tâm lý học, thì một điểm khác biệt không phản ánh được toàn bộ sự khác biệt trong thang đo khoảng Mặc dù chỉ số IQ và một số đặc tính khác của con người thường được các đo lường bằng các phép kiểm tâm lý học (ví dụ như lo âu, chểnh mảng, tự ti…) và được xem như là số liệu khoảng, nhiều nhà nghiên cứu cho rằng phải xếp các đặc tính này vào loại số liệu thứ tự Họ đưa
ra nhận xét trên dựa trên việc các con số đo lường các thuộc tính này không thoả điều kiện của số liệu khoảng như đã nói ở trên
Cần lưu ý rằng thang đo khoảng không có giá trị 0 giống như thang đo tỷ lệ sẽ được trình bày tiếp theo Nếu chúng ta sử dụng giá trị 0 để gán cho một ngườ hay một đối tượng nào đó thì việc gán này chỉ mang tính chất tùy ý Vì vậy, trong trường hợp chỉ số IQ chúng ta có thể đặt ngay câu hỏi là liệu có một người nào đó thật sự có chỉ số IQ bằng 0 hay không? Thật ra một người được gán cho chỉ số IQ bằng 0 khi họ thực hiện quá kém phép kiểm chỉ số
IQ Kém ở đây không có nghĩa là họ không trả lời được bất kỳ câu hỏi nào trong bài test mà là vì họ chỉ trả lời một số câu hỏi và đạt được số điểm mà người xây dựng phép kiểm IQ sẽ gán cho giá trị 0
d) Mức đo lường tỷ lệ: tương tự như thang đo lường
khoảng, thang đo tỷ lệ được mô tả là sự khác biệt giữa các con số đo lường được sẽ tương đương với sự khác biệt giữa các lượng thuộc tính được đo lường Tuy nhiên nó khác thang đo khoảng ở chỗ nó có thể
Trang 6chứa giá trị 0 chính vì có thể có giá trị 0, nên chúng ta có thể đưa ra những câu nhận xét mang tính tỷ lệ có ý nghĩa đối với một thuộc tính hay một biến nào đó Một số ví dụ về thang đo tỷ lệ là các số đo vật lý như cân nặng, chiều cao, mức đường huyết, hay một số hành vi như số lần hắt hơi của một người, số lần trẻ khóc… Các số đo trên đều có thể mang giá trị 0 (cân nặng =0, chiều cao =0…) và chúng ta có thể đưa ra những nhận xét mang tính tỷ lệ có ý nghĩa (chẳng hạn Ann nặng gấp hai lần Joan, đường hyết của Phil cao gấp 100 lần đường huyết của Sam)
Biến liên tục và biến rời rạc
Khi chúng ta sử dụng những con số cho người hay một vật nào đó, trong hầu hết trường hợp chúng ta giả sử rằng những con số này biến thiên Chính vì chúng biến thiên nên không phải ai cũng có cùng một giá trị Vì lý do đó, khi một cái gì được đo lường thì người ta
thừơng gọi là một biến (variable) Như đã đề cập ở
trên, biến có thể được phân loại theo bốn mức đo
lường Ngược với biến là hằng số (constant) có giá trị
không thay đổi Một số ví dụ về hằng số là các con số toán học pi và e, số ngày trong tuần, số ngày trong tháng 4…
Một biến có thể được phân thành biến liên tục
hay rời rạc Một biến liên tục (continuous variable) khi
nó có các giá trị nằm trong một khoảng giới hạn giá
trị của biến đó Ngược lại một biến rời rạc (discrete
variable) chỉ có một số giá trị mà thôi Chẳng hạn
nhiệt độ là một biến liên tục bởi vì biến này có thể vừa có giá trị là số nguyên vừa có giá trị là số thập phân nằm trong một khoảng nhất định Về mặt lý thuyết, có vô số các giá trị nhiệt độ, tuy nhiên chúng ta chỉ có thể đo được một số giá trị vì bị hạn chế bởi đọ chính xác của máy đo Số mặt của một con xúc xắc lại là một biến rời rạc bởi vì một con xúc xắc chỉ có 6 mặt nên số giá trị là từ 1-6
Số đo lường khuynh hướng tập trung
Trang 7Như đã đề cập từ đầu trong phần giới thiệu, các con số thống kê thường được sử dụng nhất là con số đo lường khuynh hướng tập trung và đo lường khuynh hướng phân tán Trong mục này, chúng tôi sẽ trình bày về 3 con số đo lường khuynh hướng phân tán là trung vị, yếu
vị, trung bình,
Yếu vị yếu vị (the mode) là giá trị xuất hiện
nhiều nhất trong phân phối giá trị Yếu vị của một mẫu gọi là một con số thống kê còn yếu vị của một dân số lại gọi là tham số Trong dãy số sau đây 0, 1, 2,
5, 5, 8, 10 số 5 sẽ là yếu vị bởi vì nó xuất hiện hai lần Nếu một phân phối có nhiều hơn một giá trị xuất hiện với tần suất cao nhất, thì phân phối đó sẽ có nhiều yếu vị Như vậy, dãy số 0, 1, 2, 3, 4, sẽ có tất cả là 5 yếu vị vì cả 5 số đều xuất hiện với tần suất cao nhất là một lần Một phân phối có nhiều hơn một
yếu vị gọi là phân phối đa yếu vị (multimodal
distribution) (ngược lại với phân phối chỉ có một yếu
vị gọi là phân phối đơn yếu vị (unimodal distribution).
Nếu phân phối có hai yếu vị thì sẽ được gọi là phân
phối nhị yếu vị (bimodal distribution) Dãy số 0, 5, 5, 8,
9, 9, 10 gọi là phân phối nhị yếu vị vì số 5 và số 9 đều xuất hiện 2 lần
Con số yếu vị được sử dụng như là con số thống kê mô tả trong phân phối tần suất Một phân phối
tần suất (frequency distribution) là một bảng tóm tắt
số liệu, liệt kê các giá trị trong một phân phối Ví dụ,
bảng 1.1 chính là bảng phân phối tần suất cho phân
phối A bao gồm 20 quan sát Bảng 1.1 gồm hai cột trong
đó cột bên trái (X) chính là cột mô tả các giá trị từ 22-96 của phân phối Cột thứ hai sẽ mô tả tần suất của các giá trị Chúng ta cũng có thể lập bảng phân phối tần suất trong đó liệt kê tất cả các giá trị của các quan sát (20 giá trị) Tuy nhiên cách làm này không được sử dụng vì như vậy sẽ làm rối mắt người đọc, đặc biệt trong trường hợp số quan sát lớn (ví dụ 1000)
Phân phối A: 22, 55, 60, 61, 61, 62, 62, 63, 63, 67, 71, 71,
72, 72, 72, 74, 74, 76, 82, 96
Trang 8Bảng 1.1: bảng phân phối tần suất của phân
phối A
X | Freq.
-+ -22 | 1
55 | 1
60 | 1
61 | 2
62 | 2
63 | 2
67 | 1
71 | 2
72 | 3
74 | 2
76 | 1
82 | 1
96 | 1
-+ -Total | 20 Bên cạnh việc trình bày số liệu dưới dạng bảng, nhà nghiên cứu cũng có thể trình bày số liệu dưới dạng đồ thị Thật vậy, nhà nghiên cứu có thể sử dụng đồ thị số liệu để giúp cho việc tiến hành các phân tích thống kê về sau Lý do để vẽ đồ thị là vì chỉ thông qua đồ thị, nhà nghiên cứu có thể xác định một số tính chất quan trọng giúp cho việc xác định được phương pháp phân tích thích hợp Thường thì những đặc tính này không thể hiện rõ ràng ra cho nhà nghiên cứu- đặc biệt trong trường hợp bộ số liệu rất lớn và/hoặc người nghiên cứu thiếu kinh nghiệm trong việc phân tích thống kê Một phương pháp trìnhbày số liệu trực quan là sử dụng đa giác tần suất (frequency polygon)
Cần chú ý rằng đa giác tần suất gồm hai trục là
trục tung và trục hoành Trục hoành (abscissa) sẽ biểu
diễn các giá trị của phân phối Trên trục hoành có thể có dấu hiệu -/ /-, ý muốn nói rằng nhà nghiên cứu chỉ quan tâm đến những giá trị trên một giá trị nào đó, còn các giá trị nằm từ 0 đến giá trị đó sẽ
không được vẽ trong đồ thị Trục tung (ordinate) sẽ hiển
thị tần suất của từng giá trị tương ứng Để chuẩn
hoác số liệu đồ thị, một số nhà khoa học đề nghị
chiều dài trục tung sẽ bằng ¾ chiều dài trục hoành
Đa giác tuần suất sẽ bao gồm một loạt những dòng kẻ nối các điểm lại với nhau Một điểm trên đồ thị sẽ tượng trưng cho điểm giao giữa một giá trị nào đó và tần suất tương ứng của giá trị đó Khi đa giác
Trang 9tần suất di chuyển dọc theo chiều dài của trục hoành, điều dó có nghĩa các giá trị của nó bằng 0 Điểm cao nhất trên đồ thị chính là yếu vị của phân phối đó
Trung vị trung vị (median) là điểm giữa của phân
phối Nếu số giá trị của phân phối là số lẻ (odd
number), để xác định trung vị chúng ta làm như sau:
Sắp xếp các giá trị theo thứ tự từ thấp đến cao
Lấy tổng số các giá trị chi 2
Thêm 0.5 vào kết quả của phép chia ta được vị trí
thứ tự (ordinal position ) của trung vị
Từ vị trí thứ tự trung vị xác định được trung vị chính là giá trị nằm tại vị trí đó
Ví dụ: chúng ta có dãy số 6, 8, 9, 13, 16 lấy 5/2= 2.5 Thêm 0.5 vào 2.5 được 3 như vậy vị trí thứ tự của trung
vị là 3 tương ứng với giá trị 9
Nếu số giá trị của phân phối là số chẵn (even
number), chúng ta xác định trung vị bằng cách sau:
Sắp xếp các giá trị theo thứ tự từ thấp đến cao
Lấy tổng số các giá trị chia cho 2
Kết quả của phép chia và con số lớn hơn kế số đó chính là hai vị trí thứ tự của trung vị
Xác định hai giá trị nằm tại hai vị trí thứ tự đó
Cộng hai giá trị rồi chia cho 2 được giá trị trung vị
Ví dụ ta có dãy số sau: 6, 8, 9, 12, 13, 16 lấy 6/2=3 Như vậy 3 và 4 là hai vị trí thứ tự của con số trung vị Nằm
ở vị trí 3 và 4 là hai giá trị 9 và 12 Vậy ta lấy
9+12)/2=10.5 chính là trung vị của phân phối
Trung bình trung bình (hay còn gọi là trung bình số
học (arithmetic mean)) chính là giá trị trung bình của
phân phối Thông thường trung bình được sử dụng trong thống kê mô tả và được áp dụng cho số liệu khoảng và số liệu tỷ lệ Chúng ta có thể tính trung bình cho mẫu và trung bình cho dân số Tuy nhiên trong thực tế trung bình dân số không tính được trực tiếp mà phải ước lượng dựa trên thống kê phân tích
Số đo lường phân tán
Trong mục này chúng ta sẽ bàn luận đến một số con số đo lường mức độ phân tán của số liệu, nhưng quan trọng nhất là hai con số độ lệch chuẩn và phương sai
Trang 10a) Phạm vi phạm vi (range) chính là sự khác biệt giữa
giá trị lớn nhất và giá trị nhỏ nhất của phân phối Vì vậy trong dãy số 2, 3, 5, 6, 7, 12, phạm vi là sự khác biệt giữa giá trị 12 và 2, suy ra phạm vi=12-2=10 Một số người đề nghị cộng thêm một vào phạm vi, và như vậy phạm vi sẽ bằng 11 mặc dù phạm vi đôi khi được sử dụng trong thống kê mô tả, nhưng lại hiếm sử dụng trong thống kê phân tích
b) Quantile, phần trăm, thập vị và tứ vị Quantile
là một con số đo lường chia một phân phối thành nhiều điểm phần trăm bằng nhau Ví dụ về quantile
là percentile và decile Phần trăm (percentile) chia
một phân phối thành nhiều đoạn bằng một phần trăm (hay những đoạn có tỷ lệ bằng 0.01 phân phối) Một giá trị phần trăm cụ thể tương ứng với một điểm trong một phân phối mà tại đó phần trăm của giá trị nằm ở tại điểm đó hay rơi vào dưới điểm đó Vì vậy, chỉ số IQ bằng 115 rơi vào
vị trí phần trăm thứ 84, điều đó có nghĩa 84% dân số có chỉ số IQ bằng 115 hoặc nhỏ hơn Thứ hạng
phần trăm (percentile rank) cũng được dùng để
chỉ percentile-hay nói cách khác chỉ số IQ bằng 115 có thứ hạng phần trăm là 84
Thập vị (decile) chia phân phối thành những đoạn
có độ dài bằng 10% (hay những đoạn bằng 0.10 phân phối) Một phân phối có thể chia thành 10 đoạn giới hạn trên của các đoạn này là phần trăm thứ 10, phần trăm thứ 20… Vì vậy một giá trị tương đương phần trăm thứ 10 sẽ rơi vào giới hạn trên của đoạn thập vị đầu tiên Khoảng trung
thập vị (interdecile range) là sự khác biệt giữa
các giá trị tại phần trăm thứ 90 và phần trăm thứ 10
Tứ vị (quartile) sẽ chia phân phối thành những
đoạn có độ dài bằng 25% Một phân phối có thể gồm 4 đoạn tứ vị, 25 %, 50%, 75% và 100% Vì vậy một giá trị tương ứng với vị trí phần trăm thứ 25 sẽ rơi vào giới hạn trên của đoạn tứ vị đầu tiên
của phân phối Khoảng trung tứ vị (interquatile
range) là sự khác biệt giữa giá trị tại vị trí phần
trăm thứ 75 và giá trị tại vị trí phần trăm thứ 25