Beer expert Training Một số cơ sở thống kê 4Một tập hợp: bao gồm các biến đo lường mà người điều tra quan tâm.. Mẫu và Tập hợp Beer expert Training Một số cơ sở thống kê 5 Samplinglấy r
Trang 1Beer expert Training Một số cơ sở thống kê 1
Một số
CƠ SỞ THỐNG KÊ
1
Beer expert Training Một số cơ sở thống kê 2
Tình huống
Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu
?
Phương pháp:
2 Đo đạc
3 Thu thập kết quả *
4 Phân tích và biểu diễn kết quả
Trang 2Beer expert Training Một số cơ sở thống kê 4
Một tập hợp: bao gồm các biến đo lường mà
người điều tra quan tâm.
Một mẫu: là tập hợp con được lấy ra từ tập
hợp.
Điều tra dân số?
1
1 1 Mẫu và Tập hợp
Beer expert Training Một số cơ sở thống kê 5
Samplinglấy ra từ tập hợp một cách ngẫu nhiên, và
các mẫu có kích thước n bằng nhau có khả năng
lựa chọn như nhau
Một mẫu được lựa chọn theo cách này gọi là mẫu
ngẫu nhiên đơn giảnhoặc gọi là mẫu ngẫu nhiên
Một mẫu ngâu nhiêntuân theo xác suấtxác định các
yếu tố của mẫu đó
Mẫu ngẫu nhiên đơn giản
Mẫu và tập hợp
Trang 3Beer expert Training Một số cơ sở thống kê 7
Một cuộc điều tra dân số có thể::
• Kh Không thể ông thể
• Phi th Phi thực tế ực tế
• Qu Quá tốn kém á tốn kém
Vì sao phải lấy mẫu ?
Beer expert Training Một số cơ sở thống kê 8
Kích thước mẫu ?
Vừa đủ ?:
•Sai sót mà nhà nghiên cứu chấp nhận, cụ thể là sai sót loại I và II;
•Về xác suất sai sót, thông thường một nghiên cứu chấp nhận sai sót loại I khoảng
1% hay 5% (tức a = 0.01 hay 0.05), và xác suất sai sót loại II khoảng b = 0.1 đến
b = 0.2 (tức power phải từ 0.8 đến 0.9).
•Độ dao động (variability) của đo lường, mà cụ thể là độ lệch chuẩn
Độ dao động chính là độ lệch chuẩn (standard deviation) của đo lường mà công
sản phẩm, thì nhà nghiên cứu cần phải có độ lệch chuẩn của cường độ các chỉ tiêu.
Chúng ta tạm gọi độ dao động là s.
•Mức độ khác biệt hay ảnh hưởng mà nhà nghiên cứu muốn phát hiện
Độ ảnh hưởng, nếu là công trình nghiên cứu so sánh hai nhóm, là độ khác biệt
nghiên cứu có thể giả thiết rằng sản phẩm khi qua xử lý nhiệt có cường độ mùi
giảm 10% so với sản phẩm placebo Ở đây, 10% được xem là độ ảnh hưởng.
Chúng ta tạm gọi độ ảnh hưởng là D.
Kích thước mẫu ?
Một nghiên cứu có thể có một nhóm đối tượng hay hai (và có khi hơn 2)
nhóm đối tượng.
Trong trường hợp một nhóm đối tượng, số lượng đối tượng (n) cần thiết
cho nghiên cứu có thể tính toán một cách “thủ công” như sau [1]:
Trong trường hợp có hai nhóm đối tượng, số lượng đối tượng (n) cần thiết
cho nghiên cứu có thể tính toán như sau: [2] [2]
/ 2
C n
2
2 /
C n
Trang 4Beer expert Training Một số cơ sở thống kê 10
Kích thước mẫu ?
• Bảng số « C magique »
a
(Power = 0.80)
b = 0.10 (Power = 0.90)
b = 0.05 (Power = 0.95)
Beer expert Training Một số cơ sở thống kê 11
Kích thước mẫu ?
Ước tính cỡ mẫu cho một giá trị trung bình
Chúng ta muốn ước tính chiều cao ở đàn ông người Việt, và chấp nhận sai số trong vòng
1 cm (D= 1) với khoảng tin cậy 0.95 (tức a=0.05) và power = 0.8 (hay b = 0.2)
Các nghiên cứu trước cho biết độ lệch chuẩn chiều cao ở người Việt khoảng 4.6 cm
Chúng ta có thể áp dụng công thức [1] để ước tính cỡ mẫu cần thiết cho nghiên cứu:
Nếu
Nếu DD = 0.5cm, n= 664; nếu = 0.5cm, n= 664; nếu DD=0.1cm thì n= 16610=0.1cm thì n= 16610
7.85
166
C n
Kích thước mẫu ?
Ước tính cỡ mẫu cho hai giá trị trung bình:
Trong thực tế, rất nhiều nghiên cứu nhằm so sánh hai nhóm với nhau Cách ước tính cỡ
mẫu cho các nghiên cứu này chủ yếu dựa vào công thức [2]
Ví dụ: một nhà sản xuất muốn thay đổi phương pháp thanh trùng sản phẩm
bia nhằm nâng cao năng suất của nhà máy, có hai nhóm sản phẩm cần so
sánh, sản phẩm với phương pháp thanh trùng mới và sản phẩm với phương
pháp thanh trùng cũ Nhà sản xuất không muốn thị hiếu của sản phẩm giảm.
Một trong những tiêu chí để đánh giá hiệu quả của phương pháp là mức độ ưa
thích của người tiêu dùng đối với mùi của sản phẩm Số liệu thực nghiệm
chuẩn là 1.2 Vấn đề đặt ra là chúng ta phải nghiên cứu trên bao nhiêu đối
tượng để chứng minh rằng, khi thay đổi phương pháp thanh trùng, thị hiếu đối
với sản phẩm mới tăng khoảng 5% so với sản phẩm cũ.
Trang 5Beer expert Training Một số cơ sở thống kê 13
Kích thước mẫu ?
• Trong ví dụ trên, tạm gọi trị số trung bình của sp nhóm 2 là m2và
nhóm 1 là m1, chúng ta có: m1= 8*1.05 = 8.4 (tức tăng 5% so với
nhóm 1), và do đó, D = 8.4 – 8.0 = 0.4 Độ lệch chuẩn là s = 1.2
Với power = 0.90 và a = 0.05, cỡ mẫu cần thiết là:
0 4 / 1 2 189
51 10
* /
2
2
C n
Beer expert Training Một số cơ sở thống kê 14
Tình huống
Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu
?
Phương pháp:
2 Đo đạc
3 Thu thập kết quả *
4 Phân tích và biểu diễn kết quả
* Thí nghiệm cảm quan
Định tính
Định tính Tần sốTần số Định danhĐịnh danh::
Ví dụ:
•MMàu sắcàu sắc
•GiGiới tínhới tính
•QuQuốc giaốc gia
Định lượng Định lượng –– Đo lường hoặc Đo lường hoặc đếm được:
Ví dụ
•NhiNhiệt độệt độ
•Độ ẩm
•ThThành phần hóa họcành phần hóa học
•Điểm ưa thích trên thang 100 điểm
Một số khái niệm quan trọng : Số liệu
Một số khái niệm quan trọng : Số liệu Biến Biến – –Thang đo
Trang 6Beer expert Training Một số cơ sở thống kê 16
THÔNG TIN CHUNG
1.1 Mô tả người trả lời phỏng vấn
1.1.1 Giới tính của người được phỏng vấn? Giới tính của người được phỏng vấn?11 Nam Nam 2.2 Nữ Nữ
Tình trạng hôn nhân
Tình trạng hôn nhân: : 1 1 Độc thân Độc thân 2 2 Có gia đình Có gia đình
1.1.2 Tuổi của người được phỏng vấn?
Dưới 25 tuổi
25
25 – – 30 tuổi 30 tuổi
31
31 – – 54 tuổi 54 tuổi
>55 tuổi
1.1.3
1.1.3 Xin Ông/Bà cho biết nghề nghiệp hiện nay ? Xin Ông/Bà cho biết nghề nghiệp hiện nay ?
Học sinh, sinh viên
Bác sĩ/giáo viên
Công nhân/ lao động làm thuê/bán hàng
Hưu trí
1.1.4
1.1.4 Ông/Bà cho biết thu nhập của gia đình Ông/Bà ở mức nào sau đây Ông/Bà cho biết thu nhập của gia đình Ông/Bà ở mức nào sau đây
1
1 Thấp Thấp (( 2 triệu đồng và < 5 triệu) 2 triệu đồng và < 5 triệu)
2
2 Trung bình ( Trung bình ( 5 triệu và <8 triệu) 5 triệu và <8 triệu)
3
3 Cao ( Cao ( 8 triệu) 8 triệu)
Beer expert Training Một số cơ sở thống kê 17
•8 8 phphomat (omat (EdamF, EdamH, GoudaH, m1, m2, m3, m4, EdamF, EdamH, GoudaH, m1, m2, m3, m4,
m5
m5))
•11 người thử (chuyên gia)
•3 lần lặp lại
•15 thuật ngữ15 thuật ngữ mô tảmô tả:: soursour bitternessbitterness umamiumami saltysalty greasinessgreasiness
butter_odor
butter_odor milk_odormilk_odor acridacrid rancidrancid lacticlactic cheese_flavorcheese_flavor aceticacetic full full
flavor
flavor yellowyellow hardhard
•Thang điểm không cấu trúc từ 0Thang điểm không cấu trúc từ 0 100 mm100 mm
Biến
•GiGián đoạnán đoạn
•LiLiên tụcên tục
•Độc lập
•PhPhụ thuộcụ thuộc
Thang đo lường
•Nominal scales ? (Label)
•Ordinal scales Ordinal scales ( ( Ranks in Army )
•Inteval scales (Celsius, Fahrenheit)
•Ration scales (true zero point, ratio)
Một số khái niệm quan trọng : Số liệu ố liệu Biến Biến Thang Thang
Y=ax1+bx2
=f(x1,x2)
Trang 7Beer expert Training Một số cơ sở thống kê 19
Qualitative
(định chất)
Qualitative
(định chất)
Nominal Ordinal
Interval Ratio
Quantitative
(định lượng)
Quantitative
(định lượng)
Phân loại phép đo lường
Beer expert Training Một số cơ sở thống kê 20
Vì sao ???
Đó là những biến ẩn chúng ta đo lường (e.g., comfort), không phải
là những con số, điều đó quan trọng trong định nghĩa thang đo.
Ví dụ: vị ngọt của dường, cảm giác
Một số khái niệm quan trọng : Số liệu Số liệu Biến Biến Thang Thang
Không tạo thêm Dựa trên thông tin mẫu giới
hạn thông tin của mẫu
1
1 2 Sử dụng thống kê (Hai nhóm phân loại)
Thống kê suy diễn
–Dự báo và tiên đoán số liệu của tập hợp
–Kiểm định giả thiết về các thông số của tập hợp
–Ra quyết định
Thống kê mô tả
– Thu thập
– Tổ chức
– Tóm tắt
– Thể hiện
– Phân tích
Trang 8Beer expert Training Một số cơ sở thống kê 22
Tình huống
Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu
?
Phương pháp:
2 Đo đạc
3 Thu thập kết quả *
4 Phân tích và biểu diễn kết quả
* Thí nghiệm cảm quan
Beer expert Training Một số cơ sở thống kê 23
1.2.2
1.2.2 Ông/Bà cho biết loại pho mát cứng nào mà Ông/Bà thường sử dụng Ông/Bà cho biết loại pho mát cứng nào mà Ông/Bà thường sử dụng
Cheddar
Gouda
Edam
Emental
Khác (
Khác (ghi rõ ghi rõ)……… )………
1.2.4
1.2.4 Ông/Bà cho biết mức độ ưa thích chung đối với sản phẩm phó mát Ông/Bà cho biết mức độ ưa thích chung đối với sản phẩm phó mát
bán cứng
1.2.5 Xin Ông/Bà cho biết tần số sử dụng sản phẩm phó mát bán cứng.
> 3 lần/tuần
1
1 – – 2 lần/tuần 2 lần/tuần
1
1 3 lần/tháng 3 lần/tháng
1.2.6 Xin Ông/Bà cho biết lượng phó mát bán cứng sử dụng trong tuần
của Ông/Bà
< 100g
100
100 – – 300g 300g
> 300g
1.2.7 Theo Ông/Bà phó mát cứng ăn với sản phẩm nào?
Bánh mì
Bánh sandwich
Salad
Bánh biscuit
Rượu vang
Khác (
Khác (ghi rõ tên ghi rõ tên)………)………
1.2.8 Khi chọn mua sản phẩm phó mát cứng, Ông/Bà cho biết mức độ quan tâm đối với
những yếu tố sau đây (1=rất không quan tâm, 2=không quan tâm, 3=không ý kiến,
4=quan tâm, 5=rất quan tâm)
Tính chất cảm quan của sản phẩm
Tính chất cảm quan của sản phẩm 1 1 2 3 4 5
Thuận lợi khi sử dụng 1 2 3 4 5
Trang 9Beer expert Training Một số cơ sở thống kê 25
Trong một tháng, bạn sử dụng fromage bao nhiêu lần ? một câu hỏi
được xem là một variable (biến số)
1 lần
2 lần
4 lần
Mỗi ngày
Mỗi lựa chọn được xem là một phương thức ( modality)
Beer expert Training Một số cơ sở thống kê 26
•8 phomat (EdamF, EdamH, GoudaH, m1, m2, m3, m4,
m5)
•11 người thử (chuyên gia)
•3 lần lặp lại
•15 thuật ngữ mô tả: sour bitterness umami salty greasiness
butter_odor milk_odor acrid rancid lactic cheese_flavor acetic full
flavor yellow hard
•Thang điểm không cấu trúc từ 0-100 mm
Trang 10Beer expert Training Một số cơ sở thống kê 28
judge session product sour bitterness umami salty
Beer expert Training Một số cơ sở thống kê 29
Đo lường độ biến thiên
• Range
• Phương sai
• Độ lệch chuẩn
Đo lường xu hướng tại tâm
• Median
Tóm tắt các thông số thống kê Tập hợp
Tóm tắt các thông số thống kê Tập hợp – – mẫu
1,2,5,9,6,7
1,2,5,6,7,9
sắp xếp theo thứ tự tăng dần về độ lớn
50th percentile
Mode Giá trị có tần số
xuất hiện nhiều nhất
1
1 3 Đo lường khuynh hướng tập trung tại tâm
Trang 11Beer expert Training Một số cơ sở thống kê 31
Giá trị mean của một dãy quan sát là giá trị trung bình
của dãy số đó – tổng của các giá trị quan sát chia cho
tổng số quan sát
N
i N
x n
i n
1
Trung bình số học
Trung bình số học Average Average
Beer expert Training Một số cơ sở thống kê 32
Ảnh hưởng bởi yếu tố bên ngoài
0 1 2 3 4 5 6 7 8 9 10
Means = 5
0 1 2 3 4 5 6 7 8 9 10 12 14
Means = 6
Trung bình số học
Trung bình số học Average Average
Trung vị
Trung vị Median Median
Thông số mạnh không ảnh hưởng bởi các yếu tố bên ngoài
0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14
Trang 12Beer expert Training Một số cơ sở thống kê 34
Số Mode
0 1 2 3 4 5 6 7 8 9 10 11 12 13 14
Mode = 9
0 1 2 3 4 5 6
Không có Mode
Beer expert Training Một số cơ sở thống kê 35
Mean :
Median :
n x x
x x n
i i
2 1 1
1
p n si x
x
p n si x
x med
p p p
2
2
1 2
) (
) 1 ( ) ) 1 (
n
x n x
n x n x n n
i i i
2 2 1 1 1
1
Kích thước mẫu
Đo lường khuynh hướng tập trung tại tâm
Khác về phân phối đối xứng
Yếu tố bên ngoài ảnh hưởng : median
Tính gián đoạn của số liệu : mean
Mean or Median ?
Trang 13Beer expert Training Một số cơ sở thống kê 37
Các phần tư
Các phần tư Quartiles Quartiles
Giá trị ở tại các vị trí 25%, 50%, 75% của phân phối chia làm 4 phần chứa vị trí
¼ của tập hợp
Vị trí của phần thư thứ i
Q1 Q2 Q3
Data classified in increasing order : 11 12 13 16 16 17 18 21 22
Q Q
4
i
i n
Vị trí của
Beer expert Training Một số cơ sở thống kê 38
Độ biến thiên
Độ biến thiên Variation Variation
Giá trị trung bình không phải như số liệu mô tả Chúng ta cần
biết độ dao động trong số liệu đó
Đo lường hiển nhiên là tính tổng sự khác biệt đó từ giá
trị trung bình::
Ví dụ, dãy số có các số liệu sau: 6, 7, 8, 4, 5 và 6,
Ta có:
(6-6) + (7-6) + (8-6) + (4-6) + (5-6) + (6-6)
= 0 + 1 + 2 – 2 – 1 + 0
= 0
KHÔNG THOẢ MÃN!
Tổng bình phương
Ta cần có sự khác biệt dương bằng cách bình phương sự
khác biệt đó G Gọ ọi là “ i là “Tổng bình phương” (SS)
Ví dụ 1 : 6, 7, 8, 4, 5, 6, ta có:
SS = (6
SS = (6 6 6)) 2 + (7 + (7 6 6)) 2 + (8 + (8 6 6)) 2 + (4 + (4 6 6)) 2 + (5 + (5 6 6)) 2 + (6 + (6 6 6)) 2 = 10
Ví dụ 2: 10, 2, 3, 9, ta có:
SS= (10
SS= (10 6 6)) 2 + (2 + (2 6 6)) 2 + (3 + (3 6 6)) 2 + (9 + (9 6 6)) 2 = 50
Cách này thể hiện tốt hơn!
Trang 14Beer expert Training Một số cơ sở thống kê 40
Phương sai
Phương sai Variance Variance
Chúng ta lấy SS chia cho kích thước mẫu
Chúng ta lấy SS chia cho kích thước mẫu n n Nhưng trong mỗi Nhưng trong mỗi
bình phương ta sử dụng giá trị trung bình để tính bình phương,
vì thế giảm đi 1 bậc tự do Vì thế mẫu số đúng là
vì thế giảm đi 1 bậc tự do Vì thế mẫu số đúng là n n 11 Đây gọi
là phương sai (kí hiệu là
là phương sai (kí hiệu là s s 2))
n
i i
x x n s
1 2 2
1 1
1 2
2 2 2 1 2
n
x x x
x x x
Hoặc:
Beer expert Training Một số cơ sở thống kê 41
( )
2
2
1
2
1
2
2
1
( x )
N
x N N
i N
i
i N
Phương sai tập hợp
s
n
x x n n
i n
i
n
i n
2
2 1
2 1
2
2
1
1 1
Phương sai mẫu
1
1 5 Phương sai và độ lệch chuẩn
( )
Ví dụ về phương sai
Ví dụ 1: 6, 7, 8, 4, 5 và 6, phương sai là:
2 5
10 1
6
6 6 6 5 6 8 6 7 6
s
Ví dụ 2: 10, 2, 3, 9, phương sai là:
7 16 3
50 1
4
6 9 6 3 6 2 6
s
Giá trị trong ví dụ 2 sai lệch nhiều hơn giá trị
trong ví dụ 1
Trang 15Beer expert Training Một số cơ sở thống kê 43
Độ lệch chuẩn
Vấn đề là phương sai thể hiện giá trị của một đơn vị bình
phương, trong khi đó giá trị trung bình thể hiện giá trị thực
Ta cần một cách đổi phương sai trở lại giá trị thực
Ta lấy căn bậc 2 của phương sai– gọi là “sđộ lệch chuẩn”
(kí hiệu là s)
Trong ví dụ 1, s = sqrt(2) = 1.41
Trong ví dụ 2, s = sqrt(16.7) = 4.1
Beer expert Training Một số cơ sở thống kê 44
Độ lệch chuẩn
11 12 13 14 15 16 17 18 19 20 21
Data B
Mean = 15.5
s = 3.338
11 12 13 14 15 16 17 18 19 20 21
Data A
Mean = 15.5
s = .9258
11 12 13 14 15 16 17 18 19 20 21
Mean = 15.5
s = 4.57 Data C
Ý nghĩa của giá trị trung bình và SD
“Dân số Việt Nam trên 30 tuổi, nặng trung bình 55.0 kg và độ
lệch chuẩn là 8,2 kg.”
Điều này có ý nghĩa gì?
68% dân số trên có cân nặng khoảng từ 55 +/
68% dân số trên có cân nặng khoảng từ 55 +/ 8.2*1 = 46.8 8.2*1 = 46.8
đến 63.2 kg
95% dân số trên có cân nặng khoảng từ 55 +/
95% dân số trên có cân nặng khoảng từ 55 +/ 8.2*1.96 = 38.9 8.2*1.96 = 38.9
đến 71.1 kg
Trang 16Beer expert Training Một số cơ sở thống kê 46
99.7 %
68 %
0
0.05
0.1
0.15
0.2
0.25
0.3
0.35
0.4
0.45
-3 -2 - + +2 +3
normal(x)
95 %
Độ lệch chuẩn
Beer expert Training Một số cơ sở thống kê 47
Phân phối về khối lượng của toàn bộ dân số có thể được thể hiện như sau:
0 1 2 3 4 5 6
22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 92
Weight (kg)
1SD 1.96SD
Ý nghĩa của giá trị trung bình và SD
x
Median
q 0.25
q 0.75
x
x
Giá trị bé nhất lớn hơn
q 0.25-1.5(q 0.75- q 0.25)
Giá trị lớn nhất nhỏ hơn
q 0.75+1.5(q 0.75- q 0.25)
Boxplot
Biến định lượng : đồ thị boxplot