1. Trang chủ
  2. » Giáo án - Bài giảng

Phân tích số liệu bằng phần mềm r phần 7

17 201 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 17
Dung lượng 1,57 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Beer expert Training Một số cơ sở thống kê 4Một tập hợp: bao gồm các biến đo lường mà người điều tra quan tâm.. Mẫu và Tập hợp Beer expert Training Một số cơ sở thống kê 5 Samplinglấy r

Trang 1

Beer expert Training Một số cơ sở thống kê 1

Một số

CƠ SỞ THỐNG KÊ

1

Beer expert Training Một số cơ sở thống kê 2

Tình huống

Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu

?

Phương pháp:

2 Đo đạc

3 Thu thập kết quả *

4 Phân tích và biểu diễn kết quả

Trang 2

Beer expert Training Một số cơ sở thống kê 4

Một tập hợp: bao gồm các biến đo lường mà

người điều tra quan tâm.

Một mẫu: là tập hợp con được lấy ra từ tập

hợp.

Điều tra dân số?

1

1 1 Mẫu và Tập hợp

Beer expert Training Một số cơ sở thống kê 5

Samplinglấy ra từ tập hợp một cách ngẫu nhiên, và

các mẫu có kích thước n bằng nhau có khả năng

lựa chọn như nhau

Một mẫu được lựa chọn theo cách này gọi là mẫu

ngẫu nhiên đơn giảnhoặc gọi là mẫu ngẫu nhiên

Một mẫu ngâu nhiêntuân theo xác suấtxác định các

yếu tố của mẫu đó

Mẫu ngẫu nhiên đơn giản

Mẫu và tập hợp

Trang 3

Beer expert Training Một số cơ sở thống kê 7

Một cuộc điều tra dân số có thể::

• Kh Không thể ông thể

• Phi th Phi thực tế ực tế

• Qu Quá tốn kém á tốn kém

Vì sao phải lấy mẫu ?

Beer expert Training Một số cơ sở thống kê 8

Kích thước mẫu ?

Vừa đủ ?:

Sai sót mà nhà nghiên cứu chấp nhận, cụ thể là sai sót loại I và II;

Về xác suất sai sót, thông thường một nghiên cứu chấp nhận sai sót loại I khoảng

1% hay 5% (tức a = 0.01 hay 0.05), và xác suất sai sót loại II khoảng b = 0.1 đến

b = 0.2 (tức power phải từ 0.8 đến 0.9).

Độ dao động (variability) của đo lường, mà cụ thể là độ lệch chuẩn

Độ dao động chính là độ lệch chuẩn (standard deviation) của đo lường mà công

sản phẩm, thì nhà nghiên cứu cần phải có độ lệch chuẩn của cường độ các chỉ tiêu.

Chúng ta tạm gọi độ dao động là s.

Mức độ khác biệt hay ảnh hưởng mà nhà nghiên cứu muốn phát hiện

Độ ảnh hưởng, nếu là công trình nghiên cứu so sánh hai nhóm, là độ khác biệt

nghiên cứu có thể giả thiết rằng sản phẩm khi qua xử lý nhiệt có cường độ mùi

giảm 10% so với sản phẩm placebo Ở đây, 10% được xem là độ ảnh hưởng.

Chúng ta tạm gọi độ ảnh hưởng là D.

Kích thước mẫu ?

Một nghiên cứu có thể có một nhóm đối tượng hay hai (và có khi hơn 2)

nhóm đối tượng.

Trong trường hợp một nhóm đối tượng, số lượng đối tượng (n) cần thiết

cho nghiên cứu có thể tính toán một cách “thủ công” như sau [1]:

Trong trường hợp có hai nhóm đối tượng, số lượng đối tượng (n) cần thiết

cho nghiên cứu có thể tính toán như sau: [2] [2]

 / 2

C n

 2

2 /

C n

 

Trang 4

Beer expert Training Một số cơ sở thống kê 10

Kích thước mẫu ?

• Bảng số « C magique »

a

(Power = 0.80)

b = 0.10 (Power = 0.90)

b = 0.05 (Power = 0.95)

Beer expert Training Một số cơ sở thống kê 11

Kích thước mẫu ?

Ước tính cỡ mẫu cho một giá trị trung bình

Chúng ta muốn ước tính chiều cao ở đàn ông người Việt, và chấp nhận sai số trong vòng

1 cm (D= 1) với khoảng tin cậy 0.95 (tức a=0.05) và power = 0.8 (hay b = 0.2)

Các nghiên cứu trước cho biết độ lệch chuẩn chiều cao ở người Việt khoảng 4.6 cm

Chúng ta có thể áp dụng công thức [1] để ước tính cỡ mẫu cần thiết cho nghiên cứu:

Nếu

Nếu DD = 0.5cm, n= 664; nếu = 0.5cm, n= 664; nếu DD=0.1cm thì n= 16610=0.1cm thì n= 16610

7.85

166

C n

Kích thước mẫu ?

Ước tính cỡ mẫu cho hai giá trị trung bình:

Trong thực tế, rất nhiều nghiên cứu nhằm so sánh hai nhóm với nhau Cách ước tính cỡ

mẫu cho các nghiên cứu này chủ yếu dựa vào công thức [2]

Ví dụ: một nhà sản xuất muốn thay đổi phương pháp thanh trùng sản phẩm

bia nhằm nâng cao năng suất của nhà máy, có hai nhóm sản phẩm cần so

sánh, sản phẩm với phương pháp thanh trùng mới và sản phẩm với phương

pháp thanh trùng cũ Nhà sản xuất không muốn thị hiếu của sản phẩm giảm.

Một trong những tiêu chí để đánh giá hiệu quả của phương pháp là mức độ ưa

thích của người tiêu dùng đối với mùi của sản phẩm Số liệu thực nghiệm

chuẩn là 1.2 Vấn đề đặt ra là chúng ta phải nghiên cứu trên bao nhiêu đối

tượng để chứng minh rằng, khi thay đổi phương pháp thanh trùng, thị hiếu đối

với sản phẩm mới tăng khoảng 5% so với sản phẩm cũ.

Trang 5

Beer expert Training Một số cơ sở thống kê 13

Kích thước mẫu ?

• Trong ví dụ trên, tạm gọi trị số trung bình của sp nhóm 2 là m2và

nhóm 1 là m1, chúng ta có: m1= 8*1.05 = 8.4 (tức tăng 5% so với

nhóm 1), và do đó, D = 8.4 – 8.0 = 0.4 Độ lệch chuẩn là s = 1.2

Với power = 0.90 và a = 0.05, cỡ mẫu cần thiết là:

   0 4 / 1 2  189

51 10

* /

2

2

C n

Beer expert Training Một số cơ sở thống kê 14

Tình huống

Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu

?

Phương pháp:

2 Đo đạc

3 Thu thập kết quả *

4 Phân tích và biểu diễn kết quả

* Thí nghiệm cảm quan

Định tính

Định tính Tần sốTần số Định danhĐịnh danh::

Ví dụ:

•MMàu sắcàu sắc

•GiGiới tínhới tính

•QuQuốc giaốc gia

Định lượng Định lượng –– Đo lường hoặc Đo lường hoặc đếm được:

Ví dụ

•NhiNhiệt độệt độ

•Độ ẩm

•ThThành phần hóa họcành phần hóa học

•Điểm ưa thích trên thang 100 điểm

Một số khái niệm quan trọng : Số liệu

Một số khái niệm quan trọng : Số liệu Biến Biến – –Thang đo

Trang 6

Beer expert Training Một số cơ sở thống kê 16

THÔNG TIN CHUNG

1.1 Mô tả người trả lời phỏng vấn

1.1.1 Giới tính của người được phỏng vấn? Giới tính của người được phỏng vấn?11 Nam Nam 2.2 Nữ Nữ

Tình trạng hôn nhân

Tình trạng hôn nhân: : 1 1 Độc thân Độc thân 2 2 Có gia đình Có gia đình

1.1.2 Tuổi của người được phỏng vấn?

Dưới 25 tuổi

25

25 – – 30 tuổi 30 tuổi

31

31 – – 54 tuổi 54 tuổi

>55 tuổi

1.1.3

1.1.3 Xin Ông/Bà cho biết nghề nghiệp hiện nay ? Xin Ông/Bà cho biết nghề nghiệp hiện nay ?

Học sinh, sinh viên

Bác sĩ/giáo viên

Công nhân/ lao động làm thuê/bán hàng

Hưu trí

1.1.4

1.1.4 Ông/Bà cho biết thu nhập của gia đình Ông/Bà ở mức nào sau đây Ông/Bà cho biết thu nhập của gia đình Ông/Bà ở mức nào sau đây

1

1 Thấp Thấp ((   2 triệu đồng và < 5 triệu) 2 triệu đồng và < 5 triệu)

2

2 Trung bình ( Trung bình (  5 triệu và <8 triệu) 5 triệu và <8 triệu)

3

3 Cao ( Cao (   8 triệu) 8 triệu)

Beer expert Training Một số cơ sở thống kê 17

•8 8 phphomat (omat (EdamF, EdamH, GoudaH, m1, m2, m3, m4, EdamF, EdamH, GoudaH, m1, m2, m3, m4,

m5

m5))

•11 người thử (chuyên gia)

•3 lần lặp lại

•15 thuật ngữ15 thuật ngữ mô tảmô tả:: soursour bitternessbitterness umamiumami saltysalty greasinessgreasiness

butter_odor

butter_odor milk_odormilk_odor acridacrid rancidrancid lacticlactic cheese_flavorcheese_flavor aceticacetic full full

flavor

flavor yellowyellow hardhard

•Thang điểm không cấu trúc từ 0Thang điểm không cấu trúc từ 0 100 mm100 mm

Biến

•GiGián đoạnán đoạn

•LiLiên tụcên tục

•Độc lập

•PhPhụ thuộcụ thuộc

Thang đo lường

•Nominal scales ? (Label)

•Ordinal scales Ordinal scales ( ( Ranks in Army )

•Inteval scales (Celsius, Fahrenheit)

•Ration scales (true zero point, ratio)

Một số khái niệm quan trọng : Số liệu ố liệu Biến Biến Thang Thang

Y=ax1+bx2

=f(x1,x2)

Trang 7

Beer expert Training Một số cơ sở thống kê 19

Qualitative

(định chất)

Qualitative

(định chất)

Nominal Ordinal

Interval Ratio

Quantitative

(định lượng)

Quantitative

(định lượng)

Phân loại phép đo lường

Beer expert Training Một số cơ sở thống kê 20

Vì sao ???

Đó là những biến ẩn chúng ta đo lường (e.g., comfort), không phải

là những con số, điều đó quan trọng trong định nghĩa thang đo.

Ví dụ: vị ngọt của dường, cảm giác

Một số khái niệm quan trọng : Số liệu Số liệu Biến Biến Thang Thang

Không tạo thêm Dựa trên thông tin mẫu giới

hạn thông tin của mẫu

1

1 2 Sử dụng thống kê (Hai nhóm phân loại)

Thống kê suy diễn

Dự báo và tiên đoán số liệu của tập hợp

Kiểm định giả thiết về các thông số của tập hợp

Ra quyết định

Thống kê mô tả

– Thu thập

– Tổ chức

– Tóm tắt

– Thể hiện

– Phân tích

Trang 8

Beer expert Training Một số cơ sở thống kê 22

Tình huống

Phomat của ngoại nhập và của Việt Nam: Chất lượng và thị hiếu

?

Phương pháp:

2 Đo đạc

3 Thu thập kết quả *

4 Phân tích và biểu diễn kết quả

* Thí nghiệm cảm quan

Beer expert Training Một số cơ sở thống kê 23

1.2.2

1.2.2 Ông/Bà cho biết loại pho mát cứng nào mà Ông/Bà thường sử dụng Ông/Bà cho biết loại pho mát cứng nào mà Ông/Bà thường sử dụng

Cheddar

Gouda

Edam

Emental

Khác (

Khác (ghi rõ ghi rõ)……… )………

1.2.4

1.2.4 Ông/Bà cho biết mức độ ưa thích chung đối với sản phẩm phó mát Ông/Bà cho biết mức độ ưa thích chung đối với sản phẩm phó mát

bán cứng

1.2.5 Xin Ông/Bà cho biết tần số sử dụng sản phẩm phó mát bán cứng.

> 3 lần/tuần

1

1 – – 2 lần/tuần 2 lần/tuần

1

1 3 lần/tháng 3 lần/tháng

1.2.6 Xin Ông/Bà cho biết lượng phó mát bán cứng sử dụng trong tuần

của Ông/Bà

< 100g

100

100 – – 300g 300g

> 300g

1.2.7 Theo Ông/Bà phó mát cứng ăn với sản phẩm nào?

Bánh mì

Bánh sandwich

Salad

Bánh biscuit

Rượu vang

Khác (

Khác (ghi rõ tên ghi rõ tên)………)………

1.2.8 Khi chọn mua sản phẩm phó mát cứng, Ông/Bà cho biết mức độ quan tâm đối với

những yếu tố sau đây (1=rất không quan tâm, 2=không quan tâm, 3=không ý kiến,

4=quan tâm, 5=rất quan tâm)

Tính chất cảm quan của sản phẩm

Tính chất cảm quan của sản phẩm 1 1 2 3 4 5

Thuận lợi khi sử dụng 1 2 3 4 5

Trang 9

Beer expert Training Một số cơ sở thống kê 25

Trong một tháng, bạn sử dụng fromage bao nhiêu lần ?  một câu hỏi

được xem là một variable (biến số)

1 lần

2 lần

4 lần

Mỗi ngày

Mỗi lựa chọn được xem là một phương thức ( modality)

Beer expert Training Một số cơ sở thống kê 26

•8 phomat (EdamF, EdamH, GoudaH, m1, m2, m3, m4,

m5)

•11 người thử (chuyên gia)

•3 lần lặp lại

•15 thuật ngữ mô tả: sour bitterness umami salty greasiness

butter_odor milk_odor acrid rancid lactic cheese_flavor acetic full

flavor yellow hard

•Thang điểm không cấu trúc từ 0-100 mm

Trang 10

Beer expert Training Một số cơ sở thống kê 28

judge session product sour bitterness umami salty

Beer expert Training Một số cơ sở thống kê 29

Đo lường độ biến thiên

Range

Phương sai

Độ lệch chuẩn

Đo lường xu hướng tại tâm

Median

Tóm tắt các thông số thống kê Tập hợp

Tóm tắt các thông số thống kê Tập hợp – – mẫu

1,2,5,9,6,7

1,2,5,6,7,9

sắp xếp theo thứ tự tăng dần về độ lớn

 50th percentile

 Mode  Giá trị có tần số

xuất hiện nhiều nhất

1

1 3 Đo lường khuynh hướng tập trung tại tâm

Trang 11

Beer expert Training Một số cơ sở thống kê 31

Giá trị mean của một dãy quan sát là giá trị trung bình

của dãy số đó – tổng của các giá trị quan sát chia cho

tổng số quan sát

N

i N

x n

i n

 1

Trung bình số học

Trung bình số học Average Average

Beer expert Training Một số cơ sở thống kê 32

Ảnh hưởng bởi yếu tố bên ngoài

0 1 2 3 4 5 6 7 8 9 10

Means = 5

0 1 2 3 4 5 6 7 8 9 10 12 14

Means = 6

Trung bình số học

Trung bình số học Average Average

Trung vị

Trung vị Median Median

Thông số mạnh không ảnh hưởng bởi các yếu tố bên ngoài

0 1 2 3 4 5 6 7 8 9 10 0 1 2 3 4 5 6 7 8 9 10 12 14

Trang 12

Beer expert Training Một số cơ sở thống kê 34

Số Mode

0 1 2 3 4 5 6 7 8 9 10 11 12 13 14

Mode = 9

0 1 2 3 4 5 6

Không có Mode

Beer expert Training Một số cơ sở thống kê 35

 Mean :

 Median :

n x x

x x n

i i

2 1 1

1

p n si x

x

p n si x

x med

p p p

2

2

1 2

) (

) 1 ( ) ) 1 (

n

x n x

n x n x n n

i i i

2 2 1 1 1

1

Kích thước mẫu

Đo lường khuynh hướng tập trung tại tâm

Khác về phân phối đối xứng

Yếu tố bên ngoài ảnh hưởng : median

Tính gián đoạn của số liệu : mean

Mean or Median ?

Trang 13

Beer expert Training Một số cơ sở thống kê 37

Các phần tư

Các phần tư Quartiles Quartiles

Giá trị ở tại các vị trí 25%, 50%, 75% của phân phối chia làm 4 phần chứa vị trí

¼ của tập hợp

Vị trí của phần thư thứ i

  Q1  Q2  Q3

Data classified in increasing order : 11 12 13 16 16 17 18 21 22

Q    Q   

4

i

i n

Vị trí của

Beer expert Training Một số cơ sở thống kê 38

Độ biến thiên

Độ biến thiên Variation Variation

Giá trị trung bình không phải như số liệu mô tả Chúng ta cần

biết độ dao động trong số liệu đó

Đo lường hiển nhiên là tính tổng sự khác biệt đó từ giá

trị trung bình::

Ví dụ, dãy số có các số liệu sau: 6, 7, 8, 4, 5 và 6,

Ta có:

(6-6) + (7-6) + (8-6) + (4-6) + (5-6) + (6-6)

= 0 + 1 + 2 – 2 – 1 + 0

= 0

KHÔNG THOẢ MÃN!

Tổng bình phương

Ta cần có sự khác biệt dương bằng cách bình phương sự

khác biệt đó G Gọ ọi là “ i là “Tổng bình phương” (SS)

Ví dụ 1 : 6, 7, 8, 4, 5, 6, ta có:

SS = (6

SS = (6 6 6)) 2 + (7 + (7 6 6)) 2 + (8 + (8 6 6)) 2 + (4 + (4 6 6)) 2 + (5 + (5 6 6)) 2 + (6 + (6 6 6)) 2 = 10

Ví dụ 2: 10, 2, 3, 9, ta có:

SS= (10

SS= (10 6 6)) 2 + (2 + (2 6 6)) 2 + (3 + (3 6 6)) 2 + (9 + (9 6 6)) 2 = 50

Cách này thể hiện tốt hơn!

Trang 14

Beer expert Training Một số cơ sở thống kê 40

Phương sai

Phương sai Variance Variance

Chúng ta lấy SS chia cho kích thước mẫu

Chúng ta lấy SS chia cho kích thước mẫu n n Nhưng trong mỗi Nhưng trong mỗi

bình phương ta sử dụng giá trị trung bình để tính bình phương,

vì thế giảm đi 1 bậc tự do Vì thế mẫu số đúng là

vì thế giảm đi 1 bậc tự do Vì thế mẫu số đúng là n n 11 Đây gọi

là phương sai (kí hiệu là

là phương sai (kí hiệu là s s 2))

 

n

i i

x x n s

1 2 2

1 1

1 2

2 2 2 1 2

n

x x x

x x x

Hoặc:

Beer expert Training Một số cơ sở thống kê 41

( )

2

2

1

2

1

2

2

1

( x )

N

x N N

i N

i

i N

Phương sai tập hợp

s

n

x x n n

i n

i

n

i n

2

2 1

2 1

2

2

1

1 1

Phương sai mẫu

1

1 5 Phương sai và độ lệch chuẩn

( )

Ví dụ về phương sai

Ví dụ 1: 6, 7, 8, 4, 5 và 6, phương sai là:

2 5

10 1

6

6 6 6 5 6 8 6 7 6

s

Ví dụ 2: 10, 2, 3, 9, phương sai là:

7 16 3

50 1

4

6 9 6 3 6 2 6

s

Giá trị trong ví dụ 2 sai lệch nhiều hơn giá trị

trong ví dụ 1

Trang 15

Beer expert Training Một số cơ sở thống kê 43

Độ lệch chuẩn

Vấn đề là phương sai thể hiện giá trị của một đơn vị bình

phương, trong khi đó giá trị trung bình thể hiện giá trị thực

Ta cần một cách đổi phương sai trở lại giá trị thực

Ta lấy căn bậc 2 của phương sai– gọi là “sđộ lệch chuẩn”

(kí hiệu là s)

Trong ví dụ 1, s = sqrt(2) = 1.41

Trong ví dụ 2, s = sqrt(16.7) = 4.1

Beer expert Training Một số cơ sở thống kê 44

Độ lệch chuẩn

11 12 13 14 15 16 17 18 19 20 21

Data B

Mean = 15.5

s = 3.338

11 12 13 14 15 16 17 18 19 20 21

Data A

Mean = 15.5

s = .9258

11 12 13 14 15 16 17 18 19 20 21

Mean = 15.5

s = 4.57 Data C

Ý nghĩa của giá trị trung bình và SD

“Dân số Việt Nam trên 30 tuổi, nặng trung bình 55.0 kg và độ

lệch chuẩn là 8,2 kg.”

Điều này có ý nghĩa gì?

68% dân số trên có cân nặng khoảng từ 55 +/

68% dân số trên có cân nặng khoảng từ 55 +/ 8.2*1 = 46.8 8.2*1 = 46.8

đến 63.2 kg

95% dân số trên có cân nặng khoảng từ 55 +/

95% dân số trên có cân nặng khoảng từ 55 +/ 8.2*1.96 = 38.9 8.2*1.96 = 38.9

đến 71.1 kg

Trang 16

Beer expert Training Một số cơ sở thống kê 46

99.7 %

68 %

0

0.05

0.1

0.15

0.2

0.25

0.3

0.35

0.4

0.45

 -3  -2  -   +  +2  +3

normal(x)

95 %

Độ lệch chuẩn

Beer expert Training Một số cơ sở thống kê 47

Phân phối về khối lượng của toàn bộ dân số có thể được thể hiện như sau:

0 1 2 3 4 5 6

22 25 28 31 34 37 40 43 46 49 52 55 58 61 64 67 70 73 76 79 82 85 88 92

Weight (kg)

1SD 1.96SD

Ý nghĩa của giá trị trung bình và SD

x

Median

q 0.25

q 0.75

x

x

Giá trị bé nhất lớn hơn

q 0.25-1.5(q 0.75- q 0.25)

Giá trị lớn nhất nhỏ hơn

q 0.75+1.5(q 0.75- q 0.25)

Boxplot

Biến định lượng : đồ thị boxplot

Ngày đăng: 12/10/2015, 19:20

TỪ KHÓA LIÊN QUAN