xử lý số liệu và quy hoạch háo thực nghiệm
Trang 1§¹i häc Quèc gia Hµ néi Tr-êng §¹i häc Khoa häc Tù nhiªn
Khoa ho¸ häc
Lª §øc Ngäc
Xö lÝ sè liÖu
vµ kÕ ho¹ch ho¸ thùc nghiÖm
Hµ néi 8-2001
Trang 2Lời nói đầu
Trong xã hội hiện đại, hoạt động hàng ngày của mỗi ng-ời gắn liền với thu thập thông tin, xử lí thông tin và ra quyết định Trong các cách xử lí thông tin, thì xử lí thống kê có tính chất định l-ợng và có độ tin cậy cao là quan trọng nhất Vì vậy có thể nói kiến thức xử lí thống
kê thông tin là kiến thức thiết yếu của mỗi ng-ời
Tập tài liệu này là giáo trình "Xử lí số liệu và Kế hoạch hoá thực nghiệm",đ-ợc trình
bầy theo cách tiếp cận các loại bài toán thống kê xác suất chính, nảy sinh trong quá trình thực nghiệm, nghiên cứu và xử lí thông tin
Tác giả chân thành cám ơn mọi sự chỉ dẫn và góp ý của bạn đọc về các sai sót trong tài liệu để kịp thời sửa chữa và bổ xung cho tài liệu ngày một hoàn thiện hơn
Hà nội, tháng 8 năm 2001
Trang 3Mục lục
Trang
Phần I: Xử lí số liệu kết quả nghiên cứu
Ch-ơng 1: Các đặc tr-ng thống kê của tập số liệu
kết quả nghiên cứu
1.Các tham số đặc tr-ng về sự tập trung của tập số liệu: 4 1.1.Tần xuất (Pi)
1.4.Số trung vị (Me) và số tứ phân vị (Q)
1.6.Trung bình nhân (GHx)
1.7.Trung bình điều hoà (MHx)
2.Các tham số đặc tr-ng về sự phân tán của tập số liệu:
2.1.Ph-ơng sai (2hoặc S2)
2.2.Ph-ơng sai của hệ(2hhoặc S2h)
2.3.Độ lệch chuẩn (fhoặc Sf)
2.4.Độ sai chuẩn (xhoặc Sx)
2.5.Hệ số biến thiên (Cv)
3.1.Phân phối Chuẩn
3.6.Phân phối Nhị thức
3.7.Mối quan hệ giữa các hàm phân phối và các chuẩn phân phối 15
Ch-ơng 2 : đánh giá tập số liệu kết quả nghiên cứu
4.2.Độ chính xác của tập số liệu kết quả nghiên cứu
4.3.Độ sai biệt của tập số liệu kết quả nghiên cứu 17 4.4.Sai số tối đa cho phép
4.5.Khoảng chính xác tin cậy
4.6.Khoảng giới hạn tin cậy của tập số liệu kết quả nghiên cứu 18
CHƯƠNG 3 : so sánh cặp tham số đặc tr-ng của hai tập số liệu
kết quả nghiên cứu
5.1.1 Giả thiết thống kê
5.1.2 Kết luật thống kê
5.2.Quan hệ giữa chuẩn phân phối và kết luận thống kê 20 5.3.So sánh cặp tham số đặc tr-ng của hai tập số liệu kết quả nghiên cứu 21
Trang 45.3.1.So sánh độ chính xác.
5.3.3.So sánh hai tỷ số
Phần Ii : qui hoạch hoá thực nghiệm
ch-ơng 4: Phân tích tác động của các nhân tố qua tham số
( phân tích ph-ơng sai ) 6.1.Bài toán một nhân tố, k mức nghiên cứu, mỗi mức nghiên cứu làm lặp lại n lần 28 6.2.Bài toán hai nhân tố A và B, nhân tố A có k mức nghiên cứu, nhân tố B có m mức nghiên cứu, với mỗi mức của hai nhân tố A và B cùng tiến hành làm nghiên cứu
6.3.Bài toán ba nhân tố trở lên (Ph-ơng pháp Ô vuông Latin) 31 Ch-ơng 5 : Phân tích tác động của các nhân tố
không qua tham số 7.1.Bài toán phân tích tác động không qua tham số giữa nhân tố X gây nên tính chất Y 38 7.2.Bài toán phân tích tác động giữa hai nhân tố X có s mức và Y có r mức
Phần III : Mô hình hoá thực nghiệm
Ch-ơng 6 : mô hình hoá thực nghiệm một nhân tố
8.2.Hồi qui phi tuyến tính
8.3.Hệ số t-ơng quan Spearman
8.4.Hệ số t-ơng quan thứ hạng Spearman rho
Ch-ơng 7 : Mô hình hoá thực nghiệm đa nhân tố
9.1.Đại c-ơng về mô hình hoá thực nghiệm đa nhân tố 44
9.4.Mô hình hoá thực nghiệm bậc 2 tâm trực giao 51
Phần V: Tối -u hoá thực nghiệm
1.Bảng chuẩn u
2.Bảng chuẩn t
3.Bảng chuẩn F
4.Bảng chuẩn2
5.Bảng chuẩn G
6.Bảng hệ số ma trận rút gọn
Trang 5Phần I
Xử lý số liệu kết quả nghiên cứu
Ch-ơng 1
Các đặc tr-ng thống kê của một tập số liệu
kết quả nghiên cứu.
Những đại l-ợng đặc tr-ng chính cho một tập số liệu kết quả nghiên cứu đ-ợc đ-ợc phân làm 3 loại chính :1/ Các tham số đặc tr-ng về sự tập trung của tập số liêu, 2/ Các tham số
đặc tr-ng về sự phân tán của tập số liệu, 3/ Đặc tr-ng phân phối thống kê của tập số liệu
1.1 Các tham số đặc tr-ng về sự tập trung của tập số liêu:
1.1.1 Tần xuất (p i ):
Giả thiết có một tập số liệu kết quả nghiên cứu gồm có N số liệu, trong đó có ni giá trị
Xi (Xi xuất hiện ni lần) nigọi làtần số của giá trị Xi, khi đó, tần suất của giá trị Xi đ-ợc tính nh- sau:
N
n
pilà tần suất xuất hiện giá trị Xi, khi N thì pi Pi(Pilà xác suất xuất hiện giá trị Xi)
1.1.2 Số trội (Mo):
Số trội (Mo) là số có tần suất lớn nhất (chính là số có tần số xuất hiện lớn nhất ) trong
tập số liệu kết quả nghiên cứu
1.1.3 Khoảng của tập số (R):
Khoảng của tập số ,R , là khoảng cách giữa giá trị lớn nhất và giá trị nhỏ nhất của tập
số liệu kết quả nghiên cứu Nh- vậy, khoảng của tập số đ-ợc tính theo công thức sau:
1.1.4 Số trung vị (Med) và số tứ phân vị (Q):
Số trung vị (Med) là số đứng giữa tập số liệu đã đ-ợc xắp xếp theo thứ tự từ bé đến lớn,
chia dãy số đó làm 2 phần bằng nhau về số số liệu
Số tứ phân vị là các số chia tập số liệu thành 4 phần t- Có 3 số tứ phân vị là Q1=
X1/4, Q2= X2/4và Q3= X3/4 Số Q2= X2/4 trùng với số trung vị Med
a/ Đối với các số liệu không nhóm lại :
Giả sử X1, X2 ,X3 Xn là dãy các giá trị của tập số liệu kết quả nghiên cứu, đ-ợc sắp xếp theo thứ tự tăng dần, thì :
-Số trung vị của tập N số lẻ đ-ợc tính theo công thức sau:
2
1 N
X
-Số trung vị của tập N số chẵn đ-ợc tính theo công thức sau:
] X X [ 2
1 Med
1 2
N 2
N
Trang 6-Số tứ phân vị của tập N giá trị chia hết cho 4, thì tính theo công thức:
] X X [ 2
1 Q
1 4
N 4
N
] X X
[ 2
1 Q
1 4
N 3 4
N 3
- Số tứ phân vị của tập N không chia hết cho 4, thì tính theo công thức :
1 4
N
Q
1 4
N 3
Q
b/ Đối với số liệu gộp thành nhóm :
Giả sử nhóm thứ i ( Xi, Xi + 1) có nigiá trị nằm trong nhóm đó và ta có
N n i
i
thì Med nằm trong nhóm thứ k ( Xk, Xk + 1) đ-ợc tính nh- sau :
k k 1 k
1 k 1 i i
X ) X X
( nk
n 2
N
1.9
T-ơng tự, các tứ phân vị đ-ợc xác định theo công thức chung sau đây:
k k 1 k
1 k 1 i i
X ) X X
( nk
n 4
N S
1.10 Với S = 1,2,3
1.1.5 Trung bình cộng:
Gọi X là giá trịtrung bình cộng của một tập số liệu thì X đ-ợc tính theo công thức
sau:
1 i i
X N
1
khi Xixuất hiện nilần thì tính theo :
i i
iX n N
1
i i n N
1.1.6 Trung bình nhân :
GMx = x1x2x3 x n 1.13 Th-ờng dùng để tính tốc độ tăng trung bình của tăng theo cấp số, sự pha loãng
1.1.7 Trung bình điều hoà :
Trang 7HMx =
i
x
N 1
1 1
1
1.14
Dùng để tính vạn tốc, thời gian trung bình
1.1.8 Trung bình của hệ :
X h=
B A
B B A A N N
X N X N
Dùng để tính trung bình của hệ gồm nhiều tập số liệu
Ví dụ 1.1 :
Khi khảo sát 100 đối t-ợng nghiên cứu X, thu đ-ợc 100 số liệu cho ở bảng sau: Bảng 1.1- 100 số liệu kết quả thực nghiệm
1 4.37 4.13 4.46 4.45 4.73 4.20 3.64 4.15 3.96 3.65
2 3.71 4.05 3.70 4.21 4.35 3.89 3.67 4.80 4.16 4.07
3 4.31 4.08 3.65 4.23 4.00 4.58 4.30 4.42 3.90 4.36
4 3.93 4.14 3.67 3.82 4.16 4.17 4.30 4.18 4.56 3.93
5 4.60 3.94 4.32 4.55 4.40 4.55 4.82 4.58 4.19 4.52
6 4.38 4.36 3.69 4.04 4.40 3.98 4.38 4.00 4.08 4.16
7 4.10 3.84 4.03 4.58 4.20 4.37 4.58 4.14 4.88 4.21
8 4.11 4.31 4.27 4.31 4.62 3.80 4.08 4.05 3.85 4.21
9 3.87 4.05 3.94 4.23 3.95 4.32 4.03 3.91 4.18 4.23
10 3.84 4.03 3.56 3.81 3.93 4.28 4.03 3.74 4.27 4.72 Khi sắp xếp lại theo thứ tự tăng dần, 100 số liệu kết quả nghiên cứu trên, ta có :
Bảng 1.2- sắp xếp 100 số liệu theo chiều tăng dần
1 3.56 21 3.93 41 4.08 61 4.23 81 4.40
2 3.64 22 3.93 42 4.08 62 4.23 82 4.40
3 3.65 23 3.93 43 4.10 63 4.23 83 4.42
4 3.65 24 3.94 44 4.11 64 4.27 84 4.45
5 3.67 25 3.94 45 4.13 65 4.27 85 4.46
6 3.67 26 3.95 46 4.14 66 4.28 86 4.52
7 3.69 27 3.96 47 4.14 67 4.30 87 4.55
8 3.70 28 3.98 48 4.15 68 4.30 88 4.55
9 3.71 29 4.00 49 4.16 69 4.31 89 4.56
10 3.74 30 4.00 50 4.16 70 4.31 90 4.58
11 3.80 31 4.03 51 4.16 71 4.31 91 4.58
12 3.81 32 4.03 52 4.17 72 4.32 92 4.58
13 3.82 33 4.03 53 4.18 73 4.32 93 4.58
14 3.84 34 4.03 54 4.18 74 4.35 94 4.60
15 3.84 35 4.04 55 4.19 75 4.36 95 4.62
16 3.85 36 4.05 56 4.20 76 4.36 96 4.72
17 3.87 37 4.05 57 4.20 77 4.37 97 4.73
18 3.89 38 4.05 58 4.21 78 4.37 98 4.80
19 3.90 39 4.07 59 4.21 79 4.38 99 4.82
20 3.91 40 4.08 60 4.21 80 4.38 100 4.88
Trang 8Bảng 1.3- biểu diễn số liệu thống kê 100 kết quả nghiên cứu từ 100 đối t-ợng đã cho trên đây theo phân nhóm cách nhau khoảng 17 đơn vị một trình bầy nh- sau:
Nhóm Tần số Giá trị TB Tần suất Tần xuất dồn
Lớp trội từ 4.18 đến 4.35 là lớp có tần suất lớn nhất (0.24)
Bảng số liệu trên có thể đ-ợc biểu diễn trên 2 loại đồ thị sau:
Đồ thị tần xuất lớp Đồ thị tần xuất dồn
Hình 1.1- Đồ thị biểu diễn tần xuất và tần xuất dồn
1.2 Các tham số đặc tr-ng cho sự phân tán của tập số liệu :
1.2.1 Ph-ơng sai (2 hoặc S 2 ):
Ph-ơng sai là trung bình của tổng bình ph-ơng sai khác giữa các giá trị của tập số liệu
so với giá trị trung bình của tập số liệu kết quả nghiên cứu:
1 i
2 i 2
) X X ( ' N
1
hay :
i
2 i
2 (X X) '
N
1
công thức thực dụng để tìm ph-ơng sai:
9 8 7 6 5 4 3 2
1
30
20
10
0
9 8 7 6 5 4 3 2 1
120
100
80
60
40
20
0
Trang 9
1 i
2 N 1 i
i 2
i 2
} N
) X ( X
( { ' N
1
Với:
N' = N khi N > 30 (2) N' = N - 1 khi N < 30 (S2)
N' có bản chất là bậc tự do của tập số liệu kết quả nghiên cứu
1.2.2 Ph-ơng sai của hệ :
S2h =
1
) (
) (
2 2
B A
B B A
A B B A A
N N
X X N X X N S N S
Trong đó :
S*2
A=
A
A A N
S
) 1
và S*2
B=
B
B B N
S
) 1
Ph-ơng sai đặc tr-ng cho sựsai biệt của các số liệu trong kết quả nghiên cứu Ph-ơng
sai càng lớn, sai biệt càng lớn Ng-ợc lại ph-ơng sai càng nhỏ thì sai biệt càng nhỏ
Ph-ơng sai còn biểu diễnđộ phân tán của tập số liệu kết quả nghiên cứu đối với giá trị
trung bình Ph-ơng sai càng lớn độ phân tán chung quanh giá trị trung bình càng lớn và ng-ợc lại
1.2.3 Độ lệch chuẩn (f hoặc S f ):
Độ lệch chuẩn của một tập số liệu kết quả nghiên cứu là giá trị căn bậc 2 trị số ph-ơng
sai của nó:
2
f
f S
Độ lệch chuẩn có cùng thứ nguyên và cũng có ý nghĩa nh- ph-ơng sai
Khi tiến hành phân tích, ta thu đ-ợc nhiều kết quả, chúng phải đ-ợc biểu diễn bằng những chỉ số thể hiện độ chính xác của phép đo Có nhiều loại chỉ số nh- vậy, trong đó có độ lệch chuẩn, kí hiệu là
Ví dụ 1.2:
Tính giá trị trung bình và độ lệch chuẩn của tập hợp các giá trị đo đ-ợc sau: 15,67g; 15,69g; 16,03g
xi (xi- x) (xi- x)2
Ta cũng có thể sử dụng công thức sau để tính độ lệch chuẩn:
Trang 102 ) ( 2
N
i x i
x
Công thức này tiện khi tính toán hơn, nhất là với máy tính Nhiều máy có cài sẵn ch-ơng trình tính độ lệch chuẩn Thí dụ d-ới đây minh hoạ ph-ơng pháp tính này:
Ví dụ 1.3:
Tính độ lệch chuẩn với các giá trị nh- trên nh-ng dùng công thức trên
15,67 245,55 15,69 246,18 16,03 256,96
s = 0,21g
Sự khác nhau của hai kết quả thu đ-ợc với 2 cách tính (0,01g) là do ta đã làm tròn trong cột giá trị x12 Do đó, ta vẫn có thể giữ lại 1 hoặc 2 con số sau hàng phần trăm Tuy nhiên, sự khác nhau này không đáng kể so với giá trị 0,20 hay 0,21
1.2.4.Độ sai chuẩn (X hoặc SX):
Độ sai chuẩn bằng độ lệch chuẩn chia cho căn bậc 2 của số giá trị kết quả nghiên cứu:
N
f X
N
S
X 1.22
Độ sai chuẩn có thể hiểu làtrung bình phân tán của các giá trị kết quả nghiên cứu.
Giá trị độ lệch chuẩn có thể đ-ợc coi nh-, ở một mức độ nào đó, sai số của một lần đo Giá trị trung bình số học của N thí nghiệm thu đ-ợc (N rất lớn) cho kết quả gần với giá trị thực hơn là một giá trị riêng lẻ, và s tiến dần đến 0 khi N Giá trị trung bình số học thu đ-ợc
từ N phép đo chính xác hơn mỗi phép đo riêng lẻ khoảng N1/2lần Do đó, sai số ngẫu nhiên gặp phải trong 4 lần đo sẽ nhỏ hơn 2 lần so với sai số của từng phép đo riêng lẻ Hay nói cách khác, độ chính xác của giá trị trung bình của N phép đo tỉ lệ nghịch theo căn bậc hai của N với
độ chính xác của các giá trị riêng lẻ Giá trị trung bình của độ lệch chuẩn còn đ-ợc gọi là độ sai chuẩn
1.2.5.Hệ số biến thiên (C v ):
Hệ số biến thiên là tỷ số giữa độ lệch chuẩn với giá trị trung bình:
100 X
S
Vì hệ số biến thiên không có thứ nguyên, cho nên có thể dựa vào hệ số biến thiên để so sánh gần đúng độ sai biệt của các kết quả nghiên cứu thu nhận đ-ợc bằng các cách khác nhau
Khi độ lệch chuẩn lớn (Sf) ( tức sai biệt của các số liệu nghiên cứu lớn), thì Cvlớn và ng-ợc lại Độ lệch chuẩn th-ờng đ-ợc biểu diễn d-ới dạng độ lệch chuẩn t-ơng đối, tức là
Trang 11Ví dụ 1.4:
Ta có các giá trị khối l-ợng cân đ-ợc là 29,8mg; 30,2mg; 28,6mg; và 29,7mg Tính độ lệch chuẩn của từng giá trị riêng và độ sai chuẩn Biểu diễn cả d-ới dạng tuyệt đối và t-ơng
đối:
xi (xi -x) (xi - x)2
Nh- vậy, ta có: x = 29,6mg
s =0,69mg (tuyệt đối), hay Cv = 2,3% (hệ số biến động);
stb= 0,34mg (tuyệt đối), hay stb= 1,1% (t-ơng đối)
Nói chung, ta có thể thu đ-ợc kết quả chính xác hơn khi làm nhiều thí nghiệm hơn Hay nói cách khác, khoảng rộng từ +s đến -s của đ-ờng cong phân bố chuẩn Gauss sẽ giảm đi
và s 0 khi số lần tiến hành thí nghiệm tiến tới vô hạn Tuy nhiên, độ lệch chuẩn trung bình không giảm theo N mà theo N Ví dụ nh- ta muốn tăng độ chính xác của stblên 10 lần thì
số lần thí nghiệm tăng thêm 100 lần
1.3 Các đặc tr-ng phân phối thống kê của tập số liệu:
Đặc tr-ng phân phối thống kê của một tập số liệu kết quả nghiên cứu làqui luật phân
bố ngẫu nhiên của các giá trị kết quả nghiên cứu trên trục số thực Đặc tr-ng phân phối thống
kê là qui luật, nên về mặt toán học nó th-ờng đ-ợc biểu diễn bằng một hàm số và có đồ thị t-ơng ứng
Mỗi tập số liệu kết quả nghiện cứu là một tập số ngẫu nhiên (th-ờng là rời rạc) có những đặc tr-ng phân phối thống kê riêng và th-ờng tuân theo 1 trong 6 qui luật phân phối thống kê ngẫu nhiên phổ biến nhất, đó là:
1.3.1 Phân phối chuẩn (phân phối Gauss)( u):
- Hàm số của phân phối chuẩn đ-ợc biểu diễn bằng ph-ơng trình toán học:
2 2
) X (
2
1 ) X (
Trong đó:
X : là biến số ngẫu nhiên
: là hằng số, bằng giá trị kỳ vọng của biến ngẫu nhiên
: là hằng số, bằng giá trị ph-ơng sai của biến ngẫu nhiên
Gọi u làchuẩn Gauss và đặt:
X
thay vào ph-ơng trình trên ta đ-ợc dạng chính tắc của hàm phân phối chuẩn:
Trang 12e 2
u2
2
1 ) u (
chuyển hệ toạ độ từ Y(X) sang Y(u)
- Đồ thị của hàm phân phối chuẩn:
Nếu đặt là đơn vị của thang chia trục hoành mà giá trị của nó đ-ợc xác định từ điểm uốn của đ-ờng cong chuẩn hạ xuống trục hoành, là tham số đặc tr-ng cho sự tập trung các giá trị của hàm phân phối, thì hàm phân phối chuẩn có dạng chuông úp ( xem trang bên)
Hàm phân phối chuẩn có đặc diểm là: XMo Med
- Dạng tích phân của hàm phân phối chuẩn:
a/
F(u) 1 du
) u (
Y tần suất dồn từ -đến +
b/
u
u
P ) u ( F du ) u (
Y tần suất dồn từ -u đến +u
-ý nghĩa hình học của tích phân là diện tích giới hạn bởi đ-ờng cong :
F(-1, +1) = 68,27 %, F(-2, +2) = 95,45 %, F(-3, +3) = 99,73 % Diện tích này chính là tần suất dồn của các giá trị nằm trong vùng lấy tích phân Diện tích này cũng biểu diễn xác suất xuất hiện của các giá trị Xinằm trong vùng lấy tích phân
Xác suất thống kê gắn liền với khái niệm độ tin cậy thống kê (P) Diện tích giới hạn
bởi đ-ờng cong cũng chính là độ tin cậy thống kê để xuất hiện Xitrong khoảng tích phân Kí hiệu độ tin cậy thống kê để xuất hiện giá trị X nằm trong vùng (-, X) là P(X)
f(x)
68.26%
95.44%
99.74%
Trang 13Nếu kí hiệu là Độ không tin cậy thống kê, thì:
P += 1 hay P = 1 - hoặc = 1 – P 1.27 Khi P =1, điều đó có nghĩa là xác suất xuất hiện giá trị Xilà 100%
Trong xác suất, ng-ời ta qui -ớc:
Biến cố có P = 0.9999 là biến cốhoàn toàn chắc chắn.
Biến cố có P = 0.999 là biến cốhết sức chắc chắn.
Biến cố có P = 0.99 là biến cốrất chắc chắn.
Biến cố có P = 0.95 là biến cố chắc chắn.
Biến cố có P = 0.90 là biến cốcó chiều h-ớng chắc chắn.
Từ hàm phân phối chuẩn, khi cho một giá trị ui(X) thì ta tính đ-ợc độ tin cậy thống kê
Pi, ứng với một diện tích Pi Ng-ợc lại, khi cho giá trị Pjthì có thể tính đ-ợc một giá trị uj(X) Thay cho tính toán, ng-ời ta lập sẵn những bảng số để tra giá trị u khi biết giá trị P hoặc ng-ợc lại (xem phụ lục)
1.3.2 Phân phối student (phân phối t):
Hàm số của phân phối student có dạng:
2
1 f 2
) f
t 1 ( B ) , t ( y
Với
x
f
S
X
hoặc
f
i
S
X
X
1.29
tf
S
u N
S X
f
f f
Sf là độ lệch chuẩn, Sx là độ sai chuẩn
Hàm này phụ thuộc vào biến số t là một biến ngẫu nhiên
f : bậc tự do (f = N - 1)
B : là một hằng số
Sf: độ lệch chuẩn Vậy t bao giờ cũng phụ thuộc vào bậc tự do
- Đồ thị của hàm phân phối student:
N(0,1)
t 12
t 5
t 2
t 1
f(
x)
t 1 < t 2 < t 3