CHƯƠNG 3 Xử lý số liệu thực nghiệm bằng thống kê CHƯƠNG 3 XỬ LÝ SỐ LIỆU THỰC NGHIỆM BẰNG TOÁN HỌC THỐNG KÊ 3 1 CÁC SỐ CÓ Ý NGHĨA Số các số có ý nghĩa là số cực tiểu các chữ số cần thiết để biểu diễn m[.]
Trang 1CHƯƠNG 3
XỬ LÝ SỐ LIỆU THỰC NGHIỆM BẰNG TOÁN HỌC THỐNG KÊ
3.1 CÁC SỐ CÓ Ý NGHĨA
Số các số có ý nghĩa là số cực tiểu các chữ số cần thiết để biểu diễn một giá trị
đã cho trong khoa học mà không làm mất độ chính xác của phép đo đó Biểu diễn các
số của phép đo tuân theo quy tắc sau:
1 Số “0” có thể là một phần của phép đo, nhưng nó cũng có thể chỉ là một số chỉ hệ thập phân, hay nói cách khác là số các con số có nghĩa của phép đo không phụ thuộc vào vị trí của điểm chỉ hệ thập phân Thí dụ 92,067mm có thể biểu diễn
92067 µm hoặc 9,2067 cm hoặc 0,92067 dm hoặc 0,092067 m Tất cả các số hạng trên đều có 5 số có ý nghĩa Trong hai trường hợp sau cùng, số “0” không có ý nghĩa, được dùng để chỉ hệ thập phân, các trường hợp còn lại, số “0” đều có ý nghĩa
Khi số “0” đứng ở cuối cùng, nó cũng có ý nghĩa, thí dụ 727,0 ; 100,0 …
Thí dụ 3.1 Tìm số các số có ý nghĩa trong các số sau:
0,216 (có 3 số có ý nghĩa)
90,7 (có 3 số có ý nghĩa)
800,0 (có 4 số có ý nghĩa)
0,0670 (có 3 số có ý nghĩa)
2 Con số chìa khóa của một phép đo quyết định số các con số có ý nghĩa Trong một bài toán có nhiều phép tính, số hạng nào có giá trị tuyệt đối thấp nhất là con số chìa khoá
3 Trong một bài toán có nhiều phép tính, các số lẻ được giữ cho tới phép tính cuối cùng trước khi làm tròn
4 Quy tắc làm tròn: nếu chữ số cuối cùng cần làm tròn > 5 thì số trước đó +1, nếu
số cần làm tròn < 5 thì bỏ số đó và số trước đó không thay đổi
3.2 CÁC LOẠI SAI SỐ
3.2.1 Sai số tuyệt đối
Sai số tuyệt đối là hiệu số giữa giá trị trung bình và giá trị thực
e = -µ trong đó là trung bình số học của các giá trị thực nghiệm, µ là giá trị thực
Sai số tuyệt đối không cho ta thấy được độ đúng của phép phân tích, muốn biết ta phải xét sai số tương đối
3.2.2 Sai số tương đối
Sai số tương đối là tỷ số giữa sai số tuyệt đối và giá trị thực µ
x x
Trang 2S= ; (3.1) Thông thường sai số tương đối biểu diễn bằng S% = = Sai số tương đối cho ta biết độ đúng của phép xác định
Thí dụ nhìn vào hai phép xác định sau ta chỉ có thể nhận ra độ đúng của từng phép xác định khi dùng sai số tương đối
Bảng 3.1: Sai số tương đối
Thí nghiệm Giá trị đo Giá trị thực e S %
1
2
45,8
216
45,2 215,4
0,6 0,6
1,3%
0,3%
3.2.3 Sai số hệ thống
Là sai số do các nguyên nhân cố định gây ra, thường lặp đi lặp lại trong các thí nghiệm Các giá trị thường lệch về một phía luôn mang dấu ”+” hoặc dấu “-“ Sai số hệ thống thường do phương pháp sai, dụng cụ đo không đúng.v.v
3.2.4 Sai số ngẫu nhiên
Là sai số do các nguyên nhân không cố định, khách quan gây ra, nó phản ánh sự sai lệch giữa từng giá trị riêng lẻ và giá trị trung bình, ngoài ra nó còn phản ánh độ lặp lại của phương pháp
3.3 CÁC ĐẠI LƯỢNG TRUNG BÌNH
3.3.1 Trung bình số học
là trung bình cộng của các giá trị riêng lẻ
Zả sử có n thí nghiệm thu được n giá trị thí nghiệm x1 , x2 xn
3.3.2 Trung bình bình phương
Là căn bậc hai của tổng các giá trị bình phương chia cho n
(3.3) 3.4 CÁC ĐẠI LƯỢNG ĐẶC TRƯNG CHO ĐỘ PHÂN TÁN
3.4.1 Độ lệch trung bình d
Độ lệch là sự chênh lệch giữa giá trị riêng lẻ và giá trị trung bình còn Độ lệch trung bình là trung bình cộng giữa giá trị riêng lẻ và giá trị trung bình có lấy giá trị tuyệt đối
Đ
Đ G μ
μ x x
-.100 μ
Đ
Đ
G
-n
x n
x x
x
= 1 2
n
x n
x x
x
=
2 2
2 2 2
Trang 3(3.4)
3.4.2 Phương sai
Phương sai là đại lượng đặc trưng cho sai lệch của các số liệu thực nghiệm so với giá trị trung bình Phương sai là một trong những đặc tính thống kê quan trọng nhất của sai số ngẫu nhiên Theo định luật phân bố chuẩn thì khi phương sai giảm, sự phân
bố tốt hơn, cận sẽ giảm, phép phân tích càng chính xác
Phương sai là trung bình cộng các bình phương của hiệu số giữa các giá trị riêng
lẻ và giá trị trung bình:
S2 và s2 đều gọi là phương sai, n-1 là số bậc tự do
3.4.3 Độ lệch chuẩn
Độ lệch chuẩn cũng như phương sai đều đặc trưng cho sự dao động của các số liệu hay là độ phân tán của các kết quả so với giá trị trung bình
Độ lệch chuẩn là căn bậc hai của tổng bình phương độ lệch của các số liệu khỏi giá trị trung bình chia cho số bậc tự do
(3.7)
3.4.4 Độ lệch chuẩn trung bình S
Độ lệch chuẩn trung bình là độ lệch chuẩn chia cho căn bậc hai của n lần thí nghiệm
3.4.5 Độ lệch chuẩn tương đối và hệ số biến động
(Relative standard deviation, RSD and coefficient of variation, CV)
Độ lệch chuẩn tương đối được xác định bằng cách chia độ lệch chuẩn cho giá trị trung bình của các số liệu thực nghiệm Nó thường được biểu diễn bằng phần ngàn hay phần trăm
RSD = 1000 phần ngàn
n
x x
d å i
-=
1
)
2
-=å
n
x x
n
x
x i
-=
2
s
1
)
2
-=
n
x x S
n
x x
-=
=
2 1
s s
x
) 1 (
)
-=
n n
x x n
S
x
x S
Trang 4Độ lệch chuẩn tương đối nhân với 100% còn được gọi là hệ số biến động
CV = 100 phần trăm
Thí dụ 3.2 Phân tích Pb trong máu cho biết hàm lượng tính theo ppm như sau:
x : 0,752; 0,756; 0,752; 0,751; 0,760 ppm
Độ lệch chuẩn tương đối chỉ rõ mức độ sai số của dữ kiện thực nghiệm rõ hơn
độ lệch chuẩn tuyệt đối
3.5 CÁC LOẠI PHÂN BỐ
3.5.1 Phân bố chuẩn hay phân bố Gauxơ (Gauss)
Khi sai số của phép phân tích là sai số ngẫu nhiên thì các kết quả gần với giá trị thực,
nó phân bố xung quanh giá trị thực Số thí nghiệm càng nhiều, càng tiến tới giá trị
thực µ
Theo lý thuyết toán học hàm số phân bố chuẩn y phụ thuộc biến số x có dạng:
Hàm số đạt giá trị cực đại khi x=µ ; khi đó
Đường phân bố có dạng:
y
Hình 3.1: Phân bố chuẩn (GAUSS)
Như chúng ta đã đề cập ở trên, s là đại lượng đặc trưng cho sự phân tán là sự
sai lệch gữa các giá trị riêng lẻ và giá trị trung bình (trong trường hợp này là giá trị
thực) Khi s càng nhỏ, y càng lớn Sự xuất hiện giá trị thực nghiệm tương ứng diện tích
x S
1 5
) 754 , 0 760 , 0 (
) 754 , 0 752 , 0
-+
+
-0 , 5 1000 754 , 0
0038 ,
754 , 0
0038 , 0
x
2
2 5 , 0
2
ø
ö ç è
æ
µ
p s
x
e y
p
1
=
y
Trang 5của parabol xác lập bởi đường cong và trục hoành từ -¥ đến +¥ bằng 1 Khi chọn khoảng ± s có nghĩa độ tin cậy của giá trị thực nghiệm đạt 68,3%, còn ± 2s là 95,46%, còn ± 3s là 99,9% Thông thường để có độ tin cậy cao, người ta áp dụng quy tắc ± 3s
3.5.2 Phân bố thực nghiệm
Giả sử nghiên cứu xác suất xuất hiện của mặt đồng xu bằng cách tung nó nhiều lần, giả sử tung 1000 lần, chia làm 9 đợt, chúng ta thấy sự xuất hiện một nửa số lần mặt phải và một nửa số lần mặt trái chiếm giá trị cao nhất, tiếp theo số lần xuất hiện từng mặt càng cao càng giảm dần khi tiến về hai phía của giá trị này
Bảng 3.2: Xác suất xuất hiện mặt phải (trái) của đồng xu
STT Mặt phải/ trái Xác xuất xuất hiện
1
2
3
4
5
6
7
8
9
1 (1/9)
2 (2/8)
3 (3/7)
4 (4/6)
5 (5/5)
6 (6/4)
7 (7/3)
8 (8/2)
9 (9/1)
0.01 0.05 0.32 0.65 0.84 0.62 0.38 0.04 0.01 Biểu diễn kết quả trên bằng đồ thị ta thấy dạng đường parabol xuất hiện (hình 3.2)
Hình 3.2: Phân bố thực nghiệm
Như vậy, nếu nối các giá trị thực nghiệm lại ta cũng thấy xuất hiện đường cong dạng parabol có cực đại tại xuất hiện mặt phải và mặt trái đều là 50%
3.6 BIÊN GIỚI TIN CẬY
1 2 3 4 5 6 7 8 9
0.0
0.2
0.4
0.6
0.8
Thi nghiem
B ###
Trang 6Biên giới tin cậy là khoảng giá trị trong đó chứa giá trị thực µ Nếu sai số ngẫu nhiên tuân theo phân bố chuẩn thì có thể xác định được biên giới tin cậy
µ = ± 0,67 với xác suất 50%
µ = ± 1,96 với xác suất 95%
µ = ± 2,58 với xác suất 99%
Tuy nhiên số thí nghiệm thường nhỏ, phải dùng chuẩn Student để xác định biên giới tin
cậy Chuẩn Student được tính theo công thức:
= ; từ đây rút ra:
trong đó e là biên giới tin cậy
Bảng 3.3: Giá trị t với xác suất P và số bậc tự do K
1
2
3
4
5
6
7
8
9
10
15
20
6,31 2,92 2,35 2,13 2,01 1,94 1,89 1,86 1,83 1,81 1,75 1,73
12,7 4,3 3,18 2,78 2,57 2,45 2,36 2,31 2,26 2,23 2,13 2,06
63,7 9,92 5,84 4,60 4,03 3,71 3,5 3,36 3,25 3,17 2,95 2,79
3.7 SỬ DỤNG CÁC CÔNG CỤ CHUẨN ĐỂ XỬ LÝ CÁC SỐ LIỆU
3.7.1 Chuẩn Đisơn (loại bỏ các số liệu sai thô):
Trong thực tế, các số liệu thực nghiệm thu được không phải lúc nào cũng tuân theo ý muốn Những sai số ngẫu nhiên không theo một quy luật nào, nhưng điều trở ngại mhất là các số liệu quá sai lệch so với các số liệu còn lại Các số liệu đó ta gọi là
x
n
s
x
n
s
x
n
s
x S
x
S
x-µ
ε x μ : hay n
tS x
Trang 7các số liệu sai thô Nếu để các số liệu này trong dãy số liệu thu được mà dem xử lý thì
kết quả không phản ánh đúng giá trị thực của phép đo Để loại trừ các số liệu sai thô, Dison đưa ra công thức sau để tìm giá trị Q thực nghiệm, viết tắt là QTN:
(3.11)
xn là giá trị cần kiểm tra Sau khi có giá trị QTN, đem so với giá trị Q lý thuyết (QLT) đã được tính theo bảng sau:
Bảng 3.4: Giá trị Q với các xác suất P
3
4
5
6
7
8
0,98 0,68 0,56 0,48 0,43 0,40
0,94 0,77 0,64 0,56 0,51 0,48
0,99 0,89 0,76 0,70 0,64 0,58 Nếu QTN> QLT, ta nói giá trị đo thu được (xn) quá sai lệch hay sai thô, phải loại
bỏ, ngược lại nếu QTN < QLT, ta nói số liệu thu được chấp nhận được
Thí dụ 3.3: Phân tích hàm lượng Pb trong mẫu, có dãy số liệu
Bảng 3.5: Phân tích Pb
1
2
3
4
5
6
2,11 2,19 2.25 2,32 2,38 3,21
3.7.2 Chuẩn Fisơ
Một kết quả phân tích có thể mang một ý nghĩa lớn, thí dụ chỉ tiêu phân tích cho một một hợp đồng kinh tế lớn, một vụ trọng án hay một kỳ thi thể thao lớn Như vậy kết quả phân tích cần phải được xem xét kỹ, kết quả phải đúng và chính xác Thông thường, người ta có thể dùng hai phương pháp để so sánh, đôi khi có thể dùng hai hay nhiều phòng thí nghiệm để so sánh
Chuẩn Fisơ dựa trên việc so sánh phương sai của hai tập số liệu hay hai phương pháp trên một chỉ tiêu thí nghiệm Hai phương sai trùng nhau là rất hiếm, trong trường
min max
1
x x
x x
xmax= 3,21; xmin= 2,11
Theo bảng n=6; P=95% Q=0,56 Như vậy Qtn>Qlt phải loại giá trị 3,21 Còn 5 số liệu đều sử dụng được
85 , 0 11 , 2 21 , 3
38 , 2 21 , 3
=
-=
Q
Trang 8hợp lệch nhau, thì mức độ nào có thể cho phép? Tiêu chuẩn Fisơ đưa ra các giá trị nhất định tương ứng với số bậc tự do tương ứng với độ tin cậy P=0,95 Biểu thức Fisơ:
trong đó S1 , S2 là phương sai của phương pháp 1 và phương pháp 2
Bảng 3.6: Giá trị F lý thuyết với P=0,95 và các bậc tự do của 2 phương pháp
2
3
4
5
6
7
8
9
10
11
12
15
20
19 9,55 6,94 5,79 5,14 4,74 4,46 4,26 4,10 3,98 2,88 3,98 3,49
19,16 9,28 6,59 5,41 4,76 4,35 4,07 3,86 3,71 3,59 3,49 3,29 3,10
19,25 9,12 6,39 5,19 4,53 4,12 3,84 3,63 3,48 3,36 3,26 3,06 2,87
19,3 9,01 6,26 5,05 4,39 3,97 3,69 3,48 3,33 3,20 3,11 2,90 2,71
19,33 8,94 6,16 4,95 4,28 3,87 3,57 3,37 3,22 3,09 3,00 2,79 2,60
19,37 8,84 6,04 4,82 4,15 3,73 3,44 3,23 3,07 2,95 2,85 2,64 2,45
19,39 8,78 5,96 4,74 4,06 3,63 3,34 3,13 2,97 2,86 2,76 2,55 2,35
19,41 8,74 5,91 4,68 4,00 3,57 3,28 3,07 2,91 2,79 2,69 2,48 2,28 Nếu Ftn < Flt thì 2 phương pháp đồng nhất
Nếu Ftn > Flt thì 2 phương pháp không đồng nhất
3.7.3 Dùng chuẩn Student để kiểm đánh giá phương pháp
Một trong các ứng dụng của chuẩn Student là đánh giá sai số hệ thống Khi sử dụng công cụ này, dựa vào độ lệch giữa giá trị trung bình và giá trị thực hoặc so sánh các giá trị trung bình của các phương pháp ta biết được phương pháp có mắc sai số hệ thống không hoặc có đồng nhất không Có ba kiểu đánh giá theo chuẩn student:
a) So sánh dãy số thí nghiệm có giá trị trung bình và độ lệch chuẩn của nó với giá trị thực, tìm ra được giá trị “t” thực nghiệm Tra bảng để có giá trị “t” lí thuyết từ đó rút ra kết luận về sai số của các phương pháp Chuẩn student có công thức:
Nếu ttn>tlt có nghĩa là và µ khác nhau nhiều nên mắc sai số hệ thống
Nếu ttn<tlt có nghĩa là và µ không khác nhau nhiều nên không mắc sai số hệ thống
2 2
2 1
S
S
x S
x
S
x-µ
x x
Trang 9Thí dụ 3.4 Khi phân tích sunfua trong các mẫu than theo phương pháp mới có các kết
quả: 3,29; 3,22; 3,30 và 3,23 % Tuy nhiên một phương pháp tiêu chuẩn khác đã tìm được hàm lượng sunfua là 3,19% Đánh giá phương pháp mới có mắc sai số hệ thống không
Giải: = 3,26
Áp dụng công thức 11.13 ta có
Theo bảng t khi sử dụng độ tin cậy 95% và số bậc tự do 3 có tLT = 3,18 Như vậy
tTN lớn hơn tLT, hai phương pháp không đồng nhất, phương pháp đo mới mắc sai số hệ thống
b) Hai phương pháp đo trên một mẫu phân tích cho hai dãy kết quả, hoặc một phương pháp đo cho hai mẫu phân tích cũng cho hai dãy kết quả Giá trị “tTN” được xác định theo công thức:
trong đó Stc là độ lệch chuẩn tổng cộng được tính theo công thức:
Từ tTN và tLT cũng là cơ sở để đánh giá sự đồng nhất của hai phương pháp
Thí dụ 3.5 Thí nghiệm của Lord Rayleigh xác định tỷ trọng khí nitơ trong không khí
và khí nitơ điều chế theo phương pháp hoá học, cho hai dãy số liệu sau:
Dãy1 từ không khí Dãy 2 từ phản ứng hoá học
2,29889 = 2,31011 = 2,29947
S1 = 0,00014 S2 = 0,00138
x
3
19 , 3 23 , 3 19 , 3 30 , 3 19 , 3 22 , 3 19 , 3 29
,
4 04 , 0
19 , 3 26 ,
-2 1
2 1 2 1
n n
n n S
x x
2
1 1
2
2 2 1
2 1 2
1
2 2
2 1
-+
-+
-=
-+
-+
n n
n S n
S n
n
x x x
1
Trang 10Stc = = 0,00102
=20,2 Với bậc tự do 7 + 8 - 2 =13 và độ tin cậy 95%, tLT có giá trị nằm trong khoảng 2,23 đến 2,13 như vậy tTN lớn hơn tLT điều đó chứng tỏ rằng hai khí nitơ không đồng nhất và sau
đó tác giả phát hiện ra khí nitơ điều chế từ không khí còn chứa tạp chất argon
c) Dùng hai phương pháp khác nhau để đo nhiều mẫu nhưng mỗi mẫu đo một lần với 1 phương pháp Dùng tTN được tính theo công thức:
trong đó là độ lệch trung bình của tất cả các phép đo đối với hai phương pháp, n
là số cặp thực nghiệm, Sd được xác định theo biểu thức:
(3.17)
Thí dụ 3.6 Hai phương pháp A và B xác định các mẫu colesterol cho các kết quả sau:
Bảng 3.7: Phân tích colesterol trong máu
Mẫu Phương pháp A Phương pháp B Độ lệch di
1
2
3
4
5
6
1,46 2,22 2,84 1,97 1,13 2,35
1,42 2,38 2,67 1,80 1,09 2,25
0,04 -0,16 0,17 0,17 0,04 0,10 = + 0,06 Giải:
= 0,12
tTN =
Tra bảng khi áp dụng độ tin cậy 95%, bậc tự do bằng 5 có tLT = 2,57
Như vậy kết luận hai phương pháp A và B đòng nhất về mặt kỹ thuật
3.7.4 Hệ số tương quan r để so sánh hai phương pháp
Có 2 dãy số liệu : x1 x2 x3 x4 x5 và
y1 y2 y3 y4 y5
( ) ( ) ( ) ( )
2 8 7
1 8 00138 , 0 1 7 00014
,
-+
-+
-8 7
8 7 00102
,
0
29947 , 2 31011
.
2
+
t tc
n S
d
t
d
TN =
d
1
2
n
d d
d
i d
1 6
06 , 0 10 , 0 06 , 0 17 , 0 2 06 , 0 16 , 0 06
, 0 04
,
-+
-+
-+
-=
d
S
20 , 1 6
12
,
0
06
,
Trang 11Dãy x có đại lượng trung bình , dãy y có đại lượng Hệ số tương quan r được định nghĩa:
(3.18)
Để thuận tiện cho tính toán ta dùng phương trình sau:
với -1 £ r £ +1
• Khi 0,9 < r < 0,95 chỉ ra hai dãy số có sự đồng nhất vừa phải
• Khi 0,95 < r < 0,99 chỉ ra hai dãy số có sự đồng nhất tốt
• Khi r > 0,99 có thể xem hệ số tương quan rất tốt
Thí dụ 3.7: Khi phân tích ure trong máu bằng hai phương pháp quang thu được 2 dãy
số liệu, dãy A của phương pháp A và dãy B của phương pháp tiêu chuẩn, có các số liệu sau:
Bảng 3.8: Phân tích ure trong máu
(chuẩn)
1
2
3
4
5
6
10,2 12,7 8,6 17,5 11,2 11,5
10,5 11,9 8,7 16,9 10,9 11,1
-0,3 0,8 -0,1 0,6 0,3 0,4
-0,6 0,5 -0,4 0,3 0,0 0,1
0,36 0,25 0,16 0,09 0,00 0,01
S(xi)2 = 903,2; S(yi)2 = 855,2 ; S(xi yi) = 878,5
Áp dụng phương trình 3.19 có
Kết luận hai phương pháp A và B đồng nhất hay phương pháp A tương đương phương pháp tiêu chuẩn
3.7.5 Phương pháp bình phương tối thiểu để biểu diễn phương trình đường chuẩn
Khi lập dãy số liệu biểu diễn sự phụ thuộc tuyến tính giữa tín hiệu đo vào nồng độ chất, ta có phương trình: yi = axi + b
-=
y x
i i
S nS
y y x x
å
-=
) ).(
(
.
2 2 2
2 n x y n y x
y x n y x r
i i
i i
) (D i -D
99 , 0 ] ) 7 , 11 )
6 ( 2 , 855 ].[
) 0 , 12 ).(
6 ( 2 , 903 [
) 7 , 11 ).(
0 , 12 ).(
6 ( 5 , 878
2
-=
r