Chương II XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH HOÁ SỐ LIỆU STATISTICS FOR CHEMISTS XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH HOÁ SỐ LIỆU STATISTICS FOR CHEMISTS MỤC ĐÍCH Khi tiến hành các thí nghiệm ta thu được nhiều số liệu.
Trang 1XỬ LÝ SỐ LIỆU VÀ QUY HOẠCH HOÁ SỐ LIỆU
STATISTICS FOR CHEMISTS
MỤC ĐÍCH:
Khi tiến hành các thí nghiệm ta thu được nhiều số liệu gọi là tập sốliệu thực nghiệm (SLTN) (Data set)
Các vấn đề đặt ra đối với KQTN trên là:
Độ tin cậy của các giá trị trên như thế nào? (sai số, % )
Yếu tố ảnh hưởng đến KQTN như: pH; C; t0;… ảnh hưởng đếnhiệu suất phản ứng?
Có thể biểu diễn các ảnh hưởng bằng phương trình toán họcđược không (mô hình hoá thí nghiệm)?
Điều kiện tối ưu để thu được KQTN tốt nhất (tối ưu hoá thínghiệm – Experimental Optimization)?
Tất cả những câu hỏi trên đề có thể giải quyết được bằng phươngpháp thống kê
Chương I MỘT SỐ KHÁI NIỆM CƠ BẢN
KQTN và sai số đi kèm là đại lượng ngẫu nhiên (nhận giá trị bất kỳtrong khoảng xác định) Mỗi đại lượng ngẫu nhiên (ĐLNN) có hai đặctrưng cơ bản đó là “Tâm” của nó (giá trị trung bình) và độ phân tán củacác kết quả của nó
Vậy, các đại lượng mô tả tâm / độ phân tán là gì?
I.1 Giá trị trung bình: Mô tả “tâm” của ĐLNN/ tập SLTN.
1 Trung bình số học (Mean):
Đây là đại lượng thường được dùng nhất trong thống kê
Ta tiến hành n thí nghiệm thu được các kết quả: x1, x2,…, xn Thìtrung bình số học được tính theo công thức:
Tính chất: Tổng các độ lệch bằng 0:
Trang 2hay ; với n là số thí nghiệm n < 30
Phương sai là đại lượng mô tả sự lặp lại hoặc sự phân tán các số
liệu thực nghiệm Với n – 1 là bậc tự do (Freedom degree) (nếu biết được
n -1 độ lệch thì ta tìm được độ lệch còn lại; bậc tự do là n -1 với ý nghĩa
là có n -1 số liệu tự do nhưng số liệu còn lại chịu ràng buộc để tổng độ lệch bằng không ( )).
(Phương sai khó hình dung vì nó có thứ nguyên bình phương)
Tính chất của phương sai: ( )
Trang 3Hệ quả: một KQTN thường mắc sai số do nhiều nguyên nhânkhác nhau như: - Bản thân phương pháp đo:
- Kỹ thuật lấy mẫu (mẫu có đại diện không?)
- Thời gian lấy mẫu, không gian,……….: ,…
Như vậy sai số tổng cộng bằng tổng các sai số:
Nếu các giá trị đo cho hàm số y = f(x1, x2,…, xi, , xn) thì
3 Độ lệch chuẩn (SD: Standard Deviatim):
Ký hiệu là (nếu n > 30) hoặc S (nếu n < 30)
, S mô tả tốt nhất độ lặp lại / độ phân tán KQTN (ĐLNN) vì cóthứ nguyên trùng với thứ nguyên của đại lượng đo (Đo – Measurement;Phân tích – Analysis; Tính,….)
Thí dụ: [PbII] = (1,0 0,5)g/l (1ppb = g/l)
( ppm: Parst Per Million: phần triệu (10 -6 )
(ppb: Parst Per Billion : phần tỷ(10 -9 )
(ppt: Parst Per trillion : phần nghìn tỷ(10 -12 )
Vấn đề đặt ra là khi xác định nồng độ thì RSD bằng bao nhiêu thì
chấp nhận được (Trace Analysis: phân tích vết C ppm; Ultra Trace Analysis: phân tích siêu vết C ppb).
Để trả lời câu hỏi trên, người ta thấy giữa C và RSD có mối quan
hệ theo hàm Horwitz.
Trang 4I.3 Sai số (Erorr):
Là độ lệch giữa đại lượng đo và giá trị thực của nó:
Sai số = x -
Trong thực tế thường ta không biết được giá trị thực của đạilượng đo Do vậy, để mô tả sai số người ta dùng S, RSD, CV, (biên giớitin cậy), U (Uncertrainty: độ bất ổn định / độ không đảm bảo đo/ độkhông chắc chắn/ độ không xác định / sai số mở rộng của đại lượng đo)
Để xác định giá trị thực của đại lượng đo, theo quy định quốc
tế ta phải phân tích mẫu chuẩn hay mẫu vật liệu so sánh được cấp chứng
chỉ (mẫu CRMs: Certified Refference Materials) (Mẫu CRMs được một
số hãng trên thế giới sản suất)
Thông thường, để giảm SSNN người ta thường tăng số thínghiêm lên
% % 0 ppm ppb …
Trang 5(2)Sai số hệ thống (SSHT) – Systematic Erorr/ Determinate Erorr:
là những sai số nằm về một phía của giá trị thực (hay giá trịtrung bình ); nó có thể âm hoặc dương
Nguyên nhân: - Do hoá chất bẩn
- Do thiết bị không chính xác
- Do bản thân phương pháp
- D kỹ năng theo tác …
Để giảm SSHT cần kiểm soát các nguyên nhân trên
(3)Sai số thô – Outlier
Thí dụ: [Cu II ] = (0,10,2)ppb
[Pb II ] = (5,00,5)ppb
So sánh xem phép xác định nào chính xác hơn?
Như vậy phép xác định Pb II chính xác hơn Mặc dù S Cu(II) <
S Pb(II)
+ Độ lặp lại – Precision: có 2 trường hợp:
- Thí nghiệm trong điều kiện đồng nhất (cùng thời gian, thiết bị, hoá chất, 1 người làm) Độ lặp lại – Repeatability
- Thí nghiệm trong điều kiện không đồng nhất Độ thu hồi/ độ phục hồi – Reproducility (khác với độ thu hồi - Recovery: thường dùng để đánh giá phép đo).
Thí dụ: Khi đo mẫu Pb II : Lần 1 mẫu Pb II ta đo được [Pb II ]= 1,0 ppb
Trang 6Lần 2 mẫu Pb II + 0,5ppb ta đo được [Pb II ]= 1,3 ppb
(Spike: thêm ít; Addition: thêm nhiều)
Kết luận:
Để đánh giá độ đúng (accuracy), người ta có thể tiến hành 1 trong 3hoặc cả 3 cách sau:
+ Phân tích mẫu chuẩn CRMs
+ Thêm chất phân tích vào mẫu (Spike) rồi xác định độ thu hồi.+ Phân tích bằng phương pháp chuẩn để so sánh kết quả đo đượcvới kết quả đo của phương pháp chuẩn
Cách lấy con số có nghĩa:
Trong Hoá học, kết quả thí nghiệm thu được luôn mắc sai số Vìvậy, việc lấy giữ lại những con số có nghĩa hết sức quan trọng
Con số có nghĩa là con số được biểu diễn sao cho chỉ có con số cuối cùng là sai, nghã là các số đứng trước đó là những con số đúng.
Để giữ lại con số có nghĩa, chúng ta phải dựa vào độ lệch chuẩn Shay RSD
Nếu không có S, RSD thì ta dựa vào hàm Horwitz:
Trang 7Như vậy sai số của kết quả đo phải sao cho bằng với sai sốlớn nhất của các con số, nghĩa là kết quả y = 7,2 hay nói cách khác
là sai số của V quyết định sai số của phép đo Khi đó Sy = 1/72
Độ tin cậy của một phép đo được đánh giá
qua các thông số sau:
+ Độ lặp lại: S, RSD/ CV
+ Độ nhạy (Sensitivity) Độ dốc của đường
chuẩn = Nếu hệ số góc b càng lớn thì độ nhạy
càng cao và ngược lại
+ Giới hạn phát hiện (DL: Detection Limit):
mô tả khả năng định tính của phương pháp
DL là nồng độ nhỏ nhất của chất phân tích mà ta có thể phát hiệnđược một cách tin cậy
Thực tế ta nên xác định ở giới hạn định lượng (QL: QuantitationLimit)
QL = 3 ÷ 4 DL
I.4 Phân bố.
1 Phân bố thực nghiệm.
Thực hiện thí nghiệm thu được KQTN: x1, x2, …, xn
Vấn đề đặt ra là các kết quả phân bố như thế nào?
Để xác định sự phân bố của các KQTN người ta tiến hành như sau: Chia các SLTN thành các khoảng d tương đương nhau:
Xác định tần xuất của SLTN trong khoảng di xác định
; ni: là số lần xuất hiện kết quả xi trongkhoảng di
Biểu diễn kết quả lên hệ toạ độ: ni = f(xi)
Trang 8- Nếu xi gần với thì có tần xuất max.
- Phân bố các KQTN thông thường là đối xứng KQTNtốt; nhưng đôi khi các KQTN cũng phân bố lệch Để trở
P: được gọi là xác xuất tin cậy (Confidence Prob)
= 68%; 95%;… được gọi là độ tin cậy/ mức tin cậy (ConfidenceLevel)
Trang 9 Ở P hay càng cao thì sai số càng lớn Thông thường người tahay chấp nhận ở = 95%; P = 0,95 Người ta lấy biên giới 3 để phânbiệt SSHT và SSNN (ngoài miền là SSHT không chấp nhận được; trongmiền là SSNN).
Hàm y chính là hàm xác xuất phụ thuộc vào hai biến và ( p
Biết u P; Biết P u
Lưu ý:
+ Đại lượng u trong thực tế kiểm tra nội nghiệm và kiểm tra liên nghiệm thì đại lượng này được gọi là “Zscore” Z 2 là tốt nhất (chất lượng phòng thí nghiệm là tốt); còn nếu phòng thí nghiệm có Z >
2 là PTN có chất lượng tồi.
+ Trong thực tế rất ít khi số phòng thí nghiệm tham gia phân tích
> 30 (n > 30) nên phân bố chuẩn có ý nghĩa lý thuyết ít dùng trong đánh giá số liệu.
Khi biết các giá trị riêng lẻ của đại lượng đo (ĐLNN) ta tínhđược độ lệch chuẩn (ĐLNN) có
Khi đo cùng một mẫu: n =3
Trang 10Thí dụ: Điểm trung bình của lớp với 50 HS là 7,2 1,0 (n = 50)
Từ phân bố chuẩn ta có thể xác định được biên giới tin cậy :
Khi biểu diễn KQTN người ta thường ghi xác xuất tin cậy
Thí dụ:
Đối với giá trị trung bình:
Thường trong thực tế người ta biểu diễn:
b Phân bố Student (phân bố t):
Trong thực tế người ta thường tiến hành với
số thí nghiệm n nhỏ nên không thể dùng phân bố
chuẩn để đánh giá KQTN (vì sai lệch nhiều) Trong
trường hợp này, người ta đề nghị dùng phân bố
Student để đánh giá KQTN (bù lại sai lệch khi đánh
giá qua phân bố chuẩn)
Hàm phân bố phức tạp chứa biến t
(chuẩn t/ chuẩn Student) và biến f (bậc tự do)
Dạng phân bố t tương tự phân bố chuẩn nhưng phụ thuộc vào f flớn (n lớn) phân bố t tiến tới phân bố chuẩn
Chuẩn t:
;
t = f(p,f = n-1) người ta lập bảng tra cứu
Nếu P = const f tăng t giảmNếu f = const P tăng t tăng
Lưu ý: S và t phải cùng bậc từ do.
Trang 11c Phân bố Fischer (phân bố F):
Tiến hành thí nghiệm với: n1
phương sai lớn trên tử số
d Phân bố “khi bình phương” ( 2 ).
Vấn đề: Có quần thể phương sai 2 Nếu
lấy mẫu trong quần thể đó để đo (với n nhỏ) S2 Vấn
đề đặt ra là độ lặp lại 2 và S2 có giống nhau không?
Để trả lời câu hỏi này người ta sử dụng phân
Chương II XỬ LÝ VÀ KIỂM TRA SỐ LIỆU THỰC NGHIỆM
II.1 Xử lý số liệu thực nghiệm:
1 Bài toán 1: Xác định khoảng tin cậy/biên giới tin cậy ( )
Chưa biết độ lệch chuẩn S:
Trang 12Bài toán: Tiến hành thí nghiệm n lần thu được kết n quả x1,
Lưu ý: việc xác định hay S ở đây , S là của phép đo (Method) và
chấp nhận phép đo chỉ mắc sai số ngẫu nhiên.
Trong thực tế để đo một đại lượng nào đó cần phải làm nhiều công đoạn:
- Lấy mẫu (mắc sai số do lấy mẫu (S spl : Sampling))
- Xử lý mẫu, đo, xử lý số liệu, báo cáo kết quả (mắc sai số phép đo – measurement S Meas
Như vậy sai số phương pháp sẽ là: S 2 =S 2
spl +S 2 meas Tuy nhiên, khi lấy sai số S, của phép đo đã giả thiết bỏ qua S spl
Thực tế nhiều trường hợp sai số lấy mẫu rất lớn do đó nó quyết định đến sai số của phép đo (Procedure: quy trình, thủ tục) dẫn đến:
Hệ quả: Nếu sai số lấy mẫu rất lớn quyết định sai số phương pháp thì không cần phải sử dụng phép đo chính xác và ngược lại.
Một vấn đề dặt ra là các mẫu khác nhau có ảnh hưởng đến kết quả
đo hay không? Để trả lời câu hỏi này ta phải dùng phương pháp phân tích phương sai (ANOVA: Analysis Of Variance)
Trang 132 Bài toán 2: Xác định số thí nghiệm (n) để khi dùng phươngpháp nào đó có S (hoặc RSD) không mắc sai số vượt quá giới hạn chophép.
Cụ thể: Giả sử cần đo đại lượng bằng phương pháp có S/RSD.Yêu cầu sai số đo (sai số tuyệt đối/tương đối) nào đó
Giải:
Chú ý: Nếu cho trước RSD, thì ta có thể tính được
; n là số thí nghiệm nên phải được làm tròn.
Thí dụ: Xác định % Fe2O3 trong ddaats cowx 1% ÷ 5% bằngphương pháp chuẩn độ Complexom (dùng Complexom II/ trilon B
Na2H2Y) có RSD(%) = 2,0% Hỏi phảp tiến hành bao nhiêu thí nghiệm đểsai số không quá 5% (chấp nhận không măc sai số khi lấy mẫu)
Giải: - Tính :
- Tính n:
Bài toán 3: Chọn phương pháp đo/ phân tích
Nội dung: Chon phương pháp nào trong các phương pháp A, B, C,D,… để đo nào đó sao cho với n thí nghiệm thì đạt được sai số mongmuốn ( ) (tương đối, tuyệt đối)
Trang 14Hiểu rằng đã tiến hành số thí nghiệm rất lớn CVi/Si ứng với n
pháp có CVi< CV* (hoặc so sánh Si với S* chọn phương pháp có Si <
S*)
* Thực tế, trong các tài liệu về các phương pháp đo công bố S(hoặc CV) ứng với nào đó Thực tế dao động trong khoảng rộng người đo/ phân tích phải xác định lại S (CV) ứng với khoảng cần đo Phức tạp, khó so sánh kết quả đo Do vậy, người ta đề nghị chọnphương pháp có hiệu lực (VAM: Valiđate Analysis Measurement) Tính pháp lý cao
Lưu ý:
+ Trong GLP (Good Laboratory Practice ) bắt buộc dùng phươngpháp VAM
+ Để có một phương pháp VAM phải trải qua 3 giai đoạn
- GĐ1: Nghiên cứu trong nội bộ PTN đưa ra phươngpháp mới
- GĐ2: Áp dụng phương pháp mới đó cho nhiều PTN đểxem phương pháp này có tốt không (độ lặp lại, độ đúng,
độ hồi phục,…) Phân tích một hoặc một vài kiểu mẫu
- GĐ3: Áp dụng phương pháp mới cho nhiều PTN nhưngphân tích nhiều kiểu mẫu khác nhau trong một khoảngthời gian, không gian xác định (vài tháng, 1 năm) xem cótốt không
Nếu tốt thừa nhận là VAM
II.2 Kiểm tra số liệu thực nghiệm.
Nguyên tắc chung: Nhiều khi ta cần phải so sánh hai kết quả đo:+ (của một phương pháp nào đó) với (mẫu CRMs)
+ (của người này/ phương pháp/PTN /ngày….) với (của ngườikhác/ phương pháp/PTN /ngày…khác)
Để giải quyết vấn đề: Tiến hành “KIỂM TRA GIẢ THIẾTTHỐNG KÊ (Significance)” làm thế nào để KTGTTK
Chấp nhận giả thiết H0
Đánh giá độ đúng của giả thiết H0
Trang 15 Tính được (áp dụng thống kê xác suất) xác suất loại bỏ H0/ bác
bỏ H0
Xác suất này gọi là mức ý nghĩa P hoặc (%)
(t) = f (t;f) từ t,f
So sánh P với “chuẩn” nào đó để đánh giá giả thiết H0
Trong thực tế, người ta đi tính chuẩn thống kê (t, F, 2) từ các sốliệu thực nghiệm (SLTN) đã thu được ta được các giá trị ttính, Ftính, 2 tính,…sau đó tra bảng để xác định các chuẩn thống kê ở mức ý nghĩa nào đó t(p;f); F(p; f1; f2; ); … sau đó so sánh giá trị các chuẩn thống kê tính đượcvới chuẩn thống kê tra bảng trên rồi đi đến nhận xét/ kết luận
Nếu ttính < t(p;f) thì ta chấp nhận giả thiết H0 – hai đại lượng sosánh không khác nhau / không khác nhau có ý nghĩa về mặt thống kê; haynói cách khác là chỉ mắc sai số ngẫu nhiên chứ không mắc sai số hệthống
Ngược lại, nếu ttính > t(p;f) thì ta bác bỏ giả thiết H0; chấp nhậngiả thiết thay thế Ha (Alternative) Kết luận hai đại lượng đo khác nhauhay mắc sai số hệ thống
Chú ý:
Trong thống kê, khi đúng mà kết luận là sai; khi có mà kết luận
là không ta gọi là sai số loại 1 Ngược lại, khi sai mà kết luận là đúng, khi không mà kết luận là có ta gọi là sai số loại 2.
Trong nghiên cứu, người ta mong
cả ss loại 1 và ss loại 2 luôn nhỏ; nhưng
nhỏ đến mức nào thì tuỳ thuộc vào người
nghiên cứu (thí dụ: ở Mỹ chấp nhận 7%
p=0,07; ở châu Á, EU: 5% p=0,05)
Nhiều báo cáo kết quả người ta
ghi mức ý nghĩa p đi kèm.
0,001 0,09 Khi chấp nhận H 0 tức là không có cơ sở để bác bỏ H 0 chứ chưa chắc đã là đúng.
Mẫu trắng Mẫu
1 =0 2 0
ss loại 2 ss loại 1 Xác suất
Biến x
Trang 16Nghiên cứu ảnh hưởng của yếu tố đến đại lượng đo.
(TD: khi mẫu chứa CuII; đo CuII thu được ; khi mẫu chứa CuII và
PbII; đo CuII thu được So sánh PbII có ảnh hưởng đến phép đo CuII
Trang 17Tiến hành n2 thí nghiệm thu được
Giả thiết (hay độ lặp lại như nhau)
Tính phương sai mới cho cả hai tập SLTN:
.Tính ; nếu n1 = n2 = n thì
So sánh ttính với t(p; f=n1+n2-2) ; (thí dụ ở p=0,05)
Kết luận nếu ttính < t(p; f=n1+n2-2) thì chấp nhận H0 hay
nếu ttính > t(p; f=n1+n2-2) thì bác bỏ H0 hay Chú ý: Nếu (độ lặp lại khác nhau) thì đề nghị áp dụngphương pháp gần đúng để so sánh ;
(làm tròn f)
Tiếp theo tương tự
2 Đo trên nhiều mẫu khác nhau.
Bài toán 3: Tiến hành đo một đại lượng nào đó trên nhiều mẫu cóhàm lượng hay nồng độ khác nhau bằng hai phương pháp khác nhau, haithiết bị khác nhau, hai người làm thí nghiệm
Hai phương pháp khác nhau, hai thiết bị khác nhau, hai người làmthí nghiệm có cho kết quả thí nghiệm khác nhau không?
Mục đích của bài toán là kiểm tra xem giữa Hai phương pháp khácnhau, hai thiết bị khác nhau, hai người làm thí nghiệm có mắc sai số hệthống không?
Giải:
Trang 18Tiến hành đo bằng phương pháp 1 thu được các kết quả x1; x2; ;
Nếu ttính > t(p=0,95;f=n-1) thì bác bỏ giả thiết H0 (d0) kết luận
là kết quả của hai phương pháp là khác nhau; phương pháp 2 mắc sai số
hệ thống so với phương pháp 1 (phương pháp chuẩn)
(phân tích bằng phương pháp AAS).
Hàm lượng Pb II trong hai phương pháp có khác nhau hay không?
Ta có: d i = -5 ; -7 ; 2 ; 3 và
t tính = 0,7 < t(p=0,05; f=3) = 3,18 chấp nhận giả thiết H 0 (d0) kết luận là kết quả của hai phương pháp là như nhau; phương pháp 2 không mắc sai số hệ thống so với phương pháp 1 (phương pháp chuẩn).
Khái niệm về kiểm tra (Test) hai phía và một phía (2 tails ; 1 tails – 2 đuôi và 1 đuôi).
Trang 19Kiểm tra hai phía khi so sánh hai đại lượng voái nhau: ; bắt buộc phải tra chuẩn t, F, 2 (ở mứ ý nghĩa p = 0,05 ở hai phía)
Kiểm tra một phía khi biết chắc chắn một đại lượng luôn nằm về một phía của đại lượng kia TD: chuẩn độ axit bằng bazơ có thể dùng chỉ thị: phenolftalein (pT = 9) C A lớn; Metyl da cam (pT = 5) C A nhỏ.
Một phương pháp chuẩn phải cho kết quả tốt hơn về ; Một phương pháp mới phải cho kết quả tốt hơn về ( >).
Phương pháp chuẩn phải có độ lặp lại tốt; phương pháp mới có
độ lặp lại tốt hơn ( < ).
Thídụ (tr 59 – 60 / Miller): Người ta nghi ngờ rằng phương pháp
chuẩn độ axit – bazơ có thể bị mắc sai số hệ thống dương (systematicerror hay bias) Để kiểm tra, người ta chuẩn độ 25,00 ml dung dịch NaOH0,1M bằng dung dịch chuẩn axit 0,1M được kết quả như sau:
25,06 25,18 24,87 25,51 25,34 25,41 (n = 6)
Giải:
>
Kết luận: phương pháp chuẩn độ mắc sai số hệ thống
3 So sánh độ lặp lại của hai tập SLTN.
Mục đích: so sánh hai phương sai: đo trên cùng một mấu hoặc đotrên hai mẫu khác nhau
Bài toán 4:
Tiến hành n1 thí nghiệm thu được
Tiến hành n2 thí nghiệm thu được
Vấn đề? Độ lặp lại của hai thí nghiệm có như nhau không?
Giả thiết (hay độ lặp lại như nhau)
Trang 20nếu Ftính > F(p;f1;f2) thì bác bỏ giả thiết H0 hay độ lặp lại của hai thínghiệm là khác nhau.
Chú ý: Có hai trường hợp:
+ Nếu biết chắc (phương pháp 2 là phương pháp chuẩn) thì
sử dụng Test một phía (tra P một phía).
+ So sánh tra bảng P hai phía.
Phạm vi ứng dụng của bài toán:
+ Nghiên cứu ảnh hưởng của một yếu tố
+ Nghiên cứu sự phát triển của phương pháp (MethodDevelopment): so sánh của phương pháp chuẩn và phương phápmới
+ Hỗ trợ cho bài toán so sánh hai giá trị trung bình (bài toán 2) Khí làm bài toán 2, trước hết phải so sánh: So sánh hai giá trịtrung bình Nếu sử dụng phương pháp gần đúng
Thí dụ: So sánh phương pháp mới xác định COD (nhu cầu oxi hoáhọc) với phương pháp chuẩn (dùng muối HgII) khi phân tích mẫu nướcthải người ta thu được kết quả sau:
(mg/l) S (mg/l); n =8Phương pháp mới: 72 1,51
Phương pháp chuẩn: 72 3,31
Độ lặp lại của phương pháp mới có hiệu quả hơn phương phápchuẩn hay không?
Phương pháp mới có độ lặp lại cao hơn
4 So sánh phương sai mẫu với phương sai cụ thể.
Trang 215 Loại trừ các giá trị mắc sai số thô (Outlier):
Vấn đề đặt ra là khi ta tiến hành thí nghiệm thu được các kết quả
x1, x2,…., xn Nếu có một vài giá trị xi quá lớn hoặc quá nhỏ thì khi tínhtrung bình số học sẽ không đại diện cho tập SLTN đó Vậy, có thể loại bỏđược các giá trị đó không?
Để giải bái toán này người ta áp dụng chuẩn Bixon (Q) (với n <10)
KQTN: 0,403;0,410;0,401;0,380;0,400;0,413;0,411
Giá trị 0,380 có loại bỏ được không?
Chú ý: Trong trường hợp chỉ có 3 giá trị và các giá trị này khác
nhau nhiều thì không nên áp dụng chuẩn Q để loại bỏ giá trị nghi vấn mà sắp xếp theo giá trị tăng dần rồi chọn giá trị đứng giữa làm giá trị đại diện cho tập SLTN đó.
II.3 Sai số của đại lượng đo gián tiếp
Vấn đề đặt ra: Để đánh giá SLTN thông thường ta đo n lần x1,
x2,…., xn Nhưng trong thực tế khi ta đo 1 lần 1 kết quả y Vậy sai sốcủa y như thế nào?
Trong hoá học, y thường là đại lượng đo gián tiếp
Thí dụ:
Trong phương pháp chuẩn độ:
Trang 22Trong phân tích trắc quang: A = a + bC.
Trong phân tích điện hoá: I = a + bC…
Thì C, là đại lượng đo gián tiếp; A, I, V là đại lượng đo trựctiếp
Tổng quát: Nếu y là đại lượng đo gián tiếp; x1, x2,…., xn là đạilượng đo trực tiếp thì y = f(x1, x2,…., xn) = f(xi)
(còn nữa bổ sung sau)
(Correlation and Regression)
Mục đích: trong hoá học phân tích, 95% công việc trong phòng thí
nghiệm là phân tích công cụ Khi định lượng theo phương pháp phân tíchcông cụ (Quantitation) ta áp dụng nhiều phương pháp (cách):
1 Phương pháp đường chuẩn (calibration curre):
2 Phương pháp thêm (Additon method):
Đo lần 1: Sx= a + bCx (a)
Đo lần 2: S = a + b(Cx+Cthêm) (b)Giải (a) và (b) ta thu được Cx (có thể bổ qua a rồi lấy(a)/(b))
Ta có:
3 Phương pháp thêm chuẩn (Standard Additon method):
S (Signal)
C
Trang 234 Phương pháp khác.
Lưu ý: Phương pháp (1) & (2) thường áp dụng để xác định khoảng
nồng độ từ 10 -3 ÷ 10 -6 M (nếu nồng độ > 10 -3 người ta dùng phương pháp chuẩn độ); Phương pháp (3) thường áp dụng để xác định khoảng nồng độ từ < 10 -6 M (10 -6 =1ppm : phân tích vết; ≤ 1ppb: phân tích siêu vết)
Vấn đề đặt ra:
- Với tất cả 3 phương pháp trên S tuyến tính với Cx?
- Phương trình y = a + bx có dạng như thế nào? (đường tốt nhất
đi qua các điểm là đường như thế nào?) Cần xác định a & b ;còn x, y đo được bằng thực nghiệm (a, b được xác định từ cácgiá trị thực nghiệm yi, xi)
- Sai số của a, b như thế nào?
- x được xác định theo đường chuẩn (y = a + bx) mắc sai số baonhiêu? ( )
Giải quyết vấn đề: Bằng phương pháp tương quan và hồi quy.
Phương trình y = a + bx được gọi là phương trình hối quy tuyến tính của
y theo x
Chú ý: + Khi xây dựng phương trình hối quy tuyến tính y = a + bx,
x thường là nồng độ các dung dịch chất phân tích (dd chuẩn hoặc dd cần xác định) do vậy mắc sai số rất nhỏ; còn y là tín hiệu đo thường mắc sai
số lớn hơn.
+ Việc xác định phương trình hồi quy có thể áp dụng cho nhiều trường hợp khác: Hồi quy phi tuyến tính giữa y và x; Áp dụng trong phương pháp phân tích công cụ; Xét tương quan giữa hai thành phần trong mẫu hoặc giữa hai đại lượng.
C x
Trang 24III.1 Hệ số tương quan (r):
Để xét xem giữa y và x có tương quan tuyến tính với nhaukhông người ta phải tính r
Nếu r →1 thì y và x càc tuyến tính càng tốt (│r│<1)
Nếu r < 0 thì x tăng → y giảm
Nếu r > 0 thì x tăng → y tăng
Khi r < 0,7 thì giữa x và y có tương quan lỏng lẻo
Khi r > 0,7 thì giữa x và y có tương quan chặt chẽ
Khi r = 0 thì giữa x và y không có tương quan tuyến tính; có thể cótương quan phi tuyến tính
Khi r = 1 thì giữa x và y hiển nhiên có tương quan tuyến tính chặtchẽ Để khẳng định là tương quan tuyến tính người ta phải xét chuẩn t
so sánh với ttra bảng (ở p hai phía, f = n-2 thông thườngp=0,95)
Giả thiết H 0: x và y không có tương quan tuyến tính (t, r càng lớncàng tốt)
Nếu ttính > t (p;f) thì ta bác bỏ H0 x và y có tương quan tuyến tính.Nếu ttính < t (p;f) thì ta chấp nhận H0 tuy nhiên có thể có mối tươngquan phi tuyến tính
III.2 Hồi quy tuyến tính y theo x.
Mục đích: Xác định phương trình hồi quy tuyến tính y = a + bx(xây dựng đường hồi quy tốt nhất)
Trang 25Giải: Tiến hành thí nghiệm ta thu được các cặp giá trị (x1, y1), (xn,yn).
Để xây dựng phương trình hồi
quy tuyến tính người ta áp dụng phương
pháp bình phương tối thiểu (bình
Tính : (vì a, b là những đại lượng đo gián tiếp nên mắc sai
số phụ thuộc vào sai số của y ; x không mắc sai số theo giả thiết)
Áp dụng công thức sai số gián tiếp:
chấp nhận Biến đổi ta có:
(f = n-2 vì xi và yi bị ràng buộc bởi hai biến a và b)
được gọi là y- residues Sy → Sresidues
(1) (2)
Y: Giá trị lý thuyết.
y: Giá trị thực nghiệm
Trang 26; ; t(p=0,95; f=n-2) (vì Sa, Sb phụthuộc vào Sy có n-2 bậc tự do)
Khi đó phương trình hồi quy có thể viết:
Chú ý: + Hồi quy x theo y tương tự (cần lưu ý: trục tung biểu diễn đại
lượng mắc sai số lớn hơn; trục hoành biểu diễn đại lượng mắc sai số nhỏ hơn có thể bỏ qua sai số)
+ Trong trường hợp a rất nhỏ thì cần xét xem có vẽ được đường hồi quy tuyến tính đi qua gốc toạ độ không?
Giải: Giả sử vẽ được đường hồi quy tuyến tính y’ = b’x ; (a=0)
- Áp dụng phương pháp bình phương tối thiểu:
- Xét xem giả sử có đúng hay không? Ta so sánh phương sai của đườngtốt nhất (1) với phương sai của độ lệch giữa hai đường (1) & (2) – đườngqua gốc toạ độ
Chú ý: Không so sánh với vì có thể nhưng không thể vẽ thay nhau được.
Trang 27Nếu Ftính > F thì bác bỏ giả thiết H0 tức là không thể vẽ được đườnghồi quy qua gốc toạ độ.
Trong thực tế, phần mềm máy tính sẽ giúp chúng ta tính toán tự động
và kết quả đưa ra là bảng phân tích phương sai:
Q’ - Q
n-2n-1(n-1)-(n-2) = 1
Có thể áp dụng hồi quy tuyến tính để thiết lập các phương trìnhhồi quy tuyến tính
Thí dụ: Nghiên cứu về động học của phản ứng: C = C0e-kT
Từ kết quả thực nghiệm ta có: t:t0 t1 t2 tn
C: C0 C1 C2 Cn
Ta tính được a, b theo phương pháp bình phương tối thiểu Biết a ta
sẽ xác định được C0, biết b ta sẽ xác định được k/2,3 và k
Sau đó tính C theo phương trình: C = C0e-kT
C 0 C
t