TÌM HIỂU CÁC PHƯƠNG PHÁP THỐNG KÊ VÀ ỨNG DỤNG ĐÁNH GIÁ CÁC SỐ LIỆU TRONG PHÂN TÍCH
Trang 1MỤC LỤC
MỤC LỤC 1
LỜI MỞ ĐẦU 3
CHƯƠNG 1 CÁC ĐẶC TRƯNG THỐNG KÊ CỦA MỘT TẬP SỐ LIỆU KẾT QUẢ NGHIÊN CỨU 4
1.1 Các tham số đặc trưng về sự tập trung của tập số liêu: 4
1.1.1 Tần xuất (pi): 4
1.1.2 Số trội (Mo): 4
1.1.3 Khoảng của tập số (R): 4
1.1.4 Số trung vị (Med) và số tứ phân vị (Q): 4
1.1.5 Trung bình cộng: 6
1.1.6 Trung bình nhân : 6
1.1.7 Trung bình điều hoà : 6
1.1.8 Trung bình của hệ : 6
1.2 Các tham số đặc trưng cho sự phân tán của tập số liệu : 9
1.2.1 Phương sai 9
1.2.2 Phương sai của hệ : 9
1.2.3 Độ lệch chuẩn 10
1.2.4 Độ sai chuẩn 11
1.2.5.Hệ số biến thiên (Cv): 12
1.3 Các đặc trưng phân phối thống kê của tập số liệu: 13
1.3.1 Phân phối chuẩn (phân phối Gauss)( u): 13
1.3.2 Phân phối student (phân phối t): 15
1.3.3 Phân phối Fisher: 17
1.3.4 Phân phối Khi bình phương: 18
Trang 21.3.5 Phân phối Poisson: 18
1.3.6 Phân phối nhị thức : 19
1.3.7 Mối quan hệ giữa các hàm phân phối và các chuẩn phân phối: 20
CHƯƠNG 2 ỨNG DỤNG ĐÁNH GIÁ TẬP SỐ LIỆU KẾT QUẢ NGHIÊN CỨU 21
2.1 Sai số nghiên cứu: 21
2.1.1- Sai số tuyệt đối: 21
2.1.2- Sai số tương đối: 22
2.1.3- Sai số hệ thống: 26
2.1.4- Sai số ngẫu nhiên: ΔX = X -µ ≈ 0 27
2.1.5- Loại bỏ một kết quả nào đó: chuẩn Q 28
2.2 Độ chính xác của tập số liệu kết quả thực nghiệm 30
2.3.Độ sai biệt của tập số liệu kết quả thực nghiệm: 30
2.4 Sai số tối đa cho phép ΔP(X) 32
2.5 Khoảng chính xác tin cậy: 32
TÀI LIỆU THAM KHẢO 34
Trang 3Tập tài liệu này là giáo trình "TÌM HIỂU CÁC PHƯƠNG PHÁP THỐNG KÊ
VÀ ỨNG DỤNG ĐÁNH GIÁ CÁC SỐ LIỆU TRONG PHÂN TÍCH” được trình bầytheo cách tiếp cận các loại bài toán thống kê xác suất chính, nảy sinh trong quá trình thựcnghiệm, nghiên cứu và xử lí thông tin Tài liệu bao gồm hai phần chính là CÁC ĐẶCTRƯNG THỐNG KÊ CỦA MỘT TẬP SỐ LIỆU KẾT QUẢ NGHIÊN CỨU và ỨNGDỤNG ĐÁNH GIÁ TẬP SỐ LIỆU KẾT QUẢ NGHIÊN CỨU nhằm giúp bạn đọc hiểuthêm một số phương pháp xử lý số liệu sau khi tổng quan tính toán và thu thập dữ liệu.Tác giả chân thành cám ơn mọi sự chỉ dẫn và góp ý của bạn đọc về các sai sóttrong tài liệu để kịp thời sửa chữa và bổ xung cho tài liệu ngày một hoàn thiện hơn
Trang 4CHƯƠNG 1 CÁC ĐẶC TRƯNG THỐNG KÊ CỦA MỘT TẬP SỐ LIỆU
KẾT QUẢ NGHIÊN CỨU
Những đại lượng đặc trưng chính cho một tập số liệu kết quả nghiên cứu được được phân làm 3 loại chính :1/ Các tham số đặc trưng về sự tập trung của tập
số liêu, 2/ Các tham số đặc trưng về sự phân tán của tập số liệu, 3/ Đặc trưng phân phối thống kê của tập số liệu
1.1 Các tham số đặc trưng về sự tập trung của tập số liêu:
1.1.1 Tần xuất (p i ):
Giả thiết có một tập số liệu kết quả nghiên cứu gồm có N số liệu, trong đó
có ni giá trị Xi (Xi xuất hiện ni lần) ni gọi là tần số của giá trị Xi, khi đó, tầnsuất của giá trị Xi được tính như sau:
pi là tần suất xuất hiện giá trị Xi , khi N →∞ thì pi → Pi (Pi là xácsuất xuất hiện giá trị
1.1.4 Số trung vị (Med) và số tứ phân vị (Q):
Số trung vị (Med) là số đứng giữa tập số liệu đã được xắp xếp theo thứ tự
từ bé đến lớn, chia dãy số đó làm 2 phần bằng nhau về số số liệu
Số tứ phân vị là các số chia tập số liệu thành 4 phần tư Có 3 số tứ phân
i i
n p N
Trang 5vị là Q1=X1/4, Q2= X2/4 và Q3= X3/4 Số Q2= X2/4 trùng với số trung vị Med.
a/ Đối với các số liệu không nhóm lại :
Giả sử X1, X2, X3Xn là dãy các giá trị của tập số liệu kết quả nghiên cứu,
được sắp xếptheo thứ tự tăng dần, thì :
-Số trung vị của tập N số lẻ được tính theo công thức sau:
-Số trung vị của tập N số chẵn được tính theo công thức sau:
-Số tứ phân vị của tập N giá trị chia hết cho 4, thì tính theo công thức:
- Số tứ phân vị của tập N không chia hết cho 4, thì tính theo
công thức :
và
b/ Đối với số liệu gộp thành nhóm :
Giả sử nhóm thứ i ( Xi, Xi+1 ) có ni giá trị nằm trong nhóm đó và ta có:
thì Med nằm trong nhóm thứ k ( Xk, Xk+1 ) được tính như sau :
1 2
Trang 6Tương tự, các tứ phân vị được xác định theo công thức chung sau đây:
Thường dùng để tính tốc độ tăng trung bình của tăng theo cấp số, sự pha loãng
1.1.7 Trung bình điều hoà :
Dùng để tính vạn tốc, thời gian trung bình
1.1.8 Trung bình của hệ :
1
i i
N
i i
Trang 7Dùng để tính trung bình của hệ gồm nhiều tập số liệu
có : Bảng 1.2- sắp xếp 100 số liệu theo chiều tăng dần
Trang 91.2 Các tham số đặc trưng cho sự phân tán của tập số liệu :
Phương sai là trung bình của tổng bình phương sai khác giữa các giá trị của tập sốliệu
N' có bản chất là bậc tự do của tập số liệu kết quả nghiên cứu
1.2.2 Phương sai của hệ :
Trong đó :
Phương sai đặc trưng cho sự sai biệt của các số liệu trong kết quả nghiên cứu.Phương sai càng lớn, sai biệt càng lớn Ngược lại phương sai càng nhỏ thì sai biệtcàng nhỏ Phương sai còn biểu diễn độ phân tán của tập số liệu kết quả nghiên cứuđối với giá trị trung bình Phương sai càng lớn độ phân tán chung quanh giá trị
Trang 10trung bình càng lớn và ngược lại
1.2.3 Độ lệch chuẩn
Độ lệch chuẩn của một tập số liệu kết quả nghiên cứu là giá trị căn bậc 2trị số phương sai của nó:
Độ lệch chuẩn có cùng thứ nguyên và cũng có ýnghĩa như phương sai
Khi tiến hành phân tích, ta thu được nhiều kết quả, chúng phải được biểu diễnbằng những chỉ số thể hiện độ chính xác của phép đo Có nhiều loại chỉ số như vậy,trong đó có độ lệch chuẩn, kí hiệu làσ
Trang 11Công thức này tiện khi tính toán hơn, nhất là với máy tính Nhiều máy
có cài sẵn chương trình tính độ lệch chuẩn Thí dụ dưới đây minh hoạ phươngpháp tính này:
Ví dụ 1.3:
Tính độ lệch chuẩn với các giá trị như trên nhưng dùng công thức trên
15,67 245,5515,69 246,1816,03 256,96
s = 0,21g
Sự khác nhau của hai kết quả thu được với 2 cách tính (0,01g) là do ta
đã làm tròn trong cột giá trị x12 Do đó, ta vẫn có thể giữ lại 1 hoặc 2 con số sauhàng phần trăm Tuy nhiên, sự khác nhau này không đáng kể so với giá trị 0,20hay 0,21
so với sai số của từng phép đo riêng lẻ Hay nói cách khác, độ chính xác của giá trị
Trang 12trung bình của N phép đo tỉ lệ nghịch theo căn bậc hai của N với độ chính xác củacác giá trị riêng lẻ Giá trị trung bình của độ lệch chuẩn còn được gọi là độ sai chuẩn
1.2.5.Hệ số biến thiên (C v ):
Hệ số biến thiên là tỷ số giữa độ lệch chuẩn với giá trị trung bình:
Vì hệ số biến thiên không có thứ nguyên, cho nên có thể dựa vào hệ số biếnthiên để so sánh gần đúng độ sai biệt của các kết quả nghiên cứu thu nhận đượcbằng các cách khác nhau Khi độ lệch chuẩn lớn (Sf) ( tức sai biệt của các số liệunghiên cứu lớn), thì Cv lớn và ngược lại Độ lệch chuẩn thường được biểu diễndưới dạng độ lệch chuẩn tương đối, tức là quan hệ tỉ đối giữa stb và giá trị trungbình, nó còn được gọi là hệ số biến động
Ví dụ 1.4:
Ta có các giá trị khối lượng cân được là 29,8mg; 30,2mg; 28,6mg; và29,7mg Tính độ lệch chuẩn của từng giá trị riêng và độ sai chuẩn Biểu diễn cảdưới dạng tuyệt đối và tương đối:
Trang 13Nói chung, ta có thể thu được kết quả chính xác hơn khi làm nhiều thí nghiệmhơn Hay nói cách khác, khoảng rộng từ +s đến -s của đường cong phân bố chuẩnGauss sẽ giảm đi và s → 0 khi số lần tiến hành thí nghiệm tiến tới vô hạn Tuynhiên, độ lệch chuẩn trung bình không giảm theo N mà theo N Ví dụ như tamuốn tăng độ chính xác của stb lên 10 lần thì số lần thí nghiệm tăng thêm 100 lần
1.3 Các đặc trưng phân phối thống kê của tập số liệu:
Đặc trưng phân phối thống kê của một tập số liệu kết quả nghiên cứu làqui luật phân bố ngẫu nhiên của các giá trị kết quả nghiên cứu trên trục số thực.Đặc trưng phânphốithống kê là qui luật, nên về mặt toán học nó thường đượcbiểu diễn bằng một hàm số và có đồ thị tương ứng
Mỗi tập số liệu kết quả nghiện cứu là một tập số ngẫu nhiên (thường làrời rạc) có những đặc trưng phân phối thống kê riêng và thường tuân theo 1trong 6 qui luật phân phối thống kê ngẫu nhiên phổ biến nhất, đó là:
1.3.1 Phân phối chuẩn (phân phối Gauss)( u):
- Hàm số của phân phối chuẩn được biểu diễn bằng phương trình toán học:
Trong đó:
X : là biến số ngẫu nhiên
µ: là hằng số, bằng giá trị kỳ vọng của biến ngẫu
σ: là hằng số, bằng giá trị phương sai của biếnngẫu nhiên
Gọi u là chuẩn Gauss và đặt:
thay vào phương trình trên ta được dạng chính tắc của hàm phân phối chuẩn:
Trang 14- Dạng chính tắc của hàm phân phối chuẩn là dạng của hàm phân phối chuẩn
đã chuyển hệ toạ độ từ Y(X) sang Y(u)
- Đồ thị của hàm phân phối chuẩn:
trục hoành mà giá trị của nó được xác định từ điểm uốn của đường cong chuẩn hạxuống trục hoành, σ là tham số đặc trưng cho sự tập trung các giá trị của hàm phânphối, thì hàm phân phối chuẩn có dạng chuông úp ( xem trang bên)
-dạng tích phân của hàm phân phối chuẩn:
Y(u)du = F(u) = P = tần suất dồn từ -u đến +u
-ý nghĩa hình học của tích phân là diện tích giới hạn bởi đường
cong :
F(-1 σ, +1 σ) = 68,27 %, F(-2 σ, +2 σ) = 5,45 %, F(-3 σ, +3v) = 99,73 % Diện tích này chính là tần suất dồn của các giá trị nằm trong vùng lấy tíchphân Diện tích này cũng biểu diễn xác suất xuất hiện của các giá trị Xi nằm trongvùng lấy tích phân
Xác suất thống kê gắn liền với khái niệm độ tin cậy thống kê (P) Diện tíchgiới hạn bởi đường cong cũng chính là độ tin cậy thống kê để xuất hiện Xi trongkhoảng tích phân Kí hiệu độ tin cậy thống kê để xuất hiện giá trị Xi nằm trong
Trang 15vùng (- ∞, Xi) là P(Xj)
Độ tin cậy thống kê luôn là một số nhỏ hơn hoặc bằng 1 ( P(Xj) <1 )
Nếu kí hiệu ∞ là Độ không tin cậy thống kê, thì:
P + α = 1 hay P = 1 - α hoặc α = 1 - P 1.27
Khi P =1, điều đó có nghĩa là xác suất xuất hiện giá trị Xi là 100%
Trong xác suất, người ta qui ước:
Biến cố có P = 0.9999 là biến cố hoàn toàn chắc chắn
Biến cố có P = 0.999 là biến cố hết sức chắc chắn Biến
cố có P = 0.99 là biến cố rất chắc chắn Biến cố có P =
0.95 là biến cố chắc chắn
Biến cố có P = 0.90 là biến cố có chiều hướng chắc chắn
Từ hàm phân phối chuẩn, khi cho một giá trị ui (X) thì ta tính được độ tincậy thống kê Pi, ứng với một diện tích Pi Ngược lại, khi cho giá trị Pj thì có thểtính được một giá trị uj(X) Thay cho tính toán, người ta lập sẵn những bảng số
để tra giá trị u khi biết giá trị P hoặc ngược lại (xem phụ lục)
1.3.2 Phân phối student (phân phối t):
Hàm số của phân phối student có dạng:
Sf là độ lệch chuẩn, Sx là độ sai chuẩn
Hàm này phụ thuộc vào biến số t là một biến ngẫu nhiên
f : bậc tự do (f = N - 1)
Trang 16B : là một hằng số
Sf : độ lệch chuẩn Vậy t bao giờ cũng phụ thuộc vào bậc tự do
- Đồ thị của hàm phân phối student:
Xi ≡ X (giá trị có tần suất rất lớn thì giá trị của nó coi như trùng với giá trị trung bình)
Đồ thị của hàm Student giống như hàm phân phối chuẩn có dạng chuông
úp Nó có đầy đủ các tính chất giống như hàm phân phối chuẩn Nhưng khác ởchỗ:độ nhọn của đồ thị hàm phân phối student phụ thuộc vào bậc tự do Y(p, f)
Bậc tự do càng lớn thì độ nhọn càng lớn và ngược lại Do độ nhọn phụthuộc vào bậc tự do, nên giá trị chuẩn t cũng phụ thuộc vào bậc tự do t(p,f).Trong
N > 30: tuân theo phân phối chuẩn
N < 30: tuân theo phân phối Student
Đối với phân phối Student cũng có bảng tra chuẩn Student tính sẵn Dựavào bảng này, khi biết hai trong ba giá trị t, f và P thi xác định được giá trị cònchưa biết Có 2 loại bảng tra giá trị t (gọi là bảng phân vị của chuẩn t) Khi giảthiết thống kê đặt là :
* Nếu giả thiết: * Nếu giả thiết:
-Ha: Xi > Xk hoặc Xi < Xk - Ha: Xi ≠ Xk
Trang 17Thì tra bảng phân vị chuẩn t theo 1 phía Thì tra bảng phân vi của t theo 2phía
1.3.3 Phân phối Fisher:
Hàm số của phân phối Fisher có dạng:
Trang 18phối Fisher cũng có tính chất như các hàm phân phối khác Diện tích giới hạn bởiđường cong cũng biểu diễn độ tin cậy thống kê
Người ta cũng lập các bảng tra sẵn, khi cho (P, f1 và f2) sẽ tra được giá trị củachuẩn F, ngược lại cho 3 trong 4 thông số ( F,P,f1,f2 ) sẽ tra được số thứ 4 chưa biết
Có 2 loại bảng số chính để tra chuẩn F: Bảng F(0.95,f1, f2) và bảngF(0.99,f1,f2) (xem phụ lục )
1.3.4 Phân phối Khi bình phương:
Hàm số của phân phối Khi bình phương có dạng:
Hàm Khi bình phương chỉ phụ thuộc vào 1 bậc tự do
Đồ thị của hàm phân phối Khi bình phương có dạng:
Nếu cho trước độ tin cậy thống kê P và giá trị f, tra bảng sẽ tìm được giá trị 2 vàngược lại
1.3.5 Phân phối Poisson:
-Hàm số của phân phối Poisson có dạng:
Trang 19Như vậy, kì vọng và phương sai của hàm phân phối Poisson trùng nhau -Đồ thị của hàm phân phối Poisson có dạng :
1.3.6 Phân phối nhị thức :
-Hàm phân phối của các phép thử lặp ( Phép thử Becnuli ) có dạng :
Trong đó: N = số lần thử nghiệm
n = số lần biến cố A xuất hiện
Khi đó: nếu X là biến ngẫu nhiên có đặc trưng phân phối thống kê với tham số( N,p ) là phân phối nhị thì:
- Kì vọng của biến ngẫu nhiên X là: Np
- Phương sai của biến ngẫu nhiên X là : σ2 = Npq
- Độ lệch chuẩn của biến ngẫu nhiên X là :√σ =√pq
- Độ sai chuẩn của biến ngẫu nhiên X là: σ´x=pq
-Đồ thị của hàm phân phối nhị thức có dạng :
Trang 20Cần phân biệt khái niệm hàm phân phối và chuẩn phân phối (chuẩn thống kê):
- Hàm phân phối là qui luật phân bố số liệu kết quả nghiên cứu có tính ngẫu nhiên(các biến ngẫu nhiên)
- Chuẩn phân phối (chuẩn thống kê) là những giá trị của hàm phân phối tính đượctheo điều kiện cho trước
Như vậy chuẩn phân phối có 2 dạng: + Giá trị tra bảng
+ Giá trị tính được
Người ta so sánh giữa giá trị tra bảng và giá trị tính được để đánh giá
độ tin cậy thống kê của một sự kiện, theo điều kiện cho trước (theo giá trị trabảng)
1.3.7 Mối quan hệ giữa các hàm phân phối và các chuẩn phân phối:
Ta có nhận xét, một tập số liệu kết quả thực nghiệm phụ thuộc vào
Xi nhận các giá trị nằm trong khoảng X ±3 σ là 95%
Trang 21-Nếu N < 30 và có 1 trong 3 tính chất trên thì tập số liệu kết quả nghiên cứu có quiluật phân phối Student Sơ đồ sau đây cho thấy các qui luật phân phối thống kê đãtrình bày chỉ là 1 trường hợp riêng của nhau mà thôi:
CHƯƠNG
ĐÁNH GIÁ TẬP SỐ LIỆU KẾT QUẢ NGHIÊN CỨU
Một tập số liệu kết quả nghiên cứu có thể được phân tích đánh giá thông qua các đại lượng chính sau đây:
2.1 Sai số nghiên cứu:
2.1.1- Sai số tuyệt đối:
Sai số tuyệt đối là sự sai khác của một giá trị nghiên cứu nào đó với giá trịtrung bình (hoặc giá trị thật ) Sai khác này có thể là âm hoặc dương Như vậy, sai
số tuyệt đối biểu diễn sự khác nhau giữa giá trị thực và giá trị đo được, kể cả dấu.Sai số tuyệt đối có cùng đơn vị đo với đại lượng đo
Ví dụ 2.1:
Một mẫu có khối lượng thực là 2,12g và khối lượng đo được là 2,10g, khi đó
Trang 22sai số tuyệt đối của phép đo là - 0,02g Nếu giá trị đo được là giá trị trung bình củanhiều phép đothì ta sẽ có sai số tuyệt đối trung bình Ta cũng có thể tính sai sốtuyệt đối trung bình bằng cách lấy giátrị trung bình các giá trị tuyệt đối của sai sốtuyệt đối của từng giá trị đo được so với giá trị thực
2.1.2- Sai số tương đối:
Sai số tương đối là tỷ số của sai số tuyệt đối đối với giá trị trung bình Sai sốnày không có thứ nguyên cho nên được dùng để so sánh sai số tương đối của cácphương pháp nghiên cứu cho kết quả không cùng thứ nguyên
Sai số tương đối biểu diễn mối quan hệ tỉ đối giữa saisố tuyệt đối (hoặc sai
số tuyệt đối trung bình) và giá trị thực
Ví dụ 2.2 Vẫn lấy ví dụ trên, ta thu được giá trị sai số tương đối
Ví dụ 2.3:
Kết quả phân tích là 36,97g, trong khi đó giá trị thực là 37,06g Tính giá trị củasai số tương đối theo ppt
sai số tuyết đối = 36,97 - 37,06 = -0,09g
sai số tương đối =
- Cách tính sai số:
0,02.100 0,94%