Chức năng của công tác thống kê : Thống kê Statistics là một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằ
Trang 1TRƯỜNG ĐẠI HỌC NHA TRANG
-
BÀI GIẢNG MÁY TÍNH & THỐNG KÊ SINH HỌC (Dành cho Sinh viên ngành Nuôi trồng Thủy sản)
Giảng viên TRƯƠNG THỊ MAI HƯƠNG
Trang 2BÀI MỞ ĐẦU
I KHÁI NIỆM VỀ THỐNG KÊ :
1 Mục đích của công tác thống kê :
Tất cả các sự kiện, hiện tượng xảy ra trong tự nhiên hay trong xã hội đều tuân theo một quy luật nhất định Để tìm hiểu các quy luật biến đổi đó, chúng ta phải xuất phát từ việc quan sát các sự kiện một cách khách quan Nếu quan sát được nhiều sự kiện, nhiều hiện tượng, hoặc nhiều lần một sự kiện, một hiện tượng thì sự hiểu biết sẽ có cơ sở chắc chắn Từ các quan sát đó, tiến hành phân tích, suy diễn, giải thích và kết luận để tìm ra quy luật biến đổi của các sự kiện, hiện tượng
Trong nghiên cứu khoa học, đây chính là quá trình thu thập và xử lý dữ liệu Để thực hiện được công việc này, chúng ta phải dựa vào một công cụ đắc lực là Lý thuyết Thống kê
2 Chức năng của công tác thống kê :
Thống kê (Statistics) là một hệ thống các phương pháp bao gồm thu thập, tổng hợp, trình bày số liệu, tính toán các đặc trưng của đối tượng nghiên cứu nhằm phục vụ cho quá trình phân tích, suy luận, dự đoán để cuối cùng đưa ra kết luận về bản chất hay quy luật biến đổi của các sự kiện, hiện tượng
Chức năng của công tác thống kê gồm :
- Thu thập và trình bày số liệu;
- Tính toán các đặc trưng thống kê của đối tượng nghiên cứu dựa vào các số liệu thu thập được;
- Phân tích mối liên hệ giữa các hiện tượng nghiên cứu, suy luận, dự đoán, rồi đưa ra kết luận trên cơ sở các dữ liệu thu thập được từ các quan sát
3 Thống kê sinh học :
Thống kê sinh học (Biostatistics) là môn khoa học thực nghiệm, vận dụng các phương pháp và kết quả nghiên cứu của lý thuyết thống kê để tìm hiểu các quy luật biến đổi của các sự kiện sinh học, giúp cho sự hiểu biết của chúng ta càng tiến dần đến bản chất của các quá trình và nguyên lý sinh học
Trang 3II PHẦN MỀM XỬ LÝ THỐNG KÊ :
Quá trình phân tích và xử lý số liệu thống kê là quá trình thực hiện một chuỗi các bài toán với nhiều công thức phức tạp Việc tính toán bằng tay như trước đây thường rất mất thời gian, lại thiếu chính xác, chưa kể đến việc phải nhớ các công thức tính toán cho từng trường hợp cụ thể
Ngày nay, với sự phát triển của KHKT, máy vi tính được ứng dụng trong mọi lĩnh vực của đời sống xã hội, thì công tác thống kê cũng được hỗ trợ đáng kể Ngoài việc dùng máy tính như một phương tiện tính toán tiết kiệm nhiều thời gian công sức và cho kết quả chính xác, tin cậy, hiện nay đã có nhiều phần mềm chuyên dụng để xử lý dữ liệu thống kê như SPSS, SAS, MINITAB Mặc dù kết quả xử lý từ các phần mềm chuyên dụng này là rất chính xác nhưng sự phổ cập còn chưa rộng rãi và khá đắt tiền, việc sử dụng gặp nhiều khó khăn
EXCEL là một phần mềm trong bộ phần mềm điện toán văn phòng Microsoft Office Lâu nay người ta vẫn sử dụng EXCEL để thực hiện các bảng tính điện tử phục vụ công tác quản lý, kế toán Ít người biết đến chức năng xử lý thống kê của EXCEL Công cụ xử lý thống kê trong EXCEL cũng khá đơn giản khi sử dụng và có khả năng phân tích gần như chuyên nghiệp Trong phạm vi môn học này, chúng tôi quyết định sử dụng EXCEL làm công cụ hỗ trợ cho công tác thống kê, một phần vì tính phổ cập của nó, một phần
vì thời lượng dành cho môn học không nhiều để có thể hướng dẫn từ đầu nếu sử dụng một phần mềm công cụ khác (Sinh viên đã được làm quen với EXCEL trong chương trình môn Nhập môn Tin học) Tuy nhiên, khi đã quen với các công cụ phân tích dữ liệu trên EXCEL thì có thể sử dụng các phần mềm khác một cách dễ dàng
1 Sơ lược một số khái niệm trong EXCEL:
Một tập tin tạo bởi phần mềm MS-Excel gọi là Workbook Trong 1 Workbook có thể chứa nhiều bảng tính, gọi là WorkSheet (hay Sheet)
Màn hình chính của Excel là một bảng tính gồm nhiều hàng (row) và nhiều cột (column) Có tối đa 256 cột (gọi tên bằng các ký tự chữ cái: A, B, …,
AA, AB, …, IV), và tối đa 65.536 hàng (gọi tên bằng các số đếm: 1, 2, 3, …)
Giao điểm của hàng và cột là ô (cell)
Trang 4 Địa chỉ cell : là tên cột và hàng của cell đó Có 2 loại địa chỉ: địa chỉ tương đối và địa chỉ tuyệt đối
Vùng cell : là vùng bao gồm nhiều cell gộp lại Ký hiệu vùng cell gồm địa chỉ cell đầu tiên và địa chỉ cell kết thúc, cách nhau bởi hai dấu chấm ( ) hoặc dấu hai chấm (:) tuỳ theo cách ấn định của máy
2 Nhập dữ liệu vào bảng tính:
Dữ liệu được lưu trong các cell của bảng tính có các dạng: số, chữ, công thức, hay hàm
Dữ liệu dạng chữ: nhập bình thường
Dữ liệu dạng số:
Dữ liệu nhập vào máy có thể là số tự nhiên hay số thập phân
Nếu dữ liệu là số thập phân thì khi nhập vào máy cần lưu ý xem máy đang ấn định dấu thập phân là dấu phẩy hay dấu chấm Nếu không quan tâm đến vấn đề này thì có thể phải mất nhiều thời gian để nhập lại từ đầu khi dùng sai dấu
Lời khuyên: khi nhập số liệu vào máy, nên dùng các phím số (ở góc bên phải của bàn phím), thì thao tác nhập sẽ nhanh hơn và không cần quan tâm đến cách ấn định dấu thập phân của máy
Trang 5 Dữ liệu dạng công thức:
Có thể nhập một công thức toán học vào cell Bắt đầu một công thức phải là dấu bằng (=) để phân biệt với dữ liệu dạng chữ
Các toán hạng trong công thức có thể là hằng số hoặc địa chỉ cell Nếu trong công thức có địa chỉ cell thì giá trị của ô chứa công thức sẽ thay đổi theo giá trị của ô được khai báo trong công thức đó
Có 5 toán tử được dùng trong công thức: cộng (+), trừ (-), nhân (*), chia (/) và phép mũ (^)
Độ ưu tiên của các toán tử: Mũ → Nhân/Chia → Cộng/Trừ Có thể dùng các cặp dấu ngoặc đơn để nhóm các phép toán theo thứ tự thực hiện, số dấu ngoặc đóng phải bằng số dấu ngoặc mở
Có thể sao chép công thức từ một ô đến nhiều ô khác Lưu ý: khi sao chép công thức, địa chỉ cell trong công thức sẽ thay đổi theo chiều sao chép Nếu muốn giữ nguyên địa chỉ cell trong công thức thì ta phải cố định địa chỉ đó bằng cách thêm dấu $ vào trước tên cột và tên hàng trong địa chỉ cell (có thể bấm phím F4 để cố định nhanh)
Dữ liệu dạng hàm:
Hàm là công cụ tự động đã được cài đặt sẵn trong bảng tính để tính toán giá trị của một biểu thức toán học hay kết quả thực hiện một công việc
Cú pháp chung của hàm: = Tên_Hàm (Danh_sách_tham_số)
Mỗi hàm có một công dụng riêng và cú pháp riêng, vì vậy khi sử dụng hàm phải gõ tên hàm đúng chính tả Lưu ý chế độ gõ tiếng Việt khi gõ tên hàm
Tuỳ theo từng hàm mà số lượng tham số là nhiều hay ít, kiểu dữ liệu của các tham số như thế nào Khi sử dụng hàm, phải cung cấp giá trị cho các tham số với kiểu dữ liệu của chúng phải đúng như trong cú pháp hàm quy định
Việc gõ hàm trực tiếp từ bàn phím có thể gây rắc rối do phải nhớ chính xác tên hàm cùng với các tham số đi kèm Vì vậy có thể gọi hàm từ nút Function Wizard fx trên thanh công cụ, chương trình sẽ cung cấp danh sách các hàm và hướng dẫn cách sử dụng (tất nhiên bằng tiếng Anh), ta chỉ việc chọn hàm cần dùng và truyền giá trị cho các tham số
Trang 63 Các công cụ phân tích và xử lý số liệu thống kê :
Có thể xử lý thống kê bằng 2 công cụ sau đây trong Excel:
¾ Bộ hàm Thống kê (Statistical Functions) :
Việc sử dụng hàm có ưu điểm là khi ta thay đổi hay cập nhật số liệu vào bảng số liệu, kết quả phân tích sẽ thay đổi theo
¾ Chương trình phân tích số liệu (Data Analysis) :
Có những bài toán phân tích thống kê đòi hỏi thực hiện nhiều công thức phức tạp, khó nhớ, dễ nhầm lẫn Phần mềm Excel sẽ hỗ trợ chúng ta Bộ chương trình Phân tích số liệu, với công cụ này ta chỉ cần chọn đúng chương trình cần thực hiện, máy sẽ tính toán tự động và thông báo kết quả
Để mở bộ chương trình xử lý số liệu: mở thực đơn Tools → Data Analysis Hộp thoại lựa chọn chương trình như hình sau:
Trong trường hợp
mở thực đơn Tool nhưng
không thấy mục Data
Analysis, tức là bộ chương
trình xử lý số liệu chưa
được cài đặt vào, ta khởi
động việc cài đặt bằng
cách: vào thực đơn Tools →
Add-Ins Chọn Analysis
ToolPak (đánh dấu vào ô
vuông bên cạnh) → OK
Tuy nhiên với công cụ này, kết quả xử lý chỉ đúng với những số liệu tại thời điểm thực hiện chương trình, nếu sau đó có sự cập nhật hay thay đổi dữ liệu, kết quả xử lý không thay đổi theo, do đó phải thực hiện lại chương trình
Trang 7Chương I :
THU THẬP & TRÌNH BÀY DỮ LIỆU
I TỔNG THỂ VÀ MẪU:
1 Khái niệm :
¾ Tổng thể (Population) :
Là tập chứa mọi phần tử thuần nhất theo một tiêu chuẩn nào đó mà ta cần nghiên cứu Mỗi cá thể là một phần tử của tổng thể Ký hiệu số cá
thể của tổng thể là N
Trong sinh học, số lượng các phần tử của một tổng thể có thể là rất lớn, việc nghiên cứu toàn bộ các cá thể của tổng thể nhiều lúc không thể thực hiện được Vì vậy, ta chỉ có thể chọn ra một số cá thể từ tổng thể để tiến hành nghiên cứu
¾ Mẫu (Sample) :
Là một bộ phận của tổng thể được chọn ra để quan sát và kết quả thu được từ tập mẫu dùng để suy diễn cho toàn bộ tổng thể
Số phần tử của mẫu gọi là kích thước mẫu, ký hiệu là n Kích thước
mẫu càng lớn thì các đặc trưng của tổng thể càng được thể hiện chính xác thông qua mẫu
2 Chọn mẫu :
Để có kết quả thống kê chính xác, đòi hỏi số lượng mẫu phải đủ lớn và phải mang tính đại diện cho tổng thể Số lượng mẫu càng nhiều thì kết quả tính toán từ mẫu suy ra cho tổng thể càng chính xác Khi kích thước mẫu tiến đến vô cùng thì đặc trưng của tổng thể thể hiện trên mẫu càng rõ và càng ít sai số
Để mẫu mang tính đại diện thì việc chọn mẫu phải khách quan và đúng phương pháp Có 3 phương pháp cần áp dụng trong việc chọn mẫu :
- Chọn mẫu ngẫu nhiên đơn giản: chọn ngẫu nhiên n mẫu từ tổng thể,
sao cho mỗi phần tử của tổng thể đều có khả năng rơi vào mẫu như nhau
Trang 8- Chọn mẫu ngẫu nhiên hệ thống: các phần tử của tổng thể được đưa
vào mẫu cách nhau một khoảng thời gian hay một khoảng không gian xác định
- Chọn mẫu phân lớp: chia tổng thể thành các lớp theo một tiêu chuẩn
phụ nào đó sao cho các phần tử trong mỗi lớp đồng đều hơn, sau đó mới lấy ngẫu nhiên một số phần tử của mỗi lớp để đưa vào mẫu
II THU THẬP SỐ LIỆU :
Số liệu thu được là từ việc đo đếm, quan sát các đối tượng trong tập mẫu Các số liệu này sẽ là những dữ liệu tham gia vào các tính toán thống kê để từ đó ước lượng hay kiểm định các đặc trưng sinh học trên tổng thể nghiên cứu
Do mẫu có kích thước hữu hạn, thường là rất bé so với số phần tử của tổng thể, vì thế những kết luận được suy ra từ mẫu cho tổng thể sẽ phải có sai số
Sai số là độ lệch giữa giá trị quan sát được trên mẫu với giá trị thực của tổng thể
Có 3 loại sai số gặp phải khi thu thập số liệu :
- Sai số thô: phát sinh do vi phạm các điều kiện cơ bản khi thu thập số
liệu, thực chất là do bất cẩn của người làm công tác này
- Sai số hệ thống: phát sinh do sự sai lệch của dụng cụ hay phương
pháp nghiên cứu
- Sai số ngẫu nhiên : phát sinh do các nguyên nhân khách quan ngoài
sự kiểm soát của người thống kê
Trong các loại sai số trên, sai số ngẫu nhiên là không thể hạn chế và được chấp nhận Còn sai số thô phải bị loại bỏ, sai số hệ thống có thể được chấp nhận nhưng phải tính toán hiệu đính lại trước khi đưa vào thống kê
Trong các số liệu thu được sẽ xuất hiện một số số liệu khác thường, tức là nó lớn quá hay bé quá so với các số liệu khác Để đảm bảo tính khách quan của kết luận, ta phải loại bỏ những giá trị bất thường này Tuy nhiên ta phải xác định chúng có đúng là giá trị bất thường không và có nên loại bỏ chúng không Cách để xác định đâu là giá trị bất thường được giới thiệu trong Chương III
Trang 9III SẮP XẾP VÀ TRÌNH BÀY SỐ LIỆU :
1 Phương pháp phân nhóm (tổ) :
Các số liệu thu thập là rất nhiều Để trình bày số liệu một cách có hệ thống, đáp ứng được yêu cầu phân tích thống kê, người ta căn cứ vào 1 hay một số tiêu chuẩn để chia các phần tử của tổng thể thành các nhóm có tính chất khác nhau, sau đó sắp xếp các dữ liệu thu thập được vào các nhóm
Đối với các nghiên cứu định tính (dữ liệu không phải là số liệu): việc
phân nhóm thường dựa vào tính chất nghiên cứu để xác định số nhóm và thành phần của mỗi nhóm
Ví dụ: Nghiên cứu đặc tính bệnh trên cá thì chỉ chia 2 nhóm là cá bệnh và cá khoẻ Nghiên cứu màu mắt người thì chia 3 nhóm là mắt đen, mắt nâu và
mắt xanh
Đối với các nghiên cứu định lượng (dữ liệu dạng số): dựa giá trị của
các số liệu để phân nhóm Trước khi phân nhóm phải xác định được số nhóm, độ dài (khoảng cách) mỗi nhóm, giá trị biên của từng nhóm
Giá trị biên là giá trị chặn trên của nhóm, những giá trị bé hơn và lớn hơn giá trị biên sẽ thuộc 2 nhóm khác nhau Nếu có K nhóm thì sẽ có (K-1) giá trị biên
Sau đó sắp xếp số liệu vào các nhóm theo quy ước : số liệu có giá trị
là x được xếp vào nhóm i sao cho: X bi-1< x≤ Xbi (Xbi-1 và Xbi là 2 giá trị biên
của 2 nhóm liền nhau)
* Phân nhóm chủ quan: người thống kê đã có chủ ý về số nhóm, độ
dài mỗi nhóm và các giá trị biên nhóm căn cứ vào mục đích thống kê
Ví dụ: Điểm của SV cho theo thang điểm 10 Để đánh giá phân loại học tập thì chia thành 4 nhóm: Giỏi, Khá, Trung bình và Yếu Để đánh giá kết quả môn học thì chia 2 nhóm: đạt, không đạt
* Phân nhóm khách quan: trường hợp không có tiêu chuẩn để phân
nhóm thì có thể phân nhóm khách quan dựa vào lý thuyết thống kê:
+ Xác định số nhóm : K = 3 2 n (n: kích thước mẫu)
+ Độ dài mỗi nhóm: d =
K
X
+ Xác định các giá trị biên của các nhóm : X bi = Xbi-1 + d
2 Bảng phân bố tần số – tần suất :
Trang 10Sau khi phân nhóm và sắp xếp dữ liệu, ta sẽ xác định tần số, tần số tích luỹ, tần suất, tần suất tích luỹ cuả mỗi nhóm
Tần số là số lần xuất hiện đặc tính nhóm (đối với nghiên cứu định
tính), hoặc số số liệu có giá trị thuộc phạm vi nhóm (đối với nghiên cứu định lượng)
Tần suất là tỷ lệ % của tần số nhóm so với kích thước mẫu
Tần số tích luỹ - tần suất tích luỹ (chỉ xác định đối với nghiên cứu
định lượng) là tần số - tần suất cộng dồn tính đến nhóm đề cập
Bảng phân bố tần số – tần suất có thể bố trí như sau :
Nhóm nhóm Biên Tần số Tần số tích luỹ Tần suất Tần suất t luỹ
3 Biểu đồ phân bố tần số – tần suất :
Để trình bày dữ liệu một cách rõ ràng, sinh động và dễ nắm bắt ta dùng biểu đồ
Biểu đồ phân bố tần số : dùng biểu đồ cột (column chart)
Biểu đồ phân bố tần suất : dùng biểu đồ hình quạt (pie chart)
Trang 11IV ỨNG DỤNG EXCEL :
1 Hàm tính phân bố tần số:
Công thức hàm: FREQUENCY (DataRange, BinRange)
DataRange: vùng cell chứa số liệu thu thập được BinRange: vùng cell chứa các giá trị biên
Hàm Frequency kết xuất K giá trị nguyên tương ứng với K nhóm số liệu (căn cứ vào các giá trị biên)
Lưu ý: tại cell có công thức hàm, khi gõ xong hàm nhấn enter chỉ thấy kết xuất giá trị đầu tiên trong dãy số kết quả của hàm Để kết xuất các số còn lại, ta phải bôâi đen các cell kế tiếp cell chứa công thức hàm (theo chiều dọc),
bấm phím F2, rồi gõ tổ hợp phím Shift+Ctrl+Enter
2 Chương trình tính phân bố tần số:
Vào chức năng DataAnalysis, chọn chương trình Histogram
Hộp thoại của chương trình Histogram như sau:
• Input Range: vùng cell chứa dữ liệu
• Bin Range: vùng cell chứa các biên nhóm
• Labels: đánh dấu nếu cell đầu tiên là tên dữ liệu
• Output Range: kết xuất trong bảng tính hiện thời
• New worksheet: kết xuất trong một bảng tính khác
• New workbook: kết xuất trong một tập tin khác
• Pareto: bảng kết xuất có sắp xếp theo tần số
• Cumulative %: kết xuất kèm tần suất tích luỹ
• Chart Output: kết xuất kèm biểu đồ tần số
Trang 12Chương II :
MÔ TẢ THỐNG KÊ MẪU
I CÁC ĐẶC TRƯNG VỀ GIÁ TRỊ TRUNG BÌNH :
1 Số trung bình (Mean):
Là giá trị trung bình của các số liệu thu được
Ý nghĩa: Trung bình cộng là một trị số tổng hợp cô đọng, đặc trưng tiêu biểu cho toàn bộ các cá thể của tập hợp, biểu thị hướng tập trung của các giá trị vào một điểm
Công thức tính số trung bình mẫu:
Nếu số liệu chưa phân nhóm: ∑
1
X
(n: kích thước mẫu; X i : giá trị của các số liệu thu được)
Nếu số liệu đã được phân nhóm: ∑ ( )
1 X
(k: số nhóm; f i : tần số của nhóm i; X i : giá trị của nhóm i)
Trường hợp các số liệu được phân nhóm có độ dài nhóm là một khoảng giá trị thì Xi là số ở giữa khoảng giá trị đó, gọi là trọng số
2 Số trung vị (Median):
Là giá trị của số liệu đứng giữa trong tập hợp số liệu đã được xếp thứ tự
Ý nghĩa: số trung vị chia tập hợp số liệu thành 2 phần có số phần tử bằng nhau (50% số mẫu lớn hơn và 50% số mẫu bé hơn trung vị)
Cách xác định số trung vị:
Trường hợp số liệu chưa phân nhóm:
- Sắp xếp dãy số liệu theo thứ tự tăng dần hay giảm dần;
- Xác định số đứng giữa của dãy số liệu: nếu n là số lẻ, trung vị là trị số của số đứng giữa, nếu n là số chẵn, trung vị là trung bình cộng của 2 số đứng giữa
Trường hợp số liệu đã phân nhóm:
- Xác định nhóm có chứa trung vị dựa vào tần số tích luỹ ;
Trang 13- Nếu phân nhóm có khoảng cách thì trung vị (Me) thuộc nhóm i,
được tính theo công thức sau:
i
1 i i
1
fc 2
n d b
+
=
(b i-1 : biên dưới của nhóm i; d i : độ dài của nhóm i; n: kích thước mẫu;
f i : tần số của nhóm i; fc i-1 : tần số tích lũy của nhóm trước nhóm i)
3 Số trội (Mode)
Là giá trị có tần số lớn nhất trong chuỗi số liệu
Ý nghĩa: cho biết giá trị gặp nhiều nhất trong các quan sát
Trường hợp số liệu đã phân nhóm có khoảng cách nhóm:
- Xác định nhóm có tần số lớn nhất (nhóm i)
- Số trội (Mo) được tính theo công thức sau:
i 1
i f f f f
f f d
=
(b i-1 : biên dưới của nhóm i; d i : khoảng biến thiên của nhóm i;
f i : tần số của nhóm i; f i-1 : tần số của nhóm trước, f i+1 : tần số của nhóm sau)
II CÁC ĐẶC TRƯNG VỀ ĐỘ PHÂN TÁN CỦA SỐ LIỆU :
1 Độ lệâch trung bình (Average Deviation)
Là sai số tuyệt đối của các số liệu so với số trung bình
Ý nghĩa: cho biết mức độ sai lệch giữa các số liệu thu được
1
2 Phương sai (Variance)
Là trung bình của bình phương độ lệch giữa các số liệu quan sát với giá trị trung bình
Ý nghĩa: Diễn tả độ phân tán của dữ liệu xung quanh giá trị trung
bình (dạng bậc hai)
2 i
1 n 1
Trang 143 Độ lệch chuẩn (Standard deviation)
Là căn bậc hai của phương sai
Ý nghĩa: Diễn tả độ phân tán của dữ liệu xung quanh giá trị trung bình (dạng bậc nhất)
2
X 1 n
1
4 Hệ số phân tán (Coefficient of variation)
Hệ số phân tán được sử dụng để so sánh mức độ phân tán của các giá trị xung quanh giá trị trung bình khi các mẫu khác nhau về thứ nguyên (đơn
vị đo lường) hay khác nhau về gía trị trung bình
Công thức tính : 100
X
S (%)
C v =
5 Sai số chuẩn (Standard error)
Là độ lệch giữa trung bình mẫu so với trung bình của tổng thể
Công thức tính :
n
S
S e =
II ỨNG DỤNG EXCEL :
1 Các hàm mô tả thống kê mẫu :
AVERAGE (DataRange) Trung bình
AVEDEV (DataRange) Độ lệch trung bình
VAR (DataRange) Phương sai mẫu
STDEV (DataRange) Độ lệch chuẩn mẫu
2 Chương trình Descriptive Statistics :
Là công cụ tính nhanh các đặc trưng thống kê Thay vì phải thực hiện nhiều hàm thì ta chỉ gọi chương trình này, sẽ có các giá trị cần tìm Tuy nhiên như đã nói ở chương I, các chương trình phân tích thống kê chỉ cho kết quả với bảng số liệu tại thời điểm gọi thực hiện chương trình
Trang 15Chọn chương trình Descriptive Statistics trong bộ Data Analysis
Hộp thoại của chương trình Descriptive Statistics:
• Input Range: vùng cell chứa số liệu
• Summary statistics: kết xuất đặc trưng thống kê (phải đánh dấu vào ô này)
• Confidence level for Means: ước lượng độ sai lệch giữa trung bình tổng thể và trung bình mẫu (phần này thuộc chương III).
Kết xuất của chương trình Descriptive Statistics:
Standard Error Sai số chuẩn
St Deviation Độ lệch chuẩn Sample Variance Phương sai mẫu Kurtosis Hệ số Kurtosis Skewness Hệ số Skewness Range Khoảng biến biên Minimum Số bé nhất
Maximum Số lớn nhất
Trang 16
Chương III :
ƯỚC LƯỢNG CÁC ĐẶC TRƯNG
CỦA TỔNG THỂ
I Một số khái niệm :
1 Độ tin cậy và mức ý nghĩa:
¾ Độ tin cậy (Confidence level) là tỉ lệ phần trăm khả năng để sự kiện có thể xảy ra, hay là xác suất xảy ra sự kiện Ký hiệu: P
¾ Mức ý nghĩa (Significance level) là tỉ lệ phần trăm nằm ngoài độ tin cậy, hay là xác suất để sự kiện không xảy ra
Ký hiệu: α (với α = 1 – P )
2 Luật phân bố xác suất (Distribution):
Khi nghiên cứu một sự kiện bất kỳ, trong thực tế sự kiện đó có thể chắn chắn sẽ xảy ra, hoặc chắc chắn không xảy ra Sự kiện chắc chắn xảy ra
gọi là sự kiện tất yếu Sự kiện chắc chắn không xảy ra gọi là sự kiện không
thể Sự kiện chưa biết có thể xảy ra hay không (hoàn toàn khách quan) được
gọi là sự kiện ngẫu nhiên
Ví dụ: khi ta gieo hạt thóc, hạt thóc có thể nảy mầm hoặc không, nếu hạt thóc nảy mầm thì chắc chắn nó sẽ phát triển thành cây lúa chứ không thể thành cây đậu Sự kiện “hạt thóc nảy mầm” là sự kiện ngẫu nhiên, sự kiện
“hạt thóc nảy mầm thành cây lúa” là sự kiện tất yếu Sự kiện “hạt thóc nảy mầm thành cây đậu” là sự kiện không thể
Xác suất xảy ra sự kiện tất yếu là 1 Xác suất xảy ra sự kiện không thể là 0 Xác suất xảy ra sự kiện ngẫu nhiên là 0 < P < 1
Trong một quan sát, xác suất xảy ra sự kiện ngẫu nhiên gọi là biến ngẫu nhiên Khi ta quan sát sự kiện rất nhiều lần (số lần tiến đến vô hạn) thì tập hợp các biến ngẫu nhiên sẽ biến đổi theo một quy luật nào đó, gọi là
Luật phân bố xác suất
Xét về mặt toán học: Luật phân bố xác suất là hàm phụ thuộc vào
biến ngẫu nhiên (xác suất sự kiện), gọi chung đó là hàm f(x)
Trang 17Trong thống kê, người ta sử dụng các Luật phân bố xác suất để giải thích cho các kết quả thí nghiệm, từ đó phân tích, suy diễn để đi đến kết luận
Các Luật phân bố xác suất được biểu diễn bằng hàm với những công thức tính toán riêng Hầu hết các công thức này đếu rất phức tạp và khó nhớ Tuy nhiên, với sự hỗ trợ đắc lực của máy tính, tất cả những công thức phức tạp đều trở nên đơn giản, bởi phần mềm Excel đã có sẵn các hàm tương ứng với các hàm phân phối xác suất
Sau đây xin giới thiệu một số Luật phân bố xác suất có liên quan đến các quy luật của các sự kiện sinh học:
? Phân bố chuẩn: đây là phân bố quan trọng nhất trong thống kê, hầu
hết các biến số ngẫu nhiên trong các thí nghiệm về sinh học đều tuân theo Luật phân bố chuẩn
Tương ứng với một giá trị trung bình tổng thể μ và độ lệch chuẩn của tổng thể σ, ta có hàm mật độ của phân bố chuẩn như sau :
f
Đồ thị của hàm
phân phối chuẩn có
dạng hình chuông, đối
cực đại ở đây f (x)
về 2 phía của trục
hoành
Trong EXCEL, để tính giá trị của hàm f(x), tức là tìm xác suất P để xảy
ra sự kiện x, ta sử dụng hàm: NORMDIST (x,mean,stdev)
(với mean là trung bình, stdev là độ lệch chuẩn)
Ngược lại, ứng với xác suất P, giá trị x được xác định bằng hàm:
NORMINV (P, mean, stdev)
Thông thường khi tiến hành công tác thống kê, nếu việc thu thập số liệu không có sai số thô và sai số hệ thống thì sai số thu mẫu sẽ là một đại lượng ngẫu nhiên có phân phối chuẩn
Trang 18? Phân bố chuẩn tắc (Z) : biến số ngẫu nhiên trong các thí nghiệm tuân
theo Luật phân phối chuẩn, với μ=0 và σ=1 thì phân bố chuẩn được gọi là Phân bố chuẩn tắc Hàm mật độ của phân bố chuẩn tắc có dạng :
2
2
2
1 ) (
x
e x
f
−
=π
Trong EXCEL, ta có thể tìm phân bố Z bằng hàm :
NORMSDIST (x) = P hoặc NORMSINV (1-α) = x
? Phân bố Student (t) : Với mỗi bậc tự do (degree of freedom- viết tắt: df)
có một đường biểu diễn Đường biểu diễn của hàm phân bố Student khi n càng lớn có hình dạng càng giống đường biểu diễn hàm phân bố chuẩn Hàm mật độ của phân bố Student có dạng:
2
1 n 2 2
x 1 2
n n 2
1 n )
Γ
với = +∫∞ − −
0
x 1
x )
a (
Γ
Trong EXCEL, ta có thể tìm phân bố Student bằng hàm :
TDIST (x,df,2) = α hoặc TINV (α, df) = x
(α =1-P; df: số bậc tự do)
? Phân bố Khi bình phương (χ 2 ) : hàm mật độ xác suất có dạng:
e x ) x ( f
2 n
2
x 1 2 n
Γ
Trong EXCEL, ta có thể tìm phân bố χ2 bằng hàm :
CHIDIST (x,df) = α hoặc CHIINV (α, df) = x
? Phân bố Fisher (F) :
Trong EXCEL, ta có thể tìm phân bố Fisher bằng hàm :
FDIST (x,dfX,dfY) = α hoặc FINV (α,dfX,dfY) = x
(df X : số bậc tự do của tử số; df Y : số bậc tự do của mẫu số)
Trang 193 Ước lượng :
Gọi θ là 1 đặc trưng nào đó của tổng thể X mà ta cần biết Trên thực tế
ta không thể có được giá trị thực của θ mà ta chỉ có thể ước lượng được nó trên cơ sở thống kê từ mẫu
Với các số liệu thu được từ mẫu, ta tính được đặc trưng θˆ của mẫu θˆ
được gọi là ước lượng điểm của θ
Do X là một đại lượng ngẫu nhiên, giá trị của nó có tính chất biến đổi,
nên đặc trưng θ của tổng thể X sẽ nhận giá trị trong một khoảng giá trị nào
đó
Dựa vào luật phân bố xác suất của θ, với một độ tin cậy cho trước, ta
có thể tính toán ước lượng khoảng giá trị cho θ Khoảng giá trị này được gọi
là khoảng tin cậy (hay khoảng dao động) cho đặc trưng θ của tổng thể X
Các đặc tính của ước lượng:
? Ước lượng không chệch (unbisaed): kích thước mẫu rất lớn thì số
trung bình của ước lượng chính là thông số của tổng thể
? Ước lượng vững (consistent): kích thước mẫu càng lớn thì ước
lượng càng gần với thông số của tổng thể
? Ước lượng hiệu quả (efficient): ít mẫu (có khi chỉ là 1) vẫn ước
lượng sát với thông số của tổng thể
II ƯỚC LƯỢNG TRUNG BÌNH của tổng thể:
Gọi μ là trung bình của tổng thể X, X là trung bình của n mẫu
X được xem là ước lượng điểm của μ
μ là đại lượng tuân theo luật phân bố Student với mức ý nghĩa α và với
số bậc tự do df=n-1 (n là kích thước mẫu)
Trong chương II ta đã tính được Sai số chuẩn (Se) – đó là độ sai khác giữa trung bình mẫu và trung bình tổng thể
Gọi ε là độ sai khác giữa μ và X ε được tính như sau:
n
S t S
tα e α
Khoảng ước lượng cho trung bình của tổng thể X là :
X - ε ≤ μ ≤ X + ε
Trang 20III ƯỚC LƯỢNG PHƯƠNG SAI - ĐỘ LỆCH CHUẨN của tổng thể:
Gọi σ2 là phương sai của tổng thể X, S 2 là phương sai của n mẫu
σ là độ lệch chuẩn của tổng thể X, S là độ lệch chuẩn mẫu
S 2 là ước lượng điểm của σ2 S là ước lượng điểm của σ
Ước lượng khoảng cho phương sai của tổng thể X với độ tin cậy P là:
2 2 α 1
2 2
2 2 α
2
χ
S 1) (n σ
χ
S 1) (n
2 2
2 α
2
χ
S 1) (n σ
χ
S 1) (n
σ2 là đại lượng biến đổi theo luật phân bố Khi-bình-phương với n-1 bậc
tự do và ở các mức ý nghĩa (α/2) và (1-α/2)
Phương sai S2 là ước lượng không chệch, vững cho phương sai của tổng thể Độ lệch chuẩn S là ước lượng hiệu chỉnh (hơi chệch) cho độ lệch chuẩn của tổng thể
IV ƯỚC LƯỢNG TỶ LỆ trong tổng thể :
Nghiên cứu đặc tính T của tổng thể X
Với n mẫu lấy từ X thấy có f mẫu mang đặc tính T
Gọi p ) là tỷ lệ phần tử mang đặc tính T trên mẫu, p) = f n
p là tỷ lệ phần tử mang đặc tính T trong tổng thể X, hay nói cách
khác là xác suất gặp đặc tính T khi chọn ngẫu nhiên 1 phần tử từ X
Ước lượng điểm của p là p)
Giá trị của p biến đổi theo luật phân bố Student, với (n-1) bậc tự do và
với mức ý nghĩa α
Gọi ε là độ sai khác của p ) so với p ε được tính như sau:
( )
n
pˆ 1 pˆ
Trang 21V XÁC ĐỊNH KÍCH THƯỚC MẪU trong ước lượng tỷ lệ:
Trong các nghiên cứu, việc xác định chính xác kích thước mẫu là rất cần thiết, vì nếu lấy quá nhiều mẫu hơn yêu cầu thì sẽ gây lãng phí, còn lấy quá
ít mẫu thì các kết luận sẽ không chính xác Vì vậy ta cần có một lượng mẫu đủ để có kết luận chính xác đạt độ tin cậy theo yêu cầu, tức là tìm kích thước mẫu tối thiểu
Trong ước lượng tỷ lệ cho tổng thể, nếu gọi ε là khoảng sai lệch thì ε tỷ lệ nghịch với n, tức là n đạt cực tiểu khi ε đạt cực đại Khi ε đạt cực đại thì giá trị tα[pˆ(1− pˆ) ] đạt cực đại, tức là khi p ) =50% va ø α→∞
Tức là từ công thức tính ε trong ước lượng tỷ lệ:
( )
n
pˆ 1 pˆ
* 5 , 0
tα
2 max
2 min
25 , 0
* t n
2 4
t n
ε
α
≥ (với tα tra từ phân bố t với mức ý nghĩa α và với số bậc tự do là ∞)
III PHƯƠNG PHÁP LOẠI BỎ GIÁ TRỊ BẤT THƯỜNG:
Khi thu thập số liệu, có những giá trị bất thường, có thể là lớn quá hay bé quá so với số đông các số liệu thu được Vấn đề là ta phải xác định nó có thực sự bất thường không (sai số thô) hay chỉ là sai số ngẫu nhiên Nếu là sai số thô thì phải loại bỏ để không ảnh hưởng đến sự chính xác của kết quả thống kê
Gọi X* là giá trị bất thường mà ta nghi ngờ Với n mẫu đã được chấp nhận (không kể các giá trị X*) ta tính được trung bình mẫu là X và độ lệch
chuẩn là S Tính giá trị t theo công thức:
S
X
X t
* −
=
Giá trị t có phân bố Student với mức ý nghĩa α và với df=n-1
Nếu t ≤ tα : X* được chấp nhận để đưa vào thống kê
t > tα : X* là giá trị bất thường
Trang 22Chương IV :
KIỂM ĐỊNH GIẢ THIẾT THỐNG KÊ
I KHÁI NIỆM VÀ QUY TẮC:
1 Giả thiết thống kê:
Trong thống kê, khi cần phải so sánh về một đặc trưng nào đó của 2 tổng thể, người ta phải khảo sát trên các mẫu thu thập từ 2 tổng thể đó Thông thường thì sẽ có sự khác nhau về giá trị của các đặc trưng trên mẫu Nếu sự sai khác là nhỏ thì xem như đó là do ngẫu nhiên và có thể bỏ qua Nhưng nếu sự sai khác là lớn thì khó có thể cho đó là ngẫu nhiên mà phải nghĩ đến sự khác nhau về bản chất giữa chúng
Để giải quyết vấn đề này, ta phải đặt ra một giả thiết và sẽ tiến hành kiểm định giả thiết đó
Giả thiết được đặt ra gọi là giả thiết H 0 (Null hypothesis) Ngược lại
với H0 là đối thiết H 1 (Alternative hypothesis), chứa các tình huống không có
Việc kiểm định được tiến hành dựa vào kết quả tính toán trên mẫu, rồi
kết luận cho tổng thể, vì vậy có thể vi phạm 1 trong 2 sai lầm sau đây:
Sai lầm loại 1: Giả thiết H0 thực ra là đúng, nhưng qua kiểm định ta lại kết luận giả thiết này sai, vì thế bác bỏ H0
Sai lầm loại 2: Giả thiết H0 thực ra là sai, nhưng qua kiểm định ta lại kết luận giả thiết này đúng, vì thế chấp nhận H0
Cả 2 loại sai lầm trên đều có thể xảy ra Tuỳ thuộc vào cách đặt giả thiết Ho mà sai lầm gặp phải là sai lầm loại 1 hay loại 2 Sở dĩ phân biệt 2 loại sai lầm là do mức độ nghiêm trọng khác nhau của chúng Do ta chỉ tìm các chứng cứ để chứng minh H0 đúng, nên khả năng xảy ra sai lầm loại 1 là ít hơn so với sai lầm loại 2 Vì vậy nên chọn cách đặt giả thiết sao cho sai lầm nghiêm trọng hơn là sai lầm loại 1 để ta có nhiều khả năng hạn chế hơn Sai
Trang 23Khả năng mắc phải sai lầm phụ thuộc vào độ tin cậy của phép kiểm định Nếu gọi P là độ tin cậy của kiểm định thì khả năng mắc phải sai lầm là (1-P), tức là ở mức độ α
2 Quy tắc kiểm định:
Trong thống kê, các vấn đề nghiên cứu thường liên quan đến việc so sánh các đặc trưng của các tổng thể Để giải quyết vần đề này, người ta đặt
ra giải thiết về các đặc trưng của tổng thể, rồi tiến hành kiểm định giả thiết này thông qua mẫu
Gọi θX và θY là đặc trưng θ của 2 tổng thể X và Y
Từ mẫu người ta tính được và Thấy rằng Vấn đề đặt ra là phải kiểm định xem sự sai khác giữa 2 giá trị này là do ngẫu nhiên (thực ra đặc trưng θ của 2 tổng thể là bằng nhau, nhưng quá trình thu mẫu có
sai số ngẫu nhiên), hay sự khác nhau này do bản chất (đặc trưng θ của 2 tổng
thể thực sự khác nhau)
X
ˆ
Đặt giả thiết : H0 : θX = θY (sự sai khác trên mẫu là ngẫu nhiên)
H1 : θX ≠ θY (thực sự có sự sai khác) Với độ tin cậy đã cho là P, người ta sẽ tìm giá trị K K là đại lượng thể hiện độ lệch ước lượng giữa θX và θY Với giả thiết H0 đã nêu, K sẽ có một luật phân phối xác suất nhất định
Khi đó với với α cho trước (α là mức ý nghĩa của kiểm định), sẽ có một khoảng giá trị (K1 K2) sao cho xác suất để K rơi vào khoảng này là 1-
α, tức là : P (K1<K<K2) = 1-α
Nguyên lý xác suất nhỏ trong Thống kê cho rằng: các sự kiện ngẫu
nhiên có xác suất nhỏ được coi như không xảy ra và các sự kiện có xác suất gần 1 được coi như chắc chắn xảy ra trong thực tế
Miền bác bỏ K 1 Miền chấp nhận K 2 Miền bác bỏ
α’
Trang 24Theo nguyên lý trên, với mức ý nghĩa α = 1-P, nếu K nằm trong khoảng (K1 K2), hoặc α ≤ α’ thì giả thiết H0 được chấp nhận, ngược lại H0
bị bác bỏ (α’ được xem là mức ý nghĩa cho phép)
Tóm lại, để so sánh về một đặc trưng nào đó của 2 tổng thể, ta làm các bước sau:
+ Đặt giả thiết: đặc trưng của 2 tổng thể có giá trị bằng nhau
+ Tính giá trị kiểm định K: tùy theo từng trường hợp K sẽ được tính theo một công thức xác định
+ Tìm phân bố xác suất của K: với α ta có Kα (hàm ~inv)
hoặc với K ta có α’ (hàm ~dist) + Kết luận:
H0 đúng nếu ⏐K⏐≤ Kα hoặc α ≤α’⇒ chấp nhận H0
H0 sai nếu ⏐K⏐> Kα hoặc α > α’ ⇒ bác bỏ H0
II SO SÁNH PHƯƠNG SAI của hai tổng thể :
Với nx mẫu thu từ tổng thể X và ny mẫu thu từ tổng thể Y, ta tính được
và Thấy rằng ≠
Vấn đề đặt ra là ta phải kiểm định xem sự khác nhau về phương sai của
2 mẫu có phải xuất phát từ sự khác nhau về phương sai của 2 tổng thể X và Y không, hay chỉ là sự sai khác ngẫu nhiên
Gọi và là phương sai của 2 tổng thể X và Y 2
x
y σ
Đặt giả thiết : H0 : 2 =
x
y σ
Trong trường hợp này, F có phân bố Fisher với (nx-1) bậc tự do của tử số và (ny-1) bậc tự do của mẫu số, ở mức ý nghĩa Tìm phân bố của F bằng hàm
Finv(α,nx-1,ny-1) ta có Fα, hoặc hàm Fdist(F,nx-1,ny-1) có α’
So sánh F với Fα hoặc α với α’ để kết luận:
Nếu F ≤ Fα hoặc α≤α’: chấp nhận H0 (H0 đúng)
F > Fα hoặc α > α’: bác bỏ H0 (H1 đúng)
Trang 25 Chương trình F-Test : Two-sample for Variances
• Variable 1 range: vùng cell chứa dãy số liệu có phương sai lớn hơn
• Variable 2 range: vùng cell chứa dãy số liệu có phương sai bé hơn
• Alpha: mức ý nghĩa của kiểm định
Kết xuất của chương trình F-Test Two-Sample for Variances:
X Y Giải thích
Mean X Y Trung bình mẫu
Variance S x 2 S y 2 Phương sai mẫu
Observations n x n y Kích thước mẫu
df n x -1 n y -1 Số bậc tự do
F F Giá trị kiểm định F
P(F<=f) one-tail α’ Mức ý nghĩa để F≤Fα
F Critical one-tail Fα Phân bố xác suất Fα
III SO SÁNH TRUNG BÌNH của hai tổng thể :
Thu nX mẫu tổng thể X và nY mẫu tổng thể Y, ta tính được X và Y là các giá trị trung bình của mẫu X và mẫu Y, thấy rằng các giá trị này khác nhau Vấn đề là phải kiểm định xem sự khác nhau này là do ngẫu nhiên (do sai số thu mẫu) hay do bản chất (trung bình của 2 tổng thể khác nhau), với mức ý nghĩa của kiểm định là α
Gọi μx và μy là giá trị trung bình của 2 tổng thể X và Y
Đặt giả thiết : H0 : μx = μy
H1 : μx ≠ μy