Nội dung trình bày trong chương 5, 6 gồm: Một số kiến thức dữ liệu thống kê, công cụ phân tích dữ liệu thống kê trong Excel, phân tích số liệu thống kê, báo cáo phân tích số liệu, danh mục, bảng biểu, biểu đồ. Mời các bạn cùng tham khảo.
Trang 1Chương 5:
Xử lý phân tích số liệu thống kê
Bằng MS Excel 2010
Trang 2Nội dung chính
Một số kiến thức dữ liệu thống kê
Công cụ phân tích dữ liệu thống kê trong Excel
Phân tích số liệu thống kê
Thống kê mô tả
Tổ chức đồ
Tính hệ số tương quan và phương trình hồi quy
So sánh 2 mẫu (Kiểm định giả thuyết)
Trang 3Một số kiến thức dữ liệu thống kê
Một đề cương nghiên cứu
o Báo cáo kết quả
Tư tưởng chính của thống kê suy rộng là lấy mẫu từ
một tổng thể và sau đó sử dụng kết quả phân tích các thông tin từ mẫu này để suy rộng ra cho tổng thể nghiên cứu
Trang 4Số liệu
Có bộ số liệu tốt, có được mô hình phân tích thống
kê chính xác sẽ giúp ta đưa ra những quyết định chính xác hơn, phù hợp hơn với thực tế
Trang 5Chọn mẫu
Ai là đối tượng nghiên cứu?
Mẫu tổng thể lý thuyết
Những ai có thể tiếp cận được?
Mẫu tổng thể có thể tiếp cận được
Làm thế nào để tiếp cận được?
Khung chọn mẫu
Ai tham gia vào nghiên cứu?
Mẫu được chọn
Trang 6Phân phối mẫu
Phân phối của một số vô hạn các mẫu có cùng quy
mô như mẫu trong nghiên cứu của chúng ta được gọi là phân phối mẫu
Trang 7Phân phối mẫu
Giá trị bình quân: giá trị trung tâm
Độ lệch chuẩn: mức độ dao động hay biến động
Tỷ lệ của một số quan sát/tổng thể về một đặc trưng nào đó
Trang 8Ví dụ
Dể có năng suất và sản lượng lúa của một địa bàn điều tra nào đó (huyện A chẳng hạn) người ta chỉ tiến hành thu thập số liệu về năng suất và sản
lượng lúa thu được trên diện tích lúa thu hoạch
của một số hộ gia đình được chọn vào mẫu của huyện để điều tra thực tế, sau đó dùng kết quả thu được tính toán và suy rộng cho năng suất và sản lượng lúa của toàn huyện
Trang 9Ví dụ
Trang 10Cơ sở dữ liệu
Cơ sở dữ liệu (Database, trong thống kê) là phần
thông tin thu thập được từ một cuộc điều tra bất
kz nào đó và được sắp xếp có cấu trúc nhất định
để có thể dễ dàng cho việc xử l{ số liệu đó thông qua các phần mềm thống kê, cũng như dễ dàng cho việc kiểm tra độ chuẩn xác của thông tin thu lượm được
Trang 11Công cụ phân tích thống kê
Trang 12Phân tích số liệu thống kê
Mô tả thống kê
Phân phối mẫu
Đo lường sự biến động
Tương quan và các mối quan hệ
Trang 13 𝑥:tổng các giá trị của từng quan sát
𝑛: số lượng các quan sát trong nghiên cứu
Trang 14Thống kê mô tả
Trung vị (median): Là giá trị của quan sát có vị trí được
sắp xếp ở giữa theo cách sắp xếp giá trị từ nhỏ đến lớn hoặc ngược lại Một nửa số quan sát sẽ có giá trị nhỏ hơn giá trị ứng vị và một nửa có giá trị lớn hơn giá trị trung vị
Cách tìm:
Sắp xếp lại các quan sát theo giá trị từ nhỏ nhất đến lớn nhất
Tìm quan sát có vị trí trung tâm
Trường hợp số quan sát là chẵn ta sẽ lấy giá trị bình quân
của 2 quan sát đứng giữa làm giá trị trung vị
Trang 15Thống kê mô tả
Mode: là giá trị của những quan sát được xuất hiện
nhiều nhất
Độ lệch chuẩn (Standard Deviation): Đo lường mức độ
dao động của số liệu quanh giá trị bình quân
(𝑥 − 𝑥 )2
𝑛 𝑖=1
Trang 16Thống kê mô tả
Một số khái niệm khác
Standard error: tỷ số độ lệch chuẩn mẫu /căn bậc hai của n
Phương sai mẫu hay độ lệch chuẩn mẫu cho ta biết độ phân tán của số liệu quanh giá trị trung bình, nếu các giá trị này càng nhỏ chứng tỏ số liệu càng tập trung
Kurtosis đánh giá đường mật độ phân phối của dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc Nếu trong
khoảng từ −2 đến 2 thì có thể coi số liệu xấp xỉ chuẩn
Skewness đánh giá đường phân phối lệch trái hay lệch phải
Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu cân đối gần như số liệu trong phân phối chuẩn tắc
Confidence Level được hiểu là nửa độ dài khoảng tin cậy Giả sử Confidence Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean − m , Mean + m)
Trang 17o Nếu r 𝜖 [-0.25, +0.25] tương quan yếu hoặc không có tương
quan với nhau
o Từ +0,26 đến +0,50 (hoặc từ -0,26 đến -0,50) mức tương quan
trung bình
o Từ +0,5 đến +0,75 (hoặc từ -0,5 đến -0,75) tương quan khá
o Trên 0,75 (hoặc nhỏ hơn -0,75) tương quan chặt
Trang 18Thống kê mô tả với EXCEL
Chọn Data > Data Analysis > Descriptive Statistics và khai báo các tham số
Input range: miền dữ liệu (cả nhãn)
Grouped by: Columns (theo cột)
Labels in first row: nếu có nhãn ở
hàng đầu
Confidence level for mean: độ tin
cậy 95%
Output range: miền xuất
Summary Statistics: hiện các thống
kê cơ bản
Trang 19Ví dụ
Khảo sát về các đặc tính của lúa ta thu được bốn cột
số liệu: dài bông(cm), P1000 (trọng lượng 1000 hạt),
số bông/một cây, năng suất Số liệu được bố trí như trong hình
Trang 20Ví dụ
Kết quả thu được
Trang 21Ví dụ
Phân tích kết quả
Mean, median, mode, Standard error
Nếu 2 giá trị Mean và Median xấp xỉ nhau ta thì số liệu là cân đối Trong ví dụ trên các cột số liệu là cân đối trừ cột “số
bông” hơi bị lệch
Confidence Level được hiểu là nửa độ dài khoảng tin cậy Giả sử Confidence Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean − m , Mean + m) Trong ví dụ trên, ta
có khoảng tin cậy 95% của “dài bông” là: ( 26.4 − 0.55 , 26.4 + 0.55), tức là (25.85 , 26.95)
Trang 22Tổ chức đồ
Tần số xuất hiện của số liệu trong các khoảng cách đều nhau cho phép phác hoạ biểu đồ tần số, còn gọi là tổ chức đồ Để vẽ tổ chức đồ cần phải tiến hành phân
tổ/nhóm số liệu
Thao tác:
Tạo miền phân tổ
Vẽ tổ chức đồ
Trang 23Tạo miền phân tổ (Bin)
Dùng các hàm Min, Max để xác định giá trị nhỏ nhất và giá trị lớn nhất
Định ra giá trị cận dưới và giá trị cận trên của miền
phân tổ
Ghi giá trị cận dưới vào ô đầu của miền phân tổ và bôi đen toàn miền này
Chọn: Edit > Fill > Series để khai báo các mục:
Trong mục Series in chọn Columns (dữ liệu theo cột)
Trong mục Type chọn Linear (dữ liệu tăng theo cấp số cộng)
Trong Step value: nhập giá trị bước tăng,
Trong Stop value: nhập giá trị cận trên,
OK
Trang 24Vẽ tổ chức đồ
Chọn Tools > Data Analysis > Histogram để khai báo các mục:
Input range : miền dữ liệu
Input Bin : miền phân tổ
Labels : nhãn ở hàng đầu nếu có
Output range : miền kết quả
Pareto : tần số sắp xếp giảm dần
Cumulative Percentage : tần suất cộng dồn %
Chart output : biểu đồ
OK
Trang 26Ví dụ:
Chọn Tools > Data Analysis > Histogram
Trang 27 Nhìn vào hình 5 ta có thể thấy trong khoảng nào số liệu xuất hiện nhiều nhất
Trang 28Tính hệ số tương quan
Excel cho phép tính hệ số tương quan đơn giữa các
biến với các số liệu mẫu thu thập được sắp xếp thành một bảng gồm n hàng, n cột (trên mỗi cột là số liệu
mẫu của một biến)
Thao tác:
Chọn Tools>Data Analysis>Correlation và khai báo các mục:
Input range: miền dữ liệu kể cả nhãn
Grouped by: Column (số liệu theo cột)
Labels in first row: tích chọn nếu có nhãn ở hàng đầu
Output range: miền xuất kết quả
OK
Trang 29Ví dụ:
Đánh giá mối tương quan giữa các đặc tính dài bông, số
hạt, số bông với năng suất lúa
Thao tác:
Tools>Data analysis>Correlation
Khai báo các mục
Trang 30Ví dụ:
Kết quả
Phân tích kết quả
Hệ số tương quan của hàng và cột ghi ở ô giao giữa hàng và cột
Hệ số tương quan âm (< 0) thể hiện mối tương quan nghịch biến (chẳng hạn tương quan giữa “dài bông” và “số bông” là nghịch biến)
Các hệ số tương quan có giá trị tuyệt đối xấp xỉ 0.75 trở lên thể hiện mối tương quan tuyến tính mạnh giữa hai biến (tương quan giữa “năng suất”
và “P1000” có thể tạm coi là tương quan tuyến tính mạnh)
Dài bông P1000 Số bông Năng suất
Dài bông 1
P1000 0.233314 1
Số bông −0.22056 0.340772 1
Năng suất 0.200805 0.66632 0.661379 1
Trang 31Tìm phương trình hồi quy
Excel cho phép tìm PT hồi quy tuyến tính đơn:
Trang 32Tìm phương trình hồi quy
Thao tác:
Chọn Tools>Data Analysis>Regression và khai báo các mục:
Input y range: miền dữ liệu biến y
Input x range: miền dữ liệu các biến x
Label: tích chọn nếu có nhãn ở hàng đầu
Confidence level: 95% ( độ tin cậy 95%)
Constant in zero: tích chọn nếu hệ số tự do a = 0
Output range: miền xuất kết quả
Residuals: tích chọn để hiện phần dư hay sai lệch giữa y thực nghiệm và y
theo hồi quy
Standardized residuals: tích chọn để hiện phần dư đã chuẩn hoá
Residuals plot: tích chọn để hiện đồ thị phần dư
Line fit plots: tích chọn để hiện đồ thị các đường dự báo
Normal probability plot: tích chọn để hiện đồ thị phần dư đã chuẩn hoá
OK
Trang 33Ví dụ:
Tìm phương trình hồi qui:
𝑦 = 𝑎0 + 𝑎1𝑥1 + 𝑎2𝑥2 + 𝑎3𝑥3của năng suất lúa y phụ thuộc tuyến tính vào độ dài bông (𝑥1), trọng lượng 1000 hạt (𝑥2) và số bông/một cây (𝑥3) với các số liệu
Trang 34Ví dụ:
Kết quả
Trang 35là 62.00% không sát gần với R square chứng tỏ không phải tất cả các
biến đưa vào là thực sự cần thiết
F thực nghiệm là 8.6142 ứng với xác suất 0.00316 nhỏ hơn mức xác suất
{ nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận
Nhìn vào các hệ số của các biến ta viết được đường hồi quy dự báo
Trong ví dụ phương trình hồi quy là:
y =− 3.61899 + 0.085345x1 + 0.081163x2 + 0.02083x3
Tuy nhiên căn cứ vào các xác suất cho ở cột P-value thì hệ số của x1 là
không đáng tin cậy, vì xác suất tương ứng > 0.05 (mức { nghĩa đã chọn) Trong trường hợp này, cần tiến hành lọc bớt biến x1 để được đường hồi quy với các hệ số đều có { nghĩa
Trang 36So sánh mẫu
Bài toán ở đây cần so sánh hai mẫu thông qua việc kiểm định giả thuyết 𝐻0: 𝑚1 = 𝑚2(Kz vọng của biến X và biến Y bằng nhau) với đối thuyết 𝐻1: 𝑚1 ≠ 𝑚2 ở mức { nghĩa 𝛼 trong trường hợp kiểm định hai phía Nếu kiểm định một phía thì đối thuyết
𝐻1: 𝑚1 < 𝑚2 (𝑥 < 𝑦 )
𝐻1: 𝑚1 > 𝑚2 (𝑥 > 𝑦 )
Trang 37So sánh 2 mẫu độc lập khi biết phương sai
Thao tác:
Data >Data Analysis > z-Test: Two Sample for Means,
Input Variable 1 Range: miền chứa số liệu biến 1, kể cả tên hàng
đầu của mẫu quan sát
Input Variable 2 Range: miền chứa số liệu biến 2, kể cả tên hàng
đầu của mẫu quan sát
Labels: tích chọn nếu chứa tên biến
Hypothesized means difference: giả thuyết về hiệu hai trung bình
của hai tổng thể Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0 Nếu lấy giả thuyết H1: m1 = m2+d (d là 1 số nào đó) thì ghi d
Variable 1 variance: phương sai của biến 1 (nhập 𝜎12)
Variable 2 variance: phương sai của biến 2 (nhập 𝜎22)
Output Range: chọn miền trống để đưa ra kết quả
Trang 38Ví dụ:
Thực hiện thí nghiệm với mẫu 1 có 10 số liệu quan sát được,
mẫu 2 có 12 quan sát ta có bảng số liệu sau, biết phương sai của biến 1 là 2.7, của biến 2 là 2.6 Cho biết kết quả so sánh 2 mẫu độc lập
Trang 39Ví dụ:
Kết quả
Phân tích kết quả
Trung bình của mẫu
Phương sai đã cho
Số quan sát n1 và n2
Giá trị z thực nghiệm:
Giá trị P một phía và giá trị P hai phía
Giá trị z l{ thuyết (tới hạn) một phía và hai phía
Trong ví dụ 5 ta thấy: giá trị z thực nghiệm 0.14335 nhỏ
hơn z lý thuyết (tới hạn) một phía 1.64485 cũng như z lý thuyết hai phía 1.95996 (giá trị P một phía và hai phía đều lớn hơn mức ý nghĩa α = 0.05)
Kết luận: kỳ vọng của hai biến không khác nhau
Trang 40So sánh 2 mẫu kiểu cặp đôi
Ví dụ:
Nếu mỗi một ổ chim cân trọng lượng chim cái, trọng lượng chim đực, lúc
đó với n ổ chim ta được hai mẫu quan sát kiểu cặp đôi của hai tổng thể chim cái và chim đực Nếu lấy một số chim đực ngẫu nhiên trong nhiều chim đực từ nhiều ổ và lấy một số chim cái ngẫu nhiên trong nhiều chim cái từ nhiều ổ thì có hai mẫu quan sát độc lập
Nếu ta đem 10 mẫu đất, mỗi mẫu chia đôi, một nửa giao cho phòng
phân tích A thực hiện, nửa kia giao cho phòng phân tích B thì thu được
số liệu cặp đôi để so sánh kết quả của hai phòng phân tích
Nếu ta đem hai giống lúa cấy trên một số ruộng, mỗi ruộng chia đôi, một nửa cấy giống A, một nửa cấy giống B thì cũng có hai mẫu cặp đôi để so sánh
Trang 41So sánh 2 mẫu kiểu cặp đôi
Thao tác
Data >Data Analysis > t-Test: Paired Two Sample for Means
Điền tham số
Input Variable 1 Range: miền chứa số liệu của biến 1 (kể cả tên)
Input Variable 2 Range: miền chứa số liệu của biến 2 (kể cả tên)
Labels: Tích chọn nếu hàng đầu chứa tên biến
Hypothesized means difference: giả thiết về hiệu hai trung bình
của hai tổng thể Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0 Nếu lấy giả thuyết H0: m1 = m+ d (d là một số nào đó) thì ghi d
Output Range: Chọn miền trống để hiện kết quả
OK
Trang 42Ví dụ:
Phân tích mẫu cặp đôi sau
Trang 43Ví dụ:
Do t thực nghiệm lớn hơn t lý thuyết một phía cũng như hai
phía (giá trị P một phía và hai phía đều nhỏ hơn mức ý nghĩa
α = 0.05), nên trong ví dụ trên ta chấp nhận giả thuyết H1
Trang 44So sánh 2 mẫu độc lập
Giả thiết 2 phương sai bằng nhau
Chọn Data>Data Analysis > t-Test: Two-Sample Assuming Equal Variances
Giả thiết 2 phương sai khác nhau
Chọn Data>Data Analysis > t-Test: Two-Sample Assuming Unequal Variances
Nhập các tham số tương tự
Phân tích kết quả?
Trang 45Ví dụ:
Phân tích kết quả
Trang 46Phân tích phương sai
Phân tích phương sai là công cụ chủ yếu để phân tích các số liệu khi theo dõi ảnh hưởng của các nhân tố (factor) trong thí nghiệm và ảnh hưởng tương tác của chúng lên một (hay nhiều) chỉ số đầu ra
o Phân tích một nhân tố: Thí nghiệm ngẫu nhiên, mỗi
mức lặp lại một số lần
o Phân tích 2 nhân tố: Thí nghiệm trực giao
Trang 47Phân tích phương sai một nhân tố
PT ảnh hưởng của các mức của nhân tố tới kết quả
Ví dụ: ảnh hưởng của các công thức cho ăn đến năng suất thịt lợn, ảnh hưởng của các công thức phun thuốc sâu đến tỷ lệ sâu bệnh
Grouped by: Columns (theo cột) hoặc Rows (theo hàng)
Label in First column: nhãn hàng đầu
Alpha: 0.05 (mức { nghĩa α)
Output range: miền xuất kết quả ra
Trang 48Phân tích phương sai một nhân tố
Phân tích kết quả:
Kết quả là các thống kê cơ bản cho từng mức (trung bình,
độ lệch chuẩn ) và bảng phân tích phương sai
Nếu giá trị xác suất P-value < alpha (hoặc F thực nghiệm > F
l{ thuyết) thì các công thức có tác động khác nhau tới kết quả, ngược lại các công thức không có khác biệt đáng kể
Nếu kết luận các công thức có tác động khác nhau tới kết quả thì phải tiến hành bước tiếp theo là so sánh các công thức để rút ra công thức nào tốt nhất
Trang 49Phân tích phương sai một nhân tố
Số liệu được điền theo cột hoặc theo hàng (nếu vào theo hàng thì mỗi hàng ứng với một mức của nhân tố), ô đầu tiên ghi tên mức, các ô tiếp theo ghi số liệu
Chọn Tools>Data Analysis > Anova: Single Factor
Nhập các tham số:
Input range: khai báo miền dữ liệu vào (một chữ nhật bao trùm toàn
bộ các ô chứa tên mức và toàn bộ các số liệu)
Grouped by: Columns (số liệu theo cột) hoặc Rows (số liệu theo hàng)
Label in First column: nhãn hàng đầu
Alpha: 0.05 (mức { nghĩa α)
Output range: miền xuất kết quả
Trang 50Phương tích phương sai một nhân tố:
Phân tích kết quả
Kết quả in ra gồm các thống kê cơ bản cho từng mức (trung bình, độ lệch chuẩn ) và bảng phân tích phương sai
Nếu giá trị xác suất P-value < alpha (hoặc F thực nghiệm > F
lý thuyết) thì các công thức có tác động khác nhau tới kết
quả, ngược lại các công thức không có khác biệt đáng kể
Nếu kết luận các công thức có tác động khác nhau tới kết quả thì phải tiến hành bước tiếp theo là so sánh các công thức để rút ra công thức nào tốt nhất
Trang 51Ví dụ:
Thí nghiệm ảnh hưởng của các loại thuốc đến năng
suất lúa (11 loại thuốc là T1 đến T11, 4 cột số liệu là năng suất thu được), số liệu thu được cho trong bảng