1. Trang chủ
  2. » Công Nghệ Thông Tin

Bài giảng Tin học nhóm ngành Nông-Lâm-Ngư và Môi trường - Chương 5, 6: Xử lý phân tích số liệu thống kê Bằng MS Excel 2010 - Biểu diễn kết quả thống kê trong báo cáo khoa học

69 29 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 69
Dung lượng 3,28 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nội dung trình bày trong chương 5, 6 gồm: Một số kiến thức dữ liệu thống kê, công cụ phân tích dữ liệu thống kê trong Excel, phân tích số liệu thống kê, báo cáo phân tích số liệu, danh mục, bảng biểu, biểu đồ. Mời các bạn cùng tham khảo.

Trang 1

Chương 5:

Xử lý phân tích số liệu thống kê

Bằng MS Excel 2010

Trang 2

Nội dung chính

 Một số kiến thức dữ liệu thống kê

 Công cụ phân tích dữ liệu thống kê trong Excel

 Phân tích số liệu thống kê

 Thống kê mô tả

 Tổ chức đồ

 Tính hệ số tương quan và phương trình hồi quy

 So sánh 2 mẫu (Kiểm định giả thuyết)

Trang 3

Một số kiến thức dữ liệu thống kê

 Một đề cương nghiên cứu

o Báo cáo kết quả

 Tư tưởng chính của thống kê suy rộng là lấy mẫu từ

một tổng thể và sau đó sử dụng kết quả phân tích các thông tin từ mẫu này để suy rộng ra cho tổng thể nghiên cứu

Trang 4

Số liệu

 Có bộ số liệu tốt, có được mô hình phân tích thống

kê chính xác sẽ giúp ta đưa ra những quyết định chính xác hơn, phù hợp hơn với thực tế

Trang 5

Chọn mẫu

 Ai là đối tượng nghiên cứu?

 Mẫu tổng thể lý thuyết

 Những ai có thể tiếp cận được?

 Mẫu tổng thể có thể tiếp cận được

 Làm thế nào để tiếp cận được?

 Khung chọn mẫu

 Ai tham gia vào nghiên cứu?

 Mẫu được chọn

Trang 6

Phân phối mẫu

 Phân phối của một số vô hạn các mẫu có cùng quy

mô như mẫu trong nghiên cứu của chúng ta được gọi là phân phối mẫu

Trang 7

Phân phối mẫu

 Giá trị bình quân: giá trị trung tâm

 Độ lệch chuẩn: mức độ dao động hay biến động

 Tỷ lệ của một số quan sát/tổng thể về một đặc trưng nào đó

Trang 8

Ví dụ

 Dể có năng suất và sản lượng lúa của một địa bàn điều tra nào đó (huyện A chẳng hạn) người ta chỉ tiến hành thu thập số liệu về năng suất và sản

lượng lúa thu được trên diện tích lúa thu hoạch

của một số hộ gia đình được chọn vào mẫu của huyện để điều tra thực tế, sau đó dùng kết quả thu được tính toán và suy rộng cho năng suất và sản lượng lúa của toàn huyện

Trang 9

Ví dụ

Trang 10

Cơ sở dữ liệu

 Cơ sở dữ liệu (Database, trong thống kê) là phần

thông tin thu thập được từ một cuộc điều tra bất

kz nào đó và được sắp xếp có cấu trúc nhất định

để có thể dễ dàng cho việc xử l{ số liệu đó thông qua các phần mềm thống kê, cũng như dễ dàng cho việc kiểm tra độ chuẩn xác của thông tin thu lượm được

Trang 11

Công cụ phân tích thống kê

Trang 12

Phân tích số liệu thống kê

 Mô tả thống kê

 Phân phối mẫu

 Đo lường sự biến động

 Tương quan và các mối quan hệ

Trang 13

 𝑥:tổng các giá trị của từng quan sát

𝑛: số lượng các quan sát trong nghiên cứu

Trang 14

Thống kê mô tả

 Trung vị (median): Là giá trị của quan sát có vị trí được

sắp xếp ở giữa theo cách sắp xếp giá trị từ nhỏ đến lớn hoặc ngược lại Một nửa số quan sát sẽ có giá trị nhỏ hơn giá trị ứng vị và một nửa có giá trị lớn hơn giá trị trung vị

 Cách tìm:

 Sắp xếp lại các quan sát theo giá trị từ nhỏ nhất đến lớn nhất

 Tìm quan sát có vị trí trung tâm

 Trường hợp số quan sát là chẵn ta sẽ lấy giá trị bình quân

của 2 quan sát đứng giữa làm giá trị trung vị

Trang 15

Thống kê mô tả

 Mode: là giá trị của những quan sát được xuất hiện

nhiều nhất

 Độ lệch chuẩn (Standard Deviation): Đo lường mức độ

dao động của số liệu quanh giá trị bình quân

(𝑥 − 𝑥 )2

𝑛 𝑖=1

Trang 16

Thống kê mô tả

 Một số khái niệm khác

 Standard error: tỷ số độ lệch chuẩn mẫu /căn bậc hai của n

 Phương sai mẫu hay độ lệch chuẩn mẫu cho ta biết độ phân tán của số liệu quanh giá trị trung bình, nếu các giá trị này càng nhỏ chứng tỏ số liệu càng tập trung

 Kurtosis đánh giá đường mật độ phân phối của dãy số liệu có nhọn hơn hay tù hơn đường mật độ chuẩn tắc Nếu trong

khoảng từ −2 đến 2 thì có thể coi số liệu xấp xỉ chuẩn

 Skewness đánh giá đường phân phối lệch trái hay lệch phải

Nếu trong khoảng từ −2 đến 2 thì có thể coi số liệu cân đối gần như số liệu trong phân phối chuẩn tắc

 Confidence Level được hiểu là nửa độ dài khoảng tin cậy Giả sử Confidence Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean − m , Mean + m)

Trang 17

o Nếu r 𝜖 [-0.25, +0.25] tương quan yếu hoặc không có tương

quan với nhau

o Từ +0,26 đến +0,50 (hoặc từ -0,26 đến -0,50) mức tương quan

trung bình

o Từ +0,5 đến +0,75 (hoặc từ -0,5 đến -0,75) tương quan khá

o Trên 0,75 (hoặc nhỏ hơn -0,75) tương quan chặt

Trang 18

Thống kê mô tả với EXCEL

 Chọn Data > Data Analysis > Descriptive Statistics và khai báo các tham số

 Input range: miền dữ liệu (cả nhãn)

 Grouped by: Columns (theo cột)

 Labels in first row: nếu có nhãn ở

hàng đầu

 Confidence level for mean: độ tin

cậy 95%

 Output range: miền xuất

 Summary Statistics: hiện các thống

kê cơ bản

Trang 19

Ví dụ

 Khảo sát về các đặc tính của lúa ta thu được bốn cột

số liệu: dài bông(cm), P1000 (trọng lượng 1000 hạt),

số bông/một cây, năng suất Số liệu được bố trí như trong hình

Trang 20

Ví dụ

 Kết quả thu được

Trang 21

Ví dụ

 Phân tích kết quả

 Mean, median, mode, Standard error

 Nếu 2 giá trị Mean và Median xấp xỉ nhau ta thì số liệu là cân đối Trong ví dụ trên các cột số liệu là cân đối trừ cột “số

bông” hơi bị lệch

 Confidence Level được hiểu là nửa độ dài khoảng tin cậy Giả sử Confidence Level là m thì khoảng tin cậy của trung bình tổng thể là: (Mean − m , Mean + m) Trong ví dụ trên, ta

có khoảng tin cậy 95% của “dài bông” là: ( 26.4 − 0.55 , 26.4 + 0.55), tức là (25.85 , 26.95)

Trang 22

Tổ chức đồ

 Tần số xuất hiện của số liệu trong các khoảng cách đều nhau cho phép phác hoạ biểu đồ tần số, còn gọi là tổ chức đồ Để vẽ tổ chức đồ cần phải tiến hành phân

tổ/nhóm số liệu

 Thao tác:

 Tạo miền phân tổ

 Vẽ tổ chức đồ

Trang 23

Tạo miền phân tổ (Bin)

 Dùng các hàm Min, Max để xác định giá trị nhỏ nhất và giá trị lớn nhất

 Định ra giá trị cận dưới và giá trị cận trên của miền

phân tổ

 Ghi giá trị cận dưới vào ô đầu của miền phân tổ và bôi đen toàn miền này

 Chọn: Edit > Fill > Series để khai báo các mục:

 Trong mục Series in chọn Columns (dữ liệu theo cột)

 Trong mục Type chọn Linear (dữ liệu tăng theo cấp số cộng)

 Trong Step value: nhập giá trị bước tăng,

 Trong Stop value: nhập giá trị cận trên,

 OK

Trang 24

Vẽ tổ chức đồ

 Chọn Tools > Data Analysis > Histogram để khai báo các mục:

Input range : miền dữ liệu

Input Bin : miền phân tổ

Labels : nhãn ở hàng đầu nếu có

Output range : miền kết quả

Pareto : tần số sắp xếp giảm dần

Cumulative Percentage : tần suất cộng dồn %

Chart output : biểu đồ

OK

Trang 26

Ví dụ:

 Chọn Tools > Data Analysis > Histogram

Trang 27

 Nhìn vào hình 5 ta có thể thấy trong khoảng nào số liệu xuất hiện nhiều nhất

Trang 28

Tính hệ số tương quan

 Excel cho phép tính hệ số tương quan đơn giữa các

biến với các số liệu mẫu thu thập được sắp xếp thành một bảng gồm n hàng, n cột (trên mỗi cột là số liệu

mẫu của một biến)

 Thao tác:

 Chọn Tools>Data Analysis>Correlation và khai báo các mục:

 Input range: miền dữ liệu kể cả nhãn

 Grouped by: Column (số liệu theo cột)

 Labels in first row: tích chọn nếu có nhãn ở hàng đầu

 Output range: miền xuất kết quả

 OK

Trang 29

Ví dụ:

 Đánh giá mối tương quan giữa các đặc tính dài bông, số

hạt, số bông với năng suất lúa

 Thao tác:

 Tools>Data analysis>Correlation

 Khai báo các mục

Trang 30

Ví dụ:

 Kết quả

 Phân tích kết quả

 Hệ số tương quan của hàng và cột ghi ở ô giao giữa hàng và cột

 Hệ số tương quan âm (< 0) thể hiện mối tương quan nghịch biến (chẳng hạn tương quan giữa “dài bông” và “số bông” là nghịch biến)

 Các hệ số tương quan có giá trị tuyệt đối xấp xỉ 0.75 trở lên thể hiện mối tương quan tuyến tính mạnh giữa hai biến (tương quan giữa “năng suất”

và “P1000” có thể tạm coi là tương quan tuyến tính mạnh)

Dài bông P1000 Số bông Năng suất

Dài bông 1

P1000 0.233314 1

Số bông −0.22056 0.340772 1

Năng suất 0.200805 0.66632 0.661379 1

Trang 31

Tìm phương trình hồi quy

 Excel cho phép tìm PT hồi quy tuyến tính đơn:

Trang 32

Tìm phương trình hồi quy

 Thao tác:

 Chọn Tools>Data Analysis>Regression và khai báo các mục:

 Input y range: miền dữ liệu biến y

 Input x range: miền dữ liệu các biến x

 Label: tích chọn nếu có nhãn ở hàng đầu

 Confidence level: 95% ( độ tin cậy 95%)

 Constant in zero: tích chọn nếu hệ số tự do a = 0

 Output range: miền xuất kết quả

 Residuals: tích chọn để hiện phần dư hay sai lệch giữa y thực nghiệm và y

theo hồi quy

 Standardized residuals: tích chọn để hiện phần dư đã chuẩn hoá

 Residuals plot: tích chọn để hiện đồ thị phần dư

 Line fit plots: tích chọn để hiện đồ thị các đường dự báo

 Normal probability plot: tích chọn để hiện đồ thị phần dư đã chuẩn hoá

 OK

Trang 33

Ví dụ:

 Tìm phương trình hồi qui:

𝑦 = 𝑎0 + 𝑎1𝑥1 + 𝑎2𝑥2 + 𝑎3𝑥3của năng suất lúa y phụ thuộc tuyến tính vào độ dài bông (𝑥1), trọng lượng 1000 hạt (𝑥2) và số bông/một cây (𝑥3) với các số liệu

Trang 34

Ví dụ:

 Kết quả

Trang 35

là 62.00% không sát gần với R square chứng tỏ không phải tất cả các

biến đưa vào là thực sự cần thiết

 F thực nghiệm là 8.6142 ứng với xác suất 0.00316 nhỏ hơn mức xác suất

{ nghĩa 0.05 nên phương trình hồi quy tuyến tính được chấp nhận

 Nhìn vào các hệ số của các biến ta viết được đường hồi quy dự báo

Trong ví dụ phương trình hồi quy là:

y =− 3.61899 + 0.085345x1 + 0.081163x2 + 0.02083x3

 Tuy nhiên căn cứ vào các xác suất cho ở cột P-value thì hệ số của x1 là

không đáng tin cậy, vì xác suất tương ứng > 0.05 (mức { nghĩa đã chọn) Trong trường hợp này, cần tiến hành lọc bớt biến x1 để được đường hồi quy với các hệ số đều có { nghĩa

Trang 36

So sánh mẫu

 Bài toán ở đây cần so sánh hai mẫu thông qua việc kiểm định giả thuyết 𝐻0: 𝑚1 = 𝑚2(Kz vọng của biến X và biến Y bằng nhau) với đối thuyết 𝐻1: 𝑚1 ≠ 𝑚2 ở mức { nghĩa 𝛼 trong trường hợp kiểm định hai phía Nếu kiểm định một phía thì đối thuyết

 𝐻1: 𝑚1 < 𝑚2 (𝑥 < 𝑦 )

 𝐻1: 𝑚1 > 𝑚2 (𝑥 > 𝑦 )

Trang 37

So sánh 2 mẫu độc lập khi biết phương sai

 Thao tác:

Data >Data Analysis > z-Test: Two Sample for Means,

 Input Variable 1 Range: miền chứa số liệu biến 1, kể cả tên hàng

đầu của mẫu quan sát

 Input Variable 2 Range: miền chứa số liệu biến 2, kể cả tên hàng

đầu của mẫu quan sát

 Labels: tích chọn nếu chứa tên biến

 Hypothesized means difference: giả thuyết về hiệu hai trung bình

của hai tổng thể Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0 Nếu lấy giả thuyết H1: m1 = m2+d (d là 1 số nào đó) thì ghi d

 Variable 1 variance: phương sai của biến 1 (nhập 𝜎12)

 Variable 2 variance: phương sai của biến 2 (nhập 𝜎22)

 Output Range: chọn miền trống để đưa ra kết quả

Trang 38

Ví dụ:

 Thực hiện thí nghiệm với mẫu 1 có 10 số liệu quan sát được,

mẫu 2 có 12 quan sát ta có bảng số liệu sau, biết phương sai của biến 1 là 2.7, của biến 2 là 2.6 Cho biết kết quả so sánh 2 mẫu độc lập

Trang 39

Ví dụ:

 Kết quả

 Phân tích kết quả

 Trung bình của mẫu

 Phương sai đã cho

 Số quan sát n1 và n2

 Giá trị z thực nghiệm:

 Giá trị P một phía và giá trị P hai phía

 Giá trị z l{ thuyết (tới hạn) một phía và hai phía

 Trong ví dụ 5 ta thấy: giá trị z thực nghiệm 0.14335 nhỏ

hơn z lý thuyết (tới hạn) một phía 1.64485 cũng như z lý thuyết hai phía 1.95996 (giá trị P một phía và hai phía đều lớn hơn mức ý nghĩa α = 0.05)

Kết luận: kỳ vọng của hai biến không khác nhau

Trang 40

So sánh 2 mẫu kiểu cặp đôi

 Ví dụ:

 Nếu mỗi một ổ chim cân trọng lượng chim cái, trọng lượng chim đực, lúc

đó với n ổ chim ta được hai mẫu quan sát kiểu cặp đôi của hai tổng thể chim cái và chim đực Nếu lấy một số chim đực ngẫu nhiên trong nhiều chim đực từ nhiều ổ và lấy một số chim cái ngẫu nhiên trong nhiều chim cái từ nhiều ổ thì có hai mẫu quan sát độc lập

 Nếu ta đem 10 mẫu đất, mỗi mẫu chia đôi, một nửa giao cho phòng

phân tích A thực hiện, nửa kia giao cho phòng phân tích B thì thu được

số liệu cặp đôi để so sánh kết quả của hai phòng phân tích

 Nếu ta đem hai giống lúa cấy trên một số ruộng, mỗi ruộng chia đôi, một nửa cấy giống A, một nửa cấy giống B thì cũng có hai mẫu cặp đôi để so sánh

Trang 41

So sánh 2 mẫu kiểu cặp đôi

 Thao tác

Data >Data Analysis > t-Test: Paired Two Sample for Means

 Điền tham số

 Input Variable 1 Range: miền chứa số liệu của biến 1 (kể cả tên)

 Input Variable 2 Range: miền chứa số liệu của biến 2 (kể cả tên)

 Labels: Tích chọn nếu hàng đầu chứa tên biến

 Hypothesized means difference: giả thiết về hiệu hai trung bình

của hai tổng thể Nếu lấy giả thuyết H0: m1 = m2 thì ghi 0 Nếu lấy giả thuyết H0: m1 = m+ d (d là một số nào đó) thì ghi d

 Output Range: Chọn miền trống để hiện kết quả

 OK

Trang 42

Ví dụ:

 Phân tích mẫu cặp đôi sau

Trang 43

Ví dụ:

 Do t thực nghiệm lớn hơn t lý thuyết một phía cũng như hai

phía (giá trị P một phía và hai phía đều nhỏ hơn mức ý nghĩa

α = 0.05), nên trong ví dụ trên ta chấp nhận giả thuyết H1

Trang 44

So sánh 2 mẫu độc lập

Giả thiết 2 phương sai bằng nhau

Chọn Data>Data Analysis > t-Test: Two-Sample Assuming Equal Variances

Giả thiết 2 phương sai khác nhau

Chọn Data>Data Analysis > t-Test: Two-Sample Assuming Unequal Variances

Nhập các tham số tương tự

Phân tích kết quả?

Trang 45

Ví dụ:

 Phân tích kết quả

Trang 46

Phân tích phương sai

 Phân tích phương sai là công cụ chủ yếu để phân tích các số liệu khi theo dõi ảnh hưởng của các nhân tố (factor) trong thí nghiệm và ảnh hưởng tương tác của chúng lên một (hay nhiều) chỉ số đầu ra

o Phân tích một nhân tố: Thí nghiệm ngẫu nhiên, mỗi

mức lặp lại một số lần

o Phân tích 2 nhân tố: Thí nghiệm trực giao

Trang 47

Phân tích phương sai một nhân tố

 PT ảnh hưởng của các mức của nhân tố tới kết quả

 Ví dụ: ảnh hưởng của các công thức cho ăn đến năng suất thịt lợn, ảnh hưởng của các công thức phun thuốc sâu đến tỷ lệ sâu bệnh

 Grouped by: Columns (theo cột) hoặc Rows (theo hàng)

 Label in First column: nhãn hàng đầu

 Alpha: 0.05 (mức { nghĩa α)

 Output range: miền xuất kết quả ra

Trang 48

Phân tích phương sai một nhân tố

 Phân tích kết quả:

 Kết quả là các thống kê cơ bản cho từng mức (trung bình,

độ lệch chuẩn ) và bảng phân tích phương sai

 Nếu giá trị xác suất P-value < alpha (hoặc F thực nghiệm > F

l{ thuyết) thì các công thức có tác động khác nhau tới kết quả, ngược lại các công thức không có khác biệt đáng kể

 Nếu kết luận các công thức có tác động khác nhau tới kết quả thì phải tiến hành bước tiếp theo là so sánh các công thức để rút ra công thức nào tốt nhất

Trang 49

Phân tích phương sai một nhân tố

 Số liệu được điền theo cột hoặc theo hàng (nếu vào theo hàng thì mỗi hàng ứng với một mức của nhân tố), ô đầu tiên ghi tên mức, các ô tiếp theo ghi số liệu

 Chọn Tools>Data Analysis > Anova: Single Factor

 Nhập các tham số:

 Input range: khai báo miền dữ liệu vào (một chữ nhật bao trùm toàn

bộ các ô chứa tên mức và toàn bộ các số liệu)

 Grouped by: Columns (số liệu theo cột) hoặc Rows (số liệu theo hàng)

 Label in First column: nhãn hàng đầu

 Alpha: 0.05 (mức { nghĩa α)

 Output range: miền xuất kết quả

Trang 50

Phương tích phương sai một nhân tố:

 Phân tích kết quả

 Kết quả in ra gồm các thống kê cơ bản cho từng mức (trung bình, độ lệch chuẩn ) và bảng phân tích phương sai

 Nếu giá trị xác suất P-value < alpha (hoặc F thực nghiệm > F

lý thuyết) thì các công thức có tác động khác nhau tới kết

quả, ngược lại các công thức không có khác biệt đáng kể

 Nếu kết luận các công thức có tác động khác nhau tới kết quả thì phải tiến hành bước tiếp theo là so sánh các công thức để rút ra công thức nào tốt nhất

Trang 51

Ví dụ:

 Thí nghiệm ảnh hưởng của các loại thuốc đến năng

suất lúa (11 loại thuốc là T1 đến T11, 4 cột số liệu là năng suất thu được), số liệu thu được cho trong bảng

Ngày đăng: 03/12/2020, 12:52

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm