1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Xây dựng bài giảng thống kê toán chuyên sau cho ngành chăn nuôi thú y và thú y

99 179 0
Tài liệu được quét OCR, nội dung có thể không chính xác

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 99
Dung lượng 45,83 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

3_ Ước lượng bằng khoảng tin cậy cho tham số một tổng thể và các lệnh trong R 19 3.1 Ước lượng kỳ vọng của biến ngẫu nhiên tuân theo quy luật phân phối chuẩn.... Vẽ một số biểu đồ kiểm s

Trang 1

DAI HOC THAI NGUYEN

TRUONG DAI HOC NONG LAM

KHOA KHOA HOC CO BAN

BAO CAO TONG KET

DE TAI KHOA HQC VA CONG NGHE CAP TRUONG

TEN DE TAI:

XAY DUNG BAI GIANG THONG KE TOAN CHUYEN SAU CHO

NGANH CHAN NUO}I THU Y VA THU Y

Mã số: T2016-05

Chủ nhiệm đề tài: Mai Thị Ngọc Hà

Thái Nguyên, thang 3 năm 2017

Trang 2

DAI HOC THAI NGUYEN

TRUONG DAI HOC NONG LAM KHOA KHOA HOC CO BAN

BAO CAO TONG KET

DE TAI KHOA HOC VA CONG NGHE CAP TRUONG |

XÂY ĐỰNG BÀI GIANG THONG KE TOAN CHUYEN SAU CHO

NGANH CHAN NUOI THU Y VA THU Y

Mã số: T2016-05

Xác nhận của cơ quan chủ trì đề tài Chủ nhiệm đề tài

Trang 3

DAI HOC THAI NGUYEN TRUONG DAI HOC NONG LAM KHOA KHOA HOC CO BAN

BAO CAO TONG KET

DE TAI KHOA HỌC VÀ CONG NGHE CAP TRUONG

XAY DUNG BAI GIANG THONG KE TOAN CHUYEN SAU CHO

NGANH CHAN NUOI THU Y VA THU Y

Mã số: T2016-05

Chú nhiệm đề tài Xác nhận Hội đồng nghiệm thu

Moor Hee - Phản bién 1: 9999096 "”0 0600009090920 0606 6260666696666 e66e66°

9996980000 0606609009 2029606600066 0660 6066666

Trang 4

Muc luc

Thông tin két qua nghiên cứu đề tài khoa hoc va công nghệ cấp trường

Information on research results

Mở đầu

1 Một số kiến thức cơ bản về phần mềm R

1.1 Một số hướng dẫn mở đầuvềR 1.1.1 Tải và cài đặtR Q Q Q Q Q Q Q Q Q LH Quà và 1.12 Khởi động và ngừngchạyR cu 11.3 "Vanpham"R 2 2 ee eee 1.1.4 Đối tượng và các thao tác với đối tượngtrongR

1.2.3 Nhập số liệu từ Excel (Fille.csV) Ặ cv

13 Tạo dữ liệu rongR Q Q Q Q Q Q HQ ng HQ Q2 v2 v12 1.3.1 Tạo day số cách đều bằng hàmseq 1.3.2 Tạo dãy lặp bằng hàmrep Q Q Q Q Q Q eee 2_ Cơ sở lý thuyết mẫu

2.1 Tổng thể và mẫu Q Q Q Q Q Q Q Q Q Q vn ru va 2.11 Tổng thỂ Q.2 ee

2.1.2 Mẫu và cách chọn mẫu ngẫu nhiên bằng phần mêmR

2.2 Các phương pháp sắp xếp số liệu thựcnghệm

2.3 Các tham số mẫu của mẫu ngẫu nhiên 2.3.1 Hàm thốngkê Q.0 0Q HQ Quy v22Ÿ 2.3.2 Trung bình mẫu Q Q Q Q Q Q Q Q Q Q Q v.v 2.3.3 DO léch binh phuong trang binh 2 ee 2.3.4 Phương sa mẫu 2 2 ee

Trang 5

3_ Ước lượng bằng khoảng tin cậy cho tham số một tổng thể và các lệnh trong R 19

3.1 Ước lượng kỳ vọng của biến ngẫu nhiên tuân theo quy luật phân phối chuẩn 20

3.1.1 Đã biết phương sai øˆ của biến ngẫu nhiên gốc Ÿ 20

3.1.2 Chưa biết phương sai của biến ngẫu nhiên gốc à 23

3.2 Ước lượng của kì vọng toán của biến ngẫu nhiên không theo quy luật phân phối chuẩn .- ee 31 3.3 Ước lượng khoảng cho ÏlỆ Ặ Ặ XS SH he 31 3.3.1 Co sé ly thuyét vé udc luong khoang chotylé 31

3.3.2 Dùng các lệnh trong phân mềm R để ước lượng tỷ lệ của tổng thể 35

4_ Kiểm định giả thuyết thống kê và các lệnh trong R 38 4.1 Khái nệm chung ee eee 38 4.1.1 Giả thuyết thống kê : Ặ Ặ QẶ Q Q Q Q H H h Ủ 38 4.1.2 Các bước tiến hành bài toán kiểm định giả thuyết thống kê 39

4.1.3 Quy trình làm một bài toán thống kê trongR cee ee 3G 4.2 Kiém dinh gia thuyét vé gid trị trung bình sử dụng phần mềm R 39

4.2.1 Trong trường hợp đã biết phương sai ø” .- 40

4.2.2 Trong trường hợp chưa biết phương saiø? .- 42

4.3 Kiểm định sự bằng nhau của hai kỳ vọng của hai biến ngẫu nhiên có phân phối chuẩn trên phần mềmR - - {SẺ nà 45 4.4 Kiém định giả thuyết của xác suất trên phần mềmR - - 50

4.4.1 Trường hợp một tổng thể -ẶẶẶẶ TS 50 44.2 Trường hợp hai tổng thỂ ẶẶ ẶQQ So 52 5_ Tương quan và hồi quy và các lệnh trong R 55 5.1 Hệ số tương quan - SH ha 55 5.1.1 Phân tích ý nghĩa hệ số tương quan . -« 55

5.1.2 Hệ số tương quan mẫu Se mm 56 5.1.3 CaAch tinh hé s6 tuong quan mau bang phn mémR 61

5.2 Hồi quy tuyến tính đơn giản - - Ÿ Ặ S SS h ee 62 5.2.1 Mô hình hồi quy tuyến tính đơn giản . - 62

5.2.2 Phương trình hồi quy tuyến tính đơn giản của tổng thể 63

5.2.3 Phương trình đường hồi quy tuyến tính mẫu 65

5.2.4 Sử dụng phần mêm R viết phương trình hồi quy tuyến tính mẫu 66

5.2.5 Những sai lâm cần tránh khi phan tich twong quan va hdi quy - 66

Trang 6

_ THONG TIN KET QUA NGHIÊN CÚU

DE TAI KHOA HOC VA CÔNG NGHỆ CẤP TRƯỜNG

1 Thông tin chung

Tên đề tài: Xây dựng bài giảng thống kê toán chuyên sâu cho ngành CNTY - TY

Mã số: T2016 -05

Chủ nhiệm đề tài: Mai Thị Ngọc Hà

Cơ quan chủ trì: Khoa khoa học cơ bản - Đại học Nông lâm Thái Nguyên

Cơ quan va cá nhân phối hợp thực hiện: Bùi Linh Phượng

Thời gian thực hiện: Tháng Í năm 2016 đến tháng 12 năm 2016

5 San phẩm: 01 bài báo cấp Đại học

6 Hiệu quả và khả năng áp dụng: Tài liệ tham khảo cho sinh viên năm thứ nhất trường Đại học Nông lâm Thái Nguyên

Trang 7

INFORMATION ON RESEARCH RESULTS

1 General information:

- Project title: Develop intensive mathematical lecture for animal and veterinary industry

- Code number: 72016 — 05

- Coordinator: Mai Thi Ngoc Ha Tel: 0962586083 Email: maiha.bomontoan@ gmail.com

- Implementing institution: Thai Nguyen University of Agriculture and Forestry

5 Products: | article published in college magazines

6 Effects and applicability: Reference materials for first year students of Thai Nguyen Uni- versity of Agriculture and Forestry

Trang 8

MỞ ĐẦU

1 Tính cấp thiết của đề tài

Thống kê toán học mà môn khoa học có vai trò quan trọng và là một công cụ tính toán không thể thiếu trong nhiều lĩnh vực nghiên cứu như dân số, y tế, chăn nuôi, thú y, Để sinh

viên có khả năng vận dụng tốt hơn công cụ thống kê toán học trong nghiên cứu và thực tiễn

nghề nghiệp, hiện nay ở nhiều trường đại học trong nước và trên thế giới đã xây dựng giáo

trình, bài giảng thống kê riêng cho từng ngành đào tạo Nhờ hệ thống giáo trình, bài giảng thống kê chuyên biệt cho từng ngành như thống kê toán cho khoa học cây trồng, thống kê toán cho môi trường, mà sinh viên gắn kết được lý thuyết với thực tiễn nghề nghiệp, sinh viên hiểu

và dễ dàng tiếp cận với các môn học phương pháp thí nghiệm chuyên ngành

Ở trường Đại học Nông lâm Thái Nguyên hiện nay, nâng cao chất lượng đào tạo các môn

khoa học cơ bản đang được nhà trường quan tâm.Nhiều hội nghị, hội thảo nhằm tìm ra các giải pháp đã diễn ra và một trong các giải pháp cơ bản là phải gắn môn học với ngành nghề đào

tạo, gắn với thực tiễn cuộc sống và nghề nghiệp từ đó tăng cường tính hứng thú học tập cho

người học Với chủ trương, chính sách chung của nhà trường để nâng cao chất lượng đào tạo, chúng tôi đề xuất đề tài: "Xây dựng bài giảng thống kê toán chuyên sâu cho ngành chăn nuôi

thú y và thú y" để nghiên cứu

2 Mục tiêu của đề tài

- Cung cấp hệ thống bài tập, ví dụ minh họa của học phần xác suất thống kê chuyên sâu cho ngành chăn nuôi thú y và thú y

- Giúp sinh viên ngành chăn nuôi thú y và thú y học tập phần thống kê vừa có kiến thức khoa học, vừa biết vận dụng thực tiễn nhằm nâng cao chất lượng đào tạo chung của nhà trường

3 Tổng quan fình hình nghiên cứu thuộc lĩnh vực của đề tài

a Trên thế giới: Hiện nay ở hầu hết các trường Đại học trên thế giới, môn học thống kê toán học đều được quan tâm, chú trọng và mỗi ngành đào tạo đều có giáo trình thống kê chuyên biệt nhu Engineering Statistics (Lincoln - University of Nebraska), Environmental and Ecological Statistics (P.Dutileul; B.F.J Manly), nhờ hệ thống giáo trình có tính chuyên biệt như vậy mà sinh viên có năng lực áp dụng kiến thức thống kê trong chuyên ngành đào tạo

b Trong nước: Hiện nay trong nước, giáo trình thống kê chuyên biệt cho từng ngành đào tạo còn hạn chế, chủ yếu ở các trường Đại học hiện nay, thống kệ chuyên ngành được dạy ghép trong các học phần như phương pháp thí nghiệm đồng ruộng, phương pháp thí nghiệm trong chăn nuôi và thú y Thống kê toán được dạy trong học phần xác suất thống kê còn mang nặng

lý thuyết hàn lâm, không có ứng dụng cụ thể cho việc nghiên cứu

4 Nội dung nghiên cứu của đề tài

- Xây dựng hệ thống ví dụ, bài tập liên quan đến ngành chăn nuôi thú y và thú y theo kết cấu chương của nội dung thống kê trong học phần xác suất thống kê

- Đưa ra các ví dụ sử dụng phần mềm R xử lý số liệu thống kê tương ứng với mỗi chương của phần thống kê môn học

- Hoàn thiện nội dung bài giảng của phần trên để giảng dạy cho ngành chăn nuôi thú y và

thú y :

5 Phương pháp nghiên cứu

Phương pháp nghiên cứu lý thuyết, kết hợp thử nghiệm và thực hành trên phần mềm R

Trang 9

Sau khi tải bộ cài R về máy ta chỉ cần làm theo hướng dẫn đơn giản là có thể cài xong và

sử dụng trên máy tính của mình

1.1.2 Khởi động và ngừng chạy R

Sau khi cài đặt R xong, trên màn hình sẽ xuất hiện biểu tượng của R Để khởi động R ta

có thể làm theo những cách sau:

e Kích đúp vào biểu tượng của R trên màn hình

e Vao Start —> R —> Ri386 3.3.1

khi đó ta sẽ có một cửa sổ dòng lệnh R (R console) và có thể thực hiện trên cửa số dòng lệnh

để đưa ra các kết quả cần thiết

Để ngừng hoạt động R, tại cửa sổ dòng lệnh ta kích đúp vào nút chéo (x) ở góc bên phải

của mà hình hoặc vào File —> Exifs hoặc gõ lệnh qQ Khi thực hiện thao tác này, trên cửa SỐ đòng lệnh sẽ hiện ra câu hỏi có ghi lại không gian làm việc này không

Chú ý 1.1.1 ¡) Nếu chọn ”“Yøs” thì cửa sổ sẽ lưu lại những lệnh của lần thực hiện này trong lan thuc hién sau duéi dang RData va Rhistory, con néu chon “No” thì lệnh sẽ không được lưu lại và lần thực hiện sau cửa sổ dòng lệnh sẽ hoàn toàn mới

1) Trong trường hợp đã lưu file nhưng không muốn dùng lại những lệnh này, ta có thể thực

hiện theo một trong các cách sau:

e Vao thu muc RData va Rhistory xóa hai file này đi Nếu thư mục này chưa bị thay đổi, hai file này được lưu ở thư mục mặc định của R

e Hoặc tại cửa sổ đòng lệnh gõ các lệnh sau: > unlink(”.RData”) va> unlink(’ Rhistory” ) sau đó đóng R lại và chọn chế độ không lưu

Trang 10

11.3 "Van pham" R

R là một ngôn ngữ tương tác (mteractive language) có nghĩa là khi ta ra một lệnh đó đúng

"văn phạm” thì R sẽ cho ra một kết quả Văn phạm chung của R là lệnh (command) hay các

function Mà đã là các functiion thì phải có các thông số, cho nên theo sau hàm là các thông

số mà chúng ta cần cung cấp Cú pháp chung của R như sau:

DoiTuong = function(Thongsol, Thongso2, ., Thongson)

Chẳng hạn như, một lệnh là một phép toán với các kí hiệu phép toán cơ bản như +, —, *, /,"

hoặc cũng có thể một hàm được minh họa như sau:

R là một ngôn ngữ "đối tượng” nghĩa là các dữ liệu trong R được chứa trong các Object

1.1.4 Đối tượng và các thao tác với đối tượng trong R

Một trong những ưu điểm nổi bật của R là kết quả không nhất thiết phải hiển thị ra mà có

thể ghi trong các đối tượng (Objects) Tùy theo kết quả của từng đối tượng mà ta có thể dùng

cho các phân tích tiếp theo hoặc thực hiện các phép toán trên các đối tượng

> DaySo = seq(0, 10, bụ = 2)

Để hiển thị nội dung của một đối tượng, ta đánh tên đối tuong va g6 enter:

> DaySo

[1] 0246 8 10

Trường hợp này đối tượng "DaySo”" là một vectơ gồm các số nên có thể thực hiện một số phép

toán phù hợp trên "DaySo"

Đặt tên một đối tượng trong R khá linh hoạt Tên một đối tượng trong R phải bắt đâu bằng

chữ cái (A — Z) hoặc (a — z), chỉ bao gồm các chữ cái, chữ số (0 — 9), đấu chấm (.) và dấu

gạch dưới (_) được viết liền nhau Một chú y là R phân biệt chữ hoa và chữ thường, nghĩa là đối

tượng "DaySo" khác hoàn toàn với đối tượng "dayso" Do tên của đối tượng không chứa dấu

cách nên để dé đọc tên, ta có thể viết hoa các chữ cái đầu trong mỗi từ của tên như "DaySo"

hoặc dùng dấu chấm phân biệt giữa các từ, chẳng hạn "day.so"

Xóa đối tượng trong R ta dùng hầm rm (remove):

> z‡ Xóa đối tượng DaySo

> rm(DaySo)

Trang 11

1.1.5 Dinh dang trén cita s6 R

Để kiểm tra thư mục làm việc hiện tại của R là gì, ta gõ lệnh:

> getwd()

[1]’C': /Users /Administrator / Documents”

Trong trường hợp muốn thay đổi thư mục làm việc của R, ta có thể làm một trong các cách Sau:

e Tại cửa số dòng lệnh, gõ lệnh

> sehud(Đ : /Quanlukhoahoec/deta¿Ha2016”)

e Hoặc tại cửa số dòng lệnh vào File —› Change dir và chọn đến thư mục (”1 :

/Quanlykhoahoc/ detai Ha2016” )

1.1.6 Cài đặt thêm các gói công cụ mới

Phân mềm R cung cấp cho chúng ta một "ngôn ngữ” máy tính và một số ƒwcfion để làm các phân tích căn bản và đơn giản Tuy nhiên để làm các phân tích phức tạp hơn chúng ta cần cài đặt thêm các package Package là một phần mềm nhỏ được các nhà thống kê phát triển để giải quyết các vấn đề cụ thể, và có thể chạy trong hệ thống R Chẳng hạn như để phân tích hồi quy tuyến tính, R có function / để sử dụng cho mục đích này, tuy nhiên để làm các phân tích sâu hơn và phức tạp hơn chúng ta dùng đến các package me4 Các package này cần được tải

về máy và cài đặt

Cài đặt gói mới từ gói được tải về máy

Để cài theo cách này chúng ta làm theo thứ tự sau

e Vào trang chủ CRAN của R p: // cran.r - project.org, chọn mục packages xuất hiện

bên trái của mục lục trang web;

*® Chọn sắp xếp các gói theo tên Table oƒavailable packases, sorted by name để thuận tiện

_ cho việc tìm kiếm;

e Chọn đến gói đang cần tải về máy

e Trên thanh cộng cụ chọn Packages —> Insfall package(s) from local zip files và tại hộp thoai R Select files chọn thư mục chứa gói lệnh muốn cài đặt mà đã tải về máy Nếu máy tính được kết nốt mạng thì việc cài đặt gói mới từ trên mạng sẽ nhanh và thuận tiện hơn „

Cài đặt gói mới (rực tiếp từ trên mạng

e Trên thanh công cụ chọn Packages =——> Install package(s)

e Chọn mot ban sao cla CRAN, chang han 0 - Cloud [https]

e Chọn đến gói cần cai, giả sử cài BSDA | Chú ý I.1.2 Trước khi sử dụng những hàm trong một gói mới, ta phải gọi gói nay ra qua ham _ library, chang han library(BSDA ) hoặc tại cửa số dòng lệnh của R, vao package -—> Load package và chọn đến gói cần dùng

Để phân tích thống kê và tính xác suất, ta nên sử dụng thêm một số gói lệnh Sau:

7

Trang 12

Tên gói | Chức năng

joreian Nhập dữ liệu từ phần mềm

khác nhau SPSS, STATA,

Vẽ một số biểu đồ kiểm soát

chất lượng (quality control charts), e707/ | Tính một số hàm thống kê

Để tìm hiểu "văn phạm" của từng hàm, R còn hỗ trợ bằng hàm help(), chẳng hạn muốn

biết thông tin của hàm /m ta gõ lệnh

> help(m)

Trong trường hợp muốn biết thông tin một hàm, chẳng hạn hàm /szn.f£sf nằm cụ thể ở gói nào frong các gói đã cài, ta có thể dùng thêm tham số /ry.2ll.packages = TRUE trong hàm

help, chang han:

> help("tsum.test” , try.all.packages = TRU E)

Help for topic "tsum.test" is not in any loaded package but can be found in the following

> help(’tsum.test” , package = ” BSD A”)

Thông tin về một hầm trong một gói bất kì cập nhật đến thời điểm tra cứu được tìm hiểu

tại trang tìm kiếm của R ở địa chỉ: http : // finzi.psych.upenn.edu/search.html

Những trợ giúp khác trong R có thể được tra cứu tại mục heip trên thanh tiêu đề của cửa sổ

dong lệnh

Hàm heïp chỉ được thực hiện khi tên hàm được nhớ chính xác Trong trường hợp tên hàm

ta không nhớ chính xác thi ta cé thé ding ham apropos Ham apropos liét ké tất cả các hàm (trong gối cơ bản hoặc gói đã gọi ra) chứa cụm kí tự đang được tìm kiếm Ví dụ để tìm kiếm tất cả những hàm kiểm định có chứa cụm từ ”/@sf," ta có thể thực hiện lệnh:

Trang 13

> apropos(” test” )

Ngoai ham apropos ra, ta c6 thé diing ham help.search dé tim tén và những tóm tắt sơ lược

về các hàm trong các gói cơ bản và những gói đã được cài thêm chứa một cụm kí tự dang quan

tam

> help.search(” test” )

1.1.8 Thanh (tiêu đề trong cửa số R

Thanh tiêu đề cung cấp một số chức năng cho người dùng khi thao tác trên đó Các bảng

sau giới thiệu chỉ tiết các mục con trong các mục trên thanh tiêu đề

File Muc con Lénh tuong ting Chức năng

Source R code Source("File.txt") Tả , file (dang zie oui ma nguon

của những hàm cần dùng

New script Tạo cửa số biên soạn Eile lệnh

; Mở file lệnh đã được biên soạn

Open script và lưu ở trong máy « 2 4

Display Files _ Mở đến những file cần sử dụng

Load workSpace load ( "File.RData") Tải lại không gian làm việc của R

đã được lưu trong lần thực hành trước

Load History load ("File.Rhistory") trong những lần thực hành trước

wo " Lưu lại các lệnh của R đang

Save History history(""File.Rhistory") thực hành để dùng cho những lần sau

Change dir Thay đổi thư mục đang làm việc của R

Print In ra những cửa số đang làm việc của R

Save to Files Luu lại dạng (text file) toàn bộ lệnh

và kết quả trong cửa số dòng lệnh của R

ExIt Thoát khỏi R

Bảng 1.2: Các chức năng của mục File trên thanh tiêu đề

Chú ý 1.1.3 e Khi đã tạo được một file lệnh và lưu lại thì trong những lần sử dụng sau

bằng cách mở qua Open script ta sẽ được một file chứa các tập lệnh Các lệnh này có

thể sao chép và dán vào trong cửa sổ R Các lệnh này cũng có thể được đưa vào cửa số

lệnh R bằng cách bôi đen những lệnh cần và ấn chuột phải chọn Run line or selecfion

e Phân biệt giita cdc kiéu luu qua Save WorkSpace, Save History, Save to Files:

- Save WorkSpace: Lưu lại cả không gian làm việc của R, kết quả lưu lại là dạng cửa

số dòng lệnh;

- Save History: Lưu lại những lệnh trong R, kết quả lưu lại là file dạng RHISTORY File

mở bằng WordPad;

- Save to Files: Lưu lại toàn bộ những øì trong cửa số dòng lệnh (lệnh và kết quả), kết

quả lưu lại là file dang text file

Trang 14

Edit

Muc con Phím tất | Chức nang

Cony Chl +C soe chép một dean kí tự

trên cửa số dòng lệnh Đán mồ : Paste Ctrl + V trên cửa số dòng lệnh an un down Ki tự

Dán các lệnh của một đoạn kí tự Paste commands only trong cửa số dòng lệnh i he ea `

Mục con hước len Chức năng

Stop current computation | ESC, qQ) Đừng tính toán, lệnh hiện hành Stop all computation Dong tat cả các Tinh Loan, lệnh hiện hành

Bufferred output Ctrl +W Cho kết quả ra cùng một lúc

List search path searchQ Liệt kê các đường dẫn tìm kiếm

Bảng 1.5: Các chức năng của mục Misc trên thanh tiêu đêF]

Trang 15

Packages

Muc con Lệnh tương ứng Chức năng

- Tai những gói đã cài Load packages library; require m để sĩ đựng

Set CRAN mirror | chooseCRANmirrorQ | Chọn bản sao CRAN của R

Select repositories setRepositories() Chọn nguồn chứa R

from local zip files install.packages

( repos =NULL) Cài đặt một hoặc một số

gói mới đã tải về trong máy

Cascade Xếp các cửa sổ đạng tầng

Tile Horizontally | Xếp các cửa sổ theo chiều ngang

Tile Vertically | Xếp các cửa số theo chiều dọc

Arrange lcons Sắp xếp các biểu tượng

Bảng 1.7: Các chức năng của mục windows trên thanh tiêu để

Trang 16

Help

Muc con Lệnh tương ứng | Chức năng

Console Cung cấp những hướng dẫn trên cửa sổ dòng lệnh

Cung cấp những tài liệu đưa ra những

FAQ onR câu hỏi thường xuyên về R

TFAO on R for windows Cung cấp tài liệu đưa ra những câu hỏi

thường xuyên về R trên windows

Cung cấp một số tài liệu dạng PDE hướng dẫn sử dụng trên R

R functions (text) help Tra cứu cách dùng một hàm trên R

Cung cấp những tài liệu hướng dẫn

Manuals (in PDF)

Html help sử dụng R dạng html

Tìm những hàm trên R chứa eat help help.search mit cưa Kỷ trpehp bước

search.r - proJecf.Org RSiteSearch Dua thong un ve những tài liệu chứa cụm từ cho trước

Apropos apropos Tìm kiếm những hàm chứa

PrOP93 PrOP cụm từ cho trước

R project home page Liên kết đến trang dự án R

CRAN home page Liên kết đến trang chủ R

About Đưa thông tin về phiên bản R

Bang 1.8: Các chức năng của mục windows trên thanh tiêu đề

1.2 Cách nhập đữ liệu vào R

Muốn làm phân tích dữ liệu bằng R, chúng ta phải có sẵn dữ liệu ở đạng mà R có thể hiểu

duoc dé xt ly Dit ligu ma R c6 thé hiéu duoc 1a dit liéu trong mot data frame C6 nhiéu cach

dé nhap di li¢u vao mot dare frame trong R, tit nhap truc tiép dén nhap từ các nguồn khác nhau Sau đây là những cách thông dụng nhất

1.2.1 Nhập số liệu trực tiếp: cQ

Ví dụ 1.2.1 Giả sử ta cân thử 100 quả trứng gà có số liệu như bảng sau và muốn nhập vào R:

X(g) | 150 | 160 | 165 | 170 | 180 | 185 S6qua} 4 | 20 | 25 | 30 |] 15 | 6

Để nhập bảng trên vào R, đầu tiên ta nhập số liéu cia timg cét bang ham c/ , .), m6i so

liệu được nhập vào hàm c() cách nhau bởi dấu phẩy:

> X = c(150, 160, 165, 170, 180, 185)

> SoQua = c(4, 20, 25, 30, 15, 6)

Sau đó chúng ta dùng hàm data,frame dé ghép ching thanh mot bang, cau lénh nhu sau:

> TLTGa = data frame(X, SoQua)

Trong lệnh này chúng ta muốn cho R biết rằng nhập 2 cột (hay 2 đối tượng) vào một đối tượng

có tên là TƯTGa, để kiểm tra số liệu trong đối tượng T7Ga ta chỉ cần gõ lệnh

> TLTGa

Và R sẽ báo cáo

Trang 17

180 15

185 6

Để lưu lại các số liệu này trong một file theo dạng R, chúng ta cần dùng lệnh szwe Giả sử chúng

ta muốn lưu file số liệu trong thư mục: E : /Quanlykhoahoc — KHCB/detaiHa — 2016, chúng ta làm như sau:

Vào File - Change dir - Chọn đến địa chỉ cẩn lưu Sau đó gõ lệnh:

> save(TLTGa, file =” TLTGa.rda”)

khi đó mot file s6 liéu c6 tén TLTGa.rda được lưu trong thư mục trên

Ta cũng có thể lưu nhiều dữ liệu trong cùng một tệp bằng lệnh: save(DuLieul, DuLieu2, „ fle= "Nhiêu dữ liệu.rda”)

Khi cần lấy đữ liệu được lưu trong một tệp ở một thư mục nào đó, ta làm như sau:

> z# Truy cập vào thư mục chứa tệp dữ liệu: Vào Chznge dir - chọn đến địa chỉ đã lưu

> # Tai va xem dữ liệu

> print(load(T LTGa))

1.2.2 Nhap sé liéu truc tiép: edit(data.frame())

Ham edi1(dafa,frame()) cung cấp cho chúng ta một window giống như trong excel để chúng

Ta dùng lệnh như sau để nhập vào R:

> ChiSoMoSua = edit(data frame())

Ta thu được bảng cho phép ta nhập số liệu vào và nhấn nút chéo tắt bang ta sẽ có 1 file dữ liệu ChiSoMoSua

1.2.3 Nhập số liéu tir Excel (File.csv)

Để nhập số liệu từ phần mềm Excel, chúng ta cần tiến hành 2 bước:

e Dùng lệnh Szve as trong excel và lưu số liệu dưới dạng ".csv" (Chon Save as type "CSV (comma dilimited)");

e Dùng R (lệnh rezd.csv) để nhập dữ liệu dạng cøv

read.csv(file, header)

trong d6

file: Tập dữ liệu dạng file.csv

header: xem ham read.table, mac dinh header = TRUE

Trang 18

Giả sử trong thư mục E : /Quanlykhoahoc — KHCB/detatH A — 2016, có lưu tệp đữ liệu TLBE.csv Tại cửa số R console ta tải dữ liệu này ra như sau:

> ## Truy cập vào thư mục chứa đữ liệu

> sehud(°E: /Qunlkhoahc — KHCBdeta¿H A — 2016”)

> # Doc đữ liệu trong tệp TLBE.csv và lưu vào đối tượng 7LBE

> TLBE = read.csv(? TLBE.csv” , header = TRUE)

> # Lưu lại với đuôi “.rđz” để dùng cho những phân tích tiếp theo

> save(TLBE, file =”TLBE.rda”)

13 Tao di liéu trong R

1.3.1 Tao day sé cach déu bang ham seq

seq(from, to, by), seq(length, from, by),

seq(length, from, to) trong đó

from — giá trị bắt đầu của đấy số

fo — giá trị cuối cùng của dãy số

by khoảng cách giữa các số trong dãy

length — Số phần tử của dãy số

Ví dụ 1.3.1 > # Tạo một dãy số từ 150 đến 185 cách nhau 5 :

x — Vec tơ các giá trị được lặp lại

times Vec tơ chỉ số lần lặp lại

Vi du 1.3.2 > # Tao vec to x va vec to chi sé lan lap:

Trang 19

[55)165 165 165 165 165 165 165 165 170 170 170 170 170 170 170 170 170 170 [73]170 170 170 170 170 170 170 170 175 175 175 175 175 175 175 175 175 175 [91]180 180 180 180 180 180 180 180 180 180

Trang 20

Chuong 2

Cơ sở lý thuyết mẫu

Trong chương này chúng ta sẽ nghiên cứu một phương pháp được sử dụng rộng rãi trong thực tế là phương pháp nghiên cứu mẫu Phương pháp này chủ trương từ tập hợp nghiên cứu, chọn ngẫu nhiên một số đủ lớn các phần tử đại diện trong tập hợp các phần tử cần nghiên cứu

để điều tra rồi dùng kết quả thu thập được tính toán, suy rộng ra các kết luận về tập hợp cần nghiên cứu Ví dụ, để ước lượng năng suất và sản lượng lúa của một huyện nào đó người ta chỉ tiến hành thu thập số liệu về năng suất và sản lượng lúa thu trên điện tích của một số hộ gia đình được chọn vào mẫu của huyện để điều tra thực tế, sau đó đùng kết quả thu được tính toán và suy rộng cho năng suất và sản lượng lúa của toàn huyện Nếu mẫu được chọn ra một cách ngẫu nhiên và xử lý bằng phương pháp xác suất thì vừa thu được các kết luận một cách nhanh chóng, đỡ tốn kém mà vẫn đảm bảo độ chính xác cần thiết

2.1 Tổng thể và mẫu

2.1.1 Tổng thể

Định nghĩa 2.1.1 Toàn bộ tập hợp các phần tử đồng nhất theo một dấu hiệu nghiên cứu định

tính hoặc định lượng nào đó được gọi là tổng thể nghiên cứu (population) (hay tổng thể hoặc tập chính) Số lượng các cá thể (hay các phần tử) của tổng thể được gọi là kích thước của tổng thể (size of population), thường được kí hiệu là N Lấy từng cá thể ra đo lường một dấu hiệu

nghiên cứu X, chúng ta được một biến ngẫu nhiên X Tập hợp tất cả các giá trị của X được

gọi là một tổng thể

Đấu hiệu nghiên cứu chính là một hay một số dấu hiệu đặc trưng của tổng thể Các dấu

hiệu nghiên cứu này có thể mang tính định tính hoặc định lượng (ta cũng có thể gọi là biến

định tính hoặc biến định lượng) Dấu hiệu nghiên cứu mang tính định tính là các dấu hiệu nghiên cứu không cân đong đo đếm được mà chỉ đánh giá bằng giác quan (cảm tính) như màu sắc của lá, mùi vị của thịt lợn hộp, mức độ nhiễm bệnh của vật nuôi, mầu lông của các giống

lợn .Đấu hiệu nghiên cứu mang tính định lượng là các dấu hiệu nghiên cứu có thể cân đong

Trang 21

đo đếm được như năng suất của lúa (tạ/ha), chiều cao của cây (mét), trọng lượng của 1 con lợn (kg), số con lợn sinh ra trên lứa, tỷ lệ thịt lạc

2.1.2 Mau va cách chọn mẫu ngẫu nhiên bằng phần mềm R

a Định nghĩa mẫu

Định nghĩa 2.1.2 Một tập hợp các cá thể được lấy ra từ tổng thể được gọi là mẫu (sample) Số

lượng cá thể trong một mẫu gọi là kích thước mẫu (size øƒ sample), thường kí hiệu là ø Những

kết quả đo lường về đặc điểm của các cá thể trong mẫu được gọi là số liệu thực nghiệm hay số

liệu thống kê

Chú ý rằng kích thước của mẫu thường nhỏ hơn rất nhiều so với kích thước tổng thể Từ tổng thể đã cho ta có thể lấy ra nhiều mẫu khác nhau với cùng một kích thước 0 Tập hợp tất

cả các mẫu có thể lấy ra được từ tổng thể được gọi là không gian mẫu (sample space) Thống

kê theo phương pháp mẫu tức là dùng các kết quả thu được từ mẫu đề suy diễn, kết luận cho

tổng thể Khi đó những số liệu thống kê của mẫu được dùng để ước lượng, kiểm định, đánh giá những tham số của tổng thể Sở đĩ phải lấy mẫu vì tham số của tổng thể quá nhiều không thé đo lường trực tiếp được, có nhiều trường hợp do phương pháp thu thập mà các cá thé trong mẫu bị biến đổi hoặc phá hủy, như khi nghiên cứu rễ cây Hơn nữa, mẫu nhỏ hơn tổng thể nên việc thu thập, xử lý, tổng hợp nhanh và ít tốn kém hơn

Như đã nói ở trên, chúng ta lấy mẫu để có các số liệu thống kê và sử dụng các số liệu thống

kê này để ước lượng, kiểm định, so sánh, đánh giá những tham số của tổng thể Do đó, yêu cầu lấy mẫu là mẫu phải đại điện một cách khách quan nhất cho tổng thể, cũng vì thế mà việc

lấy mẫu theo phương pháp nào, cỡ mẫu bao nhiêu là rất quan trọng đối với phân tích thống kê

và nó phụ thuộc vào từng lĩnh vực, từng ngành nghề, từng thí nghiệm cụ thể Lưu ý là để mẫu

đại điện cho tổng thể thì việc lấy mẫu theo phương pháp nào cũng vẫn phải đảm bảo yêu cầu

là lấy mẫu ngẫu nhiên Ngẫu nhiên có nghĩa là bất kì cá thể nào trong tổng thể đều có cơ hội

được chọn làm mẫu như nhau Dé dam bảo tính đại diện của mẫu và tiện cho việc mô hình hóa, mẫu được tạo lập với những giả thiết sau:

- Lấy lần lượt từng phần tử vào mẫu Phương pháp này gọi là phương pháp đơn giản để phân biệt với cách lấy cùng một lúc nhiều phần tử vào mẫu

- Mỗi phần tử được lấy vào mẫu một cách hoàn toàn ngẫu nhiên, tức là mợi phần tử của

tổng thể đều được lấy vào mẫu với khả năng như nhau

- Các phần tử được lấy vào mẫu theo phương thức hoàn lại, tức là trước khi lấy phần tử thứ

k thì trả lại tổng thể phần tử thứ k — 1 mà ta đã nghiên cứu xong

Trong thực tế nếu kích thước của tổng thể khá lớn còn mẫu chỉ chiếm một phần rất nhỏ

của tổng thể thì phương thức lấy mẫu hoàn lại và không hoàn lại cho ta các kết quả sai lệch

Trang 22

không đáng kể Đặc biệt khi kích thước của tổng thể là vô hạn, kích thước của mẫu lại là hữu

hạn thì không còn sự khác biệt giữa hai phương thức lấy mẫu nói trên nữa Lúc đó có thể chọn mẫu theo phương thức không hoàn lại và vẫn có thể giả thiết mẫu được chọn theo phương thức

hoàn lại

b Cách chọn mẫu ngẫu nhiên bằng phần mềm R

Khi muốn thực hiện phép chọn mẫu ngẫu nhiên, ta ding him sample véi những tham số

chính như sau:

sample(x, size, replace, prob)

trong đó:

x vectơ gồm những phần tử dùng để chọn mẫu,

size số nguyên dương chỉ số phần tử trong mẫu,

replace tham số logic, TRUE chỉ việc chọn mẫu có hoàn lại, FALSE chỉ việc chọn mẫu

không hoàn lại, mặc định replace = FALSE

prob vecto cho biết xác suất được chọn của những phần tử trong z

Vi du 2.1.3 i) Giả sử ta có tổng thể gồm 100 con lợn lái móng cái được đánh số ngẫu nhiên từ

1 đến 100 Giả sử chúng ta muốn chọn ngẫu nhiên ra 10 con để nghiên cứu về khả năng sinh

sản, chúng ta có thể dùng lệnh szpie để chọn như sau:

> sample(1 : 100, 10)

[1]6 28 62 36 83 100 97 5 99 94

Kết quả trên cho biết những con lợn mang số [1] 6, 28, 62, 36, 83, 100, 97, 5, 99, 94

sẽ được chọn vào mẫu Mỗi lần ra một lệnh này, R sẽ chọn một mẫu khác, chứ không hoàn toàn giống như mẫu trên

> sample(1 : 100, 10)

[1J80 49 8 1 47 4 94 93 61 64

Trên đây là lệnh dé chúng ta chọn mẫu ngẫu nhiên không hoàn lại, tức là mỗi lần chọn mẫu,

chúng ta không bỏ lại các mẫu đã chọn vào tổng thể

ii) Nhung nếu chúng ta muốn chọn mẫu có hoàn lại, tức là mỗi lần chọn ra một cá thể,

chúng fa lại bỏ vào lại tổng thể để chọn lần tiếp theo, thì chúng ta dùng lệnh như sau:

> sample(1 : 100, 10,zeplace = T'RU E)

[2l 5 40 56 34 94 73 34 94 77

Hay tung một đồng xu cân đối đồng chất 10 lần, mỗi lần tung chỉ xảy ra hai khả năng hoặc là xuất hiện mặt sấp (HJ), hoặc là xuất hiện mặt ngửa 7) và kết quả 10 lần có thể là:

> sample(c(? H”,”T”), 10, replace = TRU E)

[1]??? BP eyes FP peeps Fae

Trang 23

1i) Ngoài ra, chúng ta còn có thể lấy mẫu với một xác suất cho trước Giả sử cần chọn ra 5

phần tử từ tổng thể gồm 3 phần tử được đánh số thứ tự ngẫu nhiên từ 1 đến 3, mà xác suất được

là một số nguyên dương dùng để cố định mẫu

e Ham sample cho ta cdch chon mau tit mét vecto Trong truéng hop mudén chọn mẫu

từ một nhóm đối tượng có dữ liệu có trong một bảng dữ liệu, đầu tiên ta áp dụng hàm sample cho vectơ chỉ số thứ tự của các đối tượng, sau đó lấy từ bảng ra những quan sát

có thứ tự đã chọn được

Chẳng hạn, với bảng 7yLeMoSua gồm thông tin của 10 cặp bò đời mẹ và đời con về tỷ

lệ mỡ sữa, để chọn ngẫu nhiên ra 3 cặp bò mẹ con từ bảng này ta làm như sau: -

Trang 24

> + Lấy ra những cặp với thứ tự trong mẫu

> DIM = TụLeMoSual Mau, |

2.2 Cac phuong phap sap xếp số liệu thực nghiệm

Sau khi thu thập xong số liệu liên quan đến việc nghiên cứu, để khai thác và xử lý các thông tin chứa dung trong day s6 liệu ta cần sắp xếp số liệu nhằm nhận ra các đặc trưng của dãy số liệu đó Thông thường ta sắp xếp số liệu theo thứ tự tăng dân Một số phương pháp thường

được dùng để sắp xếp số liệu như sau

a Phuong pháp sắp xếp số liệu dùng bảng tần số và bảng tần suất Giả sử từ tổng thể của

biến ngẫu nhiên gốc X rút ra một mẫu cụ thể có kích thước n, trong đó giá trị z¡ xuất hiện với tan sO nz, giá trị z› xuất hiện với tần số n¿, , giá trị z„ xuất hiện với tần số n;, lúc đó sau

khi các z;¡ đã được sắp xếp theo trình tự tăng dân giá trị cụ thể của mẫu, ta có thể mô tả mẫu

cụ thể bằng bảng phân phối tân số thực nghiệm (Frequence distribution table) sau

VỚI ?ị + nạ + + nạ = n Dòng trên phi các giá trị có thể có của mẫu theo thứ tu tang dan,

đòng dưới ghi tần số tương ứng Tân số mẫu là số cá thể có đặc tính X = z; trong mẫu Bảng tần số cho ta nhiều thông tin hơn dãy số liệu được sắp xếp theo thứ tự tăng dần Ngoài những thông tin có được như dãy số liệu sắp xếp theo thứ tự tăng dân, qua bảng tần số ta có thể biết được số liệu nào có mặt nhiều nhất, số liệu nào có mặt ít nhất trong mẫu

Phần mềm R hỗ trợ việc tìm tần số của đữ liệu thông qua hàm sau:

table(x, exclude)

Trang 25

trong đó:

x vecto dir 1iéu can tinh tan s6;

exclude tham số chỉ những phần tử không tham gia vào quá trình tính tần số, mặc định exclude = e(N A, NaN), tức là không tính tân số những dữ liệu trống và những dữ liệu không phải dạng số

Ví dụ 2.2.1 Để kiểm tra hiệu quả của việc sử dụng men Lactos 4% trong khẩu phần thức ăn

cho gà, người ta bố trí thí nghiệm trên hai lô gà thí nghiệm: Lô đối chứng (DC) và lô thí nghiệm

có bổ sung men Lactos 4% (TN), mỗi lô 30 con, có độ đồng đều về khối lượng, sức khỏe, và

chăm sóc với chế độ như nhau Sau 10 tuần người ta cân thử trọng lượng gà ở mỗi lô và thu được số liệu sau:

DC : (2000; 2000; 1900; 2400; 2000; 2100; 2000; 2000; 2000; 2200; 2000; 2100; 2300; 2400; 1900; 2100; 2100; 2300; 2000; 2000; 2100; 2200; 2000; 2000; 2200; 2200; 2100; 2200; 2150; 2000) 7N : (2500; 2200; 2000; 2100; 2300; 2300; 2000; 2200; 2100; 2000; 2400; 2200; 2000; 2300; 2100;

Goi f; = = (i = 1, , k) là tần suất của cá thể có đặc tinh x; trong mau, ta có bảng phân

phéi tan sudt thuc nghiém (Relative -frequence distribution table) nhu sau

được tỷ lệ phần trăm đóng góp của số liệu mẫu

Trong R ta sử dụng hàm sau để tính tân suất:

Trang 26

prop.table(table(x))

trong đó

xz vecto di liệu hoặc bảng dữ liệu cần tính tần suất của các phần tử;

Ví dụ 2.2.2 Quay trở lại ví dụ (2.2.1) ta có thể tính tần suất của các trọng lượng của lô DC

như sau:

> prop.table(table(DC))

DC 1900 2000 2100 2150 2200 2300 2400

0.06666667 0.40000000 0.20000000 0.03333333 0.16666667 0.06666667 0.06666667

b Phương pháp phan khoảng Phân chia số liệu theo khoảng (lớp) với cùng một độ rộng để

thuận tiện cho việc phân tích và xử lý số liệu Giả sử #„¡n là giá trị nhỏ nhất, zmạ„ là giá trị

lớn nhất của số liệu Chia khoảng (mi, Zmax) thành & khoảng cách đều nhau, ta có bảng sau

trong đó n; là số cá thể có đặc tính X có trong mẫu thỏa mãn z;_¡ < X < #;, ¡ = 1,2, ,m

Ví dụ 2.2.3 Đo chỉ số mỡ sữa của 100 con bò lai Hà - Ấn F, ta thu được kết quả sau:

3.1,3.4, 3.6, 3.7, 3.8, 3.9, 4.0, 4.1, 4.2, 3.7,4.3,4.4,4.5,4.3, 4.5, 4.4, 4.6, 4.6, 4.5,4.8,4.3,4.3,46,4.6,4.7 4.3, 4.4, 4.4, 4.6, 4.7, 4.6, 4.7, 44, 4.6, 4.7, 4.7, 4.6,4.4,4.4,4.9, 4.9, 5.1, 5.1, 5-1, 5.1,5.0,5.0,5.0,5.2, 5.2 5.4,5.4,5.4, 4.9, 4.9, 5.3, 5.3, 5.1, 5.1, 5.4, 5.3, 5.3, 5.2, 5.2, 5.0, 5.1, 5.3, 5.2, 5.1, 5.0, 4.9, 5.2, 5.7,5.7,5.9 6.0, 5.8, 5.7, 5.6, 5.5, 5.6, 5.8, 6.0, 5.9, 5.7, 5.5, 5.8, 6.1, 6.4, 6.5, 6.3, 6.4, 6.2, 6.5, 6.8, 7.2, 6.9

Vì cỡ mẫu lớn, các dữ liệu nhiều và sát gần nhau nên để thuận tiện cho việc phân tích thống

kê, ta tiến hành phân dữ liệu thành các khoảng (lớp, tổ) và lập bảng tần số theo các khoảng đã

được phân Đầu tiên ta cần tính giá trị nhỏ nhất, lớn nhất của dữ liệu bằng lệnh trong R như sau:

> DLTChiSoMoSua = c(3.1,3.4, 3.6, 3.7, 3.8, 3.9, 4.0, 4.1, 4.2, 3.7, 4.3, 4.4, 4.5, 4.3, 4.5, 4.4, 4.6, 4.6, 4.3, 4.3, 4.6, 4.6,4.7,4.7,4.3, 4.4, 4.4, 4.6, 4.7, 4.6,4.7,4.4,4.6,4.7,4.7,4.6,4.4,44,4.9,49,5.1,5.1,51 5.1, 5.0, 5.0, 5.0, 5.2, 5.2, 5.2, 5.4,5.4,5.4,5.4,4.9, 4.9, 5.3, 5.3, 5.1, 5.1, 5.4, 5.3, 5.3, 5.2, 5.2.5.0,

Trang 27

ta phân thành 7 khoảng với độ dài mỗi khoảng là 0.6 là: (3.0, 3.6]; (3.6, 4.2], (4.2, 4.8], (4.8, 5.4], (5.4, 6.0], (6.0, 6.6 Trong R, hàm cu được dùng để phân khoảng dữ liệu:

cut(x, breaks, labels, right, include.lowest, dig.lab)

trong đó:

z vectơ đữ liệu dạng số cần được phân tổ

breaks vectơ số gồm các điểm chia (ít nhất 2 tọa độ) hoặc là một số nguyên dương

chỉ số khoảng (lớn hơn hoặc bằng 2)

labels nhan của các khoảng, theo mặc định /zbels = NŨLL, các nhãn được xây dựng dưới

đạng nửa khoảng (a, 8]

right — dang logic, néu right = TRU E thi khoang c6 dang (a,b), néu right = FALSE

thi khoang cé dang [a, b), mac dinh 1a right = TRUE

include.lowest — dang logic, néu include.lowest = TRUE thi khoang dau chia gid tri

nhỏ nhất của điểm chia (khi right = TRU E),hoac khoang cui chia gia tri 16n nhat

của điểm chia (khi righ#‡ = FALSE), mac dinh include.lowest = FALSE

dig.lab Số nguyên dương chỉ số chữ số trong điểm chia (trong trường hợp không gán nhãn

cho các khoảng chia), mặc định đ¿g.iab = 3

Sử dụng hàm này để phân khoảng dữ liệu cho chỉ số mỡ sữa như sau:

> PKDLChiSoMoSua = cut(DLTChiSoMoSua, breaks = c(3.0, 3.6, 4.2, 4.8, 5.4, 6.0, 6.6, 7.2))

Để nghiên cứu biến ngẫu nhiên gốc X trong tổng thể, nếu chỉ rút một mẫu ngẫu nhiên

(X,, Xo, , Xp») thì mới chỉ có một vài kết luận sơ bộ và rời rạc về X, vì các giá trị X; của

mẫu có chung quy luật phân phối xác suất với X, song quy luật này lại chưa được xác định

hoàn toàn Nhưng nếu tổng hợp các biến ngẫu nhiên ÄX¡, Xa, , X„ này lại thì theo luật số

lớn chúng sẽ bộc lộ những quy luật mới làm cơ sở để nhận định về biến ngẫu nhiên gốc X

trong tổng thể Việc tổng hợp mẫu (X¡, Mies 1a; Xa) được thực hiện dưới dạng một hàm nào

Trang 28

đó của các giá trị X, Xa, , Ä„ của mẫu được gọi la hdm thdng ké (statistical function) hay tham số mẫu, ký hiệu là

G = F(X, Xo, ae 5 inde

Với mẫu cụ thé (a1, %2, ,%,) thi g = f(x1,22, ,2p,) là giá trị cụ thể ma thong ké G =

ƒ(X:,X›, , X„) nhận tương ứng với mẫu đã cho

Như vậy, về thực chất hàm thống kê là một hàm của các biến ngẫu nhiên, do đó nó cũng là một biến ngẫu nhiên tuân theo một quy luật phân phối xác suất nhất định và cũng có các tham

số đặc trưng như kỳ vọng, phương sai, Các hàm thống kê cùng với quy luật phân phối xác

suất của chúng là cơ sở để suy rộng các thông tin của mẫu cho dấu hiệu nghiên cứu tổng thể

Các hàm thống kê hay còn gọi là các tham số của mẫu được chia thành 2 nhóm:

-1) Các tham số về vị trí gồm: trung bình mẫu; trung vị, mode

11) Các tham số về độ phân tán gồm: phương sai mẫu, độ lệch chuẩn (độ lệch tiêu chuẩn) mẫu,

sai số mẫu, khoảng biến động và hệ số biến động

ŒÌ) Trung bình mẫu phản ánh giá trị trung tâm của dãy số liệu thực nghiệm của mẫu hay nói

cách khác nó mô tả vị trí tập trung của mẫu cụ thể

(iii) Trung binh mẫu là một hàm thống kê do đó nó là một biến ngẫu nhiên nên nó có các tham

số đặc trưng tương ứng như kì vọng toán, phương sai Nếu biến ngẫu nhiên gốc X có kì vong

toán #⁄(X) và phương sai V(X) thì

E(X) = E(X);V(X) = — (2.1) Vay bat kì biến ngẫu nhiên gốc phân phối theo quy luật nào, trung bình mẫn X cũng có kỳ vọng toán bằng kỳ vọng toán của biến ngẫu nhiên gốc, còn phương sai V(Ä) của nó nhỏ hơn

¡z lần so với phương sai của biến ngẫu nhiên gốc, nghĩa là các giá trị có thể có của X ổn định quanh kì vọng toán hơn các giá trị có thể có của X

Trang 29

2.3.3 Độ lệch bình phương trung bình

Giả sử từ tổng thể của biến ngẫu nhiên gốc X, ta lập một ngẫu nhiên (XÃ, Xa, , X„) có kích thước øœ Lúc đó tổng bình phương các sai lệch (Sum squares of variation) giữa các giá tri của mẫu và trung bình mẫu được kí hiệu là SSV và được tính bằng công thức

n

SSV =À (X¡ - X)

i=1 Nếu đem chia S'SV cho kích thước mẫu ta thu được trung bình số học của tổng bình phương sai lệch giữa các giá trị của mẫu và trung bình mẫu

Định nghia 2.3.3 Dé léch binh phuong trung binh (Mean squares of variation) hay con được gọi là phương sai mẫu chưa điêu chỉnh, kí hiệu S2, là một hàm thống kê xác định bởi

¿=1 Chú y 2.3.4 (i) Hoàn toàn tương tự như trung bình mẫu, khi mẫu ngẫu nhiên nhận một bộ số

liệu thực nghiệm thì độ lệch bình phương trung bình sẽ nhận một giá trị cụ thể, kí hiệu là s”

(1ñ) Độ lệch bình phương trung bình mô tả sự phân tán của mẫu cụ thể xung quanh giá trị trung bình mẫu

(1) Độ lệch bình nhượng trung bình cũng là một hàm thống kê nên nó cũng là một biến ngẫu nhiên có các tham số đặc trưng xác định Nếu biến ngẫu nhiên gốc X có kì vọng toán #(X)

và phương sai V(X) thi

2.3.4 Phuong sai mau

Dinh nghia 2.3.5 Phuong sai mdu da diéu chinh (sample standard variance) hay gọi tắt là

phương sai mẫu (sample variance), kí hiệu S2, là một hàm thống kê xác định bởi

g2=— S (xX; m®%— ] — XP = — 8" m—

+=]

Chú ý 2.3.6 (1) Phương sai mẫu Š? là một hàm thống kê, khi mẫu ngẫu nhiên nhận một bộ

số liệu thực nghiệm thì phương sai mẫu cũng là một số xác định, kí hiệu s2,

(ii) Phuong sai m4u mô tả sự phân tán của mẫu cụ thể xung quanh giá trị trung bình mẫu

(iii) Cling giống như phương sai mẫu chưa điều chỉnh S?, phương sai mẫu Š' cũng là một biến

ngẫu nhiên và nó có tính chất sau:

Trang 30

(iv) Tir (2.2) va (2.3) ta thấy với bất kì biến ngẫu nhiên gốc X phân phối theo quy luật nào

n —

thì phương sai mẫu chưa điều chỉnh S2 cũng có kì vọng toán bằng lần phương sai của

biến ngẫu nhiên gốc X, và phương sai mẫu Š” có kì vọng toán đúng bằng phương sai của biến ngẫu nhiên gốc X

2.3.5 Độ lệch chuẩn mẫu

Do đơn vị của phương sai mẫu là bình phương, vì thế đơn vị này không có ý nghĩa thực tiễn Căn bậc hai của phương sai mẫu có ý nghĩa thực tiễn vì có đơn vị giống như đơn vị của gid tri quan sat

Định nghĩa 2.3.7 Độ lệch chuẩn của mẫu (sample standard deviation), ki hiéu S’, 1a căn bậc hai của phương sai mẫu, S’ = v92

Chú ý 2.3.8 () Khi mẫu ngẫu nhiên nhận bộ số liệu thực nghiệm thì độ lệch chuẩn mẫu cũng

độ lệch chuẩn mẫu nhỏ thì mẫu đại diện cho tổng thể

Người ta chứng mình được rằng với n lớn thì số lượng các giá trị của biến ngẫu nhiên nằm trong khoảng:

X + 1s chiém 68.26% dung lượng mẫu;

X +2s chiếm 95.45% dung lượng mẫu;

X +3s chiếm 99.74% dung lượng mẫu

2.3.6 Hệ số biến động

Như chúng ta đã biết, độ lệch chuẩn mẫu dùng để xác định mức độ biến động của một tổng thể, đó đó nó dùng để so sánh mức độ biến động của 2 tổng thể có cùng đơn vị đo, cùng bản

chất và có trung bình mẫu như nhau hoặc không khác nhau nhiều Trong trường hợp ngược lại

để so sánh mức độ biến động của các tổng thể có bản chất và đơn vị đo khác nhau, trung bình

mẫu khác nhau thì cần đùng một tham số thống kê mới gọi là hệ số biến động

Định nghĩa 2.3.9 Hệ số biến động, kí hiệu Ở,, là tỷ lệ phần trăm giữa độ lệch tiêu chuẩn mẫu

với trung bình mẫu và được xác định bởi công thức Ở, = ==-1005

A

Trang 31

2.3.7 Sai số chuẩn

Định nghĩa 2.3.10 Szi số chuẩn (standard error) hay còn gọi là sai số của số trung bình, kí

hiệu 2, dùng để biểu thi mức độ đại biểu của tham số mẫu đối với tham số tổng thể và được

i

xác định bởi công thức 5 = —= Jn

Nhìn vào công thức ta thấy sai số chuẩn càng lớn biểu thị mức độ đại biểu của tham số mẫu đối với tham số tổng thể càng nhỏ và ngược lại sai số chuẩn càng nhỏ biểu thị mức độ đại biểu của tham số mẫu với tham số tổng thể càng lớn Nói một cách khác có thể đùng sai

số chuẩn để biểu thị mức độ tin cậy của tham số mẫu

Cân chú ý rằng sai số chuẩn được trình bày ở đây là sai số chọn mẫu (do bản thân việc

chon mẫu gây ra) chứ không phải sai số do dụng cụ quan sát, đo lường sai hay do ghi chép sai,

tính toán sai

2.3.8 Cách tính các tham số mẫu và các hàm tính tham số mẫu trong R

Qua các mục trên, ta thấy khi thực hiện một phép thử với mẫu ngẫu nhiên sẽ nhận được một bộ dữ liệu là các số thực, khi đó chúng ta sẽ tính được các giá trị trung bình mẫu, phương sai mẫu và độ lệch chuẩn mẫu tương ứng Ta cũng dễ nhận thấy rằng ta chỉ cần tính trung bình mẫu và độ lệch bình phương trung bình mẫu ta sẽ tính được các đặc trưng còn lại thông qua hai đặc trưng trên

a Số liệu thực nghiệm được cho ở dạng liệt kê: với mẫu kích thước ø có

thể lập bảng tính như sau:

Trang 32

Nhìn vào bảng và dựa vào công thức (2.7) ta có: # =

Ví dụ 2.3.11 Mức tăng giá cám chăn gà của 30 tháng qua cho ở bảng sau:

Số tháng n; 2|15112|714

Hãy tính các đặc trưng mẫu Z; s2; s; s2; s”

Gidi: Ta lap bang tinh sau day:

trong đó z có thể chọn là một giá trị z; bất kì nhưng với mục đích làm giảm số liệu tính toán

người fa thường chọn là giá trị mà tại đó tần số đạt giá trị lớn nhất Khi đó

# = Lo + hu, (2.10)

2

s2 = h2s) = h“(u2 — (8)?), (2.11)

Trang 33

thức (2.10); (2.11) ta thu được 7; s2 rồi thay vào công thức (2.6) ta tính được S

Dựa vào bảng tính và công thức (2.12) ta tính được: tư = và thay vào các công

Ví dụ 2.3.12 Cân thử 100 quả trứng gà ta có kết quả sau:

Chú ¥ 2.3.13 i) Trong trường hợp các z; cách đều nhau một khoảng h, đổi biến số chỉ có

ý nghĩa làm giảm độ phức tạp tính toán nên nếu không đổi biến ta vẫn tính bình thường như trường hợp b) Ngay cả khi các z¿ không cách đều nhau mà số liệu tính toán phức tạp thì nếu

chọn được b thích hợp ta cũng có thể đổi biến theo cách trên

Trang 34

1) Nếu mẫu cho dưới dạng bảng ghép lớp (phương pháp phân khoảng) thì ta chọn mỗi lớp một giá trị đại diện, thông thường là giá trị chính giữa lớp, khi đó ta thu được bảng tần số và tính được các đặc trưng mẫu như cách tính ở trên

Ví dụ 2.3.14 Trong cuộc điều tra Glucoza trong máu ở 100 con trâu ta thu được kết quả như

Hãy tính các đặc trưng mẫu Z; s`; s; s2; s”,

Giải: Chọn 2; là điểm giữa ở mỗi lớp, dé thấy các z; cách đều nhau một khoảng h = 5, dat

d Các hàm tính các tham số mẫu frong phần mềm R

R hỗ trợ nhiều hàm để tính các tham số mẫu, bảng sau cho chúng ta một số hàm phổ biến:

Ví dụ 2.3.15 Quay trở lại vi du (2.3.12) ta có thể tính các tham số mẫu như sau:

> # Nhập số liệu vào R

> T'ULG5 = ¿(150, 160, 165, 170, 180, 185)

Trang 35

mean(x) Tính trung bình công của các giá trị cho trong vecto x

var(x) Tinh phuong sai cla cac gia tri cho trong vecto x

sd(x) Tính độ lệch chuẩn của các giá tri cho trong vecto x

median(x) Tinh trung vi cua cac gia tri cho trong vecto x

Ở đây có 2 chi sé "Ist Qu." va "3rd Qu." c6 nghia 1a first quartile (tương đương với vị tri 25%)

va third quartile (tương đương với vị trí 75%) của 1 biến số 1s/Qu = 165 có nghĩa là 25% đối tượng nghiên cứu có trọng lượng bằng hoặc nhỏ hơn lóố g

Chi y 2.3.16 i) R khong có hàm tính sai số chuẩn, và trong hàm summary, R cũng không

cung cấp độ lệch chuẩn Để có các thông tin này, chúng ta có thể tự viết một hàm đơn giản (đặt tên là ham desc) nhu sau:

c(Mean = av, sd = sd(x), SE = se,CV = cv) }

Chẳng hạn, chúng fa đùng hàm vừa lập để tính trung bình mẫu, độ lệch chuẩn mẫu, sai số

chuẩn, hệ số biến động cho dữ liệu ở ví dụ (2.3.12) như sau:

> desc(TGa2310)

Mean SD SE CV

Trang 36

169.3500000 8.7228656 0.8722866 5.1507916

Ví dụ 2.3.17 Ba trại sử dụng các phương pháp chăn nuôi lợn khác nhau Sử dụng các giống lợn tương tự nhau Thời gian từ lúc cai sữa đến lúc xuất bán được ghi lại như sau:

Tra¿l(g) Trai2 Trai3

Tính các tham số mẫu cho bộ đữ liệu trên

Trong R, ta thực hiện lệnh như sau:

Trail Trai2 Trai3

Min.: 97.0 Min : 101.0 Min : 98.0

lstQu.: 104.0 1s¿Qu : 104.0 IstQu : 100.0

Median :109.0 Median : 107.0 Median : 105.0

Mean : 107.3 Mean : 106.4 Mean : 105.7

3rdQu : 112.0 3srdQu : 108.0 3rdQu : 110.0

Maz : 117.0 Maz : 112.0 Maz : 115.0

2.3.9 Tân suất mẫu

Giả sử từ tổng thể kích thước Ấ trong đó có Ä⁄ phần tử mang dấu hiệu nghiên cứu, lấy ra

một mẫu ngẫu nhiên kích thước +» và trong đó thấy có rn phần tử mang dấu hiệu nghiên cứu

Dinh nghia 2.3.18 Tdn sudt mdu (sample relative frequency), ky hiéu f = —, 1A ty số giữa n

số phần tử mang dấu hiệu nghiên cứu trong một mẫu và kích thước mẫu Tần suất mẫu phản

ánh giá trị trung bình của dữ liệu định tính

Ví dụ 2.3.19 Xác định trung bình số lợn đực được sinh ra (tỷ lệ lợn đực được sinh ra so với

tổng số lợn con được sinh ra ở một cơ sở chăn nuôi), biết trong tổng số 2000 con lợn con được sinh ra có 1200 con lợn đực

Trang 37

1200

—— = 0.6 2000 0.6 Nói các Noi cach

Giải Ta có tân suất số lợn đực được sinh ra trong mẫu lấy ra là ƒ =

khác có trung bình 60% số lợn con được sinh ra của trại là lợn đực

Trang 38

Chuong 3

Ưóc lượng bằng khoảng tin cay cho tham

số một tổng thể và các lệnh trong R

Ước lượng tham số là một trong những bài toán cơ bản của thống kê toán học Khi

nghiên cứu một dấu hiệu đặc trưng dưới dạng các đặc tính định lượng (chẳng hạn như chiều

cao, cân nặng, độ dài, .) của tổng thể thông qua biến ngẫu nhiên gốc X, nếu xác định được quy luật phân phối xác suất của X thì việc đưa ra các đánh giá cũng như các dự báo về sự biến động của tổng thể liên quan đến đặc tính này sẽ chính xác và khách quan Tuy nhiên không phải lúc nào chúng ta cũng xác định được quy luật phân phối xác suất của X Trong một số trường hợp, bằng phương pháp phân tích lý thuyết ta có thể biết được dạng toán học của hàm phân phối hoặc hàm mật độ của biến định lượng X Tuy nhiên các tham số đặc trưng của nó như kỳ vọng, phương sai, mà ta gọi chung là tham số lý thuyết Ø lại chưa biết nên ta cần phải xác định 0 Việc tính chính xác Ø là khó có thể thực hiện được mà ta chỉ có thể tính gần đúng Việc tính gần đúng thông qua mẫu thực nghiệm đã có gọi là ước lượng tham số (estimate for

parameters) Ø Ta có thể tóm tắt bài toán như sau

Bài toán, Cho X là biến ngâu nhiên gốc của một tổng thể cân nghiên cứu mà ta đã biết quy luật phân phối xác suất nhưng chưa biết tham số đặc trưng 0 của X Hãy ưóc lượng tham số

tin cậy cho hiệu các tham số của 2 tổng thể và đồng thời được sử dụng trong bài toán kiểm

định tham số

Trang 39

3.1 Ước lượng kỳ vọng của biến ngẫu nhiên tuân theo quy

luật phân phối chuẩn

3.1.1 Đã biết phương sai øŸ của biến ngẫu nhiên gốc X

a) Cơ sở lý thuyết ước lượng kì vọng và cách xử lý số liệu bằng máy tính bỏ túi

Bài toán Cho biến ngẫu nhiên gốc Ä có phân phối chuẩn N{(a, ø3) Hãy ước lượng tham số

Khoảng tin cậy bên phải (đùng để ước lượng giá trị tối thiểu của a) Nếu œi = 0, œa = œ thì

Ứ_„„ = +oo Do đó khoảng tin cậy bên phải của ø là:

Giải Sử dụng công thức (3.1) và thay số: # = 3, 266,0 = 0,544,n = 16,U œ = 1,96 có

trọng lượng trung bình của cá hồi nằm trong khoảng (2, 99944; 3, 53256) (kg)

Ví dụ 3.1.2 Một quy trình vệ sinh chuồng trại cho vật nuôi, người ta dùng một dung dịch cần

có PH chính xác là 8,2 Một phương pháp xác định PH cho dung dịch này được biết sẽ có các số đo tuân theo quy luật phân phối chuẩn với trung bình là PH của dung dịch và độ lệch chuẩn là 0,02 Giả sử 10 mẫu dung dịch độc lập đo độ PH của dung dịch này bằng phương pháp này như sau: 8, 18;8, 17; 8, 16; 8, 15; 8, 17; 8,21; 8, 22; 8, 16; 8, 19; 8,18 Với độ tin cậy

Trang 40

95% hãy ước lượng độ PH trung bình của dung dịch này nằm trong khoảng nào? Theo anh

(chị) dung dịch trên có được dùng để vệ sinh chuồng trại hay ko, hãy đưa ra kết luật với mức

ý nghĩa 5%

Giải Ta có o = 0,02;n = 10; v a = 1,96 va

3 _ 8,18+8,17+8,16+8,15 t= +8, 17+ 8,21-+8,22 + 8, 16 + 8, 19 + 8,18 3 179

dùng để vệ sinh chuồng trại Để có kết luận khoa học hơn chúng ta phải tiến hành bài toán

kiểm định giả thiết thống kê

b) Ước lượng kì vọng toán trong trường hợp biến ngẫu nhiên phân phối chuẩn và đã biết

phương sai bang cach sir dung ham z.test va zsum.test

Trước hết chúng ta phải hiểu các khái niệm Dữ liệu sơ cấp và Dữ liệu thứ cấp trong R Trong R Đế liệu sơ cấp là dữ liệu thô cho ta biết toàn bộ thông tin về dữ liệu Đữ liệu thứ cấp

là dữ liệu không cho ta biết toàn bộ thông tin về dữ liệu mà chỉ biết một số đặc trưng như ø, ø

e Su dung ham z.test

Ta sử dụng hàm z./es để ước lượng khoảng tin cậy trung bình cho tổng thể khi phương sai

đã biết, dữ liệu dạng sơ cấp với các tham số như sau:

z.test(œ, sigma.#, alt = ”†”, cơn Ƒ.leuel) (3.4) trong đó

x véc fơ đữ liệu mẫu,

ơ.z _ độ lệch chuẩn của tổng thể,

alt="t" Tìm khoảng tin cậy hai phía, muốn tìm khoảng tin cậy bên trái thì thay “?” bởi "7", bên phải thay / bởi ø

conflevel Độ tin cậy của khoảng ước lượng

Vi du 3.1.3 Quay trở lại ví dụ (3.1.2) ta thực hiện ước lượng khoảng tin cậy cho độ PH trung bình bằng đoạn lệnh sau trong R:

> # Hàm sử dụng để ước lượng là hàm z.£es¿ vì đữ liệu cho là đữ liệu sơ cấp, biến ngẫu nhiên

phân phối chuẩn, biết phương sai

> # Ham z.test nằm trong gói BSDA nên phải cài gói này về máy, nếu máy đã có gói này thì

ta dùng lệnh gọi BSDA ra như sau:

> library(BSDA)

> # Nhập dữ liệu vào R qua đối tượng PH

> PH = c(8.18, 8.17, 8.16, 8.15, 8.17, 8.21, 8.22, 8.16, 8.19; 8.18)

Ngày đăng: 07/09/2017, 08:52

HÌNH ẢNH LIÊN QUAN

Bảng  1.1:  Một  số  gói  lệnh  dùng  trong  phân  tích  xác  suất  và  thống  kê - Xây dựng bài giảng thống kê toán chuyên sau cho ngành chăn nuôi thú y và thú y
ng 1.1: Một số gói lệnh dùng trong phân tích xác suất và thống kê (Trang 12)
Bảng  1.2:  Các  chức  năng  của  mục  File  trên  thanh  tiêu  đề - Xây dựng bài giảng thống kê toán chuyên sau cho ngành chăn nuôi thú y và thú y
ng 1.2: Các chức năng của mục File trên thanh tiêu đề (Trang 13)
Bảng  1.3:  Các  chức  năng  mục  Edit  trên  thanh  tiêu  đề - Xây dựng bài giảng thống kê toán chuyên sau cho ngành chăn nuôi thú y và thú y
ng 1.3: Các chức năng mục Edit trên thanh tiêu đề (Trang 14)
Bảng  1.7:  Các  chức  năng  của  mục  windows  trên  thanh  tiêu  để - Xây dựng bài giảng thống kê toán chuyên sau cho ngành chăn nuôi thú y và thú y
ng 1.7: Các chức năng của mục windows trên thanh tiêu để (Trang 15)
Bảng  1.6:  Các  chức  năng  của  mục  packages  trên  thanh  tiêu  dé&#34; - Xây dựng bài giảng thống kê toán chuyên sau cho ngành chăn nuôi thú y và thú y
ng 1.6: Các chức năng của mục packages trên thanh tiêu dé&#34; (Trang 15)
Bảng  kiểm  định  giỏ  trị  trung  bỡnh  khi  ứ?  chưa  biết  và  cỡ  mẫu  ằ  &lt;  30 - Xây dựng bài giảng thống kê toán chuyên sau cho ngành chăn nuôi thú y và thú y
ng kiểm định giỏ trị trung bỡnh khi ứ? chưa biết và cỡ mẫu ằ &lt; 30 (Trang 61)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w