1. Trang chủ
  2. » Giáo án - Bài giảng

Giải bài toán kiểm định giả thuyết thống kê với sự trợ giúp của phần mềm R

6 160 1

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 6
Dung lượng 335,76 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Bài viết hướng người đọc đến với ứng dụng tuyệt vời của phần mềm R trong việc giải quyết bài toán kiểm định giả thuyết thống kê, một trong những bài toán rất quan trọng được giảng dạy trong xác suất - thống kê. Bài viết ngắn gọn với các nội dung chính: giới thiệu chi tiết về phần mềm R; những ứng dụng của phần mềm R trong bài toán kiểm định giả thuyết thống kê và cuối cùng là kết luận.

Trang 1

Tóm tắt

Bài viết hướng người đọc đến với ứng dụng tuyệt vời của phần mềm R trong việc giải quyết bài toán kiểm định giả thuyết thống kê, một trong những bài toán rất quan trọng được giảng dạy trong xác suất - thống kê Bài viết ngắn gọn với các nội dung chính: giới thiệu chi tiết về phần mềm R; những ứng dụng của phần mềm R trong bài toán kiểm định giả thuyết thống kê và cuối cùng là kết luận

Từ khóa: Phần mềm R, kiểm định giả thuyết thống kê, thống kê ứng dụng

1 Giới thiệu phần mềm R

Bên cạnh các phần mềm phân tích dữ liệu như:

Eviews, Stata, SPSS, S-Plus, Matlab…, phần mềm

R vươn lên như là một lựa cho tối ưu cho các nhà

phân tích

Được đề xuất đầu tiên bởi hai tác giả Ross Ihaka

và Robert Gentleman của Đại học Auckland, New

Zealand vào những năm 1990, phần mềm R đã

không ngừng lớn mạnh thông qua các gói lệnh (package) được phát triển bởi người dùng khắp thế giới

R là một ngôn ngữ lập trình cấp cao với mã nguồn mở (open source) Phần mềm R được

sử dụng rộng rãi cho các tính toán thống kê, phân tích số liệu, Kinh tế lượng ứng dụng mà trong đó nổi bật là phân tích dữ liệu bảng (Panel Data) cùng với các công cụ hỗ trợ vẽ đồ thị rất chuyên nghiệp Phần mềm R đã thể hiện sức mạnh qua các giải thưởng uy tín và sự tán dương của cộng đồng thế giới như: New York Times, Forbes, Intelligent Enterprise… Ngoài những ứng dụng trên, phần mềm R còn là một công cụ hiệu quả thiết yếu cho Data Mining, Big Data, Data Visualization và Machine Learning

Sử dụng phần mềm R hoàn toàn miễn phí, chúng ta có thể tải về phiên bản phù hợp với hệ

điều hành đang sử dụng từ https://cran.r-project.org/ Sau khi được cài đặt, phần mềm R đã

* Bộ môn Toán - Thống kê, Khoa Kinh tế - Luật, Trường Đại học Tài chính - Marketing

GIẢI BÀI TOÁN KIỂM ĐỊNH GIẢ THUYẾT THỐNG KÊ

VỚI SỰ TRỢ GIÚP CỦA PHẦN MỀM R

10. ThS Lê Trường Giang*

Trang 2

sẵn sàng hoạt động, tuy nhiên, giao diện mặc định không thực sự hấp dẫn Để cải thiện điều này, chúng ta nên dùng môi trường phát triển tích hợp dành cho nó và RStudio là lựa chọn hàng đầu hiện nay Phần mềm này bao gồm một trình biên tập đánh dấu cú pháp, hỗ trợ thực hiện mã lệnh trực tiếp, cũng như các công cụ vẽ biểu đồ, lược sử, gỡ lỗi và quản lý không

gian làm việc Để có một phiên bản RStudio, chúng ta có thể truy cập vào trang https://www rstudio.com/

Hiện có hơn 10.000 gói lệnh trên https://cran.r-project.org/ và tất cả đều miễn phí Một

gói lệnh là một tập các mã lệnh được viết nhằm thực hiện một hệ công việc nào đó bởi một

người hay một nhóm người, thường là các chuyên gia Các gói như base hay stats được tự động cài đặt khi cài R Những gói lệnh khác, ví dụ ggplot2 - hỗ trợ xây dựng các biểu đồ, có

thể cài đặt trực tuyến bằng lệnh Một trong những gói lệnh được quan tâm nhiều nhất trong

giới giao dịch tài chính là quantmod Trong giới hạn bài viết này, tác giả sẽ tập trung vào

kiểm định giả thuyết thống kê với sự trợ giúp của phần mềm R

2 Kiểm định giả thuyết thống kê

2.1 Kiểm định trung bình cho biến định lượng

Để thực hiện kiểm định T cho biến định lượng trong R, ta sử dụng hàm t.test() Ta có thể

sử dụng cấu trúc hàm t.test() đơn giản như sau:

(X,mu ,alternative c " "," "," " ,conf level )

Trong đó: X là biến quan sát, µ là trung bình và γ là độ tin cậy

Ví dụ 1: File dữ liệu dulieu GDP.csv ghi nhận số liệu về xuất khẩu, nhập khẩu, GDP và

CPI của một quốc gia từ năm 1985 đến năm 2016

a Có nhận định cho rằng, GDP trung bình của quốc gia trên là 80.000 triệu USD Với mức ý nghĩa 5%, hãy cho kết luận về nhận định trên

b Có nhận định cho rằng, xuất khẩu trung bình của quốc gia trên tối đa là 30.000 triệu USD Với mức ý nghĩa 1%, hãy cho kết luận về nhận định trên

Hướng dẫn giải

> setwd(“D:/R.Software/R_Data”)

> data1<-read.csv(“dulieuGDP.csv”,header = TRUE)

> data1

Nam XUATKHAU NHAPKHAU GDP CPI

1 1985 698.5 1857.4 5480.517 2.90

2 1986 789.1 2155.1 7127.222 5.30

3 1987 854.2 2455.1 7797.167 6.10

4 1988 1038.4 2756.7 7925.763 4.40

5 1989 1946.0 2565.8 9923.438 3.60

6 1990 2404.0 2752.4 13212.120 6.10

7 1991 2087.1 2338.1 16362.360 6.50

Trang 3

8 1992 2580.7 2540.4 20804.590 17.50

9 1993 2985.2 3924.5 24708.650 5.20

10 1994 4054.3 5825.3 26834.030 14.40

11 1995 5448.9 8155.4 26931.150 12.70

12 1996 7255.9 11143.6 28639.270 4.50

13 1997 9185.5 11592.3 31210.580 3.60

14 1998 9360.3 11499.6 32697.380 9.20

15 1999 11541.4 11742.1 35072.110 3.10

16 2000 14482.7 15636.5 39585.890 1.60

17 2001 15029.2 16217.9 45669.710 1.80

18 2002 16706.1 19745.6 54704.020 4.30

19 2003 20149.3 25255.8 66308.860 3.10

20 2004 26485.0 31968.8 77391.740 9.50

21 2005 32447.0 36761.1 97480.430 8.40

22 2006 39826.2 44891.1 99784.310 6.60

23 2007 48561.4 62764.7 110706.500 12.63

24 2008 62685.1 80713.8 133104.600 9.89

25 2009 57096.3 69948.8 155225.600 6.52

26 2010 71629.0 84801.2 170264.800 11.75

27 2011 96905.7 106749.9 183546.900 8.13

28 2012 114529.2 113780.4 193876.700 6.81

29 2013 132134.9 142125.5 220786.500 6.04

30 2014 142134.9 148125.5 210786.500 7.40

31 2015 162137.8 178145.9 230776.800 8.12

32 2016 182121.8 189654.3 249876.100 9.60

> summary(data1)

Nam XUATKHAU NHAPKHAU GDP CPI

Min :1985 Min : 698.5 Min : 1857 Min : 5481 Min : 1.600

1st Qu.:1993 1st Qu.: 2884.1 1st Qu.: 3633 1st Qu.: 23733 1st Qu.: 4.375

Median :2000 Median : 14756.0 Median : 15927 Median : 42628 Median : 6.510 Mean :2000 Mean : 40540.3 Mean : 45331 Mean : 82331 Mean : 7.103 3rd Qu.:2008 3rd Qu.: 58493.5 3rd Qu.: 72640 3rd Qu.:138635 3rd Qu.: 9.275 Max :2016 Max :182121.8 Max :189654 Max :249876 Max :17.500

> attach(data1)

> t.test(GDP,mu=80000,alternative=”two.sided”,conf.level = 0.95)

One Sample t-test

data: GDP

t = 0.1684, df = 31, p-value = 0.8674

alternative hypothesis: true mean is not equal to 80000

Trang 4

95 percent confidence interval:

54096.74 110565.91

sample estimates:

mean of x

82331.32

Ta có: α =0.05< − p - value = 0.8674 nên với mức ý nghĩa 5%, ta chưa có cơ sở bác bỏ giả p value=0.8674

thuyết đặt ra Vậy, nhận định trên là phù hợp

Ngoài ra, dựa trên kết quả nhận được từ R, ta cũng có được khoảng ước lượng cho GDP với độ tin cậy 95% là (54096.74; 110565.91)

> t.test(XUATKHAU,mu=30000,alternative=”greater”, conf.level = 0.99)

One Sample t-test

data: XUATKHAU

t = 1.128, df = 31, p-value = 0.134

alternative hypothesis: true mean is greater than 30000

99 percent confidence interval:

17621.43Inf

sample estimates:

mean of x

40540.35

Ta có: α =0.01< − p - value = 0.134 nên với mức ý nghĩa 1%, ta chưa có cơ sở bác bỏ giả p value=0.134

thuyết đặt ra Vậy, xuất khẩu trung bình của quốc gia trên tối đa là 30.00 triệu USD

Ngoài ra, dựa trên kết quả nhận được từ R, ta cũng có được khoảng ước lượng tối thiểu cho xuất khẩu với độ tin cậy 99% là (17621.43; +∞)

2.2 Kiểm định phương sai cho biến định lượng

Ta sử dụng hàm varTest() để tiến hành kiểm định phương sai cho biến định lượng trong

R Cấu trúc hàm varTest() như sau:

varTest(X,sigma.squared=σ,alternative c("two.sided","less","greater"),conf level= =γ)

Trong đó: X là biến quan sát, σ là phương sai và γ là độ tin cậy

Ví dụ 2: File dữ liệu dulieuGDP.csv ghi nhận số liệu về xuất khẩu, nhập khẩu, GDP và

CPI của một quốc gia từ năm 1985 đến năm 2016 Có nhận định cho rằng, phương sai của CPI là 5.1 Với mức ý nghĩa 5%, hãy cho kết luận về nhận định trên

Hướng dẫn giải

> varTest(CPI,sigma.squared=5.1,alternative=”two.sided”,conf.level = 0.95)

Results of Hypothesis Test

-Null Hypothesis: variance = 5.1

Alternative Hypothesis: True variance is not equal to 5.1

Trang 5

Test Name: Chi-Squared Test on Variance

Estimated Parameter(s): variance = 14.14428

Data: CPI

Test Statistic:Chi-Squared = 85.97503

Test Statistic Parameter: df = 31

P-value: 9.164284e-07

95\% Confidence Interval: LCL = 9.090928

UCL = 25.000238

Ta có: αα==0.050.05>> p - value p value p value ==9.1642849.164284e e−−0707nên với mức ý nghĩa 5%, ta bác bỏ giả thuyết Vậy, phương sai của CPI thực tế là khác 5.1

2.3 Kiểm định tỷ lệ cho biến định tính

Ta sử dụng hàm prop.test() để kiểm định tỷ lệ cho biến định tính trong R Cấu trúc của hàm prop.test() như sau:

i) Kiểm định tỷ lệ cho một biến định tính

prop.test(n n p A, , ,alternative=c(“two.sided”, “less”, “greater”),conf.level = γ)

Trong đó: n A là số phần tử có tính chất A đang cần quan sát, n là kích thước mẫu, p là xác suất thành công và γ là độ tin cậy.

ii) Kiểm định tỷ lệ cho hai biến định tính

prop.test(c(n m A, A),c(n,m),alternative=c(“two.sided”,”less”,”greater”), conf.level = γ )

Trong đó: n A là số phần tử có tính chất A trong n phần tử; m A là số phần tử có tính chất A trong m phần tử; n là kích thước mẫu thứ nhất và m là kích thước mẫu thứ 2; γ là độ tin cậy

Ví dụ 3: Ở một nước, một đảng chính trị tuyên bố rằng, 45% cử tri sẽ bỏ phiếu bầu cho

ông A là ứng cử viên của họ Chọn ngẫu nhiên 200 người hỏi ý kiến, có 80 người sẽ bầu cho ông A Với mức ý nghĩa 5%, hãy cho nhận xét về tuyên bố trên

Hướng dẫn giải

> prop.test(80,200,0.45,alternative=”two.sided”,conf.level=0.95)

1-sample proportions test with continuity correction

data: 80 out of 200, null probability 0.45

X-squared = 1.8232, df = 1, p-value = 0.1769

alternative hypothesis: true p is not equal to 0.45

95 percent confidence interval:

0.3322225 0.4716840

sample estimates:

p

0.4

Trang 6

Ta có: αα==0.050.05<< p - value p value p value ==0.17690.1769 nên chưa có cơ sở bác bỏ giả thuyết Vậy với mức ý nghĩa 5%, tuyên bố của đảng chính trị trên là phù hợp với thực tế

Ví dụ 4: Kiểm tra 150 trẻ của vùng I phát hiện 58 trẻ bị sâu răng, vùng II có 102 trẻ bị sâu

răng khi kiểm tra 250 trẻ Với mức ý nghĩa 5%, có thể xem tỷ lệ trẻ bị sâu răng ở hai vùng bằng nhau được không?

Hướng dẫn giải

> prop.test(c(58,102),c(150,250),alternative=”two.sided”,conf.level=0.95)

2-sample test for equality of proportions with continuity correction

data: c(58, 102) out of c(150, 250)

X-squared = 0.1, df = 1, p-value = 0.7518

alternative hypothesis: two.sided

95 percent confidence interval:

-0.12558527 0.08291861

sample estimates:

prop 1 prop 2

0.3866667 0.4080000

Ta có: αα ==0.050.05<< p - value p value p value__ ==0.75180.7518 nên chưa có cơ sở bác bỏ giả thuyết Vậy, với mức ý nghĩa 5%, tỷ lệ trẻ em bị sâu răng của hai vùng là như nhau

3 Kết luận

Bài viết đã trình bày một số ứng dụng của phần mềm R trong giải quyết bài toán kiểm định giả thuyết thống kê, mà cụ thể là thông qua các ví dụ về kiểm định trung bình, kiểm định phương sai cho biến định lượng, kiểm định tỷ lệ cho biến định tính Các kiểm định khác

có thể thực hiện tương tự Các đoạn mã cũng được cung cấp để bất kỳ ai, kể cả những người mới biết về phần mềm R cũng có thể sử dụng dễ dàng

TÀI LIỆU THAM KHẢO

1 Trần Kim Thanh, Lê Trường Giang (2017), Giáo trình Lý thuyết xác suất và thống kê toán, Trường Đại học Tài chính - Marketing.

2 Võ Văn Tài, Nguyễn Thị Hồng Dân, Hồng Việt Minh (2016), Phân tích số liệu thống kê với R, NXB Giáo dục Việt Nam.

Ngày đăng: 10/12/2021, 09:58

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm