1. Trang chủ
  2. » Tất cả

Ứng dụng phần mềm geogebra trong thống kê

40 2 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng phần mềm GeoGebra trong thống kê
Tác giả Trần Thị Thảo Trang
Người hướng dẫn TS. Tôn Thất Tú
Trường học Trường Đại Học Sư Phạm Đà Nẵng
Chuyên ngành Toán học
Thể loại Khoá luận tốt nghiệp
Năm xuất bản 2021
Thành phố Đà Nẵng
Định dạng
Số trang 40
Dung lượng 3,63 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • 1.1 Thống kê mô tả (7)
    • 1.1.1 Khái niệm mẫu và tổng thể (7)
    • 1.1.2 Bảng tần số và tần suất (7)
    • 1.1.3 Các chỉ số đặc trưng của mẫu (8)
    • 1.1.4 Biểu đồ (9)
  • 1.2 Các bài toán kiểm định (12)
    • 1.2.1 Kiểm định giả thuyết về giá trị trung bình (12)
    • 1.2.2 Kiểm định giả thuyết về tỷ lệ (14)
    • 1.2.3 Kiểm định Mann-Whitney (15)
    • 1.2.4 Phân tích phương sai một nhân tố (16)
  • 1.3 Phần mềm Geogebra (18)
    • 1.3.1 Giới thiệu phần mềm Geogebra (18)
    • 1.3.2 Một số lệnh, công cụ quan trọng được sử dụng (19)
  • 2.1 Xây dựng các biểu đồ thống kê (21)
    • 2.1.1 Biểu đồ cột (21)
    • 2.1.2 Biểu đồ đường (26)
    • 2.1.3 Biểu đồ tròn (28)
  • 2.2 Tính các số đặc trưng (30)
    • 2.2.1 Cách thực hiện (30)
    • 2.2.2 Minh hoạ (31)
  • 2.3 Các bài toán kiểm định (32)
    • 2.3.1 Kiểm định giả thuyết về giá trị trung bình (32)
    • 2.3.2 Kiểm định giả thuyết về tỷ lệ (33)
    • 2.3.3 Kiểm định Mann-Whitney (34)
    • 2.3.4 Phân tích phương sai một nhân tố (36)

Nội dung

Chính vì vậy, các phần mềm toán học sẽ là công cụ hỗ trợ đắc lựccho người giáo viên minh họa một số tri thức trừu tượng, khám phá mô hìnhthống kê, phân phối , tính chất của các thống kê,

Thống kê mô tả

Khái niệm mẫu và tổng thể

- Tổng thể là tập hợp tất cả các phần tử của Ω mà ta cần nghiên cứu tính chất X nào đó Tổng thể có thể hữu hạn hoặc vô hạn.

Chọn một tập con của tổng thể được gọi là phép lấy mẫu, trong đó tập con đó chính là mẫu Kích thước của mẫu hay cỡ mẫu thể hiện số lượng phần tử trong mẫu, là yếu tố quan trọng trong quá trình phân tích dữ liệu thống kê.

Bảng tần số và tần suất

Khi thu thập mẫu dữ liệu rời rạc với số lượng phần tử trong mẫu không quá nhiều, việc sử dụng bảng tần số và tần suất giúp việc trình bày dữ liệu trở nên rõ ràng hơn Bảng tần số thể hiện số lần mỗi phần tử xuất hiện trong mẫu, còn bảng tần suất thể hiện tỷ lệ phần trăm của từng phần tử so với tổng số dữ liệu Việc này không chỉ giúp dễ dàng quan sát và phân tích các đặc điểm của dữ liệu mà còn thuận tiện cho các công việc tính toán thống kê và đưa ra các kết luận chính xác Sử dụng bảng tần số và tần suất là phương pháp hiệu quả để tổ chức dữ liệu rời rạc, đặc biệt khi mẫu dữ liệu có kích thước không quá lớn.

Giá trị x 1 x 2 x 3 x m Tần số n1 n2 n3 nm trong đóx 1 , x 2 , , x m là các giá trị khác nhau trong mẫu với số lần xuất hiện tương ứng là n 1 , n 2 , , n m

Tần suất f 1 f 2 f 3 f m trong đó fi = n n i với n= P m i=1 ni Giá trị fi thường được gọi là tần suất xuất hiện của x i trong mẫu.

Từ bảng tần số, bạn có thể dễ dàng chuyển sang bảng tần suất để phân tích dữ liệu một cách chính xác hơn Ngoài ra, vì tổng các tần số \( Pm_{i=1} f_i \) bằng 1, nên việc quy đổi các giá trị tần số \( f_i \) sang dạng phần trăm trong thực hành là hoàn toàn phù hợp và thuận tiện Điều này giúp nâng cao khả năng diễn giải dữ liệu, đảm bảo tính khách quan và trực quan cho các phân tích thống kê.

502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared

502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared

Các chỉ số đặc trưng của mẫu

Kí hiệu là x và được tính theo công thức: x = x 1 +x 2 + +x n n = 1 n n

Kí hiệu là s 2 và được tính theo công thức: s 2 = 1 n−1 n

Sắp xếp mẫu số liệu theo thứ tự tăng dần, giả sử x1 ≤ x2 ≤ ≤ xn. Trung vị mẫu, kí hiệu là x med , xác định bởi: x med (x n+1

Số mốt là giá trị có tần số lớn nhất trong dãy giá trị.

Số mốt được kí hiệu là M 0

Biểu đồ

1.1.4.1 Biểu đồ cột Đây là loại biểu đồ được sử dụng thường xuyên nhất để mô tả dữ liệu thu được từ biến ngẫu nhiên rời rạc Giả sử ta có bảng tần số của số liệu đã cho như sau:

502 Bad GatewayUnable to reach the origin service The service may be down or it may not be responding to traffic from cloudflared

1, 2, , m Lúc đó, ta xem x1, x2, , xm như là các nhãn.

Ví dụ 1.1 Trong một cuộc thi game online có 10 màn được tổ chức với 1022 game thủ tham gia, kết quả cho bởi bảng sau:

Vượt qua màn Số game thủ Tỉ lệ

Thực hiện vẽ biểu đồ trên phần mềm Geogebra với dữ liệu trên, kết quả thu được thể hiện ở hình ảnh bên dưới.

Hình 1.1: Biểu đồ cột thể hiện tần số của cuộc thi game online

1.1.4.2 Biểu đồ đường gấp khúc Đây là loại biểu đồ được sử dụng thường xuyên nhất để mô tả dữ liệu thu được từ biến ngẫu nhiên rời rạc Giả sử ta có bảng tần số của số liệu đã cho như sau:

Biểu đồ đường có thể được hiển thị với các điểm đánh dấu trong hình dạng của hình tròn, hình vuông hoặc các định dạng khác.

Ví dụ 1.2 Với dữ liệu từ ví dụ 1.1, thực hiện vẽ biểu đồ trên phần mềmGeogebra, kết quả thu được thể hiện ở hình ảnh bên dưới.

Hình 1.2: Biểu đồ đường gấp khúc thể hiện tần số của cuộc thi game online

1.1.4.3 Biểu đồ tròn Đây cũng là loại biểu đồ thường được dùng để mô tả dữ liệu thu được từ biến ngẫu nhiên rời rạc Giả sử ta có bảng tần số hoặc tần suất của số liệu đã cho như sau:

Để vẽ biểu đồ tròn, cần chia hình tròn thành các hình quạt tương ứng với các giá trị tần suất Mỗi hình quạt đại diện cho một giá trị xi và có góc ở tâm tỷ lệ với giá trị đó, được tính bằng công thức αi = 2πni/n hoặc αi = 2πfi, trong đó n = tổng các ni của tất cả các giá trị Điều này giúp biểu diễn dữ liệu phân phối tần suất một cách trực quan và chính xác trên biểu đồ tròn.

Xã A đã triển khai tiêm vaccine phòng Covid-19 cho người dân tại 4 thôn gồm Thôn 1, Thôn 2, Thôn 3 và Thôn 4 nhằm đảm bảo công tác phòng chống dịch theo quy định của chính phủ Việc tiêm chủng này giúp nâng cao khả năng miễn dịch cộng đồng và hạn chế sự lây lan của virus Covid-19 trong khu vực Các bước thực hiện đều tuân thủ đúng quy trình y tế, đảm bảo an toàn và hiệu quả cho người dân Chính sách tiêm vaccine của xã A đã góp phần quan trọng trong công tác kiểm soát dịch bệnh và bảo vệ sức khỏe cộng đồng.

Số lượng (người) Tỉ lệ (%)

Thực hiện vẽ biểu đồ trên phần mềm Geogebra với dữ liệu trên, kết quả thu được thể hiện ở hình ảnh bên dưới.

Hình 1.3: Biểu đồ tròn thể hiện tỉ lệ số người đã tiêm Vaccine phòng Covid-19 ở xã A

Các bài toán kiểm định

Kiểm định giả thuyết về giá trị trung bình

1.2.1.1 Khi phương sai đã biết

Cho biến ngẫu nhiờn X của một tổng thể cú phõn phối chuẩn N(à;σ 2 ) với kỡ vọng à chưa biết và phương sai σ 2 đó biết Xột bài toỏn kiểm định giả thuyết:

Trong đú à 0 là một số thức đó cho.

Giả sử rằngH 0 đỳng, tức là à = à 0 Gọi {X 1 ;X 2 ; ;X n }là mẫu ngẫu nhiờn của X Khi đó:

Z = X −à 0 σ/√ n có phân phối chuẩn tắc.

Vì vậy, với α ∈ (0; 1) cho trước, lấy z α/2 = Φ −1 (1− α 2 ) ta có:

P(Z /∈ (−z α/2 ;z α/2 )) = αVới α là một số khá bé (gần như bằng 0) thì biến cố chọn được một mẫu kích thước n và Z /∈ (−z α/2 ;z α/2 ) hầu như sẽ không xảy ra.

Vì vậy, nếu có kết quả chọn ngẫu nhiên được một mẫu {x 1 ;x2; ;xn} thỏa mãn: z = x−à 0 σ/√ n ∈ (−∞;−z α/2 ]∪[z α/2 ; +∞) thì bác bỏ H 0

Miền Wα = (−∞;−z α/2 ]∪[z α/2 ; +∞) được gọi là miền bác bỏ H0. p−giá trị= 2(1−Φ(|z|))

Lý luận tương tự, ta có:

- Đối với bài toán kiểm định giả thuyết:

Miền bác bỏ H 0 là W α = [z α ; +∞) p−giá trị= 1−Φ(z)

- Đối với bài toán kiểm định giả thuyết:

Miền bác bỏ H 0 là W α = (−∞;−z α ] p−giá trị= Φ(z)

1.2.1.2 Khi phương sai chưa biết

Cho biến ngẫu nhiờn X của một tổng thể cú phõn phối chuẩn N(à;σ 2 ) với kỡ vọng à chưa biết và phương sai σ 2 chưa biết Xột bài toỏn kiểm định giả thuyết:

Trong đú à 0 là một số thức đó cho.

Giả sử rằngH 0 đỳng, tức là à = à 0 Gọi {X 1 ;X 2 ; ;X n }là mẫu ngẫu nhiờn của X Khi đó:

S/√ n có phân phối Student n-1 bậc tự do.

Vì vậy, với α ∈ (0; 1) cho trước, lấy t n−1;α/2 thỏa mãn:

Trong đó T n−1 là phân phối Student n-1 bậc tự do Khi đó ta có:

Với α là một số khá bé (gần như bằng 0) thì biến cố chọn được một mẫu kích thước n và T ∈ (−∞;−t n−1;α/2 ]∪[t n−1;α/2 ; +∞) hầu như sẽ không xảy ra.

Vì vậy, nếu có kết quả chọn ngẫu nhiên được một mẫu {x 1 ;x2; ;xn} thỏa mãn: t = x−à0 s/√ n ∈ (−∞;−t n−1;α/2 ]∪[t n−1;α/2 ; +∞) thì bác bỏ H 0

Miền W α = (−∞;−t n−1;α/2 ]∪[t n−1;α/2 ; +∞) được gọi là miền bác bỏ H 0 p−giá trị= 2P(T n−1 > |t|) Lý luận tương tự, ta có:

- Đối với bài toán kiểm định giả thuyết:

Miền bác bỏ H 0 là W α = [t n−1;α ; +∞) p−giá trị= P(T n−1 > t)

- Đối với bài toán kiểm định giả thuyết:

Miền bác bỏ H0 là Wα = (−∞;−t n−1;α ] p−giá trị= P(T n−1 < t)

Kiểm định giả thuyết về tỷ lệ

Biến cố ngẫu nhiên X trong tổng thể có phân phối Bernoulli với tham số p thể hiện tỷ lệ phần tử mang tính chất A Phân phối Bernoulli mô tả xác suất thành công hoặc thất bại của một thử nghiệm duy nhất, trong đó xác suất thành công bằng p Tham số p phản ánh tỷ lệ phần tử trong tổng thể có đặc điểm A, giúp ta dễ dàng mô hình hóa và phân tích các sự kiện rời rạc liên quan đến tính chất này Điều này rất hữu ích trong thống kê và các lĩnh vực khái quát như nghiên cứu y học, kỹ thuật và khoa học xã hội.

Xét bài toán kiểm định giả thuyết

Giả sử H 0 đúng, khi đó p= p 0

Gọi X 1 , X 2 , , X n là mẫu ngẫu nhiên của X Đặt:

Với n đủ lớn, theo Định lí giới hạn trung tâm ta có biến ngẫu nhiên

Z Pˆ−p 0 pp0(1−p0)/n có phân phối xấp xỉ phân phối chuẩn tắc N(0; 1).

Với một số α ∈ (0; 1) cho trước, lấy z α/2 = Φ −1 (1− α 2 ) ta có:

Với α là một số khá bé thì biến cố chọn được một mẫu kích thước n có

Trong kiểm định giả thuyết, xác suất \( Z \notin (-z_{α/2}; z_{α/2}) \) hầu như không xảy ra khi thực hiện một lần thử Nếu chọn ngẫu nhiên một mẫu dữ liệu \(\{x_1, x_2, , x_n\}\) với trung bình mẫu \(p_b = \frac{x_1 + x_2 + + x_n}{n} = k/n\) thỏa mãn phân phối chuẩn với giá trị \(z = \frac{k/n - a}{\sqrt{p_0(1 - p_0)/n}}\), và giá trị \(z\) nằm trong miền bác bỏ \(\left(-\infty; -z_{α/2}\right] \cup \left[z_{α/2}; +\infty\right)\), thì ta bác bỏ giả thuyết \(H_0\) Miền bác bỏ của kiểm định là \(W_{α} = \left(-\infty; -z_{α/2}\right] \cup \left[z_{α/2}; +\infty\right)\) Giá trị p-rau là \(p\text{-giá trị} = 2(1 - \Phi(|z|))\), phản ánh xác suất để nhận đúng hoặc sai giả thuyết trong phép kiểm định.

Lý luận tương tự như trên ta có:

- Đối với bài toán kiểm định giả thuyết: H 0 :p = p 0 và H 1 : p > p 0 miền bác bỏ H 0 là W α = [z α ; +∞) p−giá trị= 1−Φ(z)

- Đối với bài toán kiểm định giả thuyết: H0 :p = p0 và H1 : p < p0 miền bác bỏ H 0 là W α = (−∞;−z α ] p−giá trị= Φ(z)

Kiểm định Mann-Whitney

Trong bài viết này, chúng tôi giả định rằng x₁, x₂, , xₙ và y₁, y₂, , yₙ là các mẫu ngẫu nhiên độc lập từ hai biến ngẫu nhiên liên tục X và Y Kiểm định H₀ cho rằng hai biến X và Y có cùng phân phối, trong khi đối chứng H₁ đề xuất rằng chúng khác nhau về phân phối Đây là một phương pháp quan trọng trong thống kê để xác định xem hai mẫu có xuất phát từ cùng một phân phối hay không Các phân tích này giúp đưa ra kết luận chính xác dựa trên dữ liệu thu thập được, đảm bảo tính khách quan trong nghiên cứu.

X và Y không có cùng phân phối Lúc này, ta có thể sử dụng tiêu chuẩn Mann-Whitney để tiến hành kiểm định.

Tiến hành hợp nhất hai mẫu dữ liệu thành một mẫu chung có kích thước n = n₁ + n₂, sau đó sắp xếp dữ liệu theo thứ tự tăng dần để đảm bảo thứ tự rõ ràng và dễ xử lý Các ký hiệu rᵢ và sⱼ thể hiện thứ hạng của xᵢ và yⱼ trong mẫu đã được hợp nhất, giúp xác định vị trí và ưu tiên của mỗi phần tử trong tập hợp mới Quá trình này giúp tối ưu hóa việc xử lý dữ liệu, đảm bảo tính chính xác và nhất quán trong phân tích thống kê hoặc các ứng dụng liên quan.

Tổng hạng của mẫu x1, x2, , xn 1 là Rx = r1 +r2 + + rn 1

Tổng hạng của mẫu y 1 , y 2 , , y n 1 là R y = s 1 +s 2 + + s n 1

Ta có định lí sau: Định lý 1.1 Nếu X và Y có cùng phân phối xác suất thì R x là biến ngẫu nhiên có vọng và phương sai lần lượt là: à R x = n 1 (n 1 +n 2 + 1)

12 Hơn nữa, khi n 1 ≥ 10 và n 2 ≥ 10 thì

Z = R x −à R x σ R x có phân phối xấp xỉ phân phối chuẩn tắc N(0; 1). Áp dụng định lý trên, miền bác bỏ với mức ý nghĩaαlà:W = (−∞,−z α/2 ]∪[z α/2 ,+∞) Ta cũng có thể tính p−giá trị = 2(1−Φ(|z|)).

Phân tích phương sai một nhân tố

Giả sử ta cần quan tâm tác động của nhân tố A lên biến số ngẫu nhiên

X ở k mức A 1 , A 2 , , A k Kí hiệu X ij là kết quả của tác động mức A j lên phần tử thứ i.

Mô hình phân tích phương sai một nhân tố:

Trong đó ij là các biến ngẫu nhiên độc lập, có cùng phân phối chuẩn

N(0;σ 2 );α j là tỏc dụng của mức nhõn tố A j ;à là trung bỡnh chung.

Bài toán kiểm định giả thuyết:

Từ giả thiết của mô hình ta có X ij là các biến ngẫu nhiên có phân phối chuẩn với: à j = E(X ij ) =à+α j

V(Xij) =σ 2 Bài toán kiểm định giả thuyết (*) cũng có thể phát biểu dưới dạng sau:

H 1 : có ít nhất 2 giá trị trung bình khác nhau.

GọiX ij : 1 ≤ i ≤ m,1≤ j ≤ klà mẫu ngẫu nhiên thu được từ thí nghiệm. Đặt:

Ta đưa ra một số kí hiệu sau:

- Ước lượng giá trị X ij từ mô hình:

- Phần dư: eij = Xij −Xj, i= 1, , m;j = 1, , k

- Tổng bình phương do nhân tố:

- Tổng bình phương do sai số:

- Trung bình bình phương của nhân tố:

- Trung bình bình phương của sai số:

M SE Các kết quả nói trên được trình bày trong bảng sau đây gọi là bảng ANOVA:

Nguồn Bậc tự do Tổng bình phương Trung bình bình phương Tỉ số F

Nhân tố k −1 SSF M SF M SF M SE

Sai số mk −k SSE M SE

Người ta chứng minh được rằng nếu H 0 đúng thì: F = M SF M SE có phân phối

F với hai tham số k−1 và n−k Vì vậy, miền bác bỏ H 0 với mức ý nghĩa α là: W = [f k−1,mk−k (α); +∞) p−giá trị= P(F k−1,mk−k ≥ F)

Phần mềm Geogebra

Giới thiệu phần mềm Geogebra

GeoGebra là phần mềm miễn phí và mạnh mẽ, được thiết kế để hỗ trợ việc dạy và học môn Toán một cách hiệu quả Phần mềm này cung cấp các tính năng nổi bật của hệ thống đại số máy tính và hình học động, giúp người dùng dễ dàng thao tác và khám phá kiến thức toán học một cách trực quan Với GeoGebra, việc học toán trở nên sinh động và dễ tiếp cận hơn bao giờ hết, phù hợp cho học sinh, giáo viên và các nhà nghiên cứu muốn nâng cao khả năng hiểu biết về toán học.

GeoGebra là công cụ hỗ trợ xây dựng tình huống dạy học khám phá và thay thế phương pháp dạy học truyền thống nhờ tính trực quan Phần mềm này thúc đẩy học tập tích cực và phát triển năng lực của học sinh qua việc đặt câu hỏi, quan sát, giải thích, chứng minh và dự đoán, áp dụng trong thực tiễn Được sáng lập bởi Markus Hohenwarter, giảng viên Đại học Salzburg, GeoGebra ra đời năm 2001 và liên tục được cập nhật phát triển Người dùng có thể dễ dàng tải xuống phần mềm từ trang web chính thức tại http://www.geogebra.org.

Một số lệnh, công cụ quan trọng được sử dụng

Sequence(, , , )

- Lấy giá trị trong danh sách:

Element( , )

BarChart(, , ) Histogram (, )

PieChart(, , )

- Tính giá trị trung bình mẫu:

Mean()

Variance()

Median()

- Tính mod của dấu hiệu:

- Bổ sung đối tượng vào danh sách:

- Tạo bảng: TableText(,, ,)

- Độ lệch chuẩn mẫu: stdev(List of Raw Data)

- Phân vị chuẩn mức 1−α hay giá trị tới hạn chuẩn mức α:

- Hàm phân phối của phân phối chuẩn tắc Φ(x):

- Phân vị mức 1−α hay giá trị tới hạn mức α của phân phối Student Tn:

- Hàm phân phối của phân phối Student T n :

- Phân vị mức 1−α hay giá trị tới hạn mức α của phân phối F m,n :

- Hàm phân phối của phân phối Fm,n:

CHƯƠNG2 ỨNG DỤNG PHẦN MỀM GEOGEBRA TRONG

Chương này giới thiệu ứng dụng của phần mềm Geogebra trong minh họa các bài toán thống kê, bao gồm xây dựng biểu đồ thống kê và tính các số đặc trưng mẫu Ngoài ra, Geogebra còn hỗ trợ thực hiện các bài tập kiểm định giả thuyết thống kê một cách trực quan và chính xác Việc sử dụng phần mềm này giúp nâng cao khả năng trực quan hóa dữ liệu và hiểu rõ các khái niệm thống kê phức tạp.

Xây dựng các biểu đồ thống kê

Biểu đồ cột

- Đưa dữ liệu vào bảng Spreadsheet.

- Lấy dãy các giá trị của dấu hiệu và tần số tương ứng.

Dãy các giá trị của dấu hiệu: dx=Sequence(Cell(1,i),i,2,m)

Tần số tương ứng: dt=Sequence(Cell(2,i),i,2,m)

- Xây dựng biểu đồ cột:

+ Biểu đồ thể hiện tần số:

Barchart(dx,dt,0.6) + Biểu đồ thể hiện tỉ lệ:

Trong ví dụ 2.1, chúng ta quan sát dữ liệu về doanh thu và số khách hàng mua hàng của siêu thị mini C nằm trong khu vực đông dân cư trong vòng 7 ngày liên tiếp, từ thứ 2 đến chủ nhật Dữ liệu này giúp phân tích xu hướng tiêu dùng và hoạt động bán hàng của siêu thị trong tuần, từ đó đưa ra các chiến lược kinh doanh phù hợp để nâng cao doanh thu và số lượng khách hàng Việc theo dõi sát sao doanh thu và số khách hàng hàng ngày còn giúp xác định các ngày cao điểm hoặc thời điểm cần tăng cường các hoạt động khuyến mãi, góp phần tối ưu hóa hiệu quả kinh doanh của siêu thị mini C.

Ngày Số lượng khách (khách) Doanh thu (triệu)

Thực hiện vẽ biểu đồ trên phần mềm Geogebra với dữ liệu trên, kết quả thu được thể hiện ở các hình ảnh bên dưới.

Hình 2.1: Biểu đồ cột đơn thể hiện số lượng khách mua hàng ở siêu thị mini C

Qua biểu đồ trên ta thấy:

Lượng khách hàng mua sắm tại siêu thị mini C phân bố khá đều từ thứ hai đến thứ bảy, tuy nhiên, số lượng khách hàng trong các ngày giữa tuần thường thấp hơn so với cuối tuần Đặc biệt, ngày chủ nhật ghi nhận lượng khách mua hàng nhiều nhất với khoảng 250 khách, cho thấy ngày cuối tuần là thời điểm cao điểm về doanh số của siêu thị.

Nhu cầu mua sắm cuối tuần tăng cao do người dân tích trữ thực phẩm và vật dụng cần thiết cho tuần tới Đây là ngày nghỉ của phần lớn cư dân trong khu vực, nên họ sử dụng thời gian này để chuẩn bị cho gia đình và bản thân, đáp ứng các nhu cầu thiết yếu hàng ngày.

Trong biểu đồ trên, các đường kẻ ngang đã được sử dụng để giúp người xem dễ dàng hơn trong việc so sánh chiều cao của các cột Một phương pháp phổ biến khác là sắp xếp các cột theo thứ tự tăng dần hoặc giảm dần của chiều cao để dễ quan sát Bạn có thể tham khảo biểu đồ dưới đây để hiểu rõ hơn về cách trình bày này.

Hình 2.2: Biểu đồ cột đơn thể hiện số lượng khách mua hàng ở siêu thị mini C (số lượng khách theo thứ tự từ thấp đến cao)

Việc thay đổi cách sắp xếp dữ liệu so với phương pháp truyền thống (theo thứ tự ngày) giúp người quan sát dễ dàng phân tích và đưa ra nhận xét chính xác hơn Điều này tránh nhầm lẫn giữa các cột có chiều cao gần giống nhau và nâng cao khả năng nhận biết các ngày có số lượng khách mua hàng thấp nhất hoặc cao nhất Tăng cường hiệu quả phân tích dữ liệu và nhấn mạnh các xu hướng đáng chú ý trong doanh số bán hàng.

Việc xây dựng biểu đồ cột ghép với hai đại lượng khác nhau, có đơn vị khác nhau, là hoàn toàn khả thi dựa trên số liệu trong ví dụ 2.1 Điều này giúp trực quan hóa dữ liệu một cách rõ ràng và dễ hiểu hơn, đặc biệt trong các phân tích so sánh đa chiều Các kỹ thuật này góp phần nâng cao hiệu quả trình bày số liệu và hỗ trợ việc ra quyết định chính xác hơn.

Do hai đại lượng có đơn vị đo khác nhau, nên ta sử dụng hai trục tung riêng biệt để minh họa rõ ràng Hình ảnh kết quả được thể hiện bằng phần mềm GeoGebra, giúp tạo ra hình ảnh trực quan chính xác và dễ hiểu Việc sử dụng hai trục tung này đảm bảo phản ánh chính xác mối quan hệ giữa các đại lượng trong đồ thị Đây là phương pháp hữu ích trong việc trình bày các dữ liệu có đơn vị đo khác nhau một cách rõ ràng và chuyên nghiệp.

Hình 2.3: Biểu đồ cột ghép thể hiện số lượng khách mua hàng ở siêu thị mini C và doanh thu tương ứng với các ngày

Qua biểu đồ trên ta thấy:

- Nhìn chung số lượng khách có ảnh hưởng đến doanh thu của siêu thị.

Dù ngày 4 (thứ 5) có số lượng khách mua hàng giảm so với ngày 3 (thứ 4), doanh thu ngày 4 lại cao hơn ngày 3, cho thấy khách hàng có xu hướng mua hàng nhiều hơn trong mỗi đơn hàng Ngày 5 (thứ 6) ghi nhận số lượng khách mua hàng nhiều hơn ngày 6 (thứ 7), nhưng doanh thu ngày 6 lại thấp hơn ngày 5, điều này phản ánh rằng số lượng khách không luôn tỉ lệ thuận với doanh thu, đòi hỏi các chiến lược bán hàng phù hợp để tối ưu lợi nhuận.

Số lượng khách hàng mua hàng đóng vai trò quan trọng ảnh hưởng đến doanh thu của cửa hàng, nhưng ngoài yếu tố này, doanh thu còn phụ thuộc vào mức chi tiêu trung bình của mỗi khách hàng.

Ví dụ 2.2 Quan sát dữ liệu số khách hàng (có mua hàng) của siêu thị mini

C và D ở khu vực đông dân cư trong 7 ngày liên tiếp (thứ 2 đến chủ nhật)), ta thu được bảng số liệu như sau:

Ngày Siêu thị C Siêu thị D

Thực hiện vẽ biểu đồ trên phần mềm Geogebra với dữ liệu trên, kết quả thu được thể hiện ở các hình ảnh bên dưới.

Hình 2.4: Biểu đồ cột ghép thể hiện số lượng khách mua hàng ở siêu thị mini C và D

Qua biểu trên ta thấy:

Lượng khách mua hàng tại hai siêu thị mini C và D duy trì ổn định từ thứ hai đến thứ bảy, thể hiện sự ổn định trong lượng khách hàng hàng tuần Tuy nhiên, lượng khách tăng đột biến và đạt mức cao nhất vào ngày chủ nhật, cho thấy ngày cuối tuần là thời điểm cao điểm của doanh thu tại các siêu thị này.

Siêu thị D ghi nhận số lượng khách hàng hàng ngày vượt trội so với siêu thị C Cả hai cửa hàng đều trải qua sự giảm sút số khách vào các ngày giữa tuần, đặc biệt là thứ Tư và thứ Năm, cho thấy xu hướng giảm khách hàng vào giữa tuần ảnh hưởng đến hoạt động kinh doanh của cả hai siêu thị.

Vào ngày chủ nhật, lượng khách hàng tăng cao đòi hỏi siêu thị phải đảm bảo đủ hàng hóa để đáp ứng nhu cầu mua sắm Thông qua việc phân tích số lượng và loại hàng hoá dựa trên hoá đơn thanh toán của khách, siêu thị có thể lập các bảng tần số về các mặt hàng phổ biến Dữ liệu này giúp siêu thị xây dựng chiến lược kinh doanh hiệu quả, tối ưu hóa lượng hàng tồn kho và nâng cao trải nghiệm mua sắm cho khách hàng.

- Biểu đồ cột là loại biểu đồ đơn giản và dễ hiểu, thường sử dụng cho dữ liệu rời rạc.

Khi chiều cao các cột tương đồng, việc so sánh chúng sẽ gây khó khăn cho người đọc biểu đồ Để khắc phục vấn đề này, có thể sử dụng các đường kẻ ngang để dễ dàng phân biệt hơn Ngoài ra, sắp xếp các cột theo thứ tự tăng hoặc giảm giúp người xem dễ nhận diện xu hướng Thêm vào đó, việc sử dụng nhãn ghi dữ liệu trực tiếp lên các cột sẽ tạo sự rõ ràng và trực quan hơn cho biểu đồ.

Khi thiết kế các mẫu biểu đồ, bạn nên bố trí các cột trong cùng nhóm gần nhau để dễ dàng so sánh các đối tượng trong cùng một nhóm giữa các mẫu Nếu các mẫu có đơn vị đo khác nhau, việc bổ sung các trục tung phù hợp sẽ giúp trình bày dữ liệu rõ ràng và chính xác hơn Điều này giúp nâng cao khả năng phân tích và trực quan hóa dữ liệu hiệu quả trong quá trình thiết kế biểu đồ.

Biểu đồ đường

- Đưa dữ liệu vào bảng SpreadSheet.

- Lấy dãy các giá trị của dấu hiệu và tần số tương ứng.

- Dãy các giá trị của dấu hiệu: dx=Sequence(Cell(1,i),i,2,m).

- Giá trị/tần số tương ứng: dthu=Sequence(Cell(3,i),i,2,m)

- Tìm các đỉnh dựa vào các giá trị của dấu hiệu và giá trị/tần số của từng dấu hiệu:

+ Đỉnh của giá trị và tần số:

Sequence((Element(dx,i),Element(dthu,i)),i,1,d) + Đỉnh của giá trị và tỉ lệ:

Sequence((Element(dx,i), n 1 Element(dthu,i)),i,1,d)

- Nối các đỉnh để tạo thành biểu đồ dạng đường gấp khúc:

+ Đường gấp khúc thể hiện tần số:

Sequence(Segment((Element(dx,i),Element(dthu,i)),(Element(dx,i+1),

+ Đường gấp khúc thể hiện tỉ lệ:

Sequence(Segment((Element(dx,i), n 1 Element(dthu,i)), (Element(dx,i+1), 1 n Element(dthu,i+1))),i,1,d-1)

Ví dụ 2.3 Theo thống kê về dân số (đơn vị: triệu người) của một số nước ở khu vực Đông Nam Á, ta có bảng số liệu như sau:

1950 2000 2020 Indonesia 82.979 166.07 271.08 Việt Nam 25 80.285 98.156 Thái Lan 23.243 51.759 68.978 Myanmar 21.05 36.766 59.126 Campuchia 5.211 9.368 16.927 Lào 2.078 4.211 7.448 Nguồn: https://vi.wikipedia.org/wiki/Đông_Nam_Á

Thực hiện vẽ biểu đồ trên phần mềm Geogebra với dữ liệu trên, kết quả thu được thể hiện ở các hình ảnh bên dưới.

Hình 2.5: Biểu đồ đường gấp khúc về dân số của một số nước ở Đông Nam Á

Qua biểu đồ ta thấy:

Từ năm 1950 đến 2020, dân số của các quốc gia được khảo sát đều có xu hướng tăng mạnh, nổi bật nhất là Indonesia với mức tăng khoảng 188 triệu người Việt Nam, Thái Lan và Myanmar cũng ghi nhận mức tăng đáng kể lần lượt là 73 triệu, 46 triệu và 38 triệu người Trong khi đó, Campuchia và Lào có tốc độ tăng trưởng dân số chậm hơn, với mức tăng lần lượt là 12 triệu và 5 triệu người.

- Giai đoạn 2000 - 2020 đánh dấu sự gia tăng dân số rất mạnh của các nước Indonesia, Myanmar, Campuchia và Lào.

- Việt Nam nhìn chung có mức dân số tăng trưởng cũng đều đặn trong các giai đoạn được khảo sát.

Biểu đồ cột có thể được sử dụng để minh họa dữ liệu đã trình bày, giúp rõ ràng và dễ hiểu hơn cho người xem Tuy nhiên, mỗi nhóm dữ liệu theo mốc năm sẽ có đến 6 cột, khiến biểu đồ cột trở nên khá đông đúc và khó đọc Vì vậy, biểu đồ đường là lựa chọn tối ưu nhất để thể hiện dữ liệu này một cách trực quan, dễ nhìn và dễ phân tích hơn.

- Ngoài việc minh hoạ dữ liệu, biểu đồ đường còn cho thấy xu hướng thay đổi (tăng giảm) theo chỉ số được thể hiện trên trục tung.

Biểu đồ tròn

- Đưa dữ liệu vào Spreadsheet.

- Dựa vào bảng tần số hoặc tần suất xây dựng dãy dữ liệu để vẽ biểu đồ: dt=Sequence(Cell(2,i),i,1,m)

- Xây dựng biểu đồ tròn:

- Có thể dùng các công cụ có sẵn để vẽ hình tròn/vuông và text để chú thích cho biểu đồ đó.

- Tương tự các bước trên có thể vẽ 2, 3, biểu đồ tròn

Ví dụ 2.4 Khảo sát tình trạng hôn nhân của 200 thanh niên ở địa phương

A và 200 thanh niên ở địa phương B, thu được kết quả như sau:

Tình trạng hôn nhân Tần số Tỉ lệ (%)

Tình trạng hôn nhân Tần số Tỉ lệ (%)

Hình 2.6: Biểu đồ tròn thể hiện tỉ lệ về tình trạng hôn nhân của thanh niên ở địa phương

Qua biểu đồ ta thấy rằng:

- Tình trạng hôn nhân chủ yếu của thanh niên địa phương A là Kết hôn (72%); địa phương B là Kết hôn (67.5%).

- Tình trạng Ly hôn là thấp nhất đối với cả hai địa phương, với tỉ lệ là địa phương A 9% và địa phương B 12.5%; tình trạng Độc thân của địa phương

A và B lần lượt là 19% và 20%.

- Tình trạng hôn nhân của hai địa phương A và B khá tương đồng nhau.

Tỷ lệ ly hôn của thanh niên địa phương A và B lần lượt là 9% và 12.5%, cao hơn mức trung bình của cả nước là 2,1% (năm 2019) Điều này cho thấy tình trạng ly hôn sau kết hôn ở giới trẻ đang diễn biến phức tạp và có xu hướng tăng cao Các con số này cảnh báo về thực trạng ly hôn đáng lo ngại trong cộng đồng thanh niên và đặt ra yêu cầu cần có các giải pháp để giảm thiểu tỷ lệ này.

- Sử dụng biểu đồ tròn để so sánh 2 địa phương với các mẫu số liệu giống nhau giúp có cái nhìn tổng quan hơn.

Biểu đồ tròn thể hiện tỷ lệ phần trăm của các đối tượng chiếm trong mẫu quan sát, giúp hình dung rõ ràng tỷ trọng của từng đối tượng Đây là hình ảnh trực quan của bảng tần suất, cho thấy mối liên hệ giữa các đối tượng một cách dễ hiểu Vì vậy, biểu đồ tròn thường đi kèm với bảng tần suất để cung cấp phân tích đầy đủ và chính xác hơn về dữ liệu.

Khi xây dựng biểu đồ hình tròn, việc sử dụng màu sắc giúp phân biệt các phần của hình rõ ràng hơn Tuy nhiên, nếu số lượng phần lớn, việc phân biệt các màu trở nên khó khăn Trong những trường hợp này, nên sử dụng nhãn để ghi dữ liệu nhằm đảm bảo người đọc dễ dàng nhận biết các phần của biểu đồ, đặc biệt khi các tần số có giá trị gần nhau.

Tính các số đặc trưng

Cách thực hiện

- Dãy các giá trị X, tần sốvà dãy giá trị của dấu hiệu lần lượt là: dgt=Sequence(Cell(1,i),i,2,d+1) dts=Sequence(Cell(2,i),i,2,d+1) giatri=Join(Sequence(Sequence(Element(dgt,j),i,1,Element(dts,j)),j,1,d))

- Lần lượt tính các mẫu số đặc trưng: Kích thước mẫu, trung bình mẫu, phương sai mẫu, độ lệch chuẩn mẫu, trung vị mẫu, mốt của dấu hiệu.

+ Kích thước mẫu: Sum(dts)

+ Trung bình mẫu: Mean(dgt,dts)

+ Phương sai mẫu: Variance(dgt,dts)

+ Trung vị mẫu: Median(giatri)

+ Mốt của dấu hiệu: Mode(giatri)

Minh hoạ

Hình 2.7: Tính các mẫu số đặc trưng thực hiện trên Geogebra

- Bảng Spreadsheet trong Geogebra cho phép người dùng thay đổi các giá trị trong bảng một cách trực quan.

- Khi tần số thay đổi thì các mẫu số đặc trưng cũng thay đổi theo.

⇒ Phù hợp cho việc minh hoạ trong lúc giảng dạy.

Các bài toán kiểm định

Kiểm định giả thuyết về giá trị trung bình

Trong bài toán này, chúng tôi khảo sát hàm lượng sắt (đơn vị 10−1 mg/l) trong nước biển tại bãi tắm Mỹ Khê dựa trên 49 mẫu nước được chọn ngẫu nhiên Các kết quả thu được từ các mẫu cho thấy mức độ hàm lượng sắt khác nhau, phản ánh chất lượng nước tại khu vực này Việc phân tích hàm lượng sắt trong nước biển giúp đánh giá tổng thể chất lượng môi trường biển và xác định các yếu tố ảnh hưởng đến sự an toàn của nước biển cho hoạt động vui chơi, tắm biển Kết quả này góp phần cung cấp dữ liệu để xây dựng các biện pháp quản lý, bảo vệ môi trường biển bãi tắm Mỹ Khê hiệu quả và bền vững hơn.

Theo tiêu chuẩn của Bộ Y Tế, hàm lượng sắt tối đa cho phép trong nước máy sinh hoạt là 0,5mg/l Với mức ý nghĩa 0,05, có thể kết luận rằng hàm lượng sắt trung bình trong nước cao hơn mức cho phép này Điều này cho thấy cần thiết phải kiểm tra và xử lý để đảm bảo chất lượng nước sinh hoạt phù hợp với quy định.

- Đưa dữ liệu vào bảng Spreadsheet.

- Dãy số liệu giá trị của mẫu: gt=Sequence(Cell(1,i),i,1,n)

Trong đó n là số các số liệu với n=Length(A1:A100)

- Tính giá trị trung bình: xn=Mean(gt)

- Tính độ lệch chuẩn mẫu: s=stdev(gt)

- Giá trị thống kê kiểm định: z = x¯−à 0 s

Hình 2.8: Kiểm định giả thuyết về giá trị trung bình thực hiện trên Geogebra

Kiểm định giả thuyết về tỷ lệ

Trong bài kiểm tra giữa kỳ I môn Toán lớp 11, giáo viên cho biết tỷ lệ học sinh đạt điểm trên trung bình là 85% Một mẫu ngẫu nhiên gồm 40 học sinh được chọn để khảo sát điểm số, nhằm đánh giá chính xác hơn về tỷ lệ học sinh khá giỏi trong lớp Các số liệu thu thập từ mẫu này sẽ giúp xác định mức độ phân bố điểm thi và đưa ra dự đoán về kết quả chung của toàn bộ lớp trong kỳ thi giữa kỳ.

STT Điểm STT Điểm STT Điểm STT Điểm

Với mức ý nghĩa 5% kiểm định xem báo cáo của giáo viên có cao hơn sự thật?

- Đưa dữ liệu vào bảng Spreadsheet.

- Dãy số liệu giá trị của mẫu: gt=Sequence(Cell(1,i),i,1,n)

Trong đó n là số các số liệu với n=Length(A1:A100)

- Kiểm tra kết quả và đếm: kt=Sequence(If(Element(gt,i)≥5,"Đậu","Rớt"),i,1,n) k=CountIf(x=="Đậu",kt)

- Giá trị thống kê kiểm định: z k n −p 0 pp 0 (1−p 0 )

- Giá trị tới hạn của phân phối chuẩn tắc: InverseNormal(0,1,1-α)

- Tính p-giá trị: 1−Φ(z) với Φ(z)=Normal(0, 1, true)

Hình 2.9: Kiểm định giả thuyết về tỷ lệ thực hiện trên Geogebra

Kiểm định Mann-Whitney

Một lái xe thường xuyên di chuyển giữa hai địa điểm A và B qua hai tuyến đường X và Y Dữ liệu thu thập trong 10 ngày trên mỗi tuyến đường cho thấy thời gian đi lại trung bình và biến động khác nhau giữa các tuyến, với đường X có thời gian từ 25 đến 85 phút, còn đường Y dao động từ 39 đến 65 phút Các số liệu này giúp phân tích độ dài và độ khó của từng tuyến đường, hỗ trợ trong việc lựa chọn lộ trình tối ưu nhằm giảm thiểu thời gian di chuyển.

Với mức ý nghĩa 0.05 có thể cho rằng có sự khác nhau về thời gian đi lại trung bình giữa hai đường đi không?

- Đưa dữ liệu vào bảng Spreadsheet.

- Dãy số liệu của đường X và Y lần lượt là: gtx=Sequence(Cell(1, i), i, 2, n 1 ) gty=Sequence(Cell(2, i), i, 2, n 1 )

Trong đó: n 1 =Length(A1:A100) và n 2 =Length(B1:100)

- Tính hạng của hai mẫu: hang=TiedRank(Join(gtx, gty)) r=Sequence(Element(hang, i), i, 1, n 1 −1)

- Thực hiện kết hợp hai mẫu lại và tính hạng bằng cách lập bảng:

TableText(Append("Thời gian", cot1), Append("Đường", cot2), Append("Hạng", cot3), "_c|v")

*Trong đó: cot1=Sort(Join(gtx,gty) cot2=Sort(Join(Sequence("X", i, 1, n 1 - 1), Sequence("Y", i, 1, n 2 - 1)), hang) cot3=Sort(hang)

- Giá trị thống kê kiểm định: z = (R x −muR)

- Giá trị tới hạn của phân phối chuẩn tắc: zalpha2=InverseNormal(0, 1, 1- α 2 )

Hình 2.10: Kiểm định Mann-Whitney thực hiện trên Geogebra

Phân tích phương sai một nhân tố

Trong một thí nghiệm nhằm so sánh trọng lượng của các con gà được nuôi bằng 4 khẩu phần khác nhau, 20 con gà có trọng lượng ban đầu bằng nhau được phân đều vào các nhóm ngẫu nhiên, mỗi nhóm 5 con Kết quả thí nghiệm đã được ghi nhận rõ ràng trong bảng dữ liệu, giúp xác định ảnh hưởng của từng khẩu phần đến trọng lượng cuối cùng của gà Thí nghiệm này giúp đánh giá chính xác hiệu quả của các chế độ ăn khác nhau trong việc nâng cao trọng lượng gà nuôi.

Khẩu phần 1 Khẩu phần 2 Khẩu phần 3 Khẩu phần 4

Với mức ý nghĩa 0.05 có thể cho rằng khẩu phần ăn có ảnh hưởng tới trọng lượng gà hay không?

- Đưa dữ liệu vào bảng Spreadsheet.

Q1=Sum (Product(d1,d1)) với d1=Sequence(Cell(1,i),i,2,m+1)

Q2=Sum (Product(d2,d2)) với d2=Sequence(Cell(2,i),i,2,m+1)

Q3=Sum (Product(d3,d3)) với d3=Sequence(Cell(3,i),i,2,m+1)

Q4=Sum (Product(d4,d4))với d4=Sequence(Cell(4,i),i,2,m+1)

- Tính SST, SSF, SSE dựa theo công thức:

SSF= m 1 tbinh− mk T 2 với tbinh=T 1 2 +T 2 2 + T 3 2 +T 4 2

TableText("Nguồn", "Nhân tố", "Sai số", "Tổng", "Bậc tự do", k - 1, m k - k, n - 1, "Tổng bình phương", SSF, SSE, SST, "Trung bình bình phương", MSF, MSE, "Tỉ số F", F, "_c|v")

- Tính giá trị tới hạn mức α: InverseFDistribution(k-1,m k-k,1-alpha)

Hình 2.11: Phân tích phương sai một nhân tố thực hiện trên Geogebra

- Đề tài nghiên cứu về ứng dụng phần mềm Geogebra trong thống kê Các kết quả đạt được:

+ Lý thuyết về thống kê mô tả, các bài toán kiểm định, phần mềm Geogebra.

+ Xây dựng được các biểu đồ: biểu đồ cột, biểu đồ đường, biểu đồ tròn. + Tính các số đặc trưng của mẫu.

+ Xây dựng các bài toán kiểm định.

+ Ví dụ minh họa cho từng biểu đồ, tính các số đặc trưng, bài toán kiểm định.

Do hạn chế về thời gian, khoá luận chỉ tập trung trình bày một số ứng dụng của GeoGebra trong việc vẽ biểu đồ cho dữ liệu rời rạc, tính các chỉ số mẫu cơ bản và thực hiện bốn bài toán kiểm định thống kê.

- Trong thời gian tới, tôi muốn tiếp tục mở rộng các vấn đề sau:

+ Ứng dụng Geogebra để xây dựng biểu đồ cho dữ liệu liên tục.

+ Xây dựng thêm các bài toán kiểm định khác.

+ Tìm hiểu thêm các chức năng khác của Geogebra trong việc hỗ trợ học và dạy Thống kê.

Ngày đăng: 20/02/2023, 21:45

🧩 Sản phẩm bạn có thể quan tâm