1. Trang chủ
  2. » Tất cả

Bài giảng lý thuyết xác suất và thống kê toán

240 4 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Bài Giảng Lý Thuyết Xác Suất Và Thống Kê Toán
Tác giả Nhóm tác giả
Người hướng dẫn Lý Thuyết Xác Suất Và Thống Kê
Trường học Đại Học Duy Tân
Chuyên ngành Xác suất Thống kê
Thể loại Bài giảng
Năm xuất bản 2018
Thành phố Đà Nẵng
Định dạng
Số trang 240
Dung lượng 1,88 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

1.3.2 Mẫu hệ thống Systematic Sampling Là loại mẫu đã được đơn giản hóa trong cách chọn, trong đó chỉ có phần tử đầutiên được chọn ngẫu nhiên, sau đó dựa vào danh sách đã được đánh số củ

Trang 1

ĐẠI HỌC DUY TÂNKHOA KHOA HỌC TỰ NHIÊN

BỘ MÔN XÁC SUẤT THỐNG KÊ

BÀI GIẢNG

LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ TOÁN

(Lưu hành nội bộ)

Đà Nẵng, năm 2018

Trang 2

ĐẠI HỌC DUY TÂNKHOA KHOA HỌC TỰ NHIÊN

BỘ MÔN XÁC SUẤT THỐNG KÊ

TỔ XÁC SUẤT THỐNG KÊ Chủ biên: NGUYỄN ĐẮC NHÂN

LÝ THUYẾT XÁC SUẤT VÀ THỐNG KÊ

Khoa: KHOA HỌC TỰ NHIÊN

Đà Nẵng, năm 2018

Trang 3

MỤC LỤC

1.1 Thống kê mô tả và thống kê suy diễn 6

1.2 Các loại biến và các loại dữ liệu 6

1.2.1 Biến định tính và biến định lượng 6

1.2.2 Các loại thang đo thường được sử dụng 7

1.3 Thu thập dữ liệu và phương pháp lấy mẫu 8

1.3.1 Mẫu ngẫu nhiên (Random Sampling) 9

1.3.2 Mẫu hệ thống (Systematic Sampling) 9

1.3.3 Mẫu phân tầng (Stratified Sampling) 9

1.3.4 Mẫu chùm (Cluster Sampling) 9

1.4 Nghiên cứu quan sát và thực nghiệm 10

1.4.1 Nghiên cứu quan sát 10

1.4.2 Nghiên cứu thực nghiệm 10

1.5 Lợi ích và lạm dụng của thống kê 10

1.6 Máy tính và tính toán 11

Chương 2 Phân bố tần số và đồ thị 15 2.1 Tổ chức dữ liệu 15

2.2 Nhật đồ, đa giác tần số, hình cung 20

2.2.1 Nhật đồ 20

2.2.2 Đa giác tần số 21

2.2.3 Hình cung (Ogive) 21

2.2.4 Biểu đồ tần số tương đối 23

2.2.5 Các dạng phân phối 24

2.3 Một số loại biểu đồ khác 27

2.3.1 Biểu đồ thanh (Bar graph) 27

2.3.2 Biểu đồ Pareto 28

2.3.3 Biểu đồ chuỗi thời gian (Time series graph) 29

2.3.4 Biểu đồ hình tròn (Pie graph) 29

2.3.5 Biểu đồ gây nhầm lẫn 31

2.3.6 Biểu đồ thân và lá (Stem and Leaf Plots) 33

Trang 4

Chương 3 Mô tả dữ liệu 45 3.1 Các đo lường khuynh hướng định tâm (measures of central tendency) 45

3.1.1 Trung bình (mean) 45

3.1.2 Trung vị (median) 48

3.1.3 Mode 48

3.1.4 Trung bình khoảng (midrange) 49

3.2 Các thước đo về độ biến thiên (measures of variation) 51

3.2.1 Khoảng biến thiên (range) 52

3.2.2 Phương sai và độ lệch chuẩn (variance and standard deviation) 52 3.2.3 Hệ số biến thiên (coefficient of variation) 56

3.2.4 Quy tắc tính rợ khoảng (range rule of thumb) 56

3.2.5 Định lý Chebyshev 57

3.2.6 Quy tắc kinh nghiệm (empirical rule) 58

3.3 Các thước đo về vị trí (measures of position) 59

3.3.1 Điểm chuẩn (standard score) 59

3.3.2 Điểm bách phân (percentile) 60

3.3.3 Điểm thập phân và tứ phân (decile and quartile) 62

3.3.4 Giá trị ngoại biên hay cá biệt (outlier) 63

3.4 Phân tích dữ liệu khám phá (exploratory data analysis) 64

Chương 4 Xác suất và các quy tắc đếm 73 4.1 Không gian mẫu và xác suất 73

4.1.1 Các khái niệm cơ bản 73

4.1.2 Xác suất cổ điển 75

4.1.3 Biến cố đối 76

4.1.4 Xác suất thực nghiệm (empirical probability) 78

4.1.5 Luật số lớn 79

4.1.6 Xác suất chủ quan 80

4.2 Quy tắc cộng xác suất 80

4.3 Quy tắc nhân xác suất và xác suất có điều kiện 83

4.3.1 Quy tắc nhân xác suất 83

4.3.2 Xác suất có điều kiện 84

4.4 Các quy tắc đếm 87

4.4.1 Các quy tắc đếm cơ bản 87

4.4.2 Các khái niệm cơ bản về giải tích tổ hợp 88

4.4.3 Xác suất và quy tắc đếm 89

Trang 5

5.1 Phân phối xác suất 97

5.2 Trung bình, phương sai, độ lệch chuẩn, kỳ vọng của một phân phối xác suất 99

5.2.1 Trung bình của một phân phối xác suất 99

5.2.2 Phương sai và độ lệch chuẩn của một phân phối xác suất 100

5.2.3 Kỳ vọng của một phân phối xác suất 101

5.3 Phân phối nhị thức 102

5.4 Các loại phân phối khác 103

5.4.1 Phân phối đa thức 103

5.4.2 Phân phối Poisson 104

5.4.3 Phân phối siêu bội (hypergeometric distribution) 105

Chương 6 Phân phối chuẩn 110 6.1 Phân phối chuẩn 110

6.2 Các ứng dụng của phân phối chuẩn 113

6.2.1 Tìm giá trị dữ liệu được cho bởi xác suất cụ thể 115

6.2.2 Xác định tính chuẩn 116

6.3 Định lý giới hạn trung tâm 117

6.3.1 Phân phối của trung bình mẫu 118

6.3.2 Thừa số điều chỉnh hữu hạn 121

6.4 Phép tiệm cận chuẩn cho phân phối nhị thức 122

Chương 7 Khoảng tin cậy và cỡ mẫu 128 7.1 Khoảng tin cậy cho trung bình khi biết σ và cỡ mẫu 128

7.2 Khoảng tin cậy cho trung bình khi không biết σ 131

7.2.1 Độ lệch chuẩn tổng thể σ chưa biết, kích thước mẫu n ≥ 30 131

7.2.2 Độ lệch chuẩn tổng thể σ chưa biết, kích thước mẫu n < 30, X tuân theo phân phối chuẩn 131

7.3 Khoảng tin cậy và cỡ mẫu cho tỷ lệ 134

7.4 Khoảng tin cậy cho phương sai và độ lệch chuẩn 136

Chương 8 Kiểm định giả thuyết thống kê 142 8.1 Thủ tục kiểm định giả thuyết – phương pháp truyền thống 142

8.2 Kiểm định Z cho giá trị trung bình 148

8.3 Kiểm định T cho giá trị trung bình 152

8.4 kiểm định Z cho tỉ lệ 153

8.5 Kiểm định χ 2 cho phương sai và độ lệch chuẩn 155

8.6 Các chủ đề khác liên quan đến kiểm định giả thuyết 157

8.6.1 Khoảng tin cậy và kiểm định giả thuyết 157

Trang 6

8.6.2 Sai lầm loại II và lực kiểm định 158

Chương 9 Tương quan và hồi quy 162 9.1 Đồ thị với các điểm chấm (scatter plots) và tương quan (correlation) 163 9.2 Hồi quy (regression) 168

9.2.1 Đường hồi quy 168

9.2.2 Xác định phương trình đường hồi quy 169

9.3 Hệ số quyết định và sai số chuẩn tiên đoán 171

9.3.1 Các loại biến cho mô hình hồi quy 171

9.3.2 Hệ số quyết định (coefficient of determination) 173

9.3.3 Sai số tiêu chuẩn tiên đoán (standard error of the estimate) 173

9.3.4 Khoảng tiên đoán (prediction interval) 175

9.4 Hồi quy bội 176

9.4.1 Phương trình hồi quy bội 176

9.4.2 Kiểm định ý nghĩa của R 177

9.4.3 Điều chỉnh R2 177

Trang 7

Chương 1

BẢN CHẤT CỦA XÁC SUẤT THỐNG KÊ

Thống kê là khoa học nghiên cứu của tập hợp nhiều lĩnh vực khác nhau, bao gồmthu thập, tổ chức, tổng hợp, phân tích và rút ra kết luận từ dữ liệu Một vài lý do

mà sinh viên học sinh cần học thống kê là:

• Giống như những người chuyên nghiệp, bạn phải có khả năng đọc và hiểu cácnghiên cứu thống kê được thực hiện trong các lĩnh vực của bạn Để có được sựhiểu biết này, bạn phải am hiểu về từ vựng, các kí hiệu, khái niệm, và thủ tụcthống kê được sử dụng trong các nghiên cứu này

• Bạn có thể được giao để tiến hành các nghiên cứu trong lĩnh vực của bạn, vì thủtục thống kê là cơ bản để tiến hành một nghiên cứu Để thực hiện việc này, bạnphải có khả năng thiết kế các thí nghiệm, thu thập, tổ chức, phân tích và tómtắt dữ liệu và có thể đưa ra dự đoán đáng tin cậy hoặc dự báo để sử dụng trongtương lai Bạn cũng phải có khả năng truyền đạt kết quả nghiên cứu bằng khảnăng diễn đạt của bạn

• Bạn cũng có thể sử dụng các kiến thức thu được từ nghiên cứu thống kê để trởthành người tiêu dùng và công dân tốt hơn Ví dụ: bạn có thể đưa ra các quyếtđịnh thông minh về sản phẩm cần mua dựa trên nghiên cứu người tiêu dùng, vềchi tiêu của chính phủ dựa trên nghiên cứu sử dụng, Những lý do này có thểđược coi là mục tiêu để nghiên cứu số liệu thống kê Mục đích của chương này

là giới thiệu các mục tiêu nghiên cứu thống kê bằng việc trả lời các câu hỏi nhưsau: Thống kê là gì? Dữ liệu là gì? Các mẫu được chọn như thế nào?

Sau khi học xong chương này, người học sẽ được cung cấp về những điều sau:

• Kiểm tra được kiến thức về các thuật ngữ thống kê

• Phân biệt được giữa hai nhánh của thống kê: Thống kê mô tả và thống kê suydiễn

• Xác định được các loại dữ liệu

• Xác định mức đo lường cho mỗi biến

• Xác định bốn kỹ thuật lấy mẫu căn bản

• Giải thích sự khác nhau giữa nghiên cứu quan sát và nghiên cứu thực nghiệm

• Giải thích cách mà thống kê có thể được sử dụng và sự lạm dụng của thống kê

• Giải thích tầm quan trọng của máy tính và tính toán trong thống kê

Trang 8

1.1 Thống kê mô tả và thống kê suy diễn

Để có được các kiến thức về những tình huống dường như ngẫu nhiên, thống kêthu thập thông tin cho các biến, mô tả tình hình Một biến là một đặc điểm haythuộc tính có thể cho giá trị khác nhau

Dữ liệu là tập các giá trị (số đo hoặc quan sát) mà các biến có thể giả định Biến

có giá trị được xác định ngẫu nhiên được gọi là biến ngẫu nhiên Tập các giá trị dữliệu tạo thành một tập hợp giá trị dữ liệu Mỗi giá trị dữ liệu thiết lập được gọi làmột giá trị dữ liệu hoặc một số liệu

Thống kê thường được chia ra hai loại là thống kê mô tả và thống kê suy diễn:+ Thống kê mô tả được sử dụng để mô tả một nhóm phần tử được quan sát trongthực tế Thống kê mô tả bao gồm thu thập, tổ chức, tổng hợp và trình bày dữliệu

+ Thông thường trong nghiên cứu, ta không chỉ giới hạn các kết luận vào mộtnhóm các phần tử mà ta đã quan sát (được gọi là mẫu) Điều mà ta muốn là tìmhiểu một sự liên hệ nào đó có thể áp dụng cho tất cả các phần tử mà ta chưa haykhông thể quan sát được (được gọi là tổng thể) Quá trình tìm hiểu một mẫurồi dựa vào các kết quả của lý thuyết xác suất để rút ra kết luận cho tổng thểđược gọi là thống kê suy diễn Như vậy mục đích chính của thống kê suy diễn làtổng hợp kết quả từ các mẫu cho tổng thể, thực hiện ước lượng và kiểm định giảthuyết, xác định các mối quan hệ giữa các biến và đưa ra dự đoán

Tổng thể (còn được gọi là tập hợp chính, dân số) là tập hợp tất cả các phần tử

do mục đích và phạm vi vấn đề cần nghiên cứu quy định Mẫu là một nhóm các đốitượng được chọn trực tiếp từ tổng thể

1.2 Các loại biến và các loại dữ liệu

Quan sát và đo lường các hiện tượng là điều căn bản cho tất cả các nghiên cứukhoa học Các hiện tượng hoặc dấu hiệu mà ta quan sát có thể thay đổi từ phần tửnày qua phần tử khác được gọi là biến Ta cần phân biệt các loại biến: biến định tính(qualitative variables) và biến định lượng (quantitative variables) Các biến được đolường và phân loại theo các thang đo, do đó ta cần phân biệt các loại thang đo: thang

đo danh nghĩa (nominal-level), thang đo thứ hạng (ordinal-level), thang đo khoảng(interval-level) và thang đo tỉ lệ (ratio-level)

1.2.1 Biến định tính và biến định lượng

Biến định tính là những biến mà người ta gán các giá trị để phân biệt hay phânloại quan sát

Chẳng hạn: giới tính (nam, nữ); tình trạng hôn nhân (độc thân, có gia đình, ly

dị, góa chồng hay vợ), kết quả học tập (yếu, trung bình, khá, giỏi)

Trang 9

Biến định lượng là những biến mà các giá trị của nó được xác định bằng đolường Biến định lượng được chia thành hai loại: biến định lượng rời rạc và biến địnhlượng liên tục.

1.2.2 Các loại thang đo thường được sử dụng

Các biến được đo lường và phân loại theo 4 loại thang đo:

i Thang danh nghĩa: là thang đo gán các con số cho các quan sát để phân biệt

và phân loại chúng, không có ý so sánh và các phép tính với chúng đều vô nghĩa

Ví dụ: giới tính nam được gán bởi số 0, nữ được gán bởi số 1

ii Thang thứ hạng: là thang danh nghĩa mà giữa các dấu hiệu quan sát đã cóquan hệ thứ bậc hơn kém

Ví dụ: thứ hạng học tập của sinh viên từ giỏi nhất đến ké nhất, Trong thang

đo này sự sai khác giữa các dấu hiệu quan sát không bắt buộc phải đều nhau.iii Thang đo khoảng: là thang đo thứ hạng có khoảng cách đều nhau gữa cácbậc Gán các con số cho các quan sát phản ánh một chiều dài cố định giữa cácđơn vị đo lường

Có thể đánh giá sự khác biệt giữa các dấu hiệu quan sát bằng loại thang đo nàymặc dù điểm gốc ở đây chỉ là tương đối Đây là thang đó có các khoảng cáchđều nhau, việc cộng trừ các con số có ý nghĩa, có thể tính toán trên các con sốcủa thang đo này Để thu được thang đo khoảng có thể bắt đầu từ thang đo thứhạng sau đó chuẩn hóa sao cho các khoảng cách đều nhau và việc tính toán cáctrị số đo trở nên có ý nghĩa Chẳng hạn, để đặc trưng lứa tuổi có thể dùng thang

đo khoảng: trẻ (dưới 35 tuổi) [30], trung niên (từ 36 tuổi đến 60 tuổi) [50], già(từ 60 tuổi trở lên) [70]

Các thang đo danh nghĩa, thứ hạng và thang đo khoảng dùng để đặc trưng cácgiá trị của dấu hiệu định tính

iv Thang tỉ lệ: là thang đo khoảng cách với một điểm 0 tuyệt đối (điểm gốc) để

có thể so sánh được tỉ lệ giữa các trị số đo

Với thang đo này ta có thể đo lường các dấu hiệu quan sát và thực hiện được tất

cả phép tính với trị số đo Thang đo tỉ lệ dùng để đặc trưng các giá trị của dấuhiệu định lượng

Theo tuần tự thang đo sau có chất lượng cao hơn thang đo trước, mỗi thang đocấp cao hơn có thể chuyển xuống thang đo cấp thấp hơn

Một số ví dụ về các thang đo:

Trang 10

Thang danh nghĩa Thang thứ hạng Thang đo khoảng Thang tỉ lệ

Mã bưu chính Điểm số (A,B,C,D,F) Điểm SAT Chiều caoGiới tính (nam, nữ) Đánh giá (vị trí nhất, Chỉ số IQ Cân nặng

Chuyên ngành (toán, Xếp hạng các cầu thủ

tin học, ) quần vợt

Quốc tịch

Tôn giáo

1.3 Thu thập dữ liệu và phương pháp lấy mẫu

Dữ liệu có thể được thu thập bằng nhiều cách khác nhau Một trong những phươngpháp phổ biến nhất là thông qua việc sử dụng các cuộc điều tra Khảo sát có thểđược thực hiện bằng cách sử dụng nhiều phương pháp Ba trong số các phương phápphổ biến nhất là khảo sát qua điện thoại, bản câu hỏi gửi qua đường bưu điện vàcuộc phỏng vấn cá nhân

Các cuộc điều tra bằng điện thoại có lợi thế hơn các cuộc điều tra phỏng vấn cánhân do họ ít tốn kém hơn Ngoài ra, người ta có thể thẳng thắn hơn trong quanđiểm của họ vì không có liên hệ đối mặt Một trở ngại lớn nhất đối với cuộc khảo sátqua điện thoại là một số người dân sẽ không có điện thoại hoặc sẽ không trả lời khi

có cuộc gọi; do đó, không phải tất cả mọi người đều có cơ hội được điều tra Ngoài

ra, hiện nay nhiều người dùng số diện thoại không có trong danh sách công bố, vìvậy họ không thể được khảo sát Cuối cùng, ngay cả giọng nói của người phỏng vấncũng có thể ảnh hưởng đến phản ứng của người được phỏng vấn

Các cuộc điều tra gửi qua đường bưu điện có thể được sử dụng để bao phủ mộtkhu vực địa lý rộng lớn hơn so với các cuộc điều tra qua điện thoại hoặc các cuộcphỏng vấn cá nhân vì các cuộc điều tra bằng phiếu gửi ít tốn kém hơn để tiến hành.Ngoài ra, người trả lời có thể vẫn vô danh nếu họ muốn Nhược điểm của các cuộcđiều tra bằng bảng câu hỏi gửi thư bao gồm số lượng phản hồi thấp và câu trả lờikhông thích hợp Một nhược điểm nữa là một số người có thể gặp khó khăn khi đọchoặc hiểu các câu hỏi

Các cuộc điều tra phỏng vấn cá nhân có lợi thế là có được những câu trả lời sâu

về các câu hỏi từ người được phỏng vấn Một bất lợi là người phỏng vấn phải đượcđào tạo trong việc đặt câu hỏi và ghi lại những phản hồi, làm cho cuộc điều tra phỏngvấn cá nhân tốn kém hơn so với các phương pháp khảo sát khác Một bất lợi khác làngười phỏng vấn có thể có thành kiến trong việc lựa chọn người trả lời của mình

Dữ liệu cũng có thể được thu thập theo những cách khác, chẳng hạn như khảosát hồ sơ hoặc quan sát trực tiếp các tình huống

Các nhà nghiên cứu sử dụng các mẫu để thu thập dữ liệu và thông tin về mộtbiến cụ thể từ một quần thể lớn Sử dụng mẫu tiết kiệm về mặt thời gian, tiền bạc

và trong một số trường hợp cho phép nhà nghiên cứu có được thông tin chi tiết hơn

về một chủ đề cụ thể Tuy nhiên các mẫu không thể được lựa chọn theo cách ngẫu

Trang 11

nhiên được bởi vì thông tin thu được có thể là chênh lệch Để có được các mẫu khôngchênh lệch - nghĩa là mỗi đối tượng trong quần thể có cơ hội được lựa chọn như nhau

- các nhà thống kê sử dụng bốn phương pháp lấy mẫu căn bản: mẫu ngẫu nhiên, có

hệ thống, phân tầng và lấy mẫu cụm

1.3.1 Mẫu ngẫu nhiên (Random Sampling)

Các mẫu ngẫu nhiên được lựa chọn bằng cách sử dụng các phương pháp ngẫunhiên hoặc các số ngẫu nhiên Một trong những phương pháp như vậy là gán mỗi sốcho một đối tượng trong tổng thể Sau đó đặt các thẻ được đánh số vào một cái bát,trộn chúng cẩn thận và chọn nhiều loại thẻ nếu cần Các đối tượng có số được chọntạo thành mẫu Vì khó trộn các loại thẻ này kỹ lưỡng nên vẫn có thể tạo ra một mẫuchệch Vì lý do này, các nhà thống kê sử dụng phương pháp khác để thu thập số liệubằng cách họ tạo ra các số ngẫu nhiên từ máy tính

1.3.2 Mẫu hệ thống (Systematic Sampling)

Là loại mẫu đã được đơn giản hóa trong cách chọn, trong đó chỉ có phần tử đầutiên được chọn ngẫu nhiên, sau đó dựa vào danh sách đã được đánh số của tổng thể

để chọn ra các phần tử tiếp theo vào mẫu theo một thủ tục nào đó Chẳng hạn, trênmột danh sách N phần tử cần chọn ra một mẫu kích thước n thì ta chia danh sách

đó ra n phần bằng nhau, ở phần thứ nhất gồmN/n phần tử, chọn ngẫu nhiên ra mộtphần tử, sau đó theo danh sách cứ cách N/n phần tử ta lấy ra một phần tử vào mẫucho đến khi có đủ n phần tử

1.3.3 Mẫu phân tầng (Stratified Sampling)

Để thu được một mẫu phân tầng ta phân chia tổng thể thành các nhóm (gọi làtầng) theo một số đặc điểm quan trọng cho nghiên cứu, sau đó chọn ngẫu nhiên cácphần tử đại diện cho từng nhóm

1.3.4 Mẫu chùm (Cluster Sampling)

Trong một số trường hợp để tiện cho việc nghiên cứu người ta muốn quy diệnnghiên cứu gọn về một khu vực nhất định chứ không để cho các phần tử của mẫuphân tán quá rộng, lúc đó mẫu được chọn theo chùm

Để thực hiện theo phương pháp này, trước tiên tổng thể điều tra được phân chiathành nhiều chùm theo nguyên tắc:

• mỗi phần tử của tổng thể chỉ được phân vào một chùm

• mỗi chùm cố gắng chứa nhiều phần tử khác nhau về dấu hiệu nghiên cứu saocho nó có độ phân tán cao như tổng thể

• phân chia sao cho các chùm tương đối đồng đều nhau về quy mô

Tiếp đó các chùm được chọn một cách ngẫu nhiên và tất cả các phần tử củachùm đó đều được chọn vào mẫu

Trang 12

Tóm tắt phương pháp lấy mẫu:

Mẫu ngẫu nhiên Đối tượng được lựa chọn theo số ngẫu nhiên

Mẫu hệ thống Các đối tượng được lựa chọn cách nhauklần sau khi đối tượng

đầu tiên được chọn ngẫu nhiên từ 1 đến k.Mẫu phân tầng Các đối tượng được lựa chọn bằng cách phân chia tổng thể

thành các nhóm (tầng) và các đối tượng được chọn ngẫu nhiêntrong các nhóm

Mẫu chùm Các đối tượng được lựa chọn bằng cách sử dụng một nhóm

nguyên vẹn đại diện cho quần thể

1.4 Nghiên cứu quan sát và thực nghiệm

1.4.1 Nghiên cứu quan sát

Trong một nghiên cứu quan sát, nhà nghiên cứu chỉ quan sát thấy những gì đangxảy ra hoặc những gì đã xảy ra trong quá khứ và cố gắng rút ra kết luận dựa trênnhững quan sát này

1.4.2 Nghiên cứu thực nghiệm

Thực nghiệm là một phương pháp thu thập thông tin được thực hiện bởi nhữngquan sát trong điều kiện gây biến đổi đối tượng khảo sát và môi trường xung quanhđối tượng khảo sát một cách có chủ định Phương pháp thực nghiệm được áp dụngphổ biến không chỉ trong nghiên cứu tự nhiên, kỹ thuật, y học mà cả trong xã hội vàcác lĩnh vực khác

Thực nghiệm cho phép tác động lên đối tượng nghiên cứu một cách chủ động, canthiệp có ý thức vào quá trình diễn biến tự nhiên, để hướng quá trình diễn ra theomong muốn của nhà nghiên cứu

Các nghiên cứu thống kê thường bao gồm một hoặc nhiều biến độc lập và mộtbiến phụ thuộc Các biến được sử dụng để mô tả hoặc đo lường vấn đề nghiên cứugọi là biến phụ thuộc (dependent variable) Các biến được sử dụng để mô tả hoặc đolường các yếu tố (tác nhân) được giả định là gây ra hoặc ít nhất là làm ảnh hưởngđến vấn đề nghiên cứu được gọi là biến độc lập (independent variable)

Ví dụ: trong một nghiên cứu về mối liên quan giữa hút thuốc lá và ung thư phổithì biến “có bị ung thư phổi hay không” (nhận các giá trị có hoặc không) sẽ là biếnphụ thuộc, còn biến “hút thuốc” (biến thiên từ không hút thuốc đến hút trên 3 baomột ngày) là biến độc lập

1.5 Lợi ích và lạm dụng của thống kê

Thống kê có thể được sử dụng để mô tả dữ liệu, so sánh hai hoặc nhiều tập dữliệu, xác định mối liên hệ giữa các biến, kiểm định giả thuyết và đưa ra các ước tính

Trang 13

về đặc điểm của tổng thể Tuy nhiên, có một khía cạnh khác của số liệu thống kê đó

là việc sử dụng sai kỹ thuật thống kê để bán sản phẩm không hoạt động đúng cách

để thử chứng minh điều gì đó thực sự là không đúng sự thật hoặc để thu hút sự chú

ý của chúng ta bằng cách sử dụng thống kê để gây ra nỗi sợ hãi, sốc và xúc phạm.Sau đây là một số cách mà thống kê có thể bị trình bày sai:

• Sử dụng mẫu nghi ngờ: Đôi khi các nhà nghiên cứu sử dụng các mẫu rất nhỏ để

có được thông tin Không chỉ quan trọng là phải có kích thước mẫu đủ lớn màcòn là cần thiết để xem các đối tượng trong mẫu đã được lựa chọn như thế nào.Một số nhà nghiên cứu dùng mẫu thuận tiện Chẳng hạn, các nghiên cứu giáodục đôi khi sử dụng toàn bộ học sinh trong một lớp học vì thuận tiện để đánhgiá cho toàn bộ tổng thể

• Trung bình không được rõ ràng

• Một biến dạng của thống kê có thể xảy ra khi các giá trị khác nhau được biểudiễn cho cùng một dữ liệu

• Thống kê bị tách rời, tức là thống kê không có sự so sánh được thực hiện

• Nhiều kết nối hàm ý giữa các biến mà có thể không thực sự tồn tại Ví dụ, hãyxem xét tuyên bố sau: "Ăn cá có thể giúp giảm cholesterol của bạn" Lưu ý các

từ "có thể giúp" Không có gì đảm bảo rằng ăn cá chắc chắn sẽ giúp bạn giảmcholesterol

• Sử dụng biểu đồ sai lệch sẽ gây cho người đọc rút ra những kết luận sai

• Sử dụng các câu hỏi khảo sát bị lỗi

1.6 Máy tính và tính toán

Trong phần này, tôi giới thiệu một vài phần mềm được sử dụng trong xác suấtthống kê: SPSS, MINITAB, Microsoft Excel, Máy tính bỏ túi

Trang 14

Phần bài tập chương 1

1 Nêu tên và định nghĩa hai lĩnh vực của thống kê

2 Giải thích sự khác nhau giữa mẫu và tổng thể

3 Tại sao mẫu lại được sử dụng trong thống kê?

4 Trong mỗi báo cáo sau, thống kê mô tả hay thống kê suy diễn được sử dụng?

a Trong năm 2010, 148 triệu người Mỹ sẽ tham gia HMO (Nguồn: USA DAY)

TO-b Chín trong số mười người tử vong trong công việc là nam giới (Nguồn: USATODAY Weekend)

c Chi phí cho ngành công nghiệp cáp là 5,66 tỷ đô la vào năm 1996 (Nguồn:USA TODAY)

d Thu nhập trung bình của hộ gia đình cho người từ 25-34 tuổi là 35.888 USD(Nguồn: USA TODAY)

e Liệu pháp dị ứng làm cho ong bỏ đi (Nguồn: Phòng ngừa)

f Uống cà phê không có caffein có thể làm tăng mức cholesterol lên7% (Nguồn:Hiệp hội Tim Mạch Hoa Kỳ)

g Chi phí y tế trung bình hàng năm cho mỗi người là 1052 đô la (Nguồn: TheGreensburg Tribune Review)

h Các chuyên gia nói rằng tỷ lệ thế chấp có thể sớm hạ xuống đến mức thấpnhất (Nguồn: USA TODAY)

5 Phân loại từng thang đo: thang đo danh nghĩa, thang thứ hạng, thang đo khoảng,thang tỉ lệ cho các dữ kiện sau:

a Số trang trong cuốn danh bạ điện thoại của thành phố Cleveland

b Xếp hạng của cầu thủ quần vợt

c Trọng lượng của các máy điều hòa

d Nhiệt độ bên trong 10 tủ lạnh

e Tiền lương của năm giám đốc điều hành hàng đầu tại Hoa Kỳ

f Xếp hạng của tám vở kịch địa phương (yếu, trung bình, tốt, xuất sắc)

g Thời gian cần thiết cho thợ cơ khí để điều chỉnh máy

h Tuổi của học sinh trong lớp

i Tình trạng hôn nhân của bệnh nhân tại văn phòng bác sĩ

j Mã lực của động cơ máy kéo

6 Phân loại các biến sau theo biến định tính hay định lượng

a Số lượng xe đạp được bán trong 1 năm bởi một cửa hàng bán đồ thể thaolớn

b Màu sắc của mũ bóng chày trong một cửa hàng

c Thời gian cần thiết để cắt một bãi cỏ

Trang 15

d Dung tích (feet khối) của sáu chiếc xe tải.

e Phân loại trẻ em ở trung tâm chăm sóc ban ngày (trẻ sơ sinh, trẻ mới biết

đi, mẫu giáo)

f Trọng lượng cá bắt được ở Hồ George

g Tình trạng hôn nhân của các giảng viên trong một trường đại học lớn

7 Phân loại biến rời rạc và biến liên tục:

a Số lượng bánh rán được bán hàng ngày bởi Donut Heaven

b Nhiệt độ nước của sáu hồ bơi ở Pittsburgh vào một ngày nhất định

c Trọng lượng của các con mèo trong nơi trú ẩn vật nuôi

d Tuổi thọ (tính bằng giờ) 12 pin của đèn pin

e Số lượng bánh mỳ kẹp bơ được bán mỗi ngày bởi một cửa hàng HamburgerStand trong khuôn viên một trường đại học

f Số lượng DVD được thuê mỗi ngày bởi một cửa hàng video

g Dung tích (gallon) của sáu hồ chứa ở Hạt Jefferson

8 Nêu tên và định nghĩa bốn phương pháp lấy mẫu cơ bản

9 Phân loại từng mẫu sau theo: mẫu ngẫu nhiên, mẫu hệ thống, mẫu phân tầng,mẫu chùm

a Trong một trường học lớn thuộc quận, tất cả giáo viên từ hai tòa nhà đượcphỏng vấn để xác định xem họ tin rằng các sinh viên có ít bài tập ở nhà phảilàm bây giờ hơn những năm trước

b Mỗi thứ bảy, các khách hàng vào khu mua sắm được yêu cầu chọn cửa hàngyêu thích của mình

c Giám sát viên điều dưỡng được chọn tùy ý một số để xác định mức lươnghàng năm

d Mỗi bánh hamburger thứ 100 được sản xuất đều được kiểm tra để xác địnhhàm lượng chất béo của nó

e Người vận chuyển thư của một thành phố lớn được chia thành bốn nhómtheo giới tính (nam hay nữ) và tùy theo họ đi bộ hay đi xe trên các tuyếnđường của họ Sau đó 10 người được lựa chọn từ mỗi nhóm và phỏng vấn đểxác định xem họ đã bị chó cắn vào năm ngoái hay không

10 Với mỗi câu dưới đây, hãy xác định tổng thể và nêu rõ cách lấy mẫu

a Chi phí trung bình của một bữa ăn hàng không là 4,55 đô la (Nguồn: thing Has Its Price, Richard E Donley, Simon and Schuster)

Every-b Hơn 1 trong 4 trẻ em ở Hoa Kỳ có mức cholesterol ở mức 180 miligam hoặccao hơn (Nguồn: Qũy y tế Hoa Kỳ)

c Mỗi 10 phút, 2 người chết vì tai nạn xe hơi và 17 người bị thương (Nguồn:ước tính của Hội đồng An toàn Quốc gia)

Trang 16

d Khi người già với cao huyết áp từ nhẹ đến trung bình được truyền muốikhoáng trong vòng 6 tháng, chỉ số huyết áp trung bình giảm 8 điểm tâm thu

và tâm trương 3 điểm (Nguồn: Phòng bệnh)

e Số tiền trung bình dành cho mỗi món quà cho Mẹ trong Ngày của Mẹ là25,95 đô la (Nguồn: Tổ chức Gallup)

11 Xác định các nghiên cứu sau là nghiên cứu quan sát hay nghiên cứu thực nghiệm?

a Các đối tượng được phân ngẫu nhiên vào hai nhóm, và một nhóm được chomột loại thảo mộc và một nhóm khác là giả dược Sau 6 tháng, số người mắcbệnh đường hô hấp trên mỗi nhóm đã được so sánh

b Một nhà nghiên cứu đứng ở một ngã tư đông đúc để xem liệu màu của ô tô

có liên quan đến việc người lái vượt đèn đỏ

c Một nhà nghiên cứu nhận thấy rằng những người gây hấn hơn sẽ có mứccholesterol toàn phần cao hơn những người ít gây hấn

d Các đối tượng được phân chia ngẫu nhiên thành bốn nhóm Mỗi nhóm đượcxếp vào một trong bốn chế độ ăn đặc biệt: chế độ ăn ít chất béo, chế độ ănnhiều cá, sự kết hợp giữa chế độ ăn ít chất béo và chế độ ăn nhiều cá, chế

độ ăn chuẩn Sau 6 tháng, huyết áp của các nhóm được so sánh để xem chế

độ ăn uống có bất kỳ ảnh hưởng nào đến huyết áp không

12 Xác định các biến độc lập và biến phụ thuộc trong mỗi nghiên cứu trong ví dụ11

13 Các vi khuẩn có lợi Theo một nghiên cứu thí điểm của 20 người được tiếnhành tại Đại học Minnesota, hàng ngày cho sử dụng thuốc theo liều lượng củamột hợp chất được gọi là arabinogalactan trong thời gian 6 tháng đã làm tăngđáng kể các loại vi khuẩn lactobacillus có lợi Tại sao không thể kết luận rằnghợp chất này có lợi cho đa số mọi người?

Trang 17

Chương 2

PHÂN BỐ TẦN SỐ VÀ ĐỒ THỊ

Khi tiến hành nghiên cứu thống kê, nhà nghiên cứu phải thu thập dữ liệu chomột biến cụ thể đang được nghiên cứu Ví dụ, nếu một nhà nghiên cứu muốn nghiêncứu số người bị rắn cắn ở một khu vực địa lý cụ thể trong vài năm gần đây, họ phảithu thập dữ liệu từ các bác sĩ, bệnh viện hoặc các sở y tế khác nhau

Để mô tả tình huống, rút ra kết luận, hoặc suy luận về sự kiện, nhà nghiên cứuphải tổ chức dữ liệu một cách có ý nghĩa Cách thức thuận tiện nhất để tổ chức dữliệu là xây dựng một phân bố tần số Sau khi tổ chức dữ liệu, nhà nghiên cứu phảitrình bày cho người đọc có thể rút ra một số thông tin từ thị giác từ những sự kiện

có vẻ như phức tạp, hỗn độn Phương pháp hữu ích nhất để trình bày dữ liệu là xâydựng biểu đồ và đồ thị thống kê Có rất nhiều loại biểu đồ và đồ thị khác nhau vàmỗi loại có một mục đích cụ thể

Chương này giải thích làm thế nào để tổ chức dữ liệu bằng cách xây dựng phânphối tần số và làm thế nào để trình bày dữ liệu bằng cách xây dựng biểu đồ và đồthị Các biểu đồ và biểu đồ được minh họa ở đây là nhật đồ, đa giác tần số, biểu đồhình cung, biểu đồ hình tròn, biểu đồ Pareto và biểu đồ chuỗi thời gian Một biểu đồkết hợp các đặc điểm của một phân bố tần số và nhật đồ được gọi là biểu đồ thân

và lá

2.1 Tổ chức dữ liệu

Giả sử một nhà nghiên cứu muốn nghiên cứu về lứa tuổi của 50 người giàu nhấttrên thế giới Đầu tiên các nhà nghiên cứu sẽ phải lấy dữ liệu về tuổi của các ngườidân Trong trường hợp này, những lứa tuổi này được liệt kê trong tạp chí Forbes Khi

dữ liệu ở dạng ban đầu, chúng được gọi là dữ liệu thô và được liệt kê dưới đây:

Trang 18

số (frequency) của lớp đó Nếu thực hiện công việc này bằng tay, ta ghi dấu (tally)mỗi lần xảy ra cho mỗi loại, bằng cách như vậy ta thiết lập một phân bố tần số chomẫu của ta Tuy nhiên nếu chỉ có tần số mà thôi thì chưa nói lên được điều gì nếu

ta không cải biến nó ra tỉ lệ phần trăm Tần suất của một lớp là tỉ lệ phần trăm củalớp đó

Từ bảng phân bố tần số, ta có thể nói rằng đa số những người giàu có trongnghiên cứu này trên 55 tuổi

a Đối với biến định tính

Phân bố tần số phân loại (categorical frequency distribution) được sử dụng chobiến định tính

Quy trình:

• Bước 1: Lập bảng như sau:

• Bước 2: Ghi dấu dữ liệu

Trang 19

Như vậy, đối với mẫu trên thì nhiều người có loại máu O hơn bất kỳ loại nàokhác.

b Đối với biến định lượng

Vối biến định lượng có hai loại phân bố tần số sau:

i) Phân bố tần số ghép lớp (grouped frequency distribution):

Phân bố tần số ghép lớp được sử dụng khi phạm vi dữ liệu (range) lớn, mỗi lớp

là một đoạn dữ liệu có độ rộng (width) lớn hơn 1 đơn vị

+ Tìm các giới hạn trên (upper limit) của các lớp, kí hiệu là U L i = LL i +W −1.+ Tìm các lớp cận biên (class boundaries) Cận biên dưới (lower class bound-ary) của lớp thứ i, kí hiệu là LCB, cận biên trên (upper class boundary)của lớp thứ i, kí hiệu là U CB Công thức xác định các lớp cận biên:

LCB i = LL i − 1

2(đơn vị đo lường dữ liệu),

U CB i = U L i +1

2(đơn vị đo lường dữ liệu).

• Bước 2: Ghi dấu dữ liệu

• Bước 3: Tìm các tần số và phần trăm

Khi lập bảng phân bố tần số ghép lớp ta cần lưu ý:

Trang 20

• Có bao nhiêu lớp cần sử dụng trong phân bố? Số lớp nên có từ 5 đến 20 mặc dùkhông có một quy tắc cố định về số lớp trong một phân bố tần số, điều quantrọng nhất là phải có đủ các lớp để trình bày rõ ràng về các dữ liệu thu thậpđược Vì nếu số lớp quá nhiều thì lợi ích của việc phân bố tần số ghép lớp khôngđược bao nhiêu so với các dữ liệu thô Còn nếu số lớp quá ít, nhiều điểm số đượcgộp vào một lớp, như vậy sẽ mất nhiều thông tin.

• Trong thống kê cơ bản thì các lớp có độ rộng là như nhau Nhưng trong thống

kê chuyên ngành thì độ rộng của các lớp có thể không bằng nhau tùy theo mụcđích của nghiên cứu

Ví dụ 2.1.2 Cho các số liệu thống kê về nhiệt độ cao kỷ lục (tính bằng độ F) của

50 tiểu bang Hãy lập bảng phân bố tần số ghép lớp với 7 lớp

• Bước 2: Ghi dấu dữ liệu

• Bước 3: Tìm các tần số của mỗi lớp và ta được thống kê như sau:

Trang 21

Từ bảng phân bố tần số ghép lớp ta thấy rằng: Nhiệt độ của 50 tiểu bang đượckhảo sát thì có đến 18 bang có nhiệt độ trong khoảng 109.5-114.5 (F) và có 13 bang

có nhiệt độ trong khoảng 114.5-119.5 (F) Do đó, hầu hết (có đến 31 bang) có nhiệt

độ trong khoảng 109.5-119.5 (F)

Để thấy được một cách nhanh chóng số lượng giá trị dữ liệu nhỏ hơn hoặc bằngmột giá trị cụ thể nào đó trong mẫu dữ liệu người ta thường lập phân bố tần số tíchlũy (cumulative frequency) Phân bố tần số tích lũy (tăng dần) là những số cộng dồncủa tần số của các lớp có giới hạn lớp nhỏ hơn hoặc bằng lớp đang xác định Trong

ví dụ trên, tần số tích lũy của lớp đầu tiên là 0 + 2 = 2, lớp thứ hai là 2 + 8 = 10, lớpthứ ba là 10 + 18 = 28, Khi đó ta có bảng phân bố tần số tích lũy sau:

Hình 2.1: Bảng phân bố tần số tích lũy về nhiệt độ cao kỷ lục (tính bằng độ F) của 50 tiểu bang.

Từ bảng phân bố tần số tích lũy trên ta có thể đưa ra kết luận rằng, có đến 28trong tổng số 50 bang có nhiệt độ cao kỷ lục thấp hơn hoặc bằng 114 o

F.ii) Phân bố tần số không ghép lớp (ungrouped frequency distribution):Phân bố tần số không ghép lớp được sử dụng khi phạm vi dữ liệu tương đối nhỏ,mỗi lớp là một dữ liệu đơn

Ví dụ 2.1.3 Lập phân bố tần số cho dữ liệu về độ tuổi của 30 sinh viên trong mộtlớp học được cho dưới đây:

Lời giải: Lập bảng phân phối tần số:

Trang 22

2.2 Nhật đồ, đa giác tần số, hình cung

Sau khi bạn đã tổ chức dữ liệu vào một phân bố tần số, bạn có thể trình bàychúng dưới dạng biểu đồ Mục đích của biểu đồ trong số liệu thống kê là truyền tải

dữ liệu tới người xem theo hình ảnh Nó dễ dàng hơn cho hầu hết mọi người hiểuđược ý nghĩa của dữ liệu được trình bày bằng đồ thị so với dữ liệu được trình bày về

số lượng trong bảng hoặc phân bố tần số Điều này đặc biệt đúng nếu người dùng có

ít hoặc không có kiến thức về thống kê

Biểu đồ thống kê có thể được sử dụng để mô tả tập dữ liệu hoặc để phân tích

dữ liệu Đồ thị cũng hữu ích trong việc thu hút sự chú ý của khán giả trong một bàibáo cáo hoặc một bài thuyết trình bằng lời nói Chúng có thể được sử dụng để thảoluận về một vấn đề, củng cố một điểm quan trọng, hoặc tóm tắt một tập dữ liệu.Chúng cũng có thể được sử dụng để khám phá ra một xu hướng hoặc mô hình trongmột tình huống trong một khoảng thời gian Và có ba đồ thị thông dụng nhất trongnghiên cứu là nhật đồ (histogram), đa giác tần số (frequency polygon), biểu đồ tần sốtích lũy (hay hình cung (ogives))

2.2.1 Nhật đồ

Nhật đồ là một biểu đồ biểu thị dữ liệu bằng cách sử dụng các thanh dọc chạmsát vào nhau (trừ khi tần số của một lớp bằng 0), chiều cao của mỗi thanh biểu thịtần số của mỗi lớp, mỗi thanh dọc trải rộng từ cận biên dưới đến cận biên trên củamỗi lớp và mỗi trung điểm của mỗi lớp rơi vào chính điểm giữa của thanh dọc

Ví dụ 2.2.1 Sử dụng phân bố tần số ở ví dụ 2.1.2 hãy vẽ nhật đồ biểu diễn chonhiệt độ cao kỷ lục (tính bằng độ F) của 50 tiểu bang

• Bước 1: Vẽ trục x vày, chia thang đo cho phù hợp trên các trục

• Bước 2: Biểu diễn tần số trên trục y và lớp cận biên trên trục x

• Bước 3: Sử dụng các tần số làm chiều cao và vẽ các thanh dọc cho mỗi lớp vàđược kết quả như hình 2.2

Hình 2.2: Nhật đồ biểu diễn cho nhiệt độ cao kỷ lục (tính bằng độ F) của 50 tiểu bang

Trang 23

2.2.2 Đa giác tần số

Đa giác tần số là một biểu đồ hiển thị dữ liệu bằng cách sử dụng các đường nốicác điểm được vẽ ra cho các tần số trung điểm của các lớp Chiều cao của các điểmbiểu thị tần số trung điểm của các lớp

Ví dụ 2.2.2 Sử dụng phân bố tần số ở ví dụ 2.1.2 hãy vẽ biểu đồ đa giác tần số

• Bước 1: Đầu tiên ta tìm điểm chính giữa cho mỗi lớp Điểm chính giữa của mỗilớp được tính bằng cách lấy cận biên phía trên cộng với cận biên phía dưới rồichia cho 2

Lớp cận biên Điểm giữa Tần số

• Bước 2: Vẽ trục x vày, chia thang đo cho phù hợp trên các trục

• Bước 3: Vẽ các điểm với hoành độ x là điểm chính giữa của các lớp, tung độ y làtần số của mỗi lớp tương ứng

• Bước 4: Nối các điểm bằng các đoạn thẳng và được kết quả như hình 2.3

Hình 2.3: Đa giác tần số biểu diễn cho nhiệt độ cao kỷ lục (tính bằng độ F) của 50 tiểu bang

Đa giác tần số và nhật đồ là hai cách khác nhau để biểu thị cùng một tập dữ liệu

Sự lựa chọn của người sử dụng tùy theo ý của nhà nghiên cứu

2.2.3 Hình cung (Ogive)

Để biểu thị cho phân bố tần số tích lũy ta thường sử dụng biểu đồ hình cung

Trang 24

Ví dụ 2.2.3 Hãy xây dựng một biểu đồ hình cung cho bảng phân bố tần số đượccho bởi bảng phân bố tần số trong ví dụ 2.2.1.

• Bước 1: Tìm tần số tích lũy cho mỗi lớp

• Bước 2: Vẽ trục x và y, chia thang đo cho phù hợp trên các trục Trục x là ranhgiới các lớp còn trục y biểu diễn tần số tích lũy

• Bước 3: Vẽ tần số tích lũy ở mỗi ranh giới cận trên, như thể hiện trong hình 2.4

Trang 25

Hình 2.5: Biểu đồ hình cung cho ví dụ 2.2.3

các bang có nhiệt độ cao kỷ lục dưới 114.5oF ta xác định vị trí 114, 5oF trên trục x,

vẽ một đường thẳng đứng cho đến khi nó cắt đồ thị, và sau đó vẽ một đường ngangtại điểm đó tới trục y Giá trị trục y là 28, như thể hiện trong hình 2.6

Hình 2.6: Tìm một tần số tích lũy cụ thể

2.2.4 Biểu đồ tần số tương đối

Nhật đồ, đa giác tần số và hình cung được xây dựng bằng cách sử dụng các tần sốcủa dữ liệu thô Những phân phối này có thể được chuyển đổi sang phân phối bằngcách sử dụng tỷ lệ thay vì tần số của dữ liệu thô Các biểu đồ của phân phối kiểunày được gọi là biểu đồ tần số tương đối (relative frequency graphs)

Biểu đồ tần số tương đối thay vì sử dụng tần số thì sử dụng tỷ lệ giá trị dữ liệurơi vào một lớp nhất định, điều này quan trọng hơn số lượng thực tế của giá trị dữliệu rơi vào lớp đó

Để chuyển đổi tần số thành một tỷ lệ hoặc tần số tương đối, ta chia tần số củamỗi lớp cho tổng các tần số Tổng các tần số tương đối sẽ luôn luôn là 1 Các đồ thịnày tương tự như các đồ thị sử dụng dữ liệu thô là tần số, nhưng các giá trị trên trục

y là tỷ lệ Ví dụ 2.2.4 cho thấy ba loại đồ thị tần số tương đối

Ví dụ 2.2.4 Xây dựng nhật đồ, đa giác tần số, và hình cung sử dụng tần số tươngđối cho phân phối về số dặm chạy của 20 vận động viên được lựa chọn một cách ngẫunhiên trong một tuần nhất định

Trang 26

Một phân phối có thể có nhiều dạng và một trong những phương pháp phân tíchphân phối là vẽ nhật đồ hoặc đa giác tần số Một số dạng phổ biến nhất được thểhiện trong hình 2.8.

Trang 27

(a) Nhật đồ

(b) Đa giác tần số

(c) Hình cung

Hình 2.7: Các biểu đồ cho ví dụ 2.2.4

Trang 28

Hình 2.8: Các loại thống kê

• Dang phân phối hình chuông (bell-shaped): Có một đỉnh và giảm dần về cả haiphía và nó gần như đối xứng qua đường thẳng đứng đi qua đỉnh đó

• Dạng phân phối đều (uniform): Cơ bản là nó gần như phẳng hoặc hình chữ nhật

• Dạng phân phối hình chữJ: Nó có một vài giá trị dữ liệu ở bên trái và tăng dầnsang bên phải

• Dạng phân phối hình chữ J ngược

• Dạng phân phối lệch phải (right-skewed) hay phân phối dương: Đỉnh của dữ liệu

Trang 29

nằm ở bên trái và giảm dần sang bên phải.

• Dạng phân phối lệch trái (left-skewed) hay phân phối âm: Đỉnh của dữ liệu nằm

ở bên phải và giảm dần sang bên trái

• Dạng phân phối hai đỉnh (bimodal): Khi phân phối có hai đỉnh cùng chiều cao

• Dạng phân phối hình chữ U

2.3 Một số loại biểu đồ khác

2.3.1 Biểu đồ thanh (Bar graph)

Khi dữ liệu ở dạng định tính hoặc phân loại thì biểu đồ thanh có thể được sửdụng để biểu diễn cho dữ liệu Một biểu đồ thanh có thể được vẽ bằng thanh nganghoặc dọc có độ cao hoặc độ dài biểu diễn cho tần số của dữ liệu

Chẳng hạn, ta muốn vẽ một biểu đồ thanh ngang hoặc thanh dọc biểu diễn sốtiền trung bình mà sinh viên năm nhất chi tiêu được cho như sau:

Trang trí phòng ngủ tập thể (Dorm decor) $344

Hình 2.9: Biểu đồ thanh biểu diễn số tiền trung bình tiêu dùng mà sinh viên năm nhất chi tiêu.

Các đồ thị cho thấy sinh viên đại học năm nhất chi tiêu nhiều nhất cho điện

Trang 30

2.3.2 Biểu đồ Pareto

Biểu đồ Pareto được sử dụng để biểu diễn cho một phân bố tần số cho một biếnphân loại của thanh nằm ngang và các tần số được hiển thị theo chiều cao của thanhdọc, được sắp xếp theo thứ tự từ cao xuống thấp

Ví dụ 2.3.1 Bảng được trình bày dưới đây là chi phí trung bình cho mỗi dặm cho

xe chở khách trên các tuyến đường bộ Xây dựng và phân tích một biểu đồ Paretocho dữ liệu

Tiểu bang (State) Chi phí (Costs)

• Bước 1: Sắp xếp dữ liệu từ lớn nhất đến nhỏ nhất theo tần số

Tiểu bang (State) Chi phí (Costs)

Trang 31

Hình 2.10: Biểu đồ Pareto cho ví dụ 2.3.1.

Biểu đồ Pareto cho thấy rằng Florida có chi phí cao nhất cho mỗi dặm Chi phícao hơn hai lần so với chi phí ở Indiana

2.3.3 Biểu đồ chuỗi thời gian (Time series graph)

Biểu đồ chuỗi thời gian đại diện cho dữ liệu xảy ra trong một khoảng thời gian

• Bước 1: Vẽ trục x với nhãn là năm, trục y với nhãn là thiệt hại

• Bước 2: Vẽ các điểm trên hệ trục

• Bước 3: Vẽ đoạn thẳng nối các điểm lân cận Xem hình 2.11

Hình 2.11: Biểu đồ chuỗi thời gian cho ví dụ 2.3.2.

Biểu đồ cho thấy sự gia tăng đều đặn trong khoảng thời gian 5 năm

2.3.4 Biểu đồ hình tròn (Pie graph)

Biểu đồ hình tròn là một hình tròn được chia thành các phần hoặc nêm theo tỷ

lệ phần trăm của tần số trong mỗi phân loại của bản phân bố

Trang 32

Ví dụ 2.3.3 Phân bố tần số dưới đây cho thấy số lượng pound mỗi loại thực phẩmkhẩu phần ăn trong Super Bowl Xây dựng một biểu đồ hình tròn cho dữ liệu.

Khẩu phần (Snack) Pounds (f)

Trang 33

Hình 2.12: Biểu đồ hình tròn cho ví dụ 2.3.3.

Biểu đồ ở trên cho thấy rằng, nhóm máu phổ biến nhất là nhóm máu O Nhữngngười có máu AB thuộc nhóm máu thiểu số kém hơn hai lần nhóm người có loại máuO

2.3.5 Biểu đồ gây nhầm lẫn

Các biểu đồ được trình bày nhằm đưa ra một biểu diễn trực quan cho phép ngườiđọc dễ dàng phân tích và giải thích dữ liệu hơn bằng cách nhìn vào các con số Tuynhiên các biểu đồ không chính xác có thể làm sai lệch dữ liệu và dẫn đến người đọckết luận sai Một số điểm sai khi vẽ biểu đồ có thể kể đến như sau:

• Chọn đơn vị trên các trục tọa độ không thích hợp Chẳng hạn, một quảng cáocủa nhà sản xuất xe hơi nói rằng 98% số xe đã bán trong 10 năm qua vẫn cònlưu thông trên đường Quảng cáo sau đó cho thấy một biểu đồ tương tự nhưhình 2.13 Biểu đồ cho thấy tỷ lệ phần trăm xe ô tô của nhà sản xuất vẫn đanglưu thông trên đường và tỷ lệ phần trăm xe ô tô của đối thủ cạnh tranh vẫn cònlưu thông trên đường Nó không có sự khác biệt lớn Lưu ý tỷ lệ trên trục thẳngđứng trong Hình 2.13, nó đã được cắt và bắt đầu ở mức 95% Khi đồ thị được

vẽ lại bằng cách sử dụng thang đo từ 0 đến 100%, như trong hình 2.14, thì hầunhư không có sự khác biệt đáng chú ý về tỷ lệ phần trăm Do đó, việc thay đổicác đơn vị tại điểm xuất phát trên trục y có thể truyền tải đại diện hình ảnh rấtkhác nhau của dữ liệu

Trang 34

Hình 2.13: Biểu đồ của nhà sản xuất ô tô sử dụng thang đo từ 95 đến 100%.

Hình 2.14: Biểu đồ của nhà sản xuất ô tô sử dụng thang đo từ 0 đến 100%.

• Một kỹ thuật biểu đồ gây hiểu nhầm đôi khi được sử dụng bao gồm việc phóngđại sự gia tăng một chiều bằng cách hiển thị nó theo hai chiều Chẳng hạn, chiphí trung bình cho 30 giây quảng cáo Super Bowl đã tăng từ 42,000 USD trongnăm 1967 lên 2.5 triệu USD trong năm 2006 (Nguồn: USA TODAY)

Mức tăng được biểu diễn trong Hình 2.15 (a) thể hiện sự thay đổi bằng cách sosánh độ cao của hai thanh theo một chiều (cao) Các dữ liệu tương tự được hiểnthị bằng tất cả các vòng tròn trong Hình 2.15 (b) Lưu ý rằng sự khác biệt có

vẻ lớn hơn nhiều bởi vì mắt so sánh các khu vực của vòng tròn chứ không phải

là chiều dài của đường kính Lưu ý rằng không sai khi sử dụng các kỹ thuật lậpbiểu đồ để cắt tỉa quy mô hoặc đại diện cho dữ liệu bằng hình ảnh hai chiều.Nhưng khi những kỹ thuật này được sử dụng, người đọc cần phải thận trọng vớikết luận rút ra dựa trên các đồ thị

Trang 35

Hình 2.15: Biểu đồ so sánh chi phí trung bình cho 30 giây quảng cáo Super Bowl.

• Một cách khác trình bày sai dữ liệu trên biểu đồ là bỏ qua nhãn hoặc đơn vị trêncác trục của biểu đồ Chẳng hạn, biểu đồ thể hiện trong hình 2.16 so sánh chiphí sinh hoạt, tăng trưởng kinh tế, tăng dân số, của bốn khu vực địa lý chính

ở Hoa Kỳ Tuy nhiên, vì không có các con số trên trục y nên rất ít thông tin cóthể thu được từ biểu đồ này, ngoại trừ một bảng xếp hạng thô của mỗi yếu tố.Không có cách nào để quyết định mức độ thực tế của sự khác biệt

Hình 2.16: Biểu đồ không có đơn vị trên trục y.

• Cuối cùng, tất cả các biểu đồ phải chứa một nguồn cho các thông tin được trìnhbày Việc bao gồm một nguồn dữ liệu sẽ cho phép bạn kiểm tra độ tin cậy của tổchức trình bày dữ liệu Bản tóm tắt các loại đồ thị và cách sử dụng chúng đượctrình bày trong Hình 2.17

2.3.6 Biểu đồ thân và lá (Stem and Leaf Plots)

Một khi thu thập được dữ liệu, chúng ta dường như thích tổng hợp chúng lại.Một trong những bất lợi khi sử dụng biểu đồ tần số để tổng hợp dữ liệu là dữ liệugốc không được bảo toàn trong đồ thị Biểu đồ thân và lá, hiểu theo nghĩa nào đó,tổng hợp và bảo toàn dữ liệu cùng lúc

Một biểu đồ thân và lá của một mảng dữ liệu là sử dụng một phần của giá trị dữliệu làm phần thân và một phần của giá trị dữ liệu làm phần lá để hình thành cácnhóm hoặc các lớp

Trang 36

(a) Nhật đồ, đa giác tần số, hình cung Được sử dụng khi dữ liệu được chứa trong phân bố tần số ghép lớp.

(b) Biểu đồ Pareto: Được sử dụng để

hiển thị tần số cho các biến danh nghĩa

hoặc định tính.

(c) Biểu đồ chuỗi thời gian: Biểu diễn cho dữ liệu xảy ra trong một khoảng thời gian cụ thể.

(d) Biểu đồ hình tròn: Được sử dụng

để thể hiện mối quan hệ giữa các bộ phận và toàn bộ (Hầu hết thường sử dụng phần trăm.)

Hình 2.17: Tóm tắt các đồ thị và sử dụng của mỗi loại.

Ví dụ 2.3.4 Tại một trung tâm xét nghiệm ngoại trú, số lượng điện tâm đồ thựchiện mỗi ngày trong 20 ngày được hiển thị dưới đây Hãy xây dựng một biểu đồ thân

đồ thân và lá như hình 2.18

Trang 37

Hình 2.18: Biểu đồ thân và lá cho ví dụ 2.3.4.

Biểu đồ thân và lá trên chỉ ra rằng, đỉnh phân bố ở giữa và không có khoảngtrống trong dữ liệu Có 7 ngày trong số 20 ngày, số bệnh nhân được đo điện tim là từ

31 đến 36 lần trên ngày Biểu đồ cũng chỉ ra rằng trung tâm xét nghiệm được điềutrị tối thiểu là 2 bệnh nhân đến tối đa 57 bệnh nhân trong một ngày

Trang 38

Phần bài tập chương 2

1 Liệt kê 5 lý do phải tổ chức dữ liệu vào một phân bố tần số

2 Nêu tên ba loại phân bố tần số và giải thích khi nào nên sử dụng của từng loại?

3 Tìm lớp giới hạn, điểm giữa và độ rộng của mỗi lớp sau:

5 Hãy tìm lỗi sai trong bốn phân bố tần số sau:

6 Một cuộc khảo sát được thực hiện về mức độ tin tưởng vào các thông tin trênInternet Xây dựng phân bố tần số phân loại cho dữ liệu Kí hiệu A: tin tưởngmọi thứ đọc được, M: tin tưởng hầu hết những thứ đọc được, H: tin tưởng vàokhoảng một nửa những gì họ đọc được, S: tin tưởng vào một phần nhỏ những gìhọc đọc

Trang 39

8 Vẽ biểu đồ hình tròn cho dữ liệu ở bài tập 7 và phân tích kết quả.

9 Một cửa hàng bán đồ thể thao đã giữ kỷ lục doanh thu cho năm mặt hàng trongmột giờ được lựa chọn ngẫu nhiên trong đợt bán hàng gần đây Xây dựng mộtphân bố tần số cho dữ liệu (bóng chày = B, bóng golf = G, bóng quần vợt = T,bóng đá = S, bóng bầu dục = F

F B B B G T F

G G F S G T

F T T T S T

F S S G S B

10 Vẽ biểu đồ hình tròn cho bài tập 9 và phân tích kết quả

11 Lượng urê nitơ trong máu của 20 bệnh nhân được chọn ngẫu nhiên (đơn vịmg/dl) Xây dựng một phân bố tần số không ghép lớp cho dữ liệu

12 Vẽ nhật đồ, đa giác tần số và biểu đồ hình cung cho dữ liệu ở bài tập 11

13 Thuế gas (cent/gallon) của 25 tiểu bang ở Mỹ được cho dưới đây Xây dựng mộtphân bố tần số ghép lớp và phân bố tần số tích lũy với 5 lớp cho dữ liệu

Trang 40

14 Cho dữ liệu về cân nặng của 50 cầu thủ hàng đầu của Hiệp hội bóng rổ quốc gia

Mỹ (NBA) Xây dựng phân bố tần số ghép lớp và phân bố tần số tích lũy với 8lớp

15 Số tầng của 30 tòa nhà cao nhất thế giới được liệt kê dưới đây Xây dựng phân

bố tần số ghép lớp và phân bố tần số tích lũy với 7 lớp

16 Điểm GRE (Graduate Record Examination) trung bình cho 30 trường Đại học

kỹ thuật hàng đầy được liệt kê như sau Xây dựng phân bố tần số ghép lớp vàphân bố tần số tích lũy với 5 lớp

91,570 86,755 81,066 70,786 55,373 42,40040,551 21,119 16,280 14,869 13,659 13,41713,170 12,632 11,731 10,420 10,024 9,1227,041 6,954 6,406 6,362 5,930 5,5855,427

18 Cho dữ liệu về độ tuổi của những người ký tên trong Tuyên ngôn độc lập Hoa

Kỳ (một người không có tuổi rõ ràng nên không được nhắc đến) Xây dựng phân

bố tần số ghép lớp và phân bố tần số tích lũy với 7 lớp

19 Trò chơi máy tính trực tuyến đã trở thành một hoạt động giải trí phổ biến 56%

trong số 117 triệu người đang chơi trò chơi trực tuyến Dưới đây là số liệu về sốngười đang chơi trò chơi trực tuyến miễn phí tại các thời điểm khác nhau trongngày Xây dựng phân bố tần số ghép lớp và phân bố tần số tích lũy với 6 lớp

Ngày đăng: 23/01/2023, 18:25

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm