1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 6 - TS. Nguyễn Duy Long

23 54 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 1,71 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phần 6 - Mô hình phân phối mẫu và khoảng tin chắc cho các phần. Chương này trình bày hai nội dung chính: Các mô hình phân phối mẫu (Sampling distribution models), khoảng tin chắc cho các phần (Confidence intervals for proportions). Mời tham khảo.

Trang 1

Phần 06Nguyễn Duy Long, Tiến Sỹ

Bộ môn Thi Công và QLXD

 Các mô hình phân phối mẫu

 Các khoảng tin chắc cho các phần

 Các khoảng tin chắc cho các phần

©2010, Nguyễn Duy Long, Tiến Sỹ 2

Trang 2

Sampling Distribution Models

3

©2010, Nguyễn Duy Long, Tiến Sỹ

 Các khảo sát luôn biểu thị sự biến đổi vì lấy mẫu bởi các cá

thể khác nhau.

Chú t ẽ d bá biế đổi à Th ì lặ l i hiề ẫ

 Chúng ta sẽ dự báo sự biến đổi này Thay vì lặp lại nhiều mẫu

thực, chúng ta sẽ tưởng tượng điều gì sẽ xảy ra nếu ta thực

sự thực hiện nhiều mẫu

 Hãy tưởng tượng:

1 25% độc giả VnExpress ủng hộ thu phí ôtô vào trung tâm.

2 64 sinh viên lớp này mỗi người lấy khảo sát 100 thị dân, hỏi

họ có ủng hộ phương án thu phí không

◦ Điều gì xảy ra nếu ta xem biểu đồ tần suất tất cả các phần

ủ ẫ h á khả á à

của mẫu cho các khảo sát này

Bạn nghĩ gì về biểu đồ tần suất của tất cả các phần của

mẫu này?

4

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 3

 Ta kỳ vọng biểu đồ tần suất của các phần trong mẫu

tập trung ở phần (proportion) thực p trong quần

tập trung ở phần (proportion) thực, p, trong quần

©2010, Nguyễn Duy Long, Tiến Sỹ

 Dưới đây là hình dạng của phân phối

6

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 4

 Dùng mô hình chuẩn là hợp lý!

 Với các phần, biết trị trung bình thì sẽ có độ lệch

h ẩ

chuẩn:

 Phân phối của các phần trong mẫu được mô phỏng

với mô hình xác suất:

pq

pq n

©2010, Nguyễn Duy Long, Tiến Sỹ

 Mô hình chuẩn càng tốt hơn cho phân phối của các

phần khi kích thước mẫu càng lớn hơn

 Ta cần kích thước mẫu ra sao? Sẽ trình bày sau…

8

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 5

 Các mô hình chỉ hữu ích khi các giả định của

chúng là thật

 Hai giả định trong trường hợp mô hình cho phân

phối của các phần trong mẫu:

1 Các giá trị được lấy mẫu là độc lập nhau.

2 Kích thước mẫu, n, phải đủ lớn.

 Các giả định là rất khó để kiểm tra

 Cần kiểm tra các giả định là hợp lý bằng cách

kiểm tra các điều kiện cho biết thông tin về các

giả định

9

©2010, Nguyễn Duy Long, Tiến Sỹ

1 Điều kiện 10% (10% condition): Nếu mẫu không

được lấy cùng với sự thay thế, thì kích thước

mẫu, n, phải không lớn hơn 10% quần thể

2 Điều kiện thành công/thất bại (Success/failure

và nq lớn hơn 10

10

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 6

 Ứng viên A có 55% quần thể thích hơn ứng viên còn

lại (B), nhưng chỉ kỳ vọng 100 người đi bầu Ta có

thể xác định xác suất ứng viên A có 50% hay ít hơn

phiếu bầu, hay thua cuộc

©2010, Nguyễn Duy Long, Tiến Sỹ

 Một phần không chỉ là sự tính toán từ tập hợp của

dữ liệu Nó có thể là một lượng ngẫu nhiên có phânệ ộ ợ g g p

phối

◦ Phân phối này được gọi là mô hình phân phối mẫu

(sampling distribution model) cho các phần.

 Dù ta phụ thuộc vào các mô hình phân phối mẫu,

chúng ta không bao giờ thật sự thấy nó

 Các mô hình phân phối mẫu là quan trọng vì:

◦ Chúng đóng vai trò như cầu nối từ thế giới thực của dữ liệu

◦ Chúng đóng vai trò như cầu nối từ thế giới thực của dữ liệu

đến thế giới tưởng tượng của thống kê và

◦ Cho ta biết gì đó về quần thể khi tất cả những gì ta có là dữ

liệu từ thế giới thực

12

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 7

 Các phần (proportions) tóm tắt các biến định tính.

 Ta có thể làm điều tương tự với các dữ liệu định

tính?

13

©2010, Nguyễn Duy Long, Tiến Sỹ

 Như bất cứ trị thống kê nào được tính từ mẫu ngẫu

nhiên, trị trung bình của mẫu cũng có một phân phối

mẫu

 Có thể dùng mô phỏng để xem phân phối mẫu của

trị trung bình mẫu ra sao…

Trang 9

 Khi mẫu càng lớn (số súc sắc), bình quân của mẫu

có khả năng càng gần trị trung bình của quần thể

◦ Ta sẽ thấy tiếp tục gần 3.5

 Phân phối mẫu của trị trung bình trở thành phân

phối chuẩn

17

©2010, Nguyễn Duy Long, Tiến Sỹ

 Định lý giới hạn trung tâm (Central Limit Theorem,

CLT) phát biểu rằng trị trung bình của mẫu ngẫu

nhiên có phân phối mẫu có hình dạng xấp xỉ mô

hình chuẩn Mẫu càng lớn, việc xấp xỉ càng tốt.g , ệ p g

 Phân phối mẫu của bất cứ trị trung bình nào trở

thành phân phối chuẩn khi kích thước mẫu lớn

Trang 10

Mô hình quần thể

3 mẫu khác nhau, gồm các trị trung bình

Biểu đồ tần suất của các trị trung bình từ tất cả các mẫu

Biểu đồ tần suất tương tự với phân phối này

19

©2010, Nguyễn Duy Long, Tiến Sỹ

 CLT nói rằng phân phối mẫu của bất cứ trị trung

bình hay phần nào đều xấp xỉ mô hình chuẩn

 Mô hình chuẩn của phần phối mẫu của phần:

 Mô hình chuẩn của phân phối mẫu của trị trung

Trang 11

Condition): Các giá trị dữ liệu phải lấy mẫu một cách ngẫu

nhiên nếu không khái niệm phân phối mẫu không có ý

nghĩa

nghĩa.

2 Giả định tính độc lập (Independence Assumption): Các giá

trị của mẫu phải độc lập nhau (Khi mẫu lấy ra mà không

có sự thay thế, kiểm tra điều kiện 10%…)

 CLT không tốt cho các mẫu nhỏ, hay khi dữ liệu bị

lệch lớn

 Cho các phần (proportions) điều này có nghĩa là kỳ

vọng có ít nhất 10 thành công và 10 thất bại trong mẫu

 Không có qui tắc cho các trị trung bình – kinh nghiệm

cho các biến cố rời rạc là có ít nhất 10 lần xuất hiện

được kỳ vọng cho mỗi biến cố.

21

©2010, Nguyễn Duy Long, Tiến Sỹ

 Giả định trọng lượng trung bình của của người Việt

Nam là 60 kg và độ lệch chuẩn là 10 kg Thang máy

ởtrường ĐH Bách Khoa có giới hạn tối đa 15 người

hay 1000 kg Xác suất nếu 15 người dùng thang

máy và vượt tải trọng cho phép?

◦ Bạn cần biết trọng lượng của tất cả 15 người hay chỉ cần

trọng lượng trung bình của nhóm?

◦ Bạn có cần biết trọng lượng là phân phối chuẩn?

◦ Các giả định của ta là thỏa để có thể dùng CLT?

◦ Các giả định của ta là thỏa để có thể dùng CLT?

◦ Hãy tính xác suất

22

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 12

 Độ lệch chuẩn của phân phối mẫu giảm chỉ với căn

bậc hai của kích thước mẫu

 Trong khi ta luôn muốn có mẫu lớn hơn, căn bậc

hai giới hạn mẫu có thể nói về quần thể (Một ví dụ

của qui tắc sự thu lại giảm (Law of Diminishing

©2010, Nguyễn Duy Long, Tiến Sỹ

 Có thể dùng các trị thống kê của mẫu để ước lượng

các thông số của quần thể

 Bất cứ khi nào ta ước lượng độ lệch chuẩn của phân

phối mẫu ta gọi nó là sai số chuẩn (standard error)

phối mẫu, ta gọi nó là sai số chuẩn (standard error)

◦ Với phần của mẫu, sai số chuẩn là

◦ Với trị trung bình của mẫu, sai số chuẩn là

◦ Với s là độ lệch chuẩn của mẫu.

 Tính sai số chuẩn giống với tính độ lệch chuẩn chỉ

Trang 13

Confidence Intervals for Proportions

25

©2010, Nguyễn Duy Long, Tiến Sỹ

 Mô hình phân phối mẫu của có trung tâm p, và

độ lệch chuẩn là

 Vì không biết p, ta không thể tìm độ lệch chuẩn

thực của mô hình phân phối mẫu, cần tìm sai số

chuẩn:

pq n

ˆ ˆ ( ) ˆ pq

SE pn

26

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 14

 Từ qui tắc 68-95-99.7%, ta biết:

◦ Khoảng 68% của tất cả các mẫu có trong 1 SE của p

ˆp

◦ Khoảng 95% của tất cả các mẫu có trong 2 SE của p

◦ Khoảng 99.7% của tất cả các mẫu trong 3 SE của p

 Từ , thường ước tính phần thực p với một mẫu

đã cho…ˆp

ˆp ˆp

sẽ trong khoảng đó Nói cách khác, nếu vươn ra

2 lần SE theo hai hướng của , ta có 95% tin rằng

khoảng này chứa phần thực

◦ Phần còn lại hoặc quá lớn (khoảng 2.5% cơ hội)

ˆp

ˆp

hay quá thấp (khoảng 2.5% cơ hội)

 Điều này được gọi là khoảng tin chắc 95% (95%

Trang 15

Vươn ra 2 lần SE theo hai bên của cho

ta 95% tin ta sẽ “bẫy” được phần thực p

Ngun: De Veaux, 2006, tr.429)

29

©2010, Nguyễn Duy Long, Tiến Sỹ

 Mỗi khoảng tin chắc dùng một trị số thống kê của

mẫu để ước lượng tham số của quần thể

 Nhưng vì các mẫu biến đổi, các trị số thống kê ta

dùng, và các khoảng tin chắc ta xây dựng cũng

biến đổi

30

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 16

 Hình bên chỉ một số khoảng

tin chắc thu nạp được phần

thực (đường màu xanh nằm

ngang), trong khi một số on)

ngang), trong khi một số

95% chứa tham số quần thể

thực đang ước lượng.

Ngun: De Veaux, 2006, tr.431

Mẫu số

31

©2010, Nguyễn Duy Long, Tiến Sỹ

Ta có thể tuyên bố với khoảng 95% tin chắc, khoảng

◦ Tầm của khoảng cho mỗi bên được gọi là biên

sai số (lỗi) (margin of error (ME))

 Tổng quát, các khoảng tin chắc có dạng: ưc lưng

Trang 17

• Bây giờ ta tin chắc hơn, nhưng chúng ta thit gì ?

 Mọi khoảng tin chắc là sự cân bằng giữa sự chắc

 Mọi khoảng tin chắc là sự cân bằng giữa sự chắc

chắn (certainty) và chính xác (precision)

◦ Trong hầu hết trường hợp ta có thể vừa chắn chắn một cách

đầy đủ và chính xác một cách đầy đủ để có các phát biểu hữu

ích.

 Lựa chọn mức tin chắc là khá tùy tiện, nhưng nhớ

rằng “sức căng” giữa chắc chắn và chính xác khi

Trang 18

Sự cân bằng giữa chắc chắn (certainty) và chính xác (precision),

đây là một thái cực

đây là một thái cực

Ngun: De Veaux, 2006, tr.433)

35

©2010, Nguyễn Duy Long, Tiến Sỹ

 Bạn làm việc với phòng tiếp thị của một cửa hiệu

bán giầy dép trực tuyến và khảo sát ngẫu nhiên

100 người về ý kiến của họ đối với mẫu website

mới 60% người được khảo sát thích website mới

so với website củ

◦ Khoảng tin chắc 95% cho phần thực của người mua thích

website mới hơn? Biên sai số bao nhiêu?

◦ Khoảng tin chắc 99.7% cho phần thực của người mua thích

website mới hơn? Biên sai số bây giờ bao nhiêu? ebs te ớ ơ ê sa số bây g ờ bao êu

◦ Nếu muốn cả tin chắc và chính xác hơn, theo bạn cần phải

làm gì?

36

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 19

 Bảng z cho giá trị chính xác hơn cho khoảng tin chắc 95% là

1 96 thay vì 2

1.96 thay vì 2

◦ Ta gọi 1.96 là giá trị tới hạn (critical value) ký hiệu z*.

 Cho mỗi mức tin chắc, có thể tìm giá trị tới hạn tương ứng.

37

©2010, Nguyễn Duy Long, Tiến Sỹ

 Với khoảng tin chắc 90%, giá trị tới hạn là 1.645

38

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 20

 Tất cả các mô hình xác suất phụ thuộc và các giả

định (assumptions)

◦ Mô hình khác nhau phụ thuộc vào các giả định khác nhau

◦ Nếu các giả định là không đúng, mô hình có thể không

thích hợp và các kết luận dựa vào mô hình có thể sai.

 Ta không bao giờ chắc chắn giả định là đúng,

nhưng ta thường quyết định giả định có hợp lý

không bằng cách kiểm tra điều kiện liên quan

39

©2010, Nguyễn Duy Long, Tiến Sỹ

 Trước khi tạo khoảng tin chắc cho phần, cần kiểm

tra

 Giả đinh độc lập (independence assumption): Giá trị dữ liệu

được giả định độc lập nhau.

1 Điề kiệ độ lậ h lý (Pl ibl I d d

1 Điều kiện độc lập hợp lý (Plausible Independence

Condition): Có lý do gì để tin rằng giá trị dữ liệu ảnh

hưởng nhau?

2 Với lấy mẫu không thay thế, kiểm tra điều kiện 10%

3 Điều kiện ngẫu nhiên hóa

Trang 21

là khoảng tin chắc cho một phần (the confidence interval for a

©2010, Nguyễn Duy Long, Tiến Sỹ

 Từ phương trình của ME để xác định kích thước

mẫu cần thiết để tạo ra khoảng tin chắc với ME đã

cho và với một mức tin chắc đã cho:

cho và với một mức tin chắc đã cho:

với z* là giá trị tới hạn cho mức tin chắc đã cho

Trang 22

 Sếp bạn nghĩ rằng khảo sát trước (60% thích, 100

người) là quá miên man không thể hữu ích Sếp

muốn tăng sự chính xác Tính số người bạn cần

có trong khảo sát

1 Bạn muốn có 95% tin chắc rằng phần thực của người mua

sắm thích website mới hơn là từ 55% đến 65%?

2 Nếu bạn muốn có 99.7% tin chắn cho cùng khoảng?

dân Tổng cộng 183 dân trong xã tham gia buổi

tham vấn cộng đồng về đề án, và việc biểu quyết

đưa tay chỉ có 31 người ủng hộ đề án

Bạn có thể kết luận gì về ý kiến người dân trong xã về đề

án?

Ta có nên xây dựng khoảng tin chắc 95% ?

Ta có nên xây dựng khoảng tin chắc 95% ?

44

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 23

©2010, Nguyễn Duy Long, Tiến Sỹ 45

Ngày đăng: 11/02/2020, 12:46

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm