1. Trang chủ
  2. » Kỹ Thuật - Công Nghệ

Bài giảng Thống kê học ứng dụng trong quản lý xây dựng: Phần 2 - TS. Nguyễn Duy Long

36 91 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 36
Dung lượng 1,84 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phần 2 - Khám phá và tìm hiểu dữ liệu định lượng. Nội dung chính trong phần này gồm có: Trình bày dữ liệu định lượng, mô tả phân phối bằng số, độ lệch chuẩn như thước đo và mô hình chuẩn. Mời các bạn cùng tham khảo.

Trang 1

Phần 02Nguyễn Duy Long, Tiến Sỹ

Bộ môn Thi Công và QLXD

©2010, Nguyễn Duy Long, Tiến Sỹ 1

chuẩn

Trang 2

©2010, Nguyễn Duy Long, Tiến Sỹ

liệu định lượng lớn.

liệu cho chúng ta biết điều gì.

lượng.

Trang 3

(Nguồn: De Veaux et al., 2006)

 Chia khoản giá trị của biến định lượng thành các

cột có cùng chiều rộng, gọi là hộc (bins)

 Các hộc và số đếm trong mỗi hộc cho ra phân

phối của biến định lượng

Giá thay đổi hàng

tháng của cổ

phiếu Cty Enron:

Thay đổi giá ($)

Trang 4

 Biểu đồ tần suất tương đối mô tả phần trăm của các

trường hợp cho mỗi hộc thay vì số đếm

Biểu đồ tần suất tương đối:

Thay đổi giá hàng tháng của cổ phiếu Enron

Thay đổi giá ($)

©2010, Nguyễn Duy Long, Tiến Sỹ 7

biểu diễn phân phối của biến định lượng p p ị ợ g

như biểu đồ tần suất, nhưng vẫn giữ các giá

trị riêng rẽ.

◦ chứa tất cả thông tin có trong biểu đồ tần suất

◦ thỏa mãn nguyên lý diện tích, và

◦ biểu thị sự phân phối

Trang 5

 Cắt giá trị dữ liệu thành các con số chủ đạo (cành)

và các con số kéo theo (lá)

 Dùng các cành để gán hộc

 Chỉ dùng một con số cho mỗi lá – hoặc làm tròn

hoặc cắt các giá trị dữ liệu để có một vị trí thập

phân phía sau cành

©2010, Nguyễn Duy Long, Tiến Sỹ 9

 Xây dựng biểu đồ cành và lá cho dữ liệu sau:

Trang 6

 So sánh biểu đồ tần suất và biểu đồ cành-và-lá hiển

thị nhịp tim của 24 phụ nữ ở một trạm y tế Sự hiển

thị nào có nhiều thông tin hơn?

Biểu đồ cành-và-lá:

Nhịp tim của 24 phụ nữ Biểu đồ tần xuất

(dot) dọc một trục cho mỗi

trường hợp trong dữ liệu

 Thời gian chiến thắng của

đua ngựa Kentucky Derby,

1875-2004 (hình bên)

Ngun: http://en.wikipedia.org/wiki/Kentucky_Derby

Trang 7

 Khi mô tả một phân phối, luôn nói về ba

điều: hình dạng (shape), trung tâm (center), ạ g ( p ), g ( ),

và sải (spread).

◦ Phân phối có một gò (hump) ở trung tâm hay có vài

mỏm (bump) phân tán?

©2010, Nguyễn Duy Long, Tiến Sỹ 13

◦ Biểu đồ tần suất có đối xứng?

◦ Có các đặc điểm bất thường lộ ra không?

 Câu hỏi 1: Phân phối có một gò (hump) ở trung tâm

hay có vài mỏm (bump) phân tán?

◦ Gò trên biểu đồ tần suất gọi là mốt (mode)

◦ Biểu đồ tần suất có một đỉnh gọi là một mốt

(unimodal), hai đỉnh gọi là hai mốt (bimodal), và

ba đỉnh trở lên gọi là nhiều (đa) mốt (multimodal)

Trang 8

 Biểu đồ tần suất hai mốt có hai đỉnh:

 Tần suất đều (uniform): Biểu đồ tần suất dường

như không có mốt và tất cả các thanh có chiều cao

Trang 9

 Câu hỏi 2: Biểu đồ tần suất có đối xứng?

Gấp dọc

đường

đứt

©2010, Nguyễn Duy Long, Tiến Sỹ 17

Biểu đồ tần suất đối xứng… … có thể gấp ở giữa sao cho

hai bên gần như trùng nhau

◦ Các đầu mỏng hơn của phân phối gọi là đuôi

(tails) Nếu một đuôi trải xa hơn đuôi còn lại, biểu

đồ tần suất là lệch (skewed) về phía có đuôi dài

hơn

◦ Biểu đồ tần suất màu xanh bên dưới gọi là lệch

trái (skewed left), biểu đồ màu hồng là lệch phải

Trang 10

 Câu hỏi 3: Có các đặc điểm bất thường lộ ra

không? g

◦ Thỉnh thoảng những đặc điểm bất thường cho ta

biết có gì đó lý thú về dữ liệu

◦ Luôn đề cập đến các giá trị ngoại lệ (outliers) mà nó

đứng tách ra trong phần thân của phân phối

◦ Có các chỗ gián đoạn (gap) trong phân phối? Nếu

vậy, dữ liệu có thể có từ hơn một nhóm

©2010, Nguyễn Duy Long, Tiến Sỹ 19

 Biểu đồ tần suất sau đây có giá các trị ngoài lệ Có

ba thành phố ở thanh xa nhất bên trái

 Theo bạn điều gì đang xảy ra?

 Theo bạn, điều gì đang xảy ra?

Số nhân khẩu trong một hộ ở các thành phố được chọn lựa

Trang 11

 Nếu bạn phải lấy một số để mô tả tất cả dữ liệu,

bạn sẽ lấy số gì?

Dễ dà để tì t tâ khi biể đồ tầ ất là

 Dễ dàng để tìm trung tâm khi biểu đồ tần suất là

một mốt và đối xứng – nó ngay ở giữa

 Ngược lại, sẽ rất khó để tìm trung tâm nếu biểu đồ

tần suất là bị lệch hoặc có hai hay nhiều mốt

 Đến đây ta chỉ cần chỉ ra trung tâm của phân phối

băng mắt thường

©2010, Nguyễn Duy Long, Tiến Sỹ 21

 Vấn đề ở sự biến đổi (thng kê hc là vs biến

đi)

 Các giá trị của phân phối là gom lại xung quanh

trung tâm hay sải ra?

 Các phần tiếp theo ta nói về sải…

Trang 12

 Thường ta muốn so sánh hai hay nhiều phân phối

với nhau thay vì chỉ xem một phân phối

 Khi xem xét hai phân phối, điều quan trọng là các

biểu đồ tần suất có cùng tỷ lệ

 Khi so sánh các phân phối, chúng ta nói về hình

dạng, trung tâm, và sải của các phân phối

©2010, Nguyễn Duy Long, Tiến Sỹ 23

Các phân phối của bệnh

nhân nữ và nam bị nhồi

Trang 13

 Với một số tập dữ liệu, chúng ta quan tâm đến dữ

liệu cư xử thế nào theo thời gian – vẽ biểu đồ thời

gian (time-plots) cho dữ liệu

gian (time plots) cho dữ liệu.

Cổ phiểu của Enron như thế nào theo thời gian?

Thay đổi về giá của cổ phiếu Enron, 1997-2002

Trang 14

©2010, Nguyễn Duy Long, Tiến Sỹ 27

 Để đo trung tâm, khoảng giữa (midrange, trị trung

bình của các giá trị nhỏ và lớn nhất) là rất nhạy với

ốcác phân phối lệch hoặc giá trị ngoại lệ

 Trung vị (median) là lựa chọn hợp lý cho trung tâm

hơn là khoảng giữa…

Trang 15

 Trung vị là giá trị mà một nửa các giá trị của dữ liệu

nhỏ hơn nó và một nửa lớn hơn nó

◦ Đó là giá trị giữa của dữg ịg

liệu khi sắp xếp theo thứ

tự và chia biểu đồ tần

suất ra hai phần có diện

tích bằng nhau

◦ Với số điểm dữ liệu là

chẵn, lấy trung bình hai

©2010, Nguyễn Duy Long, Tiến Sỹ 29

 Luôn cho biết độ sải (spread) cùng với trị trung tâm

khi mô tả phân phối bằng số

 Khoảng (vùng) (range) của dữ liệu là sự khác nhau

giữa các giá trị lớn và nhỏ nhất:

Vùng (range) = max – min

 Bất lợi của khoảng là nếu có một giá trị cực hạn có

thể làm nó rất lớn và vì thế không đại diện cho dữ

liệu nói chung

Trang 16

 Khoảng tứ phân vị (interquartile range, IQR) bỏ qua các

giá trị cực hạn và tập trung vào vùng giữa của dữ liệu

 Để tìm IQR trước tiên tìm các điểm tứ phân vị

 Để tìm IQR, trước tiên tìm các điểm tứ phân vị

(quartiles), mà chia dữ liệu thành bốn đoạn bằng nhau

◦ Điểm tứ phân vị dưới (lower quartile, Q1) là trung vị

của nửa dữ liệu nằm dưới trung vị

◦ Điểm tứ phân vị trên (upper quartile, Q3) là trung vị

của nửa dữ liệu nằm trên trung vị

◦ Nếu s đim trong d liu là chn, vic phân chia là

rõ ràng Ng ếu s l, tính trung v, g ị ị trong cg hai na ca

d liu

 Sự khác nhau giữa hai điểm tứ phân vị là IQR

IQR = điểm tứ phân vị trên – điểm tứ phân vị dưới

©2010, Nguyễn Duy Long, Tiến Sỹ 31

 Điểm tứ phân vị dưới và trên là các phân vị

(percentiles) thứ 25 và 75 của dữ liệu

IQR hứ 50% iá t ị ở iữ ủ hâ hối

 IQR chứa 50% giá trị ở giữa của phân phối

Trang 17

phân phối cho biết về

trung vị, hai điểm tứ

tuổi lúc mất của 66 người

xem các buổi diễn nhạc

rock do chen lấn như bên

Trang 19

3 Dùng hàng rào để phát triển

“đuôi”

◦ Vẽ các đường từ các đầu của hộp

lên và xuống đến các giá trị dữ

liệu cực hạn trong hàng rào.

◦ Nếu một giá trị dữ liệu nằm ngoài

các hàng rào, đừng nối nó để trở

thành đuôi.

©2010, Nguyễn Duy Long, Tiến Sỹ 37

4 Thêm các giá trị ngoại lệ nằm

ngoài hàng rào bằng các ký

hiệu khác

Trang 20

 So sánh biểu đồ tần suất và biểu đồ hộp

Chết tại các buổi diễn nhạc Rock, 1999-2000

©2010, Nguyễn Duy Long, Tiến Sỹ

Trang 21

 Trung vị là rất tốt để xác định trung tâm của các

 Phân phối về nhịp tim của 52 người lớn này đối

xứng, với trị trung bình 72.7 (nhịp/phút) và trung vị

Trang 22

 Bất kể hình dạng

của phân phối trị

Tuổi thọ của các nước thành viên của Liên Hiệp Quốc (2001)

của phân phối, trị

43

 Phân phối đối xứng có giá trị trung bình và trung vị

gần nhau, nên có thể dùng trị bất cứ trị nào để chỉ

â

trung tâm

 Với phân phối lệch nhiều thì dùng trung vị để xác

định trung tâm

Trang 23

 Độ lệch chuẩn (standard deviation) đo lường sải

(spread) tốt hơn IQR, bằng cách xem xét mỗi giá trị

dự liệu cách trị trung bình bao xa

 Độ lệch (deviation) là khoảng cách từ một giá trị dữ

liệu đến trị trung bình

©2010, Nguyễn Duy Long, Tiến Sỹ 45

 Phương sai (variance), với ký hiệus2:

 Vấn đề của phương sai khi đo lường sải là được đo

lường theo bình phương đơn vị đo của dữ liệu ban

Trang 24

 Độ lệch chuẩn (standard deviation),s, (hay SD):

©2010, Nguyễn Duy Long, Tiến Sỹ 47

 Vì thống kê học là về sự biến đổi (variation), sải là

một khái niệm quan trọng của thống kê học

 Đo độ sải giúp chúng ta bàn về những cái chúng ta

không biết

 Khi các giá trị dữ liệu cụm lại xung quyanh trung

tâm của phân phối, IQR và SD là nhỏ

 Khi các giá trị dữ liệu phân tán xa trung tâm của

phân phối, IQR và SD sẽ lớn

Trang 25

 Khi mô tả biến định lượng, luôn cho biết về hình

dạng phân phối của nó, cùng với trung tâm và sải

◦ Nếu hình dạng bị lệch, cho biết trung vị và khoảng tứ phân

vị.

◦ Nếu hình dạng đối xứng, cho biết trị trung bình và độ lệch

chuẩn và có thể cả trung vị và khoảng tứ trung vị.

©2010, Nguyễn Duy Long, Tiến Sỹ 49

 Nếu có các trị ngoại lề rõ ràng mà cho biết về trị

trung bình và độ lệch chuẩn thì cho biết chúng khi

có trị ngoại lệ và không có trị ngoại lệ Sự khác

nhau có thể bộc lộ

 Chú ý: Trung vị và khoảng tứ trung vị ít khả năng bị

ảnh hưởng bởi các trị ngoại lệ như trị trung bình và

độ lệch chuẩn

Trang 26

Mô tả dữ liệu bằng số Hình dạng

Đối xứng

hay lệch

Trung tâm Trung bình

Sải

Khoảng tứ trung vị

©2010, Nguyễn Duy Long, Tiến Sỹ 51

Trị ngoại lệ Trung vị

Khoảng giữa

Khoảng

Độ lệch chuẩn

Trang 27

 Đo lường sự biến đổi mô tả về sải hay biến

thiên của các giá trị dữ liệu g ị ệ

Trang 28

 Độ lệch chuẩn như là thước đo để so sánh các giá

trị trông khác nhau

 Độ lệch chuẩn cho ta biết sự tập hợp (collection)

của các giá trị thay đổi ra sao – là thước đo để so

sánh giá trị riêng rẻ với một nhóm

 Độ lệch chuẩn là trị đo thường dùng của sự biến

đổi, và đóng vai trò quan trọng việc chúng ta nhìn

vào dữ liệu như thế nào

©2010, Nguyễn Duy Long, Tiến Sỹ 55

 Điểm z (z-score): Khi so sánh một giá trị đơn lẻ với

trung vị, sự tương đối với độ lệch chuẩn:

 Gọi kết quả là trị được chuẩn hóa (standardized

values), ký hiệu z hay điểm z (z-scores)

Trang 29

 Cộng (hay trừ) một lượng không đổi vào mỗi giá trị

chỉ cộng (hay trừ) lượng đó vào trị trung bình

 Điều đó cũng đúng cho trung vị và các trị đo về vị

trí khác

 Thêm một hằng số vào mỗi giá trị dữ liệu sẽ thêm

hằng số đó vào các trị đo về trung tâm và các phân

vị nhưng các trị đo về sải không đổi

©2010, Nguyễn Duy Long, Tiến Sỹ 57

 Biểu đồ tần suất (và hộp) chỉ sự dịch chuyển từ cân

nặng của đàn ông sang số cân trên cân nặng được

Trang 30

 Khi nhân (hay chia) tất cả các giá trị dữ liệu bởi một

giá trị không đổi, các trị sau đây được nhân (hay

chia) bởi giá trị không đổi đó

◦ các giá trị riêng lẻ (max, min),

◦ trị đo về trung tâm (trung bình và trung vị) và

◦ trị đo về sải ( khoảng, khoảng tứ trung vị, độ lệch chuẩn)

©2010, Nguyễn Duy Long, Tiến Sỹ 59

 Dữ liệu về cân nặng của đàn ông đo lường bằng

kg Nếu đổi qua cân Anh (lb), chúng ta sẽ thay đổi

Trang 31

 Chuẩn hóa dữ liệu thành điểm z dịch chuyển (shift)

dữ liệu bằng cách trừ trị trung bình và thay đổi tỷ lệ

ằ(rescale) các giá trị bằng cách chia cho độ lệch

chuẩn

◦ Chuẩn hóa thành điểm z không thay đổi hình dạng ( shape )

của phân phối

◦ Chuẩn hóa thành điểm z thay đổi trung tâm ( center ) với trị

trung bình bằng 0.

◦ Chuẩn hóa thành điểm z thay đổi sải ( y ( spread p ) với độ lệch ) ộ ệ

chuẩn bằng 1.

©2010, Nguyễn Duy Long, Tiến Sỹ 61

 Điểm z chỉ ra một giá trị bất thường thế nào bởi vì

nó cho biết giá trị đó cách trung bình bao xa

 Dùng điểm z với một mô hình (model) thường gặp

trong thống kê học: mô hình chuẩn (Normal model)

Trang 32

 Mô hình chuẩn thường thích hợp cho các phân

phối có hình dạng một mốt và khá đối xứng - hình

chuông (bell shaped)

chuông (bell shaped)

 N(μ,σ) thể hiện mô hình chuẩn với trị trung bình

bằngμ độ lệch làσ

 Dùng chữ cái Hy Lạp vì trị trung bình và độ lệch này

không phải từ dữ liệu và chúng từ các thông số

(parameters) của mô hình

 Các tóm tắt của dữ liệu, như trị trung bình và độ

lệch chuẩn của mẫu dùng chữ cái La Tinh Các tóm

tắt đó gọi là trị số thống kê (statistics)

©2010, Nguyễn Duy Long, Tiến Sỹ 63

 Khi chuẩn hóa các dữ liệu chuẩn (Normal), giá trị

được chuẩn hóa là điểm z (z-score):

 Một khi chuẩn hóa, chỉ cần một mô hình:

◦ Mô hình N(0,1) gọi là mô hình chuẩn (chính) tắc ( standard

Normal model hay standard Normal distribution ).

 Không dùng mô hình chuẩn cho bất cứ tập dữ liệu

nào, vì việc chuẩn hóa không thay đổi hình dạng

của phân phối

Trang 33

 Khi dùng mô hình chuẩn, ta đang giả định phân

phối là chuẩn

 Vì không thể kiểm tra giả định này trong thực tế,

kiểm tra điều kiện sau:

◦ Điều kiện gần chuẩn ( Nearly Normal Condition ): Hình dạng

của phân phối dữ liệu là một mốt và đối xứng.

©2010, Nguyễn Duy Long, Tiến Sỹ 65

 Các mô hình chuẩn cho ta biết mức cực hạn của

một giá trị bằng cách cho biết khả năng để tìm một

giá trị cách xa trị trung bình

giá trị cách xa trị trung bình

 Có thể tìm số này một cách chính xác ở các chương

sau, bay giờ có thể dùng một qui tắc đơn giản mà

cho ta biết rất nhiều về mô hình chuẩn…

 Với mô hình chuẩn:

◦ Khoảng 68% các giá trị nằm trong một khoảng độ lệch

chuẩn của trị trung bình;

◦ Khoảng 95% các giá trị nằm trong hai khoảng độ lệch chuẩn

của trị trung bình; và,

◦ Khoảng 99.7% các giá trị nằm trong ba khoảng độ lệch

chuẩn của trị trung bình.

Trang 34

 Hình sao biểu thị qui tắc 68-95-99.7.

©2010, Nguyễn Duy Long, Tiến Sỹ 67

 Bảng Z trong phụ lục E (tr A56-57) là bảng cho mô hình

Trang 35

 MS Excel có hàm kiểm nghiệm z một phía

(one-sided z-test):

hàm Normsdist(z)

◦ Ví dụ: Normsdist(1.8) = 0.9641: giá trị chuẩn

hóa của dữ liệu dưới điểm z bằng 1.8 khoảng

©2010, Nguyễn Duy Long, Tiến Sỹ 69

 Tìm z hay giá trị dữ liệu ban đầu với một diện tích

đã cho

 Ví dụ: tìm điểm z cho điểm tứ phân vị thứ nhất

trong mô hình chuẩn?

Độ lệch chuẩn

Trang 36

 Dùng bảng Z theo cách khác:

©2010, Nguyễn Duy Long, Tiến Sỹ 71

Ngày đăng: 10/02/2020, 05:26

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm