Công thức trên cho phép tính giá trị gần đúng của độ lệch chuẩn một cách nhanh chóng. Độ lệch chuẩn càng lớn nghĩa là mức độ biến thiên của đặc điểm càng lớn, thì đường cong biểu diễn càng dãn và hẹp Ngược lại càng nhỏ thì đường cong càng thu hẹp và nâng cao. Có thể minh họa cụ thể điều này nếu ta biểu thị các tần số f bằng số % hoặc bằng phân suất của đơn vị, coi đơn vị là xác suất toàn phần (P = 100% hay P=1),
Trang 1Chủ đề: phân phối chuẩn
Svth: LêThị Hằng Nguyễn Thị Hiền
Trang 21 Giới thiệu về phân phối chuẩn
Nghiên cứu các hiện tượng sinh học, người ta thường gặp một hình thức phân bố của các đặc điểm như sau:
Những giá trị nhỏ nhất và lớn nhất của các đặc điểm ở hai
đầu mỗi chuỗi thì ít gặp.
Những giá trị càng gần số trung bình cộng của đặc điểm
thì càng gặp nhiều hơn cả và ứng với hàng trung vị.
Hình thức phân bố này gặp phổ biến đến nỗi trước đây người ta coi nó là tiêu chuẩn của các hiện tượng ngẫu nhiên
và xảy ra hàng loạt
Người ta gọi là phân bố chuẩn
Trang 3Vd: nếu một người đàn ông được chọn là ngẫu nhiên thì
xác xuất người đó có chiều cao x la bao nhiêu?
Chiều cao 100 người đàn ông ở Việt Nam
Trang 42 Biểu thức phân bố chuẩn
Trong đó:phân phối chuẩn kí hiệu N(µ, ^2))
f(x) : tần số lý thuyết các hàng của chuỗi biến thiên hay xác suất
xuất hi n ện x
x : giá trị thực nghi m ện
: đ l ch chuẩn ộ lệch chuẩn ện
: 3,1416
e : cơ số của logarithm tự nhiên (e = 2,71828)
Trang 5Trong biểu thức trên, số lũy thừa của e bằng m t nữa bình phương biến chuẩn hóa t=(x-M)/ộ lệch chuẩn
do đó có thể viết:
Trang 6Áp dụng công thức vào ví dụ ta có:
giá trị trung bình M=163,3 cm
độ lệch chuẩn s= 6,6 cm’
vậy số người có chiều cao bằng 160 cm là:
Như vậy chúng ta có thể đoán rằng có 5,3% đàn ông Việt Nam có chiều cao 160 cm
f(t)=
Trang 7Tương tự ta có thể ước tính xác xuất cho bất kì chiều cao nào
qua công thức, bảng sau trình bày một số xác xuất cho chiều cao
từ thấp đến cao
•
Nếu bạn đọc chịu khó cộng tất cả các xác Xuất của nó sẽ là gần bằng 100%.
Nói tóm lại , xác xuất gần 100% là chiều cao của đàn ông
Việt Nam dao động từ 140 đến 181 cm.
Trang 8Đường biểu diễn của phân bố này tiến tới vô cực ở
hai đầu và tiệm cận với hai đầu
Trang 9do t biến thiên cùng chiều với x nên có thể nêu lên quy luật chung của phân bố chuẩn như sau:
-các biến số càng gần giá trị trung bình cộng của chuỗi thì xác suất xuất hiện càng lớn tức có tần số càng lớn.
-các tần số phân bố ở hai bên trục tung đối xứng nhau và càng cách xa giá trị trung bình cộng của chuỗi về hai phía thì càng ít gặp.
Thật vậy trong biểu thức thì biến chuẩn hóa mang số lũy thừa hai, điều này có nghĩa là hai giá trị -t(ứng với các biến số nhỏ hơn M) và +t(ứng với các biến
số lớn hơn M) đều tương ứng với cùng một tần số f.
Trang 10• Mặt khác, với t=0 biến chuẩn hóa nhỏ nhất về giá trị tuyệt đối nghĩa là (x=M) thì tần số có giá trị
f(t)= 1/ 0,39894 e^(-16/2))=0.0001/
Trang 11Nghĩa là trong phân bố chuẩn hầu hết các đặc điểm biến thiên đều nằm trong khoảng M-3
,M+3 ,và các giá trị biến thiên ngoài khoảng này thì hiếm gặp:
Trang 12Công thức trên cho phép tính giá trị gần đúng của
độ lệch chuẩn một cách nhanh chóng.
- Độ lệch chuẩn càng lớn nghĩa là mức độ biến thiên của đặc điểm càng lớn, thì đường cong biểu diễn càng dãn và hẹp
- Ngược lại càng nhỏ thì đường cong càng thu hẹp
và nâng cao.
Có thể minh họa cụ thể điều này nếu ta biểu thị các
tần số f bằng số % hoặc bằng phân suất của đơn vị, coi đơn vị là xác suất toàn phần (P = 100% hay P=1),
Trang 13và biểu thị đại lượng biến thiên của đặc điểm
không bằng những số có đơn vị mà bằng biến chuẩn hóa t.
Trong trường hợp này điểm gốc trục tọa độ của đường biểu diễn trùng với giá trị trung bình
cộng M và trục hoành sẽ biểu thị độ lệch trung tâm không theo đơn vị mà theo t nghĩa là theo phân suất của độ lệch chuẩn
Giá trị vừa đúng bằng hoành độ của điểm uốn
của đường biểu diễn này Điều này giả thích tại sao dạng của đường biểu diễn phụ thuộc vào
Trang 15Các xác suất trên đây cũng có thể thể hiện bằng một biểu đồ mà thuật ngữ tiếng anh gọi là phân phối của mật độ xác suất.
Biểu đồ bên chính là luật phân phối
chuẩn theo công thức 1 tổng diện tích
dưới đường biểu diễn phải bằng 1(hay
100%)
Nghĩa là nếu chúng ta muốn ước tính xác
suất cho bất kì khoảng chiều cao nào Ví
dụ muốn biết có bao nhiêu người đàn
ông có chiều cao thấp hơn 150 cm,
chung ta chỉ cần tính diện tích mà trục
hoành từ 150 cm hay thấp hơn dưới
đường biểu diễn Theo ngôn ngữ toán
Trang 16Tuy nhiên, có một cách tính nhanh hơn và tinh vi hơn là sử dụng tích phân, chỉ cần tính tích phân chiều cao từ 0 đến 149 cm:
• Trong đó:
• Kết quả 0,018
• Tương tự, chúng ta có thể ước tính xác suất cho bất kì khoảng chiều cao nào giữa a
và b theo công thức :
Trang 17III Phân phối chuẩn hóa
• Trong phần trên chúng ta quan tâm đến việc phân tích chiều cao bằng phân phối chuẩn Tuy nhiên luật phân
bố chuẩn có thể ứng dụng cho các hiện tượng tự nhiên, nhưng các biến khác nhau về đơn vị đo lường như chiều cao đo bằng cm , huyết áp đo bằng mmHg nên chúng ta khó mà so sánh được hai biến số này bởi vì chúng có đơn vị đo lường khác nhau và có thể độ lệch chuẩn cũng khác n hau Do đó chúng ta cần phải có một cách chuẩn hóa luật phân phối sao cho chúng
có thể so sánh được các biến số này mà không cần biết đến đơn vị
phối chuẩn hóa
Trang 18muốn đổi từ hàm y= f(x) sang hàm phân phối chuẩn hóa y= f(z) ta đặt
z=(x- M)/
thật ra đơn vị của z bây giờ không phải bằng cm nữa
mà chính là đọ lệch chuẩn Ta có thể rút ra những nhận xét sau:
Trang 19Mật độ xác xuất của phân phối chuẩn f(z) với trung bình 0 và độ lệch chuẩn 1
Trang 20• Xác suât mà z ≤ 1.96 là 0.02)5 (tức 2).5%) Nói cách khác, diện
tích dưới đường biểu diễn tính từ z = -1.96 hay thấp hơn là 0.02)5.
• Bởi vì phân phối chuẩn cân đối (symmetric), chúng ta cũng có
thể nói (hay suy luận) rằng xác suất mà z ≤ 1.96 cũng bằng
0.02)5.
Như vậy, xác suất mà z nằm trong khoảng -1.96 và 1.96 là 1–
0.02)5–0.02)5 = 0.95 (hay 95%) Nói cách khác, khoảng tin cậy
95% của z là -1.96 đến 1.96.
• Tương tự, chúng ta cũng có thể phát biểu rằng xác suất mà z
nằm trong khoảng -1.645 đến 1.645 là 90% Xác suât mà z
nằm trong khoảng -2.576 đến 2.576 là 99% Xác suất mà z
nằm trong khoảng -3,09 đến 3,09 là 99,9%
Trang 222 Khoảng tin cậy
Để ước tính khoảng tin cậy 95%, chúng ta chú ý mối liên hệ giữa
x và z
vì z=(x-M)/ x=z +MM
như đề cập ở trên, 95% giá trị của z nằm trong khoảng từ 1,96 đến+1,96 nên chúng ta cũng có thể nói rằng 95% giá trị
của x nằm trong khoảng từ 163,3 ± 1,96 6,6= từ 150,4 cm đến 176,2cm
Tất nhiên chúng ta cũng có thể ước tính xác xuất 99% chiều cao đàn ông Việt Nam nằm trong khoảng 163,3±6,6.3= 143.5cm đến 183,1cm Do đó nếu một người đàn ông có chiều cao thấp hơn 143,5 cm thì người đó có thể nói là thấp với xác xuất dưới 0,5%