1. Trang chủ
  2. » Công Nghệ Thông Tin

Câu 3 4 XÁC SUẤT THỐNG KÊ

8 1 0

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Câu 3 4 Xác Suất Thống Kê
Trường học Trường Đại Học Kinh Tế Quốc Dân
Chuyên ngành Xác Suất Thống Kê
Thể loại Bài Tập
Thành phố Hà Nội
Định dạng
Số trang 8
Dung lượng 142,93 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Câu 3 Chọn một biến định lượng nào đó và thực hiện Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý Tìm các đặc trưng từ mẫu dữ liệu Ý một Tìm các giá trị ngoại lại (outlier) nếu có và[.]

Trang 1

Câu 3 Chọn một biến định lượng nào đó và thực hiện:

 Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý

 Tìm các đặc trưng từ mẫu dữ liệu

Ý một: Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý:

*Giới thiệu: Giá trị ngoại lại (Outlier) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán

*Phương pháp xử lý: Dùng Quartile để tìm các giá trị ngoại lai

Hàm QUARTILE có dạng: QUARTILE(array,quart), với:

 Array: Là list các giá trị trong một colunm

 Quart: Các option để lựa chọn cho phù hợp với mục đích tính toán

*Quá trình xử lý: Chọn biến Đoạn ST giảm điện tâm đồ trong bảng dữ liệu để khảo sát

Q1: Tứ phân vị thứ nhất( là phân vị thứ 25)

Q3: Tứ phân vị thứ ba ( là phân vị thứ 75)

IQR: Là độ rộng từ giá trị Q1 đến Q3 Tình bằng: IQR = Q3-Q1

Lower Bound = Q1 – (1.5*IQR) : Biên dưới của miền dữ liệu, công thức được xác định dựa theo định nghĩa trong thống kê

Uppon Bound = Q3+(1.5*IQR): Biên trên của miền dữ liệu

Giá trị ngoại lai (Oulier) được xác định khi (Values > Uppon Bound || Values < Lower Bound) là TRUE Cuối cùng, dùng hàm COUNTIF([dữ liệu cột Outlier],TRUE) để đếm xem có bao nhiêu giá trị ngoại lai xuất hiện

*Kết quả:

Trang 2

*Đề xuất xử lý giá trị ngoại lại (Outlier)

 Xóa dòng dữ liệu chưa outlier ra khỏi dữ liệu phân tích Việc này sẽ làm mất một số thông tin trên các cột khác nếu cần phân tích

 Các giá trị outlier sẽ thay bằng giá trị trung bình của dữ liệu

 Xóa các giá trị outlier và đặt lại là NULL(empty)

 Đổi outlier thành một giá trị cụ thể(do người phân tích, chuyên gia đề xuất)

Ý hai: Tìm các đặc trưng từ mẫu dữ liệu

Giới thiệu: Mẫu dữ liệu bao gồm một số đặc trưng như: Giá trị trung bình, phương sai, độ lệch chuẩn, Tính toán các giá trị đặc trưng của mẫu là công việc cần thiết nhất trong phân tích số liệu ở thống kê Phương pháp: Tại phần mềm Excel, chức năng Descriptive Statistics hổ trợ trong việc tính toán các giá trị đặc trưng của mẫu Để mở chức năng này trong Excel, thực hiện các bước: Data -> Data Analysis -> Hộp option xuất hiện, chọn Descriptive Statistics rồi nhấn OK

Trang 3

Quá trình xử lý: Chọn biến Đoạn ST giảm điện tâm đồ trong bảng dữ liệu để thực hiện tính toán các giá trị đặc trưng

Tại Input Range trong Descriptive Statistics ta nhập độ rộng của column dữ liệu

Option thì chọn Summary statistics

Kết quả: Sau khi nhập giá trị tại Input Range và nhấn OK, kết quả cho được như sau:

Trang 4

Statistic Describle

Mean Giá trị trung bình của mẫu dữ liệu

Standard Error Giá trị sai số tiêu chuẩn của mẫu( thước đo khác nhau giữa dự đoán và thực tế) Median Trung vị của mẫu dữ liệu

Standard Deviation Độ lệch chuẩn

Sample Variance Phương sai

Maximum Giá trị lớn nhất

Sum Tổng giá trị các phần tử của mẫu dữ liệu

Count Tổng số lượng các phần tử của mẫu

Câu 4: Kiểm định xem một biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không

*Cơ sở lý thuyết:

Bài toán: Giả sử đại lượng ngẫu nhiên X chưa rõ phân phối Cho một mẫu có kích thước n Hãy kiểm định

giả thuyết:

H: X có phân phối là F(x)

- Trường hợp mẫu là đại lượng ngẫu nhiên rời rạc

Xét mẫu:

x i x1 x2 x k

n i n1 n2 n3

Từ mẫu trên, ta tính được các ước lượng hợp lý cực đại của các tham số của F(x) nếu các tham số đó chưa biết Từ các tham số đó ta sẽ tính được các xác suất:

Trang 5

p i < P(X = x i) , i = 1,k

Ta có quy tắc kiểm định như sau:

B1: Tìm X2α (k-r-1) từ bảng phân phối X2 , ở đây r là số tham số của F(x)

B2: Tính thống kê => X20 = ∑

1

k (Oi−Ei)2

E i

ở đây: O i = ni là tần số từ thực nghiệm

E i= npi là tần số lý thuyết theo giả thuyết H0 đúng Nếu X20 ≤ X2α thì chấp nhận H

Nếu X20 > X2α thì bác bỏ H

- Trường hợp X là đại lượng ngẫu nhiên liên tục

Viết lại mẫu đã cho dưới bảng:

(-∞ ; a1) (a1;a2¿ (a2;a3¿

(a k−1 ; +∞)

n1

n2

n3

n k

n i = n

Từ mẫu ta tìm được các ước lượng hợp lý cực đại của các tham số của F(x) nếu các tham số này chưa biết Từ đó ta tính được:

p1 = P(X < a1), p2 = P(a1< X <a2) , , p k = P(X > a k−1)

Ta có quy tắc kiểm định như sau:

B1: Tìm X2α = X2α(k-r-1) từ bảng phân phối X2, ở đây là tham số của F(x)

B2: Tính thống kê => X20 = ∑

1

k (Oi−Ei)2

E i

ở đây: O i = ni là tần số từ thực nghiệm

E i= npi là tần số lý thuyết theo giả thuyết H0 đúng Nếu X20 ≤ X2α thì chấp nhận H

Nếu X20 > X2α thì bác bỏ H

* Thực hiện câu hỏi:

Trang 6

Ở bài này, dùng biến Huyết áp lúc nghỉ ngơi(tạm gọi là A) để kiểm định dạng phân phối

Để thuận tiện cho việc kiểm định, đầu tiên ta phân tổ dữ liệu:

+ Xác định số tổ cần chia (k):

Ở đây dùng công thức: k = (2*n)^(1/3)

Biểu thức nhập trong Excel: =(2*COUNT(D2:D151))^(1/3)

Kết quả: 6.69433

Vậy k = 7

+ Xác định khoảng cách h theo công thức: h = Xmax− Xmin

k

Nhập biểu thức vào Excel: =(MAX(D2:D151)-MIN(D2:D151))/7

Kết quả: 12,2857

Chọn h = 13

Dùng chức năng Data/Data Analysis/Histogram

Và kết quả cho được như sau:

Trang 7

Kiểm định A: Với mức ý nghĩa 5%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không? Giả thuyết kiểm định H0 : Mẫu phù hợp với phân phối chuẩn

Giả thuyết kiểm định H1: Mẫu không phù hợp với phân phối chuẩn

Tính các đặc trưng của mẫu :

n = 150 x = 128.8267 ^s= 16.16323 (Excel: =STDEV.P(D2:D151)) + x là ước lượng hợp lý cực đại cho a => a= 128.8267

+ ^s2 là ước lượng hợp lý cực đại choσ2 => σ= 16.16323

Nếu X có phân phối chuẩn thi X ~ N(128.8267;(16.16)2)

Khoảng Tần số P i=¿P(β−a

σ ) -P(α−a σ ) Hàm NORMSDIST Kết quả P i

-∞ - 107 12 =(NORM.S.DIST((106-O16)/O17,TRUE)) - 0 0.07893

107- 120 45

=(NORM.S.DIST((118-O16)/O17,TRUE)-NORM.S.DIST((106-O16)/O17,TRUE)) 0.17254

120 – 133 37

=(NORM.S.DIST((130-O16)/O17,TRUE)-NORM.S.DIST((118-O16)/O17,TRUE)) 0.27745

133 – 146 35

=(NORM.S.DIST((142-O16)/O17,TRUE)-NORM.S.DIST((130-O16)/O17,TRUE)) 0.26353

146 – 159 14

=(NORM.S.DIST((154-O16)/O17,TRUE)-NORM.S.DIST((142-O16)/O17,TRUE)) 0.14784

159 – 172 5

=(NORM.S.DIST((166-O16)/O17,TRUE)-NORM.S.DIST((154-O16)/O17,TRUE)) 0.04895 172- +∞ 2

=(NORM.S.DIST((178-O16)/O17,TRUE)-NORM.S.DIST((166-O16)/O17,TRUE)) 0.00955

Số tham số của phân phối chuẩn là r =2, nên:

Với k = 8, r = 2=> X2α = X20.04(7−2−1) = 9.487729 (Excel =CHIINV(0.05,4))

Miền bác bỏ W α = (9.487729 ; +∞)

Trang 8

X2o = ∑

i=1

8 (ni−n pi)2

n p i = 19.1429 (Excel =SUM(P19:P26)

X2o > X2α nên không thể coi mẫu này là phân phối chuẩn

Ngày đăng: 15/04/2023, 12:51

🧩 Sản phẩm bạn có thể quan tâm

w