Câu 3 Chọn một biến định lượng nào đó và thực hiện Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý Tìm các đặc trưng từ mẫu dữ liệu Ý một Tìm các giá trị ngoại lại (outlier) nếu có và[.]
Trang 1Câu 3 Chọn một biến định lượng nào đó và thực hiện:
Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý
Tìm các đặc trưng từ mẫu dữ liệu
Ý một: Tìm các giá trị ngoại lại (outlier) nếu có và nêu đề xuất xử lý:
*Giới thiệu: Giá trị ngoại lại (Outlier) có ảnh hưởng lớn đến độ chính xác của các mô hình dự đoán Phát hiện và xử lý các điểm ngoại lai là một bước quan trọng trong quá trình chuẩn bị dữ liệu cho mô hình dự đoán
*Phương pháp xử lý: Dùng Quartile để tìm các giá trị ngoại lai
Hàm QUARTILE có dạng: QUARTILE(array,quart), với:
Array: Là list các giá trị trong một colunm
Quart: Các option để lựa chọn cho phù hợp với mục đích tính toán
*Quá trình xử lý: Chọn biến Đoạn ST giảm điện tâm đồ trong bảng dữ liệu để khảo sát
Q1: Tứ phân vị thứ nhất( là phân vị thứ 25)
Q3: Tứ phân vị thứ ba ( là phân vị thứ 75)
IQR: Là độ rộng từ giá trị Q1 đến Q3 Tình bằng: IQR = Q3-Q1
Lower Bound = Q1 – (1.5*IQR) : Biên dưới của miền dữ liệu, công thức được xác định dựa theo định nghĩa trong thống kê
Uppon Bound = Q3+(1.5*IQR): Biên trên của miền dữ liệu
Giá trị ngoại lai (Oulier) được xác định khi (Values > Uppon Bound || Values < Lower Bound) là TRUE Cuối cùng, dùng hàm COUNTIF([dữ liệu cột Outlier],TRUE) để đếm xem có bao nhiêu giá trị ngoại lai xuất hiện
*Kết quả:
Trang 2*Đề xuất xử lý giá trị ngoại lại (Outlier)
Xóa dòng dữ liệu chưa outlier ra khỏi dữ liệu phân tích Việc này sẽ làm mất một số thông tin trên các cột khác nếu cần phân tích
Các giá trị outlier sẽ thay bằng giá trị trung bình của dữ liệu
Xóa các giá trị outlier và đặt lại là NULL(empty)
Đổi outlier thành một giá trị cụ thể(do người phân tích, chuyên gia đề xuất)
Ý hai: Tìm các đặc trưng từ mẫu dữ liệu
Giới thiệu: Mẫu dữ liệu bao gồm một số đặc trưng như: Giá trị trung bình, phương sai, độ lệch chuẩn, Tính toán các giá trị đặc trưng của mẫu là công việc cần thiết nhất trong phân tích số liệu ở thống kê Phương pháp: Tại phần mềm Excel, chức năng Descriptive Statistics hổ trợ trong việc tính toán các giá trị đặc trưng của mẫu Để mở chức năng này trong Excel, thực hiện các bước: Data -> Data Analysis -> Hộp option xuất hiện, chọn Descriptive Statistics rồi nhấn OK
Trang 3Quá trình xử lý: Chọn biến Đoạn ST giảm điện tâm đồ trong bảng dữ liệu để thực hiện tính toán các giá trị đặc trưng
Tại Input Range trong Descriptive Statistics ta nhập độ rộng của column dữ liệu
Option thì chọn Summary statistics
Kết quả: Sau khi nhập giá trị tại Input Range và nhấn OK, kết quả cho được như sau:
Trang 4Statistic Describle
Mean Giá trị trung bình của mẫu dữ liệu
Standard Error Giá trị sai số tiêu chuẩn của mẫu( thước đo khác nhau giữa dự đoán và thực tế) Median Trung vị của mẫu dữ liệu
Standard Deviation Độ lệch chuẩn
Sample Variance Phương sai
Maximum Giá trị lớn nhất
Sum Tổng giá trị các phần tử của mẫu dữ liệu
Count Tổng số lượng các phần tử của mẫu
Câu 4: Kiểm định xem một biến nào đó có phù hợp với 1 dạng phân phối xác suất cụ thể hay không
*Cơ sở lý thuyết:
Bài toán: Giả sử đại lượng ngẫu nhiên X chưa rõ phân phối Cho một mẫu có kích thước n Hãy kiểm định
giả thuyết:
H: X có phân phối là F(x)
- Trường hợp mẫu là đại lượng ngẫu nhiên rời rạc
Xét mẫu:
x i x1 x2 x k
n i n1 n2 n3
Từ mẫu trên, ta tính được các ước lượng hợp lý cực đại của các tham số của F(x) nếu các tham số đó chưa biết Từ các tham số đó ta sẽ tính được các xác suất:
Trang 5p i < P(X = x i) , i = 1,k
Ta có quy tắc kiểm định như sau:
B1: Tìm X2α (k-r-1) từ bảng phân phối X2 , ở đây r là số tham số của F(x)
B2: Tính thống kê => X20 = ∑
1
k (Oi−Ei)2
E i
ở đây: O i = ni là tần số từ thực nghiệm
E i= npi là tần số lý thuyết theo giả thuyết H0 đúng Nếu X20 ≤ X2α thì chấp nhận H
Nếu X20 > X2α thì bác bỏ H
- Trường hợp X là đại lượng ngẫu nhiên liên tục
Viết lại mẫu đã cho dưới bảng:
(-∞ ; a1) (a1;a2¿ (a2;a3¿
(a k−1 ; +∞)
n1
n2
n3
n k
∑n i = n
Từ mẫu ta tìm được các ước lượng hợp lý cực đại của các tham số của F(x) nếu các tham số này chưa biết Từ đó ta tính được:
p1 = P(X < a1), p2 = P(a1< X <a2) , , p k = P(X > a k−1)
Ta có quy tắc kiểm định như sau:
B1: Tìm X2α = X2α(k-r-1) từ bảng phân phối X2, ở đây là tham số của F(x)
B2: Tính thống kê => X20 = ∑
1
k (Oi−Ei)2
E i
ở đây: O i = ni là tần số từ thực nghiệm
E i= npi là tần số lý thuyết theo giả thuyết H0 đúng Nếu X20 ≤ X2α thì chấp nhận H
Nếu X20 > X2α thì bác bỏ H
* Thực hiện câu hỏi:
Trang 6Ở bài này, dùng biến Huyết áp lúc nghỉ ngơi(tạm gọi là A) để kiểm định dạng phân phối
Để thuận tiện cho việc kiểm định, đầu tiên ta phân tổ dữ liệu:
+ Xác định số tổ cần chia (k):
Ở đây dùng công thức: k = (2*n)^(1/3)
Biểu thức nhập trong Excel: =(2*COUNT(D2:D151))^(1/3)
Kết quả: 6.69433
Vậy k = 7
+ Xác định khoảng cách h theo công thức: h = Xmax− Xmin
k
Nhập biểu thức vào Excel: =(MAX(D2:D151)-MIN(D2:D151))/7
Kết quả: 12,2857
Chọn h = 13
Dùng chức năng Data/Data Analysis/Histogram
Và kết quả cho được như sau:
Trang 7Kiểm định A: Với mức ý nghĩa 5%, có thể coi mẫu A phù hợp với phân phối chuẩn hay không? Giả thuyết kiểm định H0 : Mẫu phù hợp với phân phối chuẩn
Giả thuyết kiểm định H1: Mẫu không phù hợp với phân phối chuẩn
Tính các đặc trưng của mẫu :
n = 150 x = 128.8267 ^s= 16.16323 (Excel: =STDEV.P(D2:D151)) + x là ước lượng hợp lý cực đại cho a => a= 128.8267
+ ^s2 là ước lượng hợp lý cực đại choσ2 => σ= 16.16323
Nếu X có phân phối chuẩn thi X ~ N(128.8267;(16.16)2)
Khoảng Tần số P i=¿P(β−a
σ ) -P(α−a σ ) Hàm NORMSDIST Kết quả P i
-∞ - 107 12 =(NORM.S.DIST((106-O16)/O17,TRUE)) - 0 0.07893
107- 120 45
=(NORM.S.DIST((118-O16)/O17,TRUE)-NORM.S.DIST((106-O16)/O17,TRUE)) 0.17254
120 – 133 37
=(NORM.S.DIST((130-O16)/O17,TRUE)-NORM.S.DIST((118-O16)/O17,TRUE)) 0.27745
133 – 146 35
=(NORM.S.DIST((142-O16)/O17,TRUE)-NORM.S.DIST((130-O16)/O17,TRUE)) 0.26353
146 – 159 14
=(NORM.S.DIST((154-O16)/O17,TRUE)-NORM.S.DIST((142-O16)/O17,TRUE)) 0.14784
159 – 172 5
=(NORM.S.DIST((166-O16)/O17,TRUE)-NORM.S.DIST((154-O16)/O17,TRUE)) 0.04895 172- +∞ 2
=(NORM.S.DIST((178-O16)/O17,TRUE)-NORM.S.DIST((166-O16)/O17,TRUE)) 0.00955
Số tham số của phân phối chuẩn là r =2, nên:
Với k = 8, r = 2=> X2α = X20.04(7−2−1) = 9.487729 (Excel =CHIINV(0.05,4))
Miền bác bỏ W α = (9.487729 ; +∞)
Trang 8X2o = ∑
i=1
8 (ni−n pi)2
n p i = 19.1429 (Excel =SUM(P19:P26)
Vì X2o > X2α nên không thể coi mẫu này là phân phối chuẩn