MỤC ĐÍCH: Tính toán ước lượng khoảng độ chính xác dữ liệu là cần thiết đối với một người kỹ sư.. Ước lượng độ chính xác luôn luôn cần thiết vì giá trị khi đo thực tế luôn có các sai lệch
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA ĐẠI HỌC QUỐC GIA TPHCM Chương trình Kỹ sư Chất lượng cao Việt Pháp
Khoa Kỹ thuật giao thông
BÁO CÁO BÀI TẬP NHÓM TUẦN 10-12
GVHD: ThS Đặng Lê Quang
Trang 2Mục lục
I MỤC ĐÍCH: 3
II CƠ SỞ LÝ THUYẾT: 3
1 Độ không chắc chắn: 3
2 Các phân bố thống kê: 4
3 Hồi quy tuyến tính: 5
III BÀI TẬP: 6
1 BÀI 1: PROBABILITY 6
2 BÀI 2: LINEAR REGRESSION 15
Trang 3I MỤC ĐÍCH:
Tính toán ước lượng khoảng độ chính xác dữ liệu là cần thiết đối với một người
kỹ sư Việc này có thể bao gồm các công việc sau:
Ước lượng độ tin cậy
Xác định khoảng tin cậy
Ước lượng độ chính xác luôn luôn cần thiết vì giá trị khi đo thực tế luôn có các sai lệch nhất định: sai số dụng cụ, sai số do người làm thí nghiệm, các điều kiện ngoại cảnh,
II CƠ SỞ LÝ THUYẾT:
1 Độ không chắc chắn:
Khoảng tin cậy là một khoảng đối xứng quanh giá trị đo được Một cách lý tưởng, ta phải chọn sao cho có 95% xác suất để giá trị nằm trong khoảng này
Một cách tổng quát, phân tích độ chính xác được chia làm hai phần: xác định độ không chắc chắn trong các phép đo cơ bản (không thể được suy ra từ những phép đo khác), xác định độ không chính xác trong các kết quả dẫn xuất từ các phép đo
Độ phân giải số, là độ đo nhỏ nhất trong thang đo Điều này giới hạn mức độ chính xác của phép đo Giá trị không chắc chắn nhỏ nhất là bằng một nữa độ phân giải
số
Thông tin từ nhà sản xuất Đây là giá trị mà nhà sản xuất tạo ra thiết bị đo, đọc giá trị này cho ta biết về độ chính xác tối đa có thể đạt được đối với một dụng cụ
Ta phải lặp lại quá trình đo cùng một đại lượng để đạt được độ chính xác hơn Mức độ không chắc chắn bằng 2 lần độ lệnh chuẩn của các lần đo
Ta có thể lặp lại toàn bộ quá trình đo với một thiết bị đo khác để so sánh hai kết quả đo với nhau Đây là một thông tin cực kỳ hữu dụng
Sự không chắc chắc của kết quả đo có thể đến từ những nguyên nhân khác hoặc đến từ sự chủ quan cá nhân
Trang 4Nếu R là một đại lượng liên hệ với các đại lượng được đo cơ bản theo quan hệ sau:
, ,
Thì mức độ không chắc chắn của đại lượng R là:
R R a 2 R b 2 R c 2
2 Các phân bố thống kê:
Giá trị trung bình của một đại lượng:
Đối với các giá trị rời rạc:
1
1 N i i
N
x f t dt T
Phương sai của một đại lượng:
1
1 1
N
i
x x N
0
x f t x dt T
Ta có thể biểu diển các dữ liệu thống kê trên một histogram
Ta gọi một hàm mật độ xác suất là một hàm số thỏa:
0
x x
P x x x p x dx (1.3) Hàm mật độ phân phối chuẩn là một hàm có biểu thức toán học như sau:
2
1 exp
2
x
x x
p x
(1.4)
Ta có thể tính xác suất của hàm phân phối chuẩn như sau:
Trang 5Trong đó: 1 0exp 2
2 2
3 Hồi quy tuyến tính:
Là quá trình chọn đường thẳng tốt nhất để xấp xỉ dữ liệu của một dãy điểm với một tập hợp các điểm đo của hai đại lượng x và y, phương trình đường thẳng xấp xỉ có dạng:
Trong đó các hệ số:
x
xy x y A
s
1
2 1
1
N i i
N
s
B y Ax
Để đánh giá mức độ phù hợp của sự hồi quy, ta dùng hệ số tương quan:
2 2
x y
xy x y r
s s
Hệ số tương quan càng gần 1 1 thì càng chính xác
Trang 6III BÀI TẬP:
1 BÀI 1: PROBABILITY
Ta có bảng dữ liệu đo vận tốc trong một hầm gió như sau:
(m/s)
Trang 721 4.605
a) Dùng máy tính Casio cầm tay, giả thiết phân phối chuẩn (normal distribution) (i) Tính Mean, Standard deviation, variance của dữ liệu bằng máy tính Casio cầm tay
(ii) Tính xác suất để dữ liệu nằm trong khoảng 4.5 đến 4.6
(iii) Tính xác suất để dữ liệu lớn hơn 4.7
(iv) Tính xác suất để dữ liệu nằm trong khoảng 2 lần độ lệch chuẩn từ giá trị trung bình
b) Lập bảng tính Excel thực hiện lại (i) - (iv)
Trang 8Bài làm Lập bảng tính Excel thực hiện (i) - (iv)
(i) Tính Mean, Standard deviation, variance của dữ liệu
Để tính Mean (Giá trị trung bình) ta sử dụng hàm AVERAGE với cú pháp
=AVERAGE(number1, number2,…)
Vậy ta có giá trị Mean: µ = 4.59592
Trang 9 Để tính Standard deviation (Độ lệch chuẩn) ta sử dụng hàm STDEV.P với cú pháp =STDEV.P(number1, number2,…)
Vậy ta có giá trị Standard deviation: σ = 0.183433894 ≈ 0.18343
Trang 10 Để tính Variance (Phương sai) ta sử dụng hàm VAR.P với cú pháp
=VAR.P(number1, number2, )
(ii) Xác suất để dữ liệu nằm trong khoảng 4.5 đến 4.6:
Xác suất để dữ liệu nằm trong khoảng 4.5 đến 4.6 là:
P(4.5 < X < 4.6) = P(X < 4.6) – P(X < 4.5)
Để tính xác suất dữ liệu bé hơn một giá trị x (P(X< x)), ta sử dụng hàm NORM.DIST với cú pháp =NORM.DIST(x, mean, standard_dev, cumulative)
Trong đó, mean là giá trị trung bình của dữ liệu, standard_dev là độ lệch chuẩn, và đối với cumulative chúng ta để là TRUE
Trang 11 Tính P(X < 4.6):
Nhập hàm NORM.DIST vào Excel với x = 4.6 ta có:
P(X < 4.6) = 0.50887268
Tính P(X < 4.5):
Trang 12Tương tự, nhập hàm NORM.DIST vào Excel với x = 4.5 ta có:
P(X < 4.5) = 0.300517338
Suy ra P(4.5 < X < 4.6) = P(X < 4.6) – P(X < 4.5) = 0.50887268 - 0.300517338
= 0.208355342 ≈ 20.8355%
Vậy xác suất để dữ liệu nằm trong khoảng 4.5 đến 4.6 là 20.8355%
(iii) Xác suất để dữ liệu lớn hơn 4.7:
Xác suất để dữ liệu nằm trong khoảng 4.5 đến 4.6 là:
P(X > 4.7) = 1 – P(X ≤ 4.7) Tương tự như câu (ii), ta sử dụng hàm NORM.DIST với cú pháp
=NORM.DIST(x, mean, standard_dev, cumulative)
Tính P(X ≤ 4.7):
Trang 13Nhập hàm NORM.DIST vào Excel với x = 4.7 ta có:
P(X ≤ 4.7) = 0.71477805
Suy ra P(X > 4.7) = 1 – P(X ≤ 4.7) = 1 - 0.71477805 = 0.28522195
≈ 28.5222%
(iv) Xác suất để dữ liệu nằm trong khoảng 2 lần độ lệch chuẩn từ giá trị trung bình:
Xác suất để dữ liệu nằm trong khoảng 2 lần độ lệch chuẩn từ giá trị trung bình là:
P(μ-2σ<X<μ+2σ) = P(X<μ+2σ) - P(X<μ-2σ) Với:
μ+2σ = 4.962787789
μ-2σ = 4.229052211
Tương tự như câu (ii) và (iii), ta sử dụng hàm NORM.DIST với cú pháp
=NORM.DIST(x, mean, standard_dev, cumulative)
Trang 14 Tính P(X<μ+2σ):
Nhập hàm NORM.DIST vào Excel với x = 4.962787789 ta có:
P(X<μ+2σ) = 0.977249868
Tính P(X<μ-2σ):
Trang 15Nhập hàm NORM.DIST vào Excel với x = 4.229052211 ta có:
P(X<μ-2σ) = 0.022750132
Suy ra P(μ-2σ<X<μ+2σ) = P(X<μ+2σ) - P(X<μ-2σ)
= 0.977249868 - 0.022750132
= 0.954499736
≈ 95.44997%
Vậy xác suất để dữ liệu nằm trong khoảng 2 lần độ lệch chuẩn từ giá trị trung bình
là 95.44997%
2 BÀI 2: LINEAR REGRESSION
Ta có bảng dữ liệu như sau:
Trang 162.2 302003
Tìm công cụ hồi qui tuyến tính trên Excel kiểm tra:
nhất có thể
Trang 17Bài làm
Để dùng công cụ hồi quy tuyến tính trong Excel, trước tiên ta phải kích hoạt chức năng Data Analysis theo các bước sau:
o Chọn File chọn Option
o Vào mục Add-Ins, chọn Analysis ToolPak và nhấn Go
o Sau khi bấm Go sẽ hiện ra 1 cửa sổ như hình dưới, tích chọn Analysis ToolPak và nhấn OK
Trang 18(i) Thực hiện hồi qui tuyến tính tìm phương trình đường thẳng khớp với dữ liệu nhất có thể
- Vậy là xong, sau đó ta sẽ có tính năng Data Analysis trong mục Data trên thanh công cụ Để sử dụng tính năng đó cho bài này, ta làm theo các bước:
Vào mục Data trên thanh công cụ chọn Data Analysis sẽ hiện ra 1
cửa sổ, chọn Regression và nhấn OK
Lúc này sẽ hiện lên cửa sổ Regression, lúc này ta chọn dãy giá trị của biến Y và X tại mục Input Y Range và Input X Range, chọn vị trí xuất
ra kết quả tại mục Output Range rồi nhấn OK
Trang 19Như trong hình, dãy giá trị của Y là B2:B10 và của X là A2:A10, kết quả
sẽ được xuất ra tại ô C22
- Sau khi làm xong các bước trên, dữ lệu xuất ra sẽ như sau:
- Hệ số tương quan:
- Hai hệ số hồi quy B và A lần lượt là:
Phương trình đường thẳng có dạng y = Ax + B khớp với dữ liệu sẽ có:
𝐴 ≈ −13638.5
𝐵 ≈ 335781.8
- Vậy phương trình đường thẳng khớp với dữ liệu là:
y = -13638.5x + 335781.8
(ii) Vẽ đồ thị từ dữ liệu và nhận xét về vật lý của dữ liệu
- Đồ thị biểu diễn tương quan của dữ liệu:
Trang 20y = -13638x + 335782
0
50000
100000
150000
200000
250000
300000
350000
Velocity (m/s)
Đồ thị biểu diễn giá trị áp suất theo vận tốc
- Nhận xét:
o Có sự tuyến tính hóa rất tốt giữa áp suất và vận tốc, vì hệ số tương quan rất gần 1 (≈0.988984)
o Phương trình rất giống với phương trình đã tìm được ở câu (i)