BÀI TẬP LỚN MÔN Phân tích và thống kê số liệu
Trang 1BỘ CÔNG THƯƠNG TRƯỜNG ĐẠI HỌC CÔNG NGHIỆP HÀ NỘI
-o0o -BÀI TẬP LỚN MÔN Phân tích và thống kê số liệu
Trang 2Lời Nói Đầu
Trước kia việc nghiên cứu, tính toán cho một tập dữ liệu là một công việctương đối khó khăn và mất thời gian Nhưng ngày nay, với sự trợ giúp củaCNTT thì các công việc đó đơn giản hơn rất nhiều
Đặc biệt SPSS for Windows cung cấp một hệ thống quản lý dữ liệu, và phân
tích thống kê trong một môi trường đồ họa, sử dụng các trình đơn mô tả(menu) và các hộp thoại (dialogue box) đơn giản để thực hiện hầu hết cáccông việc cho bạn Phần lớn các nhiệm vụ có thể được hoàn thiện bằng cách
rê và nhắp chuột
Trong phần trình bày này, nhóm chúng tôi xin đưa ra một số bài tập, phântích các tham số mô tả đặc trưng bằng phương pháp thích hợp, vẽ biểu đồhistogram, tìm đường hồi qui, tìm khoảng tin cậy đối với độ dốc, tìm mộtkhoảng tin cậy đối với giá trị trung bình của biến phụ thuộc,thực hiện tìmđường hồi qui và đánh giá năng lực dự báo của mô hình,…Bằng việc sửdụng phần mềm SPSS
Do thời gian nghiên cứu và sự hiểu biết còn nhiều hạn chế Chính vì vậy bàiTrình bày không tránh được những sai sót, rất mong nhận được sự đóng gópcủa cô giáo và các bạn
Và chúng em xin cảm ơn cô giáo Nguyễn Phương Nga đã tận tình hướng
dẫn nhóm chúng em làm bào báo cáo này
Nhóm chúng em xin chân thành cảm ơn!
Trang 3A Hãy tính các đại lượng đặc trưng của tập số liệu trên
B Phân tích, đánh giá tập số liệu
Trang 4Frequency Percent Valid Percent
Cumulative Percent
Trang 5Phương sai càng lớn thì sai biệt và độ phân tán xung quanh càng lớn
- Sf = S2 = 3,9 có ý nghĩa như phương sai
- Cv = 12,7%
B Phân tích đánh giá tập số liệu mẫu
- Khoảng chính xác tin cậy của tập số liệu là: Δx (p,f) = X- μ= t(p,f)* S¯x
= 1,94
- Khoảng giới hạn tin cậy của tập số liệu là:
¯X - t(p,f) * Sf< Xi < ¯X + t(p,f) * Sf
Trang 628,57 < Xi < 32,43 (với độ tin cậy thống kê là 95%)
A Tính giá trị trung bình, phương sai của mỗi phương pháp và nhận xét
B Biết giá trị thật là 18,1 Phân tích đánh giá sai số của mỗi phương pháp
Bài làm:
A
Trang 7Theo kết quả phân tích ta thấy
Nếu nghiên cứu theo cả 4 phương pháp A, B , C và D thì sự sai biệt của các
số liệu trong kết quả thực nghiệm và độ phân tán xung quanh giá trị trung bình là tương đối nhỏ Tuy nhiên với phương pháp A thì nhỏ nhất
B Phân tích đánh giá sai số của mỗi phương pháp
- Phương pháp A
ta = 0,354 << tbảng(95,5) >> = 2,57
→x ≡ μ → sai số ngẫu nhiên Xi phân bố đều hai phái của giá trị thực trên trục số Sai số này bao giờ cũng gặp phải và ta chỉ có thể giảm sai số ngẫu nhiên
- Phương pháp B
tB = 0 < tb = 2,57 → mắc sai số ngẫu nhiên
- Phương pháp C
tc = 6,48 >> tbảng(95,5) = 2,57
Trang 8→x ≠ μ → sai số hệ thống Xi Tập trung về một phía của giá trị thực trên trục
số Ta có thể loiaj bỏ được sai số này nếu tìm ra được nguyên nhân
-A Phân tích các đại lượng đặc trưng của tập kết quả thực nghiệm trên
B So sánh giá trị trung bình và giá trị phương sai của 2 thực nghiệm A
Theo kết quả phân tích ta có
Kết quả A:
- Khoảng của tập số liệu:R= 0,68
- Giá trị trung bình: ¯X = 4,56
Trang 9A = S2
B tức là chấp nhận H0 bác bỏ Ha .Điều này chứng tỏ độ sai biệt giữa kết quả nghiên cứu A và B là giống nhau
Bài 4: Cho kết quả nghiên cứu của A và B
Trang 10XB = 31,89
S2
B = 0,619
* Không liên quan với nhau từng đôi một
H0 = 2 kết quả nghiên cứu không khác nhau
Ha = 2 kết quả khác nhau
d = 33,01-31,89 = 1,12
tt = 1,9 < tb(0,95,18) = 2,101
Vậy chấp nhận H0 tức là hai kết quả nghiên cứu không khác nhau
* Liên quan với nhau đôi một
d = 0,83
Sd = 0,667
t = 3,2 > tt(0,95,9) = 2,26 Vậy hai kết quả nghiên cứu là khác nhau
Bài 5: Xác định ảnh hưởng của nhân tố A lên thí nghiệm người ta thu được kết quả sau Hãy phân tích phương sai xem A có ảnh hưởng lên kêt quả thực nghiệm không?
Trang 11Bài 6: Xác định ảnh hưởng của nhân tố A lên thí nghiệm người ta thu được kết quả sau Hãy phân tích phương sai xem A có ảnh hưởng lên kêt quả thực nghiệm không?
Bài 7: Trung tâm nghiên cứu lúa gạo quốc tế tại Philippines muốn xem xét
sự liên quan giữa năng xuất lúa mỳ Y, với mật độ gieo trồng X Họ thực hiệncác thí nghiệm và đưa ra kết quả ở bảng Tìm đường hồi quy tuyến tính giữa
X và Y (quan hệ hàm giữa chúng)
Trang 12Năng suất lúa mỳ Mật độ trồng
Trang 13Model Summary and Parameter Estimates
Dependent Variable:X
Equation
Model Summary Parameter Estimates
Linear 728 16.036 1 6 007 -618.657 159.749 The independent variable is Y.
Nhìn đồ thị ta thấy các điểm không nằm trên đường hồi quy Điều này có nghĩa là kết quả nghiên cứu giữa năng xuất lúa mỳ y với mật độ gieo trồng x
là không liên quan tới nhau
Trang 14Bai 8 : Xét quan hệ thân nhiệt ( nhiệt độ x) và nhịp đập của tim(mạch
đập y) Họ thực hiện các thí nghiệm và đưa ra kết quả ở bảng Tìm đường hồiquy tuyến tính giữa X và Y (quan hệ hàm giữa chúng)
Trang 15Nhìn đồ thị ta thấy có một điểm nằm trên đường hồi quy Điều này có nghĩa
là kết quả nghiên cứu giữa nhiệt độ và mạch đập gần như là không tương quan tới nhau
Model Summary and Parameter Estimates
Dependent Variable:nhietdo
Equatio
n
Model Summary Parameter Estimates
R Square F df1 df2 Sig Constant b1
Linear 886 62.265 1 8 000 70.736 -1.149
The independent variable is machdap.
Trang 16II Chọn 2 tập dữ liệu (Thuộc 1 cột nào đó của file đã cho), 1 tập có n<30 và 1 tập có n>30 Với mỗi tập đó hãy phân tích các tham số mô tả đặc trưng bằng phương pháp thích hợp và vẽ biểu đồ histogram của nó.
Từ kết quả, có nhận xét gì về mỗi tập dữ liệu?
Bài làm: Ta tiến hành chọn tập A và B thuộc cột B của file đã cho
Trang 18Frequency Percent Valid Percent
Cumulative Percent
Trang 19Ta có các tham số đặc trưng của 2 tập số liệu
a Multiple modes exist The smallest value is shown
Từ kết quả phân tích ta thấy
Ftính= S2A/ S2B = 1 < F bảng Vậy chấp nhận H0 bác bỏ Ha
S2A = S2B đáng tin cậy
Trang 20Biểu đồ Histogram của tập A
Trang 21Biểu đồ histogram của tập B
Trang 22III Chọn 1 cột nào đó trong số hơn 300 thuộc tính mô tả và 1 cột thuộc tính phụ thuộc, hãy tìm đường hồi qui và phân tích chất lượng đường hồi qui đó qua việc tính các hệ số xác định,
hệ số tương quan và phân tích qua việc kiểm định giả thuyết đối với độ dốc B của mô hình Từ kết quả nhận được, hãy cho biết mô hình đó có dùng để dự báo được không? tại sao?
Hãy tìm khoảng tin cậy 95% đối với độ dốc B Ý nghĩa của khoảng này là gì?
Hày tìm một khoảng tin cậy 95% đối với giá trị trung bình của biến phụ thuộc khi cho biến độc lập x=1
Model Summary Parameter Estimates
The independent variable is Y.
Trang 23- Hệ số xác định: r2 = 0,134
- Ta có hệ số tương quan r = b = 0 , 134 = 0,37
a =Y – bX = 5,90 – 0,37 * 1,53 = 5,33
Vậy đường hồi quy tuyến tính sẽ là Y = 5,33 + 0,37X
- Ta tiến hành kiểm tra năng lực của mô hình bằng kiểm tra giả thuyếtH0: B = 0
Ha: B ≠ 0
n = 816 và α = 0,05 (chọn độ tin cậy là 95%)
df = 816-2 = 814
tα/2 = 160, s = S 2= 1,28
Trang 24Còn ngược lại nếu ttính > tα/2
- Khoảng tin cậy 95% đối với độ dốc B là
- Khi X= 1 khoảng tin cậy 95% đối với giá trị trung bình của biến phụ thuộc
khi cho biến độc lập x là
Y ^ ± tα/2
SSxx
X n
2 ) 1 (
Trang 25A Ta thấy hệ số tương quan r = b = 0 , 019 = 0,138
- Ta có mô hình tuyến tính giả thuyết hình thức: Y = B0 + B1X1 + B2X2 +
Model Summary Parameter Estimates
The independent variable is phuthuoc.
Trang 26* Xét tính hữu dụng của mô hình
Std Error of the Estimate
The independent variable is phuthuoc.
Ta có t = 1,928bi = 10,,928138 = 0,072
Kiểm định thống kê: ta thấy tα/2 = 3,182 > t = 0,072
Vậy bác bỏ H0.Điều đó có nghĩa là tập thuộc tính mô tả có đóng góp thông tin cho dự báo của tập thuộc tính phụ thuộc