Bài 1: Tìm một dữ liệu định lượng A và một dữ liệu định tính B thích hợp, sử dụng các dữ liệu đó cho các yêu cầu sau: 1Thực hiện phương pháp phân tổ dữ liệu A.. 3 Tính các đặc trưng mẫu
Trang 1TRƯỜNG ĐẠI HỌC BÁCH KHOA TP HỒ CHÍ MINH
- Nguyễn Văn Long 1412096 L10-B
- Trần Công Hậu 1411154 L06-A
- Trần Trọng Phát 1412851 L10-B
Trang 2Bài 1: Tìm một dữ liệu định lượng (A) và một dữ liệu định tính (B) thích hợp, sử dụng
các dữ liệu đó cho các yêu cầu sau:
1)Thực hiện phương pháp phân tổ dữ liệu (A)
2)Vẽ đồ thị phân phối tần số và đa giác tần số (A)
3) Tính các đặc trưng mẫu và ước lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 93% (A)
4)Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị
5) Hãy kiểm định xem dữ liệu (A) hoặc (B) có phù hợp với 1 phân bố xác suất nào
Trang 31/ Thực hiện phân tổ dữ liệu (A):
Nhập dữ liệu (A) vào Excel:
Xác định số tổ cần chia: k=(2 n)13
Chọn ô A6 nhập vào biểu thức: =(2*COUNT(A1:J4))^(1/3)
Kết quả: 4.31
Chọn k = 4
Trang 4 Xác định số khoảng cách h theo công thức: h=x max −x min
k
Chọn ô B6 nhập vào công thức: =(MAX(A1:J4)-MIN(A1:J4))/4
Kết quả: 2
Chọn h = 2
Trang 5 Lập ra các tổ chia được từ giá trị h=2
Cận trên và cận dưới của các tổ:
Tổ 1 2 – 4
Tổ 2 4 – 6
Tổ 3 6 – 8
Tổ 4 8 – 10
Nhập vào các ô K6 đến K10 lần lượt các giá trị:
Chọn chức năng Data/Data Analysis/Histogram
Input Range: Địa chỉ tuyệt đối chứa dữ liệu
Bin Range: Địa chỉ chứa bảng phân nhóm
Output Options: Vị trí xuất kết quả
Confidence Lever for Mean: Độ tin cậy cho trung bình
Chọn Cumulative Percentage để tính tần suất tích lũy nếu không Excel sẽ chỉ tính tần số
Trang 6dụng bảng phân phối tần số
dữ liệu (A)
giá trị 0vào đầu và cuối bảng phân phối tần số
Trang 7 Quét B2:B7, dung các chức năng Insert Line Chart trên manu Insert.
Kết quả:
lượng giá trị trung bình của dấu hiệu quan sát với độ tin cậy 93%
(A)
bảng tính:
Trang 8 Chọn chức năng Data/Data Analysis/Descriptive Statistics
Input Range: Địa chỉ tuyệt đối chứa dữ liệu
Output Option: Vị trí xuất keesrt quả
Confidence Lever for Mean: Độ tin cậy cho trung bình
Trang 94/ Trình bày dữ liệu định tính (B) dạng phân loại bằng các đồ thị.
Nhập dữ liệu vào bảng tính:
Tính tỉ lệ sinh viên cho các ngành:
Trang 10Nhập vào C2: =(B2/$B$9), copy cho các ô còn lại.
Kết quả:
Vẽ biểu đồ đứng thể hiện số lượng sinh viên ở các chuyên ngành:
Quét chọn cột Số sinh viên (B2:B8)
Dùng chức năng Insert/Insert Column Chart/2-D Column trên manu Insert
Kết quả:
Vẽ biểu đồ tròn thể hiện tỉ lệ sinh viên ở các chuyên ngành:
Trang 11 Quét chọn cột Số sinh viên (C2:C8).
Dùng chức năng Insert/Insert Column Pie/2-D Column trên menu Insert
Kết quả:
Trang 12Bài 2:
Một giám đốc doanh nghiệp quyết định gửi 8 nhân viên của mình đi dự một lớp tập huấn
về “Dịch vụ khách hàng” Dưới đây là phản hồi của bộ phận chăm sóc khách hàng về các nhân viên được cử đi tập huấn
Tên nhânviên 3 tháng trước tập huấnSố lần phàn nàn của khách hàng3 tháng sau tập huấn
Trong trường hợp hai mẫu nhỏ (N < 30) độc lập và có phương sai
bằng nhau, bạn có thể áp dụng trắc nghiệm t đồng phương sai
(homoscedastic t-test) để so sánh giá trị trung bình của hai mẫu ấy
Với d = x₁ − x₂, ta có:
H₀: d=0 (đợt tập huấn không có hiệu quả)
H₁: d ≥ 0 hay x1> x2 (đợt tập huấn thực sự có hiệu quả)
Phương pháp kiểm định: So sánh hai trung bình với dữ liệu cặp (paired two
samples for means), phân phối Student với n=8, 1 phía Tiêu chuẩn kiểm định:
T = d−μ
s/√n T (n−1)
Trang 13Giá trị kiểm định: t= d√s2/n
Giá trị tới hạn: T =t95 %(df =7)=1,8946
Nếu t >T thì bác bỏ H₀, hay có thể kết kết luận đợt tập huấn thực sự có hiệuquả Ngược lại, nếu t ≤ T, ta thừa nhận H₀ (đợt tập huấn không có hiệu quả).Giá trị P được tính theo công thức:
_ Nhấp lần lượt chọn thẻ Data và lệnh Data Analysis
_ Chọn chương trình t- t-Test: Paired Two Sample for Means trong
hộp thoại DataAnalysis rồi nhấp nút OK
_ Trong hộp thoại t-Test: Paired Two Sample for Means, ấn định lần lượt các
Trang 14chi tiết:
+ Phạm vi của dữ liệu 1 (Variable 1 Range)
+ Phạm vi của dữ liệu 2 (Variable 2 Range)
+ Nhãn dữ liệu (Labels)
+ Ngưỡng tin cậy (Alpha)
+ Sai biệt giữa hai giá trị trung bình ước tính (Hypothesized Mean Difference)+ Phạm vi đầu ra (Output Range)
_ Sau đó chọn OK
_ Ta sẽ được kết quả trong hộp thoại sau:
Ta chú ý đến các giá trị t Stat (giá trị kiểm định t ở trên), P(T≤t) one-tail (giá trị
P của phép kiểm định) và t Critical one-tail (giá trị tới hạn T cho mức ý nghĩa
5%)
Trang 15Ta thấyt=3,6604>T =1,8946 , đồng thời với giá trị P nhỏ (0,004034), ta bác bỏ H₀
và kết luận “đợt tập huấn đã có hiệu quả”
P = 0.00403388
Bài 3:
Sau đây là số liệu về một loại báo ngày bán được ở 5 quận nội thành, số liệu lấy ở mộtđại lý bán lẻ:
Quận 1 Quận 2 Quận 3 Quận 4 Quận 5Thứ hai 254; 232 236;245 267;258 223;224 245;247
Thứ năm 235;209 197;223 243;234 213;223 224;242Lượng báo thực sự bán ra ở 5 quận có khác nhau không? Lượng báo bán ra có chịu yếu tốtác động là ngày trong tuần hay không? Kết luận với mức ý nghĩa 5%
Ta sử dụng phương pháp phân tích phương sai hai nhân tố không lặp
(two-factor ANOVA test without replication) để kiểm tra sự ảnh hưởng của hai yếu
tố “ngày bán” và “nơi bán” trên lượng báo bán ra quan sátđược
x T 2 =x T 3 =x T 4 =x T 5 =x T 6 =x T 7
Giả thiết H₁: có ít nhất một sự khác biệt về x ở một trong các nhóm
Trang 16Cơ sở lí thuyết:
Mô hình phân tích phương sai: x ij =x+α i +β j +ε ij
trong đó: α i là ảnh hưởng của điều kiện i, β ij là ảnh hưởng của điều kiện j và
Trang 17Nếu F B >F dfe dfb (1−α) thì bác bỏ yếu tố B (cột)
Trang 18Bài 4:
Khảo sát ngẫu nhiên 300 sinh viên đã tốt nghiệp cùng một chuyên ngành từ 3 trường A,
B và C sau một năm ra trường, người ta có kết quả:
Trường Đã đi làm Học tiếp Chưa có việc làm
H0: Tình trạng việc làm của sinh viên 3 trường là như nhau
H1: Tình trạng việc làm của sinh viên 3 trường khác nhau
p 0 j ≈ n 0 j
n
Trang 19Người ta đă chứng minh được rằng nếu n lớn và các TSLT không nhỏ hơn
5 thì sẽ có phân bố xấp xỉ phân bố với bậc tự do là (k–1).(r–1) Thành thử
Ho sẽ bị bác bỏ ở mức ý nghĩa nếu T > c, trong đó c là phân vị mức củaphân bố với (k - 1).(r - 1) bậc tự do
Sử dụng hàm CHITEST trong Excel: CHITEST(nij,γij), với lưu ý số lượng cácgiá trị của nij và γij phải bằng nhau
Trang 21 Biện luận và kết luận:
Ta được P = 0.438296503
Với giá trị P > α = 3 % => chấp nhận giả thiết H0
=>> Kết luận : Tình trạng việc làm của sinh viên 3 trường là như nhau
BÀI 5 Tìm một dữ liệu ngẫu nhiên hai chiều (X,Y) có kích thước n>10 để sử dụng
mô hình hồi quy tuyến tính đơn Thực hiện các yêu cầu:
1/Tìm hệ số tương quan giữa X,Y.
2/Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không?Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
3/Tìm sai số chuẩn của ước lượng.
BÀI LÀM
-Dữ liều 2 chiều (X,Y): khảo sát 12 sinh viên khoa Cơ khí trường đại học Bách
khoa TPHCM, thu được điểm số 2 môn Cơ lưu chất và Vẽ cơ khí như sau
X(cơ lưu chất) 6.5 4 4.5 8.5 6 4.5 8 7 5.5 5.5 7.5 9 9.5 7.5 6
Trang 22Y(vẽ cơ khí) 7.5 7 6 6.5 7.5 5.5 9 8 6.5 7.5 8 9.5 8 7.5 6.5
*CƠ SỞ LÝ THUYẾT
-Dạng: Bài toán kiểm định tương quan và hồi quy
-Phân tích bài toán bằng Excel
Nếu r > 0 thì X,Y tương quan thuận
Nếu r < 0 thì X,Y tương quan nghịch
Nếu r = 0 thì X,Y không tương quan
Nếu |r| = 1 thì X,Y có quan hệ hàm bậc nhất
Nếu |r| → 1 thì X, Y có tương quan chặt (tương quan mạnh)
Nếu |r| → 0 thì X, Y có tương quan không chặt (tương quan yếu)
Thực hiện
-Nhập dữ liệu vào bảng tính
Trang 23-Mở Data Analysis chọn Corroelation
- Hội thoại Correlation xuất hiện
+Input Range: phạm vi đầu vào ô (ô A1 -> ô B16)
+Grouped by:nhóm dữ liệu theo hàng hoặc cột (chọn cột)+Labels in first column: nhãn ở cột đầu tiên (chọn)
+Output Range: phạm vi dữ liệu xuất ra (ô D5)
Trang 24-Kết quả thu được:
-Từ bảng trên, ta tìm được hệ số tương quan r = 0.685417
-Kết luận: vậy X và Y có tương quan thuận
2/Quan hệ giữa X,Y có được coi như quan hệ tuyến tính hay không?Hãy ước lượng đường hồi quy tuyến tính Y theo X và biểu thị bằng hình vẽ.
Cơ sở lý thuyết
-Giả thiết kiểm định Ho: X và Y không có tương quan tuyến tính
Trang 25-Giả thiết đối H1: X và Y tương quan tuyến tính
-Vì |T| > c nên bác bỏ giả thiết Ho, chấp nhận H1
-Vậy: X và Y có tương quan tuyến tính
Trang 26-Kiểm định hệ số a, b:
+ Giả thiết Ho: Hệ số hồi quy không có ý nghĩa (=0)
+ H1: Hệ số hồi quy có ý nghĩa (≠0)
+ Trắc nghiệm t < t,n-2:chấp nhận Ho
-Kiểm định phương trình hồi quy:
+ Giả thiết Ho: “Phương trình hồi quy tuyến tính không thích hợp”
H1: “Phương trình hồi quy tuyến tính thích hợp”.+ Trắc nghiệm F < F,1,n-2: chấp nhận Ho
Thực hiện
-VàoData /Data analysis, chọn Regression
-Trong hộp thoại Regression lần lượt ấn định:
Input Y Range: phạm vi đầu vào ô (ô B1 -> ô B16)
Input X Range: phạm vi đầu vào ô (ô A1-> ô A16)
Chọn Labels (thêm nhãn dữ liệu)
Output Range: phạm vi đầu ra (ô D13)
Chọn Line Fit Plots trong Residuals để vẽ đường hồi quy
Trang 27Sau đó nhấn OK, ta có kết quả:
Trang 290.004797824<0.05 : Hệ số của X không có ý nghĩa
-Đường hồi quy tuyến tính này không thích hợp vì 0.004797824< 0.05
3/Tìm sai số chuẩn của ước lượng.
-Từ bảng SUMMARY OUTPUT, ta có:
+Đối với biến tự do (biến Y): Standard Error = 0.876479263
+Đối với biến X: Standard Error = 0.128280521
+Sai số chuẩn của đường hồi quy (Từ bảng Regression Statistics) Standard Error =
0.813680154