2 Yêu cầu và dữ liệu cho bài tập lớn2.1 Hoạt động 1 Tập tin heat_data được thu thập với mục tiêu đánh giá các nhân tố ảnh hưởng đến mức độ thu nhiệt và toả nhiệt của các ngôi nhà.. Trong
Hoạt động 1
Các biến chính trong bộ dữ liệu
•X8 - Phân bố khu vực dán kính
Các bước thực hiện
1 Đọc dữ liệu (Import data):heat_data.csv
2 Làm sạch dữ liệu (Data cleaning): NA (dữ liệu khuyết)
3 Làm rõ dữ liệu: (Data visualization)
(a) Chuyển đổi biến (nếu cần thiết).
(b) Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị.
4 Mô hình hồi quy tuyến tính : Sử dụng một mô hình hổi quy tuyến tính phù hợp để đánh giá các nhân tố tác động đến mức độ thu nhiệt của các ngôi nhà.
5 t.test: Đề xuất một kiểm định phù hợp để so sánh trung bình mức thu nhiệt và toả nhiệt của các ngôi nhà.
Hoạt động 2
Sinh viên nên tự tìm kiếm một bộ dữ liệu liên quan đến chuyên ngành của mình, khuyến khích sử dụng dữ liệu thực tế từ các thí nghiệm, khảo sát hoặc dự án Ngoài ra, sinh viên có thể tìm kiếm dữ liệu từ các nguồn khác hoặc tham khảo kho dữ liệu trong tập tin "kho_du_lieu_BTL_xstk.xlsx".
Sinh viên có quyền lựa chọn phương pháp lý thuyết phù hợp để phân tích dữ liệu, nhưng cần chú trọng vào hai yếu tố quan trọng: làm rõ dữ liệu thông qua trực quan hóa (data visualization) và thực hiện mô hình dữ liệu (model fitting).
Hồi quy tuyến tính bội
Mô hình hồi quy bội
Giả sửYphụ thuộc vào k biến độc lậpX1 Xk Mô hình hồi quy tuyến tính bội có dạng:
Trong mô hình hồi quy, α là điểm cắt của đường thẳng hồi quy với trục Y, trong khi βi là các hệ số hồi quy riêng, thể hiện mức độ biến thiên của Y khi Xithay đổi một đơn vị, với các biến khác giữ nguyên.
U: sai số trong phép hồi quy, tương tự như với hồi quy đơn giản.
Phương trình hồi quy bội của mẫu
Gọi các hệ sốa, b1, bklà ước lượng choα, β1, βkđược xác định bởi phương pháp bình phương cực tiểu: f n
Từ điều kiện trên ta có hệ: δf δa= 0,δf δb1
= 0, δf δbk= 0 Giải hệ phương trình sẽ thu đượca, b1, bk
Phương trìnhy=a+b1x1+ +bk+xkđược gọi là phương trình hồi quy bội của mẫu.
Chúng ta có thể tìm nghiệm bằng phương pháp ma trận, mặc dù các phương pháp thủ công thường phức tạp Với sự phát triển của khoa học hiện đại, nhiều công cụ đã ra đời để phát triển mô hình dựa trên dữ liệu có sẵn Tuy nhiên, cần đảm bảo các giả thiết cơ bản.
•Các biếnXiđộc lập với nhau.
Khoảng tin cậy của hệ số hồi quy
Mô hình hồi quy tuyến tính bội có dạng:
Để ước lượng khoảng của các hệ số trong hồi quy đơn giản, ta có thể sử dụng công thức sau: khoảng ước lượng của hệ số $\alpha_i$ với độ tin cậy $(1 - \alpha) = 100\%$ được xác định bởi $a_i - t_{\alpha/2}(n-k-1)S_a < \alpha < a_i + t_{\alpha/2}(n-k-1)S_a$ Tương tự, khoảng ước lượng của hệ số $\beta_i$ với độ tin cậy $(1 - \alpha) = 100\%$ được tính bằng $b_i - t_{\alpha/2}(n-k-1)S_{b_i} < \beta < b_i + t_{\alpha/2}(n-k-1)S_{b_i}$.
Kiểm định tham số hồi quy tổng thể
Ta làm tương tự như đối với kiểm định của hồi quy đơn giản, trường hợpβi= 0thìXivà
Không có mối quan hệ nào giữa \(X_i\) và \(Y\) khi \(α_i > 0\) và \(β_i < 0\), cho thấy mối quan hệ thuận (nghịch) Phương pháp này được gọi là phương pháp loại biến dần trong xây dựng mô hình hồi quy Chúng ta sẽ loại bỏ từng biến một dựa vào giá trị p kiểm định lớn.
Phân tích phương sai hồi quy
Tương tự như hồi quy đơn giản, ta có:
Hệ số \( R^2 \) thể hiện mức độ chặt chẽ giữa biến phụ thuộc \( Y \) và các biến độc lập \( X_i \), cho biết phần trăm biến thiên của \( Y \) có thể được giải thích bởi sự biến thiên của các biến \( X_i \) Nghiên cứu thường mong muốn \( R^2 \) càng cao càng tốt; tuy nhiên, \( R^2 \) không giảm khi thêm nhiều biến vào mô hình, dẫn đến việc hệ số này có thể tăng lên chỉ nhờ vào số lượng biến Để khắc phục nhược điểm này, người ta đã phát triển hệ số điều chỉnh \( R^2 \), giúp xác định chính xác hơn mức độ phụ thuộc của \( Y \) vào các biến \( X \).
•Hệ số đó điều chònh
Giới thiệu về thống kê mô tả
Thống kê mô tả là công cụ quan trọng để tóm tắt và mô tả các đặc tính cơ bản của dữ liệu thu thập từ nghiên cứu thực nghiệm Nó giúp người nghiên cứu hiểu rõ hơn về các tính chất của bộ dữ liệu thông qua các tóm tắt ngắn gọn về mẫu và các thông số Các thông số xu hướng tập trung, như giá trị trung bình, trung vị và độ lệch chuẩn, là những loại thống kê mô tả phổ biến nhất Trong đề tài này, chúng ta sẽ khám phá một số khái niệm liên quan đến thống kê mô tả.
•Giá trị trung bình (mean)
Giá trị trung bình là đại lượng phổ biến nhất để đo lường giá trị trung tâm của dữ liệu Nó được tính bằng cách cộng tất cả các số liệu trong tập dữ liệu và sau đó chia cho số lượng dữ liệu Công thức tính giá trị trung bình là: \$\bar{x} = \frac{\sum_{i=1}^{n} x_i}{n}\$.
Trong đó: xlà giá trị trung bình mẫu. xilà phần tử thứicủa mẫu. nlà số lượng phần tử của mẫu.
Trung vị là giá trị phân chia một mẫu, quần thể, hoặc phân bố xác suất thành hai nửa, với số lượng giá trị nhỏ hơn và lớn hơn trung vị là bằng nhau Cụ thể, một nửa quần thể có giá trị nhỏ hơn hoặc bằng trung vị, trong khi nửa còn lại có giá trị lớn hơn hoặc bằng Để xác định trung vị của một danh sách số, ta cần sắp xếp các quan sát theo thứ tự tăng dần và chọn giá trị nằm ở giữa Nếu số lượng quan sát là chẵn, trung vị sẽ là trung bình của hai giá trị ở giữa Công thức tính trung vị là \( i = \frac{n + 1}{2} \).
- i lẻ:median= X [ i ] +X 2 [ i ]+1 với [i] là phần nguyên của i
•Cực đại mẫu(max), cực tiểu mẫu(min): lần lượt là giá trị lớn nhất và nhỏ nhất trong một danh sách
•Độ lệch chuẩn (Standard deviation)
Độ lệch chuẩn là một đại lượng thống kê mô tả mức độ phân tán của dữ liệu trong bảng tần số Độ lệch chuẩn của mẫu được tính theo một công thức cụ thể.
X i là phần tử thứ i của mẫu
Xlà trung bình (mean) của mẫu nlà số phần tử của mẫu
4 Sử dụng R giải quyết bài toán
Tiếp theo, ta sẽ sử dụng phần mềm R để tính toán trên số liệu của mỗi hoạt động.
Hoạt động 1
Nhập dữ liệu từ file heat_data.csv
•Gọi các thư viện cần thiết
•Dùng lệnhread.csvtrong R và import fileheat_data.csv.
Hình 1: Import data từ heat_data.csv
Sau khi đã import được dữ liệu vào trong chương trình, ta có thể kiểm tra bằng lệnh view(heat_data).
Hình 2: heat_data sau khi được import
Làm sạch dữ liệu
Dữ liệu sau khi được nhập vào có khả năng bị lỗi và gây ảnh hưởng tới kết quả của bài toán.
Để đảm bảo chất lượng dữ liệu, việc làm sạch dữ liệu đầu vào là rất cần thiết Để xác định số lượng dữ liệu bị khuyết, chúng ta có thể sử dụng hàm colSums() kết hợp với hàm is.na().
Hình 3: Kiểm tra dữ liệu khiếm khuyết
Nhận xét: tất cả các cột khi kiểm tra bằng lệnh is.na() không có bất kì dữ liệu khuyết nào trongheat_data.
a Một số thông số của dữ liệu
Trong phần này, chúng ta sẽ khảo sát dữ liệu bằng cách tính toán các giá trị trung bình, trung vị, phương sai, độ lệch chuẩn, cũng như xác định giá trị thấp nhất và cao nhất của dữ liệu Để kiểm tra toàn bộ các dữ liệu này, chúng ta sẽ thực hiện các bước cần thiết.
Hình 4: Các trị số của mức độ tỏa nhiệt của ngôi nhà
Bảng thống kê các giá trị khảo sát
Hình 5: Các trị số của mức độ tỏa nhiệt của ngôi nhà
Biểu đồ trực quan
Việc thống kê dữ liệu chỉ dựa vào số liệu có thể gặp khó khăn Do đó, trong phần này, chúng tôi sẽ trình bày dữ liệu thông qua các đồ thị trực quan, nhằm đưa ra những nhận xét tổng quát và dự đoán dựa trên các thông tin được mô tả trong đồ thị.
Ta sẽ xét trên hai loại biểu đồ chính là biểu đồ phổ (histogram) và biểu đồ hộp (boxplot).
Biểu đồ phổ để phân tích dữ liệu dựa trên hai giá trịy1-Mức độ thu nhiệt vàY2-Mức độ tỏa nhiệt.
Hình 6: Vẽ biểu đồ phổ và biểu đồ hỗ trợ phân tích
Dưới đây là biểu đồ mô tả hai giá trị thu và tỏa nhiệt của ngôi nhà
Hình 7: Biểu đồ phổ mô tả mức độ thu/tỏa nhiệt của ngôi nhà
Cả hai biểu đồ đều có hình dạng tương tự, cho thấy mức độ ổn định trong việc thu và tỏa nhiệt của ngôi nhà Tuy nhiên, sự không ổn định lại xuất hiện trong quá trình thu hoặc tỏa nhiệt theo nhiệt độ Dưới mỗi biểu đồ là hình vẽ mô tả cho các biểu đồ phổ, giúp minh họa rõ hơn về mối quan hệ này.
Biểu đồ hộp là một công cụ phổ biến trong thống kê mô tả, giúp thể hiện rõ ràng các vị trí phân bố của dữ liệu, bao gồm giá trị lớn nhất (max), giá trị nhỏ nhất (min), tứ phân vị phần nhất (Q1), tứ phân vị phần ba (Q3) và trung vị (median).
Chúng ta sẽ phân tích mức độ thu và tỏa nhiệt của ngôi nhà dựa trên hai yếu tố quan trọng: X2 - Diện tích bề mặt, tức là tổng diện tích mà ngôi nhà tiếp xúc với môi trường để nhận và tỏa nhiệt, và X6 - Định hướng, chỉ khu vực mà ngôi nhà sẽ nhận nhiệt trực tiếp từ môi trường.
Hình 8: Vẽ biểu đồ thu nhiệt
Hình 9: Vẽ biểu đồ tỏa nhiệt
Biểu đồ mức độ ảnh hưởng của các yếu tố đang xét đến mức độ thu/tỏa nhiệt của ngôi nhà
Hình 10: Biểu đồ hộp mô tả mức độ thu nhiệt của ngôi nhà qua diện tích bề mặt và định hướng
•Ảnh hưởng của diện tích bề mặt (phía trên):
Biểu đồ cho thấy diện tích bề mặt ảnh hưởng lớn đến nhiệt độ của ngôi nhà, với sự không đồng đều Cụ thể, trong khoảng diện tích từ 514.5 đến 661.5, nhiệt độ hấp thu cao, đặc biệt là tại 637, với độ chênh lệch gần 15 độ Ngược lại, từ 661.5 trở đi, mức thu nhiệt giảm và ổn định hơn Tổng quan cho thấy diện tích lớn hơn dẫn đến mức độ thu nhiệt và chênh lệch thu nhiệt giảm.
•Ảnh hưởng của định hướng ngôi nhà (phía dưới):
Ảnh hưởng từ định hướng đối với nhiệt độ thu là rất nhỏ so với ảnh hưởng từ diện tích bề mặt Cụ thể, nhiệt độ thu trung bình dường như không thay đổi trong bộ định hướng đang được xem xét.
Hình 11: Biểu đồ hộp mô tả mức độ tỏa nhiệt của ngôi nhà qua diện tích bề mặt và định hướng
•Ảnh hưởng của diện tích bề mặt (phía trên):
Cả hai biểu đồ đều cho thấy những đặc điểm tương đồng về mức độ tỏa nhiệt theo diện tích, như đã được nhận xét trong phần trước thông qua biểu đồ phổ.
•Ảnh hưởng của định hướng ngôi nhà (phía dưới)
Tương tự như ảnh hưởng của diện tích bề mặt, định hướng của ngôi nhà cũng tác động đến kết quả với đặc điểm đồ thị tương tự như đồ thị thu nhiệt.
Xây dựng mô hình hồi quy tuyến tính
Dựa trên mô hình hồi quy bội đã trình bày, chúng ta sẽ phân tích tác động của các yếu tố liên quan đến biến Y1, thể hiện mức độ thu nhiệt của ngôi nhà, thông qua các biến độc lập từ dữ liệu trong file heat_data.csv.
a Ước lượng mô hình
Đâu tiên, ta sẽ kiểm tra xem mô hình hồi quy tuyến tính có xây dụng được trên tập đang xét hay không bằng lệnhlm().
Hình 12: Ước lượng mô hình Sau khi thực hiện ước lượng mô hình, kết quả thực thi như sau:
Hình 13: Mô hình ước lượng sau khi được thực thi
Ta thấy trong mô hình ước lượng có hai biến không cần thiết đó làX4vì không độc lập và
X6vì không có giá trị thống kê Do đó, ta sẽ loại bỏ hai biến đó trong mô hình hồi quy.
Hình 14: Mô hình ước lượng sau khi đã loại bỏ các biến không cần thiết
b Kiểm định và lựa chọn mô hình
Ta sẽ kiểm định mô hình thông qua đồ thị phần dư.
Hình 15: Vẽ đồ thị phần dư mô tả mô hình ước lượng Đồ thị sau khi vẽ như sau:
Đồ thị phần dư mô tả mô hình ước lượng cho thấy giả thiết về tính tuyến tính của dữ liệu bị vi phạm nhẹ, nhưng giả thiết trung bình của phần dư vẫn thỏa mãn Đồ thị Normal Q-Q xác nhận rằng phần dư có phân phối chuẩn Đồ thị Scale - Location cho thấy giả thiết về tính đồng nhất của phương sai cũng được thỏa mãn Cuối cùng, đồ thị thứ tư chỉ ra rằng các quan trắc thứ 16 và 28 có thể là những điểm có ảnh hưởng cao trong bộ dữ liệu.
c Dự báo cho mô hình
Tiếp theo ta sẽ thực hiện một số dự báo về giá trị trung bình trong mô hình trên.
Hình 17: Dự báo giá trị trung bình
d Xuất kết quả của phép hồi quy
Từ những số liệu ở trên, ta có thể xuất kết quả hệ số hồi quy tuyến tính cho mức độ thu nhiệt như sau:
T.test
Nhóm tác giả đã sử dụng kiểm định giả thuyết với trường hợp 2 mẫu độc lập (independent t-test) nhằm so sánh trung bình mức thu nhiệt và tỏa nhiệt của ngôi nhà.
Mặc dù đồ thị phân phối của mức thu nhiệt và tỏa nhiệt không tuân theo phân phối chuẩn, nhưng với cỡ mẫu lớn hơn 800, mức trung bình có thể được xem là tiến tới phân phối chuẩn mà không ảnh hưởng đến kiểm định.
•Giả thuyết H0: Trung bình mức thu nhiệt và tỏa nhiệt của ngôi nhà là bằng nhau
•Đối thuyết H1: Trung bình mức thu nhiệt khác trung bình mức tỏa nhiệt.
Nhận xét: Từ kết quả phân tích, ta thu được:
- p-value = 5.592e-06 (bé hơn nhiều so mức ý nghĩa a = 0.05) nên ta bác bỏ giả thuyết H0, chấp nhận H1.
Hoạt động 2
Giới thiệu
Nhóm đề xuất chủ đề liên quan đến máy tính, cụ thể là phân tích dữ liệu hiệu suất của CPU Đánh giá hiệu suất này dựa trên việc phân loại các thiết bị và phân tích tác động của các thuộc tính khác đến hiệu suất của CPU.
Bộ dữ liệu được thu thập bởiPhillip Ein-Dor and Jacob Feldmesservà được tài trợ bởiDavid
Giải thích các biến liên quan đế bộ dữ liệu:
V1 Vendor name: bao gồm 30 tên hãng sản xuất thiết bị khác nhau
The article discusses various influential companies and technologies in the computing industry, including Amdahl, Apollo, BASF, and IBM It highlights the significance of firms like Honeywell, HP, and Siemens in shaping technological advancements Additionally, it mentions the contributions of Microdata, NCR, and Sperry, along with the evolution of systems such as the four-phase formation and the role of CDC and DEC in the development of computing solutions The impact of these entities on the industry is underscored, showcasing their legacy and ongoing relevance.
V2 Model Name: Gồm nhiều ký tự biểu diễn các model khác nhau
V3 MYCT: Chu kỳ biểu diễn ở nanoseconds (integer)
V4 MMIN: Bộ nhớ tổi thiểu ở kilobytes (integer)
V5 MMAX: Bộ nhớ tối đa ở kilobytes (integer)
V6 CACH: Bộ nhớ cache ở kilobytes (integer)
V7 CHMIN: Các kênh tối thiểu (integer)
V8 CHMAX: Các kênh tối đa (integer)
V9 PRP: Hiệu suất tương đối được công bố (integer)
V10 ERP: Hiệu suất tương đối được ước tính từ bài báo gốc (integer)
a Đọc dữ liệu
Dữ liệu được lấy từ file machine_data.data Các bước thực hiện như sau đây:
•Khai báo các thư viện cần thiết bao gồm (dplyr, ggplot2, car)
•Đọc dữ liệu từ file data bằng hàm read_table(), các dữ liệu được phân cách bởi dấu ",".
•Kiểm tra và làm sạch dữ liệu bằng hàm colsums() và is.na() Tuy nhiên, dữ liệu hoàn toàn đã sạch không có giá trị NaN hay NA (hình 20)
1 #1/ Libr ar y decl ara ti on
7 ma ch ine _ da ta = read.t ab le(" m achi ne data ", sep = " , ")
9 #3/ Da ta cl ea ni ng
10 col Sums (is.na(ma chin e _ data ) )
Hình 18: Code nhập dữ liệu từ machine_data.data
Hình 19: Hình ảnh dữ liệu thu thập được
Hình 20: Data hoàn toàn sạch, không có giá trị NA
b Thống kê mô tả
Ở đõy ta chò dựng dữ liệu từ cỏc tham số từ 3 đến 10 để thống kờ mụ tả cỏc dữ liệu định lượng.
1 ## Th ong ke mo ta
2 Mean = apply (m achi ne _ data[3:10] , 2 , mean )
3 Med ian = apply (m achi ne _ data [3:10] , 2 , median )
4 Var = ap ply (m ac hin e _ da ta [3:10] , 2 , var )
5 Sd = ap ply (m ac hin e _ da ta [3:10] , 2 , sd )
6 Min = ap ply (m ac hin e _ da ta [3:10] , 2 , min )
7 Max = ap ply (m ac hin e _ da ta [3:10] , 2 , max )
8 summary.ta ble = data.fra me( Mean , Median , Var , Sd , Min , Max )
Hình 21: Code tạo bảng thống kê các thông số định lượng
Kết quả của bảng thống kê như sau:
Hình 22: Bảng thống kê các thông số
Chúng ta sẽ phân loại hiệu suất CPU theo từng nhà sản xuất để xác định những nhà sản xuất nào đáp ứng tiêu chí và nổi bật hơn so với các đối thủ khác.
1 ## P ha n lo ai theo ve ndor nam es
3 Ven dor = unique(ma chin e _ data $V1 )
13 Pe rfo rman ce ta ble = data.fram e( Vend or , M ax Per for ma nce , M in Per for ma nce )
Hình 23: Code phân loại hiệu suất theo các nhà sản xuất
Hình 24: Bảng thống kê các nhà sản xuất theo thứ tự hiệu suất CPU
Tuy nhiên để dễ quan sát hiệu suất phân bố theo các nhà sản xuất khác nhau, ta biểu diễn dưới dạng đồ thị như sau:
1 ggp lo t (mach ine _ data, aes (x = V1 , y = V 10 ) ) +
2 geom_po in t ( color = " d arkg reen ", si ze = 3 , al pha = 1) +
3 labs (titl e = " Cl ass if ic ati on of ve ndo rs ba sed on es ti ma te d rel ativ e CPU pe rf orma nce ",
7 the me (axis.text x = e le men t_text( an gl e = 90) )
Hình 25: Code biểu diễn đồ thị hiệu suất theo các nhà sản xuất
Hình 26: Đồ thị biểu diễn hiệu suất theo các nhà sản xuất
Theo đồ thị, Amdahl sở hữu CPU hiệu quả nhất so với các doanh nghiệp khác, do Gene Amdahl - một kỹ sư quan trọng tại IBM và tác giả của định luật Amdahl - điều hành Bên cạnh đó, các nhà sản xuất như Sperry và Nas cũng cung cấp những CPU có hiệu suất tốt Tuy nhiên, hiệu suất của các CPU chủ yếu tập trung trong khoảng từ 0-100.
Sau đây ta sẽ khảo sát sự tương quan giữa các yếu tố linh kiện phần cứng ảnh hưởng đến hiệu suất của CPU.
1 sc att erp lot Mat rix (m achi ne _ data [3:10])
Hình 27: Code ma trận đồ thị Scatter giữa các thông số
Hình 28: Ma trận đồ thị Scatter giữa các thông số
Đồ thị histogram của các thông số linh kiện phần cứng cho thấy sự lệch phải, với phần lớn giá trị nằm bên trái và một số điểm ngoại lai ở bên phải Đối với chu kỳ hoạt động V3, đồ thị chủ yếu có hình dạng Reverse J, tương tự như phân phối mũ, cho thấy rằng chu kỳ hoạt động nhỏ hơn dẫn đến hiệu suất cao hơn Ngoài ra, các thông số như bộ nhớ tối đa, tối thiểu, bộ nhớ cache, và kênh luồng tối thiểu thường có mối quan hệ thuận với hiệu suất, tức là khi các thông số linh kiện tăng lên, hiệu suất cũng sẽ tăng theo.
a Ước lượng mô hình
Đầu tiên ta ước lượng mô hình để xem dữ liệu hiệu suất CPU sẽ được giải thích bởi các biến nào.
1 mod el.ma chin e _ data