Xử lí số liệu hiệu suất tương đối CPU bằng phần mềm r CHỦ đề COMPUTER HARDWARE

B Phần riêng Mỗi nhóm bắt buộc tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin “kho du lieu BTL xstk xlsx” Các nhóm được yêu cầu xử lí số liệu mà mình đã chọn Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nh.

Trang 1

B Phần riêng

Mỗi nhóm bắt buộc tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát,

dự án… trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin

“kho_du_lieu_BTL_xstk.xlsx”

Các nhóm được yêu cầu xử lí số liệu mà mình đã chọn Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu ( data visialization) và mô hình dữ liệu ( model fitting)

CHỦ ĐỀ: COMPUTER HARDWARE

Tập tin “ machine.data” chứa số liệu về dữ liệu hiệu suất tương đối của CPU, được mô tả theo thời gian chu kỳ, kích thước bộ nhớ, v.v Các giá trị hiệu suất tương đối ước tính được tính bằng phương pháp hồi quy tuyến tính

Nguồn: kho_du_lieu_BTL_xstk.xlsx

Chú thích:

Vendor name ( text) : Tên nhà cung cấp ( có 30 nhà cung cấp)

Model name : Biểu tượng đặc biệt

MYCT ( nano giây) : Thời gian chu kỳ máy tính

MMIN ( kilobytes) : Bộ nhớ chính tối thiểu

MMAX (kilobytes) : Bộ nhớ chính tối đa

CACH ( kilobytes) : Bộ nhớ đệm

CHMIN ( integer) : Kênh tối thiểu tính bằng đơn vị

Trang 2

PRP (integer) : Hiệu suất tương đối

ERP (integer) : Ước tính hiệu suất tương đối từ bài báo gốc

THỰC HIỆN TRÊN RSTUDIO

Trước hết chuyển file thành “ machin.data.csv”

1 Đọc dữ liệu (Import data): Dùng lệnh read.csv() để đọc tệp tin

 setwd(“ D:/”)

 dl = read.csv (“ machine.csv”, header= TRUE)

 dl

 View dl

Output:

2 Làm sạch dữ liệu ( Data cleaning):

Trang 3

Loại bỏ các dữ liệu khuyết, chỉ giữ lại các cột dữ liệu chính và đặt tên cho chúng Code:

clean<-na.omit(dl)

names(clean) [1]<-paste(‘Vendor_name’)

names(clean)[2] <-paste(‘Model name ‘)

names(clean)[3] <-paste(‘MYCT’)

names(clean)[4] <-paste(‘MMIN’)

names(clean)[5] <-paste(‘MMAX’)

names(clean)[6] <-paste(‘CACH’)

names(clean)[7] <-paste(‘CHMIN’)

names(clean)[8] <-paste(‘CHMAX’)

names(clean)[9] <-paste(‘PRP’)

names(clean)[10] <-paste(‘ERP’)

View clean

Output:

Trang 4

Kiểm tra các dữ liệu bị khuyết trong tập tin.(Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho những dữ liệu bị khuyết này

Kiểm tra dữ liệu khuyết:

Code:

anyNA(clean)

Vậy không có dữ liệu khuyết

Trang 5

3 Làm rõ dữ liệu:

a Chuyển đổi biến

Code:

str(clean)

Output:

Các biến đã định dạng phù hợp nên không cần chuyển đổi biến

b Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị Xem một số đại lượng thống kê

Code: summary(clean)

Output:

Trang 6

Lập bảng giá trị thống kê:

Sử dụng các hàm:mean(), median(), sd(), min(), max()

Để tính các giá trị: Trung bình, Trung vị, Độ lệch chuẩn, Min, Max của các biến Sau đó xuất kết quả dưới dạng bảng

(Hàm gợi ý: mean(), median(), sd(),max(), apply(), as.data.frame(), rownames()) Các biến liên tục trong bộ dữ liệu là: MYCT,MMIN,MMAX, CACH, CHMIN, CHMAX, PRP, ERP tương ứng cột thứ 3,4,5,6,7,8,9,10 trong dữ liệu

Input:

Output:

Trang 7

Biểu diễn biểu đồ tần suất của các biến ( hist) hoặc đồ thị mật độ phân phối xác suất( plot):

- Các biến độc lập:

Code:

Output:

Trang 8

Các biến phụ thuộc: Code:

Output:

Trang 9

Biểu đồ hộp tóm lược dữ liệu Hiệu suất tương đối PRP và Hiệu suất ban đầu ERP theo các yếu tố : Thời gian chu ký (MYCT), Bộ nhớ chính tối đa ( MMAX), Bộ nhớ chính tối thiểu (MMIN),

Code:

Output:

Trang 10

Cụ thể biểu đồ phân phối của biến PRP cho từng nhóm phân loại của biến thời gian chu

kỳ máy tính (MYCT) như sau:

Trang 11

Nhận xét: Từ biểu đồ cho ta thấy trung vị hiệu suất tương đối CPU( PRP) với thời gian

chu kỳ 32 nano giây là lớn nhất, và thấp nhất ở 112 nano giây Các giá trị trung vị hiệu suất tương đối CPU tăng dần từ thời gian 17( nano giây) đến 32 (nano giây) và giảm dần

ở các thời gian ( nano giây) lớn hơn

Tương tự với các biến còn lại

4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến hiệu suất tương đối CPU

a Lập mô hình hồi quy tuyến tính bao gồm biến “PRP, ERP” là một biến phụ thuộc, và cả các biến còn lại đều là biến độc lập bằng lệnh lm().

Code:

Output:

Trang 12

Đặt giả thiết H0: không mang ý nghĩa thống kê

Giả thiết đối H1: mang ý nghĩa thống kê

Theo mô hình k_11, mức ý nghĩa lớn hơn 5% sẽ không có dấu sao nên loại biến

“CHMIN”

b Lập mô hình tuyến tính k_22 loại biến “CHMIN”

Code:

Output:

Đặt giả thiết H0: không mang ý nghĩa thống kê Giả thiết đối H1: mang ý nghĩa thống kê Theo mô hình k_22, mức tin cậy lớn hơn 5% sẽ không có dấu sao nên không loại biến nào

Trang 13

c Phân tích phương sai 2 mô hình k_11 và k_22

Code:

anova(k_11, k_22)

Output:

Đặt giả thiết H0: k_11 và k_22 có độ phù hợp như nhau

Giả thiết đối: H1 : k_11 và k_22 có độ phù hợp khác nhau

Ta thấy Pr(>F) = 0,5232 lớn hơn mức ý nghĩa 5% nên mô hình k_11 và k_22 có độ phù hợp như nhau

Mà ta thấy k_22 không loại biến nào nên k_22 phù hợp hơn

d Vẽ đồ thị biểu hiện sai số hồi quy và giá trị dự báo bằng lênh Plot()

Code:

Plot(k_22)

Output:

Trang 14

Nhận xét: Ta thấy đường màu đỏ ( Residuals) gần giá trị 0 nên sai số nhỏ => k_22 hiệu quả và hợp lí hơn Các giá trị dự báo ( Fitted values) tập trung chủ yếu trong khoảng từ 0 đến 200 Trong đồ thị có những giá trị ngoại lai, nếu khắc phục xử lí được các giá trị đó thì mô hình sẽ hiệu quả hơn nữa

III TÀI LIỆU THAM KHẢO

[1] Ngôn ngữ R và xử lý thống kê

https://timoday.edu.vn/ngon-ngu-r-va-xu-ly-thong-ke/

[2] Nguyễn Văn Tuấn Phân tích số liệu và tạo biểu đồ bằng R

https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf

[3] Rebecca Bevans, ANOVA in R: A step-by-step guide,

https://www.scribbr.com/statistics/anova-in-r/, truy cập ngày 17/04/2022

[4] Cẩm nang R cơ bản

https://epirhandbook.com/vn/basics.html

IV NGUỒN DỮ LIỆU

[1] machine.data – Truy cập từ: https://archive.ics.uci.edu/ml/machine-learning-databases/cpu-performance/

Định dạng
Số trang	14
Dung lượng	415,91 KB