B Phần riêng Mỗi nhóm bắt buộc tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát, dự án trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin “kho du lieu BTL xstk xlsx” Các nhóm được yêu cầu xử lí số liệu mà mình đã chọn Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nh.
Trang 1B Phần riêng
Mỗi nhóm bắt buộc tự tìm một bộ dữ liệu thuộc về chuyên ngành của mình Khuyến khích sinh viên sử dụng dữ liệu thực tế sẵn có từ các thí nghiệm, khảo sát,
dự án… trong chuyên ngành của mình Ngoài ra sinh viên có thể tự tìm kiếm dữ liệu từ những nguồn khác hoặc tham khảo trong kho dữ liệu cung cấp trong tập tin
“kho_du_lieu_BTL_xstk.xlsx”
Các nhóm được yêu cầu xử lí số liệu mà mình đã chọn Sinh viên được tự do chọn phương pháp lý thuyết phù hợp để áp dụng phân tích dữ liệu của mình, nhưng phải đảm bảo 2 phần: Làm rõ dữ liệu ( data visialization) và mô hình dữ liệu ( model fitting)
CHỦ ĐỀ: COMPUTER HARDWARE
Tập tin “ machine.data” chứa số liệu về dữ liệu hiệu suất tương đối của CPU, được mô tả theo thời gian chu kỳ, kích thước bộ nhớ, v.v Các giá trị hiệu suất tương đối ước tính được tính bằng phương pháp hồi quy tuyến tính
Nguồn: kho_du_lieu_BTL_xstk.xlsx
Chú thích:
Vendor name ( text) : Tên nhà cung cấp ( có 30 nhà cung cấp)
Model name : Biểu tượng đặc biệt
MYCT ( nano giây) : Thời gian chu kỳ máy tính
MMIN ( kilobytes) : Bộ nhớ chính tối thiểu
MMAX (kilobytes) : Bộ nhớ chính tối đa
CACH ( kilobytes) : Bộ nhớ đệm
CHMIN ( integer) : Kênh tối thiểu tính bằng đơn vị
Trang 2PRP (integer) : Hiệu suất tương đối
ERP (integer) : Ước tính hiệu suất tương đối từ bài báo gốc
THỰC HIỆN TRÊN RSTUDIO
Trước hết chuyển file thành “ machin.data.csv”
1 Đọc dữ liệu (Import data): Dùng lệnh read.csv() để đọc tệp tin
setwd(“ D:/”)
dl = read.csv (“ machine.csv”, header= TRUE)
dl
View dl
Output:
2 Làm sạch dữ liệu ( Data cleaning):
Trang 3Loại bỏ các dữ liệu khuyết, chỉ giữ lại các cột dữ liệu chính và đặt tên cho chúng Code:
clean<-na.omit(dl)
names(clean) [1]<-paste(‘Vendor_name’)
names(clean)[2] <-paste(‘Model name ‘)
names(clean)[3] <-paste(‘MYCT’)
names(clean)[4] <-paste(‘MMIN’)
names(clean)[5] <-paste(‘MMAX’)
names(clean)[6] <-paste(‘CACH’)
names(clean)[7] <-paste(‘CHMIN’)
names(clean)[8] <-paste(‘CHMAX’)
names(clean)[9] <-paste(‘PRP’)
names(clean)[10] <-paste(‘ERP’)
View clean
Output:
Trang 4Kiểm tra các dữ liệu bị khuyết trong tập tin.(Các câu lệnh tham khảo: is.na(), which(), apply()) Nếu có dữ liệu bị khuyết, hãy đề xuất phương pháp thay thế cho những dữ liệu bị khuyết này
Kiểm tra dữ liệu khuyết:
Code:
anyNA(clean)
Vậy không có dữ liệu khuyết
Trang 53 Làm rõ dữ liệu:
a Chuyển đổi biến
Code:
str(clean)
Output:
Các biến đã định dạng phù hợp nên không cần chuyển đổi biến
b Thống kê mô tả: dùng thống kê mẫu và dùng đồ thị Xem một số đại lượng thống kê
Code: summary(clean)
Output:
Trang 6
Lập bảng giá trị thống kê:
Sử dụng các hàm:mean(), median(), sd(), min(), max()
Để tính các giá trị: Trung bình, Trung vị, Độ lệch chuẩn, Min, Max của các biến Sau đó xuất kết quả dưới dạng bảng
(Hàm gợi ý: mean(), median(), sd(),max(), apply(), as.data.frame(), rownames()) Các biến liên tục trong bộ dữ liệu là: MYCT,MMIN,MMAX, CACH, CHMIN, CHMAX, PRP, ERP tương ứng cột thứ 3,4,5,6,7,8,9,10 trong dữ liệu
Input:
Output:
Trang 7Biểu diễn biểu đồ tần suất của các biến ( hist) hoặc đồ thị mật độ phân phối xác suất( plot):
- Các biến độc lập:
Code:
Output:
Trang 8Các biến phụ thuộc: Code:
Output:
Trang 9Biểu đồ hộp tóm lược dữ liệu Hiệu suất tương đối PRP và Hiệu suất ban đầu ERP theo các yếu tố : Thời gian chu ký (MYCT), Bộ nhớ chính tối đa ( MMAX), Bộ nhớ chính tối thiểu (MMIN),
Code:
Output:
Trang 10Cụ thể biểu đồ phân phối của biến PRP cho từng nhóm phân loại của biến thời gian chu
kỳ máy tính (MYCT) như sau:
Trang 11Nhận xét: Từ biểu đồ cho ta thấy trung vị hiệu suất tương đối CPU( PRP) với thời gian
chu kỳ 32 nano giây là lớn nhất, và thấp nhất ở 112 nano giây Các giá trị trung vị hiệu suất tương đối CPU tăng dần từ thời gian 17( nano giây) đến 32 (nano giây) và giảm dần
ở các thời gian ( nano giây) lớn hơn
Tương tự với các biến còn lại
4 Xây dựng mô hình hồi quy tuyến tính để đánh giá các nhân tố có thể ảnh hưởng đến hiệu suất tương đối CPU
a Lập mô hình hồi quy tuyến tính bao gồm biến “PRP, ERP” là một biến phụ thuộc, và cả các biến còn lại đều là biến độc lập bằng lệnh lm().
Code:
Output:
Trang 12Đặt giả thiết H0: không mang ý nghĩa thống kê
Giả thiết đối H1: mang ý nghĩa thống kê
Theo mô hình k_11, mức ý nghĩa lớn hơn 5% sẽ không có dấu sao nên loại biến
“CHMIN”
b Lập mô hình tuyến tính k_22 loại biến “CHMIN”
Code:
Output:
Đặt giả thiết H0: không mang ý nghĩa thống kê Giả thiết đối H1: mang ý nghĩa thống kê Theo mô hình k_22, mức tin cậy lớn hơn 5% sẽ không có dấu sao nên không loại biến nào
Trang 13c Phân tích phương sai 2 mô hình k_11 và k_22
Code:
anova(k_11, k_22)
Output:
Đặt giả thiết H0: k_11 và k_22 có độ phù hợp như nhau
Giả thiết đối: H1 : k_11 và k_22 có độ phù hợp khác nhau
Ta thấy Pr(>F) = 0,5232 lớn hơn mức ý nghĩa 5% nên mô hình k_11 và k_22 có độ phù hợp như nhau
Mà ta thấy k_22 không loại biến nào nên k_22 phù hợp hơn
d Vẽ đồ thị biểu hiện sai số hồi quy và giá trị dự báo bằng lênh Plot()
Code:
Plot(k_22)
Output:
Trang 14Nhận xét: Ta thấy đường màu đỏ ( Residuals) gần giá trị 0 nên sai số nhỏ => k_22 hiệu quả và hợp lí hơn Các giá trị dự báo ( Fitted values) tập trung chủ yếu trong khoảng từ 0 đến 200 Trong đồ thị có những giá trị ngoại lai, nếu khắc phục xử lí được các giá trị đó thì mô hình sẽ hiệu quả hơn nữa
III TÀI LIỆU THAM KHẢO
[1] Ngôn ngữ R và xử lý thống kê
https://timoday.edu.vn/ngon-ngu-r-va-xu-ly-thong-ke/
[2] Nguyễn Văn Tuấn Phân tích số liệu và tạo biểu đồ bằng R
https://cran.r-project.org/doc/contrib/Intro_to_R_Vietnamese.pdf
[3] Rebecca Bevans, ANOVA in R: A step-by-step guide,
https://www.scribbr.com/statistics/anova-in-r/, truy cập ngày 17/04/2022
[4] Cẩm nang R cơ bản
https://epirhandbook.com/vn/basics.html
IV NGUỒN DỮ LIỆU
[1] machine.data – Truy cập từ: https://archive.ics.uci.edu/ml/machine-learning-databases/cpu-performance/