Phân tích dữ liệu với RPhần 3 Phân tích mô tả dữ liệu... Quy trình phân tích Kiểm tra các số liệu “bất thường” Xác định mục tiêu phân tích, thông điệp muốn chuyển tải Xác định biến
Trang 1Phân tích dữ liệu với R
Phần 3
Phân tích mô tả dữ liệu
Trang 2Nội dung
1 Quy trình phân tích
2 Dữ liệu thực tế
3 Phân tích mô tả biến liên tục
4 Phân tích mô tả biến phân nhóm (categorical)
Trang 31 Quy trình phân tích
Kiểm tra các số liệu “bất thường”
Xác định mục tiêu phân tích, thông điệp muốn
chuyển tải
Xác định biến số cần thiết (trong dataframe)
Xác định Phương pháo thống kê
Xác định lệnh/hàm trong R
Trang 4Kiểm tra số liệu “bất thường”
Xem xét số tối đa và tối thiểu
Tính hợp lý (validity)- Không có nhân viên nào
có mức lượng 100.000$ 1 tháng
Tính nhất quán (consistency) – giáo viên không thể có trình độ trung cấp
Coi chừng lẫn lộn biến
Trang 5Mục tiêu phân tích
Mô tả hay kiểm định giả thuyết
Muốn người đọc nhận những thông điệp chính nào
Phác họa bảng số liệu và biểu đồ muốn có
Đòi hỏi thời gian suy nghĩ
Trang 6Xác định biến số
Biến số có liên quan đến mục tiêu (trong
dataframe) là gì
Biến liên tục (continous) hay phân nhóm
(categorical)
Trang 7Xác định phương pháp thống kê
Phương pháp tùy thuộc vào mục tiêu và biến số
Mô tả: mean, standard deviation, median,
proportion,…
Tương quan: Regression models
So sánh hai nhóm
Trang 8Xác định hàm/lệnh trong R
Chỉ cần một số hàm/lệnh căn bản
Hàm có thể tìm trong các package
Mỗi phương phấp phân tích có thể thực hiện
bằng nhiều hàm
Có khi chỉ cần một lệnh từ một package
Trang 9Ví dụ nghiên cứu
Nghiên cứu về thu nhập và trình độ nhân viên
tại một công ty A dựa trên file số liệu
“salary.csv” chứa những thông tin sau:
id EMPLOYEE CODE mã nhân viên
salbeg BEGINNING SALARY Lương khởi điểm
sex SEX OF EMPLOYEE giới tính của nhân viên (0 - nam, 1- Nữ)
time JOB SENIORITY Thâm niên làm việc (tháng)
age AGE OF EMPLOYEE tuổi của nhân viên (năm)
salnow CURRENT SALARY lương hiện tại
edlevel EDUCATIONAL LEVEL trình độ học vấn
work WORK EXPERIENCE kinh nghiệm làm việc (năm)
jobcat EMPLOYMENT CATEGORY
loại công việc (1: văn thư, tạp vụ ; 2: Tập sự văn phòng ; 3: nhân viên bảo vệ ; 4: nhân viên có trình ĐH ; 5: lao động phổ thông ; 6: nhân viên có trình độ từ ths ; 7.nhân viên kỹ thuật)
Trang 10Package “psych” và “Hmisc”
Package “psych” và “Hmisc” rất có ích cho phân tích mô tả
Hmisc có hàm describe
“psych” có hàm
● describe
● describe.by (tên dataframe, tên biến chia nhóm, tùy biến khác)// có thế dùng lệnh? Describe.by() để tìm hiểu về hàm này
Trang 11Phân tích mô tả bằng R
>data= read.csv(“D:/salary.csv”,header = T)
>Attach(data) // lấy dataframe data ra phân tích
>library(psych) // nếu chưa có gõ lệnh instal.library(psych)
>describe(data)
>mean(age) // tính tuổi trung bình
>median (age)// tính median của tuổi
>describe(data)// biểu hiện tất cả các giá trị mô tả các biến
có trong data
Trang 12Sử dụng R cho phân tổ dữ liệu
Library (gmodels)
CrossTable (sex, digits =3) // phân tích số
lượng, tỉ lệ nhân viên theo giới tính
CrossTable (sex,jobcat, digits =3)//phân tích số lượng, tỉ lệ nhân viên theo giới tính