1. Trang chủ
  2. » Tất cả

Phân tích dữ liệu với r phần 3 phân tích mô tả dữ liệu

12 2,3K 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 12
Dung lượng 141,01 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phân tích dữ liệu với RPhần 3 Phân tích mô tả dữ liệu... Quy trình phân tích Kiểm tra các số liệu “bất thường”  Xác định mục tiêu phân tích, thông điệp muốn chuyển tải  Xác định biến

Trang 1

Phân tích dữ liệu với R

Phần 3

Phân tích mô tả dữ liệu

Trang 2

Nội dung

 1 Quy trình phân tích

 2 Dữ liệu thực tế

 3 Phân tích mô tả biến liên tục

 4 Phân tích mô tả biến phân nhóm (categorical)

Trang 3

1 Quy trình phân tích

Kiểm tra các số liệu “bất thường”

Xác định mục tiêu phân tích, thông điệp muốn

chuyển tải

Xác định biến số cần thiết (trong dataframe)

Xác định Phương pháo thống kê

 Xác định lệnh/hàm trong R

Trang 4

Kiểm tra số liệu “bất thường”

 Xem xét số tối đa và tối thiểu

Tính hợp lý (validity)- Không có nhân viên nào

có mức lượng 100.000$ 1 tháng

 Tính nhất quán (consistency) – giáo viên không thể có trình độ trung cấp

 Coi chừng lẫn lộn biến

Trang 5

Mục tiêu phân tích

 Mô tả hay kiểm định giả thuyết

 Muốn người đọc nhận những thông điệp chính nào

 Phác họa bảng số liệu và biểu đồ muốn có

Đòi hỏi thời gian suy nghĩ

Trang 6

Xác định biến số

 Biến số có liên quan đến mục tiêu (trong

dataframe) là gì

 Biến liên tục (continous) hay phân nhóm

(categorical)

Trang 7

Xác định phương pháp thống kê

 Phương pháp tùy thuộc vào mục tiêu và biến số

 Mô tả: mean, standard deviation, median,

proportion,…

 Tương quan: Regression models

 So sánh hai nhóm

Trang 8

Xác định hàm/lệnh trong R

 Chỉ cần một số hàm/lệnh căn bản

 Hàm có thể tìm trong các package

 Mỗi phương phấp phân tích có thể thực hiện

bằng nhiều hàm

 Có khi chỉ cần một lệnh từ một package

Trang 9

Ví dụ nghiên cứu

 Nghiên cứu về thu nhập và trình độ nhân viên

tại một công ty A dựa trên file số liệu

“salary.csv” chứa những thông tin sau:

id EMPLOYEE CODE mã nhân viên

salbeg BEGINNING SALARY Lương khởi điểm

sex SEX OF EMPLOYEE giới tính của nhân viên (0 - nam, 1- Nữ)

time JOB SENIORITY Thâm niên làm việc (tháng)

age AGE OF EMPLOYEE tuổi của nhân viên (năm)

salnow CURRENT SALARY lương hiện tại

edlevel EDUCATIONAL LEVEL trình độ học vấn

work WORK EXPERIENCE kinh nghiệm làm việc (năm)

jobcat EMPLOYMENT CATEGORY

loại công việc (1: văn thư, tạp vụ ; 2: Tập sự văn phòng ; 3: nhân viên bảo vệ ; 4: nhân viên có trình ĐH ; 5: lao động phổ thông ; 6: nhân viên có trình độ từ ths ; 7.nhân viên kỹ thuật)

Trang 10

Package “psych” và “Hmisc”

 Package “psych” và “Hmisc” rất có ích cho phân tích mô tả

 Hmisc có hàm describe

 “psych” có hàm

● describe

● describe.by (tên dataframe, tên biến chia nhóm, tùy biến khác)// có thế dùng lệnh? Describe.by() để tìm hiểu về hàm này

Trang 11

Phân tích mô tả bằng R

>data= read.csv(“D:/salary.csv”,header = T)

>Attach(data) // lấy dataframe data ra phân tích

>library(psych) // nếu chưa có gõ lệnh instal.library(psych)

>describe(data)

>mean(age) // tính tuổi trung bình

>median (age)// tính median của tuổi

>describe(data)// biểu hiện tất cả các giá trị mô tả các biến

có trong data

Trang 12

Sử dụng R cho phân tổ dữ liệu

 Library (gmodels)

 CrossTable (sex, digits =3) // phân tích số

lượng, tỉ lệ nhân viên theo giới tính

 CrossTable (sex,jobcat, digits =3)//phân tích số lượng, tỉ lệ nhân viên theo giới tính

Ngày đăng: 18/11/2020, 14:00

TỪ KHÓA LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w