Quản lý dữ liệu với stata TS trang 9 5 19

NỘI DUNG 14052019 2 1 • Biến số 2 • Tạo nhãn biến số 3 • Giá trị khuyết (Missing) 3 • Biến đổi biến số 4 • Biến đổi cấu trúc dữ liệu 5 • Nguyên tắc quản lý dữ liệu 1. BIẾN SỐ 1. Các loại biến số 2. Format của biến số 14052019 3CÁC LOẠI BIẾN SỐ (TYPES) Có 2 loại biến số trong Stata: • Numeric: biến số dạng số • String: biến dạng kí tự Biến số Datetime là dạng đặc biệt của biến numeric. Lưu ý: • Một số phân tích thống kê không sử dụng biến string. • Nên lưu trữ dữ liệu (data) bằng biến numeric

Trang 1

QUẢN LÝ DỮ LIỆU VỚI STATA

TS Nguyễn Thị Minh Trang

Bộ môn Thống kê – Khoa Y tế Công cộng

Đại học Y Dược TPHCM

Email: drminhtrang@gmail.com

14/05/2019

1

Trang 4

CÁC LOẠI BIẾN SỐ (TYPES)

Có 2 loại biến số trong Stata:

• Numeric: biến số dạng số

• String: biến dạng kí tự

Biến số Date-time là dạng đặc biệt của biến numeric

Lưu ý:

• Một số phân tích thống kê không sử dụng biến string

• Nên lưu trữ dữ liệu (data) bằng biến numeric

14/05/2019 4

Trang 5

CÁC LOẠI BIẾN SỐ (TYPES)

Lưu ý: màu sắc thể hiện loại biến số

14/05/2019 5

Numeric,

Labelled

Trang 6

BIẾN SỐ VÀ GIÁ TRỊ CỦA BIẾN SỐ

14/05/2019 6

Biến số

Các giá trị của

biến số

Biến số (Variable): smoke

Giá trị của biến số: nonsmoker, smoker

Trang 7

ĐỊNH DẠNG (FORMATS) BIẾN SỐ NUMERIC

1000 1000.00 001000.00

10000000 1.00e+07 1.00e+07 Exponential

Trang 8

ĐỊNH DẠNG (FORMATS) BIẾN SỐ STRING

Format biến số String (s): %ws

Ví dụ: %10s hiển thị chuỗi 10 kí tự đếm từ bên phải sang

Giá trị (Value) của biến số String:

• Để trong ngoặc kép “” Ví dụ:

generate nation=“Danish” if ph==45

• Phân biệt chữ hoa và chữ thường Ví dụ:

“Danish”, “danish”, “DANISH”

• Lưu ý: Không nhầm lẫn giữa biến String và biến Numeric được dán nhãn

14/05/2019 8

Trang 9

ĐỊNH DẠNG (FORMATS): THỰC HÀNH

1. Trong Stata, mở dataset lbw1.dta

2. Mở Data editor (browse)

3. Tại cửa sổ Command, gõ lệnh describe 14/05/2019 9

Data Editor (Browse)

Trang 10

ĐỊNH DẠNG (FORMATS): THỰC HÀNH

describe

14/05/2019 10

Trang 11

2 TẠO NHÃN (LABELLING)

1. Tạo nhãn cho biến số

2. Tạo nhãn cho giá trị biến số

14/05/2019

11

Trang 12

2. Giá trị của biến số, gồm 2 bước:

• Định nghĩa nhãn giá trị cho biến phân loại (categorical)

• Gán nhãn vừa tạo vào biến số phân loại

14/05/2019 12

Trang 13

TẠO NHÃN (LABEL): THỰC HÀNH

1. Tạo nhãn biến số “ht” trong dataset lbw1.dta:

Cách 1: Gõ lệnh

label variable ht “history of hypertension during pregnancy”

Cách 2: Trong Edit Mode, chọn bảng Properties, gõ nhãn trực tiếp vào mục Label

14/05/2019 13

Trang 14

2. Tạo nhãn cho giá trị của biến số “ht”:

Biến ht có 2 giá trị là 0: no, 1: yes

Cách 1: Gõ lệnh

Bước 1 định nghĩa nhãn giá trị:

label define htcode 0 “no” 1 “yes”

Bước 2 gán nhãn giá trị cho biến số:

label values ht htcode 14/05/2019 14

Trang 15

2. Tạo nhãn cho giá trị của biến số “ht”: Các bước thực hiện 1->9

Cách 2: Sử dụng Menu lệnh, chọn Data/ Variable Manager/ Value label/

Manage

14/05/2019 15

1

Trang 16

14/05/2019 16

2

Trang 17

5

Trang 18

14/05/2019 18

8

9

Trang 19

KIỂM TRA NHÃN

Gõ lệnh:

tab1 ht

14/05/2019 19

Trang 20

GIÁ TRỊ KHUYẾT (MISSING VALUES)

14/05/2019

20

Trang 21

CÁC GIÁ TRỊ KHUYẾT (MISSING VALUES)

Các quan sát (id) có giá trị khuyết ở bất kỳ biến số nào sẽ bị loại khỏi tính toán và

phân tích thống kê có liên quan đến biến số đó.

 Có 2 dạng missing values:

• Theo hệ thống: System missing values Thể hiện bằng dấu

• Do nhà nghiên cứu qui ước, tùy vào kiểu dữ liệu.

 Dữ liệu dạng số (năm sinh): Dấu

 Dữ liệu phân loại (categorical): a, b, c Ví dụ:

.a: Người phỏng vấn quên hỏi thông tin

.b: Người được phỏng vấn không trả lời

.c: Người được phỏng vấn trả lời “không biết” 14/05/2019 21

Trang 22

MISSING VALUES: THỰC HÀNH

Mở dataset smoke1x.dta

Kiểm tra các quan sát (id) có missing values của biến BMI:

list id bmi if missing(bmi)

Trang 23

3.BIẾN ĐỔI BIẾN SỐ

1. Tạo biến số mới: biến định lượng, biến phân loại

2. Mã hóa

3. Kiểm tra biến mới

14/05/2019

23

Trang 24

CÁC BIỂU THỨC LOGIC

14/05/2019 24

Trang 25

TẠO BIẾN SỐ MỚI: BIẾN ĐỊNH LƯỢNG

Mở dataset smoke.dta

Tạo biến “bmi” từ 2 biến “weight” và “height”

generate bmi = weight/(height^2)

Nếu đã tạo biến bmi, cần tạo lại:

replace bmi = weight/(height^2)

Lưu ý: đơn vị của biến số bmi!!!

14/05/2019 25

Trang 26

TẠO BIẾN SỐ MỚI: BIẾN PHÂN LOẠI

Tạo biến “obese1” nếu giá trị của biến số “bmi”>=30:

generate obese1 = bmi>=30

Lưu ý: cần có điều kiện loại trừ các quan sát có giá trị bmi khuyết

(missing), tạo biến obese2:

generate obese2 = bmi>=30 if !missing(bmi)

Kiểm tra lại:

list id bmi obese* if missing(bmi)

14/05/2019 26

Trang 27

Tạo biến nhóm tuổi “agegrp” gồm các giá trị <=39, 40-59, >60:

generate agegrp=0

replace agegrp=1 if age>39 & age<=59

replace agegrp=2 if age>59

tab1 agegrp

14/05/2019 27

Trang 28

Tạo biến nhóm tuổi “agegrp1” gồm các giá trị <=39, 40-59, >60:

egen agegrp1 = cut(age), at (0 40 60 150) label

tab1 agegrp1

14/05/2019 28

Trang 29

MÃ HÓA LẠI BIẾN SỐ: RECODING

Mã hóa lại biến “sex” từ 1 (male)->1, 2 (female)->0, tạo biến mới

“gender”:

Kiểm tra biến “sex”:

tab1 sex, nolabel

recode sex (1=1 “1.male”) (2=0 “0.female”), generate(gender)

label variable gender “Recode of sex” 14/05/2019 29

Trang 30

MÃ HÓA LẠI BIẾN SỐ: RECODING

Tạo biến nhóm tuổi “agegrp2” gồm các giá trị <=39, 40-59, >60:

recode age (min/39=0 “<39”) (40/59=1 “40-59”) (60/max=2 “>60”),

generate(agegrp2)

tab1 agegrp2

14/05/2019 30

Trang 31

KIỂM TRA TÍNH TOÁN

Kiểm tra biến sex, gender:

tab2 sex gender

Kiểm tra biến age, agegrp:

tabstat age, by(agegr) stat(min max)

14/05/2019 31

Trang 32

4 BIẾN ĐỔI CẤU TRÚC DATA

Trang 34

LỰA CHỌN BIẾN SỐ

Giữ lại biến số mong muốn: sex, các biến số từ age đến height theo thứ tự

keep sex age-height

Xóa biến số bmi:

drop bmi

14/05/2019 34

Trang 36

XẾP THỨ TỰ GIÁ TRỊ BIẾN SỐ

Xếp thứ tự tăng dần (ascending):

sort age

Xếp theo gsort: weight tăng dần, height giảm dần

gsort +weight -height

14/05/2019 36

Trang 38

TẠO NHẬT KÝ

Nhật ký phân tích gồm có các thành phần:

1. Ngày/ tháng/ năm: Date

2. Tên Do-file

3. Input data: Data sử dụng ban đầu

4. Output data: Data đã được thay đổi cấu trúc

5. Comments: Ghi chú lại các công việc trong phiên làm việc

(bao gồm các lưu ý đặc biệt!!!)

14/05/2019 38

Trang 39

TẠO NHẬT KÝ

Project: Smoking

Working folder C:\Smoking Project

Bỏ biến:

Tạo biến mới:

Tạo nhãn biến:

Bỏ biến:

Tạo biến mới:

Tạo nhãn biến:

Merge 2 data lbw1.dta và lbw2.dta 14/05/2019 39

Trang 40

TẠO DO-FILE

CÁC BƯỚC TẠO VÀ LÀM VIỆC VỚI DO-FILE

1. Tạo do-file khi bắt đầu các phiên làm việc với STATA

2. Lưu tên do-file theo ngày làm việc

3. Ghi chú các mục đích của các câu lệnh trong do-file, bắt đầu bằng dấu *

4. Gõ câu lệnh

5. Chạy câu lệnh

6. Ghi tên do-file vào nhật ký các phiên làm việc

14/05/2019 40

Trang 41

TẠO DO-FILE: CÁC BƯỚC THỰC HIỆN

14/05/2019 41

New Do-file editor

Bước 1 Chọn Icon New Do-file editor

1

Trang 42

TẠO DO-FILE: CÁC BƯỚC THỰC HIỆN

14/05/2019 42

Bước 2 Lưu tên do-file theo ngày thực hành

Bước 3 Mô tả mục đích câu lệnh

Dùng dấu * cho câu mô tả

2

3

4 Bước 4 Gõ lệnh

5 Bước 5 Chạy lệnh (đánh dấulệnh muốn chạy trước nếu

không chạy toàn bộ)

Trang 43

TÓM TẮT: CÁC LỆNH STATA

label variable, label define, label

values

Tạo nhãn

tab1, tab2, tabstat Tạo bảng thống kê 1 chiều, 2 chiều

list if Liệt kê quan sát theo điều kiện

generate, egen, replace Tạo biến số

keep, drop Giữ lại hoặc bỏ quan sát/ biến số

sort, gsort Xếp thứ tự quan sát/ biến số

14/05/2019 43

Trang 44

TÀI LIỆU THAM KHẢO

Sách: Introduction to Stata for Health Researchers, 4 th edition

Svend Juul and Morten Frydenberg

Web: https://www.stata.com/links/resources-for-learning-stata/

14/05/2019 44

Định dạng
Số trang	45
Dung lượng	1,01 MB