Tổng quan về Stattóm tắt số liệu với Stata

[ if exp ] Được sử dụng sau câu lệnh có ý nghĩa là chỉ ápdụng câu lệnh trên một phần tập tin số liệu thỏamô tả exp sau if... cho chúng từ tổng đến N, số quan sát trong bộ số liệukhi stat

Trang 1

Mục lục

Trang

Trang 2

CHƯƠNG 1 TỔNG QUAN VỀ STATA

Loại dữ liệu

Cấu trúc lệnh trong stata

[by varlist:] command [varlist| [=exp] [if exp] [in range] [weight] [using filename][, option]

Sắp xếp biến ht theo thứ tự từ thấp đến cao (bắt buộc nếu muốn sử dụng

cú pháp by) Mô tả biến weight (biến định lượng) theo từng giá trị của biến ht

by ht, sort: summarize weight

Vừa sắp xếp biến ht theo thứ tự từ thấp đến cao và mô tả biến weight (biếnđịnh lượng) theo từng giá trị của biến ht trong một lệnh duy nhất

bysort ht: summarize weight

Vừa sắp xếp biến ht theo thứ tự từ thấp đến cao và mô tả biến weight (biến

Trang 3

Varlist là danh sách các tên biến cĩ khoảng trắng ở giữa Các cách để mơ

tả một varlist:

• Dấu *: truy xuất những biến cĩ một hoặc nhiều ký tự giống nhau

• Dấu ~: truy xuất chỉ một biến duy nhất cĩ những ký tự mong muốn

• Dấu ?: tương đương với một ký tự Tất cả các biến cĩ kiểu tương tự đều đượctruy xuất

• Dấu -: truy xuất tuất cả các biến nằm trong khoảng từ biến bên trái sang biếnbên phải

• _all: truy xuất tất cả các biến trong bộ số liệu

1 hoặc 0 : tượng trưng cho mơ tả logic là true hoặc false

< hay <= : tượng trưng cho “nhỏ hơn” hay “nhỏ hơn hoặc bằng”

> hay >= : tượng trưng cho “lớn hơn” hay “lớn hơn hoặc bằng”

Trang 4

== hay ~= : tượng trưng cho “bằng” hay “không

bằng” (đừng lẫn lộn giữa dấu gán “=” và dấu bằng

“==” vì sẽ làm sai câu lệnh)

! & | : tượng trưng cho “không” ; “và” ; “hoặc”

Toán tử số học

+ - * / ^ : tượng trương cho cộng ; trừ; nhân;chia; và mũ

Hàm toán học

sqrt(); exp(); log() : tượng trưng cho các hàm toán học.substrr(str1, n1, n2) : tượng trưng cho các hàm chuỗitrong Stata

[ if exp ]

Được sử dụng sau câu lệnh có ý nghĩa là chỉ ápdụng câu lệnh trên một phần tập tin số liệu thỏamô tả (exp) sau if

Trang 5

#/# : tượng trưng cho một phạm vi từ quan sát #đến quan sát # Ví dụ: list x in 4/6 sẽ liệt kê tất cả cácquan sát từ quan sát 4 đến quan sát 6 của biến x

f/# hay #/l : tượng trưng cho phạm vi từ quan sát đầucho đến quan sát # hay từ quan sát # đến quan sátcuối Ví dụ list x in f/79 sẽ liệt kê quan sát từ quan sátcuối cho đến quan sát 79

-#/# : tượng trưng cho phạm vi từ quan sát dưới trởlên trên Ví dụ: list -10/1 sẽ liệt kê 10 quan sát cuốicùng

[weight]

Có 4 dạng:

fweight, trọng số tần suất (frequency weight): là trọng

số dùng để xác định số quan sát trùng lắp

pweights, hay trong số lấy mẫu (sampling weights ) là

những trọng số có nghĩa là nghịch đảo xác suất màquan sát đó được tính vào vì thiết kế lấy mẫu

aweights, hay trọng số phân tích, (analytic weights) , là

những trọng số tỷ lệ nghịch đảo của phương phápcủa một quan sát; nghĩa là phương sai của quan sátthứ j được giả định bằng sigma bình phương/w_j, trong đów_j là các trọng số Về cơ bản, các quan sát đại diệntrung bình và trọng số là số nhân tố làm tăng trungbình Đối với hầu hết các lệnh, thang đo ghi chép củaaweight là không thích hợp; stata tự động lập lại thang đo

Trang 6

cho chúng từ tổng đến N, số quan sát trong bộ số liệukhi stata sử dụng chúng.

iweights, hay trọng số tầm quan trọng ( importance

weights), là các trọng số có nghĩa là “tầm quan trọng”của các quan sát trong một số trường hợp nhạy cảm.iweight không có một định nghĩa thống kê chính thức;bất cứ câu lệnh nào hỗ trợ iweight sẽ định nghĩa chínhxác làm thế nào chúng được xử lý Trong hầu hếttrường hợp, chúng được dự định để sử dụng bởi cácnhà lập trình muốn sản xuất một công thức nào đó.Chúng ta sẽ có một số biến trong bộ dữ liệu chứatrọng số Cú pháp chung là

scatter y x [aweight=y2], mfcolor(none)

Lưu ý là phải gõ vào dấu ngoặc vuông

Trang 7

Stata cho phép các chữ viết tắt; fw cho fweight, aw choaweight … Bạn có thể gõ

anova y x1 x2 x1*x2 [fw=pop]

regress avgy avgx1 avgx2 [aw=cellpop]

regress y x1 x2 x3 [pw=1/prob]

scatter y x [aw=y2], mfcolor(none)

Thêm vào đó, mỗi lệnh có ý kiến riêng của nó vềlọai trọng số “tự nhiên” Nếu bạn gõ:

regress avgy avgx1 avgx2 [w=cellpop]

Câu lệnh sẽ nói với bạn rằng loại trọng số nào đượcgiả định và biểu diễn yêu cầu như thể bạn địng rõcho lọai trọng số đó

Có một số dạng đồng nghĩa đối với một số lọai trọngsố feight có thể được xem như là tần suất (chữ viếttắt của tần suất) aeight có thể được xem như cellsize(viết tắt của cell):

anova y x1 x2 x1*x2 [freq=pop]

Trang 8

regress avgy avgx1 avgx2 [cell=cellpop]

fweights

Trọng số tần suất nhằm ám chỉ đến dữ liệu lậplại Trọng số sẽ nói với câu lệnh có bao nhiêu quansát mỗi quan sát thật sự đại diện fweights cho phépdữ liệu được lưu trữ more parsimoniously Biến có trọngsố chứa phần nguyên dương Kết quả của lệnh tươngtự như thể bạn nhân đôi mỗi quan sát tuy nhiên baonhiêu lần và chạy lệnh không có trọng số

pweights

Trọng số lấy mẫu ám chỉ nghịch đảo của xác suấtmà quan sát đó được lựa chọn Các câu lệnh cho phéppweigh về cơ bản cung cấp một option cụm () Nhữngcái này có thể được kết hợp để sản sinh những ướcđóan đối với dữ liệu lấy mẫu cụm

aweights

Trọng số aweights phân tích về cơ bản phù hợp khibạn giải quyết với dữ liệu chứa số trung bình Ví dụ,bạn có trung bình thu nhập và trung bình đặc tính củamột nhóm người Biến có trọng số chứa số người cótrung bình được tính tóan (hay một số tỷ lệ với lượngđó)

iweights

Trọng số này không có định nghĩa chính thức và làmột phân lọai tất cả Trọng số này đôi khi phản ánh

Trang 9

tầm quan trọng của quan sát và bất cứ lệnh nào hỗtrợ những trọng số như vậy sẽ định nghĩa chính xáclàm thế nào những trọng số này được xử lý

[using filename]

Phần này chỉ được dùng trong một số lệnh, ví dụ nhưinfile và outfile Sau khi sử dụng, bạn xác định một tênfile Bạn xác định tên file trong ngoặc đơn nếu nó chứakhoảng trắng hay những ký tự đặc biệt

tabulate r c, chi2 row col

Trong ví dụ này:

tabulate là lệnh

r and c là tên cácbiến

chi2, row, and col là các option

Trang 10

Không có dấu phẩy giữa các option hầu hết cácoption là toggles – chúng ám chỉ rằng có thứ gì đóđược hay không được thực hiện Cả ba lựa chọn trong vídụ trên đều là toggle Một số option có đối số Phụthuộc vào option nó có thể hỏi một số duy nhất,chuỗi hay biến hay vài biến (một varlist) hay một vàisố

1.3 NHẬP-CHUYỂN ĐỔI-XUẤT TẬP TIN SỐ LIỆU

Nhập tập tin số liệu

Stata sử dụng lệnh input cho phép nhập trực tiếp số liệu trong Stata

Cú pháp

Ví dụ

Trang 11

input id sex age adm

1 2 25 6

Chuyển đổi tập tin số liệu

Đối với các tập tin số liệu thuộc các chương trình thống kê khác nhưExcel, SPSS, SAS… chúng ta cĩ thể chuyển đổi sang tập tin Stata bằng cách sửdụng phần mềm chuyên dụng như DBMSCopy hay Stat Transfer

Đối với các tập tin số liệu được nhập dưới dạng số liệu thơ (hay cịn gọi làtập tin ASCII với đuơi là text, raw, cvs…), chúng ta sử dụng các lệnh insheet,infile và infix

infile var1 var2 var3 using

mydata.txt

Cho phép Stata nhập tập tin vớisố liệu được định dạng bằngcách sử dụng các khoảng trắnginfix var1 1-3 var2 4 str name 10-20

using “tên tập tin”.raw

Cho phép Stata chuyển tập tin sốliệu chưa định dạng khơng sử dụngtập tin định nghĩa

infix dictionary using “tên tập

tin”.raw { var1 1-3 var2 4 str name

Tạo tập tin định nghĩa cho tập tinchuyển đổi trong Stata

Trang 12

10-20 }

infix using “tên tập tin”.dct Chuyển đổi tập tin chưa định dạng sử

dụng tập tin định nghĩa

Trang 13

Ví dụ 1:

Chúng ta có tập tin Excel

Lưu tập tin Excel trên dưới dạng cvs

insheet using “đường dẫn\tên file.cvs”

Trang 14

infix 2 lines 1: str make 1-20 2: mpg 1-2 weight 3-6 price 7-10 using

"D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw",clear

Trang 15

Trong trường hợp tập tin có quá nhiều biến, chúng ta không thể làmtrực tiếp như trên mà phải tạo một tập tin định nghĩa có đuôi là dct.Khi đó, Stata mới có thể hiểu tập tin số liệu chúng ta nhập vào

infix dictionary using "D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture1\auto4.raw",clear {

infix using mydic.dct

Xuất tập tin số liệu

Sau khi xử lý xong tập tin ASCII, chúng ta có thể xuất tập tin nàydưới dạng tập tin Stata hay dưới dạng tập tin ASCII trở lại

Cú pháp

save “đường dẫn\tên file.dta” Lưu tập tin dưới dạng tập tin

Stataoutsheet “đường dẫn \tên file raw”,

replace

: lưu tập tin dưới dạng file ASCII

Trang 16

outfile “đường dẫn\tên file.raw”,

replace

lưu tập tin dưới dạng file ASCIInhưng không có dòng đầu tiên

Ví dụ

save D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.dta

outsheet D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw,replace

outfile D:\Arnaud\teaching\year 2005_06\Stata\data\Lecture 1\auto4.raw, replace

CHỨC NĂNG DO-FILE VÀ LOG FILE

Do-File

Trong nhiều trường hợp, các tập tin số liệu khác nhau có thể cùngsử dụng nhiều lệnh giống nhau cho dù chúng có tập hợp biến sốkhác nhau Để tránh việc lập lại những câu lệnh này mỗi khi thaotác, Stata có chức năng tạo một tập lệnh chung cho tất cả các tập tinsố liệu gọi là do-file

Quy trình tạo do-file

Tạo do-file

Viết câu Lệnh

Trang 17

Tạo file log

do “đường dẫn\tên do-file” Chạy do-file trên tập tin hiện hành

Quy trình tạo log file

Lưu do-file

Trang 18

log using “đường dẫn\tên log.log Tạo file log đuôi log nghĩa là file log

sẽ được xem trực tiếp dưới dạngnotepad không cần chuyển đổi

view “đường dẫn\tên log.smcl”, text Xem lại file log đã tạo trước đó

log using “đường dẫn\tên log”, append Sử dụng file log trước đó và tiếp nối

nội dung file cũlog using “đường dẫn\tên log”, replace Sử dụng file log cũ nhưng thay thế

toàn bộ nội dung cũ

Ví dụ:

log using "C:\Documents and Settings\Me\Desktop\h.smcl", text

log using "C:\Documents and Settings\Me\Desktop\h.log"

log off

log on

Trang 19

log close

LƯU VÀ SAO CHÉP ĐỒ THỊ

Với chức năng log file như vừa nói ở trên chúng ta có thể lưu trữcũng như sao chép các kết quả của phiên xử lý dưới dạng file loghay file smcl Tuy nhiên nếu trong quá trình xử lý, chúng ta có vẽ biểuđồ hay đồ thị thì log file lại không thể lưu lại các đồ thị hay biểu đồnày Do đó để lưu đồ thị cũng như cắt dán đồ thị sang một tập tinkhác chúng ta làm như sau:

Lưu đồ thị/biểu đồ

Sử dụng menu lệnh với các bước sau đây:

B1:chọn Menu File  chọn Save Graph, màn hình hiển thị cửa sổ SaveStata Graph File

B2: chọn thư mục lưu trong ô Save in

B3: chọn tên cho file graph

B4: click OK

Sao chép đồ thị/biểu đồ

Click chuột phải vào biểu đồ/đồ thị và chọn Copy Graph, chọn tập tinmuốn dán và chọn paste

HỆ THỐNG TRỢ GIÚP (HELP)

Stat có Menu Help dùng để trợ giúp người dùng trong việc sử dụngStata Nếu người dùng muốn tìm từ khóa liên quan đến Stata, người

Trang 20

dùng chỉ chọn Menu Help  Search, màn hình hiển thị cửa sổ Keyword

Search

Trong đó:

Search documentation and FAQs: sẽ cung cấp cho người sử dụng nhữngtài liệu và những câu hỏi thường được đặt ra đối với từ khoá gõvào

Search net resources: tìm tất cả các tài liệu trên mạng liên quan đến từkhoá gõ vào

Search all: tìm tất cả các thông tin liên quan đến từ khoá gõ vào.Nếu bạn biết tên một lệnh nào đó nhưng lại không biết chức năngcủa lệnh, chúng ta có thể nhờ Stata trợ giúp bằng cách chọn MenuHelp  Stata Command, màn hình hiển thị cửa sổ Stata Command

Trang 21

Gõ tên lệnh rồi nhấn OK, Stata sẽ hiện thị tất cả các thông tin liênquan đến lệnh đó như các mô tả, cách dùng các option….

CÁC GHI CHÚ KHÁC

Lệnh more

Trong quá trình Stata chạy một câu lệnh, nếu kết quả của lệnh đóquá dài, Stata chỉ hiện thị một phần kết quả trên màn hình Result.Khi đó, cuối màn hình Result sẽ xuất hiện một dòng lệnh như sau more—

Dòng lệnh này thông báo rằng kết quả chưa hiển thị ra hết Đểhiện thị nội dung phần kết quả tiếp theo chúng ta thực hiện một trong

ba cách sau:

Gõ phím trắng để xem câu trả lời ở màn hình kế tiếp

Gõ l hay enter để xem dòng tiếp

Gõ q để ngừng không hiện ra kết quả nữa để người sử dụng cóthể thực hiện được câu lệnh mới Khi đó màn hình sẽ xuất hiện Break—- màu đỏ để thông báo điều này

Quản lý Bộ nhớ

Trong nhiều trường hợp, file số liệu mà bạn tải về để xử lý có dunglượng quá lớn so với Bộ nhớ mà Stata dành để xử lý số liệu Trongtrường hợp đó, Stata sẽ xuất hiện thông báo trong cửa sổ Stata Results

No room to add more observations

R(901);

Trang 22

Khi đó chúng ta phải thay đổi số lượng bộ nhớ cấp cho khu vực dữliệu; Stata đề nghị thiết lập bộ nhớ tối thiểu là gấp 1 lần hay ½ lầnkích thước file bạn muốn tải vào bộ nhớ máy tính Chúng ta thựchiện điều này bằng câu lệnh :

set memory #m, permanently

Ngoài ra khi muốn tìm hiểu việc sử dụng bộ nhớ của Stata, bạn cóthể dùng lệnh memory hoặc query memory

Các loại biến số trong Stata

Stata cĩ 6 loại biến số khác nhau

float = số thực với độ chính xác lên đến 8.5 số thập phân

double = số thực với độ chính xác lên đến 16.5 số thập phân

byte = số nguyên từ -127 đến 100

int = số nguyên từ -32.767 đến 32.740

long = số nguyên từ -2.147.483.467 and 2.147.483.620

string = chuỗi từ 1 đến 80 ký tự đối với phiên bản Intercooled Stata, và từ 1 đến

244 ký tự đối với Stata/SE hoặc Stata/MP

Trang 23

PHÂN TÍCH CỤM (CLUSTER ANALYSIS)

egen svar=std(var) Trong trường hợp các biến không cùng đơn vị

đo lường thì phải chuẩn hóa các biến này lệnhstd

cluster singlelinkage varlist,

name(sl)

Tính simple linkage distance cho các biến giảithích Option name sẽ đặt tên cho các distance

là slcluster completelinkage varlist,

name(cl)

Tính complete linkage distance cho các biếngiải thích Option name sẽ đặt tên cho cácdistance là cl

cluster averagelinkage y1-y5,

name(al)

Tính average linkage distance cho các biến giảithích Option name sẽ đặt tên cho các distance

là alcluster kmeans varlist, k(#)

name(cluster#)

Tính kmean cho các biến giải thích Sự khácbiện của phương pháp này với 3 phương phápsimple, complete và average linkage ở chỗkmean quy định số nhóm ngay từ đầu (optionk(#)) sau đó kiểm định xem số nhóm nào phùhợp nhất

cluster stop distancetype, rule(duda)

Trang 24

Ví dụ muốn kiểm 5 nhóm thì group (1/5)cluster stop cluster# Kiểm định số nhóm của phương pháp kmean

bằng cách tính chỉ số Calinski and Harabasz.Nếu số nhóm nào có chỉ số Calinski andHarabasz lớn nhất thì chọn nhóm đó

cluster gen varname=groups(5),

name(cl)

Tạo biến có số nhóm bằng với số nhóm có Dudaand Hart nhỏ nhất đã chọn ở bước kiểm địnhnhóm

table varname, contents(mean var1

mean var2 mean var3…)

Lệnh tabstat dùng trong trường hợp số biến giảithích lớn hơn 5 biến trở lên

Ví dụ:

cluster singlelinkage y1-y5, name(sl)

cluster completelinkage y1-y5, name(cl)

cluster averagelinkage y1-y5, name(al)

Trang 25

| 3 | 0.9430 | 1.69 |

| 4 | 0.9327 | 1.95 |

| 5 | 0.9380 | 1.72 |

+ -+

Chạy kiểm định Duda and Hart cho thấy không có số nhóm nào có chỉ số

Duda khác biệt rõ rệt Đây là điểm yếu của phương pháp khoảng cách đơn khi thường gom nhóm dựa theo những đặc điểm giống nhau của các đối tượng cluster stop cl, rule(duda) groups(1/5)

Định dạng
Số trang	35
Dung lượng	205,08 KB
File đính kèm	89. METHODSSTATA MANUAL.rar (4 MB)