XỬ LÝ DỮ LIỆU TRONG NC MAR Nhiệm vụ tổng quát của việc xử lý dữ liệu là “chuyển hóa” những ghi chép quan sát hoặc các câu trả lời dưới dạng “thô” thành các con số thống kê theo một trật
Trang 1CHƯƠNG 7
XỬ LÝ DỮ LIỆU-ỨNG DỤNG PHẦN MỀM SPSS
NGHIÊN CỨU MARKETING
KHOA QUẢN TRỊ KINH DOANH
2
NỘI DUNG
A XỬ LÝ DỮ LIỆU
1 Các phương pháp xử lý dữ liệu;
2 Các giai đoạn xử lý dữ liệu.
B ỨNG DỤNG PHẦN MỀM SPSS
1 Giới thiệu phần mềm SPSS;
2 Chuẩn bị dữ liệu;
3 Định biến và nhập dữ liệu;
4 Các phép biến đổi và thao tác trên tập dữ liệu.
A XỬ LÝ DỮ LIỆU TRONG NC MAR
Nhiệm vụ tổng quát của việc xử lý dữ liệu là “chuyển hóa” những ghi chép quan sát hoặc các câu trả lời dưới dạng
“thô” thành các con số thống kê theo một trật tự nhất định
để chuẩn bị cho việc phân tích và diễn giải các kết quả nghiên cứu thu được
Trang 21 Các phương pháp xử lý dữ liệu
Xử lý
thủ công
Xử lý với trợ giúp của máy tính
Có 2 phương pháp xử lý dữ liệu cơ bản là :
5
2 Các giai đoạn xử lý dữ liệu
Chuẩn bị dữ liệu Nhập dữ liệu và lưu trữ
Giai đọan này gổm 3
bước:
Ø Kiểm tra và hiệu
chỉnh dữ liệu;
Ø Định biến dữ liệu;
Ø Mã hóa dữ liệu.
Giai đọan này cũng gồm 3 bước:
v Nhập dữ liệu vào máy
tính;
v Làm sạch dữ liệu;
v Lưu trữ dữ liệu.
2.1.1 Kiểm tra và hiệu chỉnh dữ liệu
Đây là bước kiểm tra chất lượng thông tin trong bảng câu hỏi nhằm đảm bảo không có bảng câu hỏi nào bị thiếu hoặc chứa đựng những thông tin sai sót theo yêu cầu thiết
kế ban đầu Người kiểm tra phải bảo đảm tính toàn vẹn và tính chính xác của từng bảng câu hỏi Thông thường ở bước này các nhà nghiên cứu sẽ tiến hành kiểm tra các đặc tính
cơ bản của bảng câu hỏi Cụ thể:
ØTính lôgíc của các câu trả lời;
Ø Tính đầy đủ của một câu trả lời và của một bảng câu hỏi;
Ø Tính hợp lý và xác thực của các câu trả lời.
Trang 32.1.1 Kiểm tra và hiệu chỉnh dữ liệu
Quá trình kiểm tra, rà soát lại bảng câu hỏi là nhằm mục đích kiểm tra, phát hiện, sửa chữa và thông báo kịp thời cho người thu thập dữ liệu để tránh những sai sót tương tự Để xử lý các sai sót phát hiện được qua kiểm tra,
ta có thể chọn cách xử lý tuỳ thuộc vào mức độ sai sót Cụ thể:
§ Trả về cho bộ phận thu thập dữ liệu nhằm làm sáng tỏ vấn đề;
§ Suy luận từ các câu trả lời khác;
§ Loại bỏ bảng câu hỏi
8
2.1.2 Định biến dữ liệu
Biến nghiên cứu là tập hợp các khái niệm có ý nghiã mô tả (định tính, định lượng ) cho mục tiêu nghiên cứu, được thể hiện bằng các ký hiệu (mã hoá) theo một qui ước nào đó Biến nghiên cứu được thể hiện và là một bộ phận không thể thiếu trong mô hình nghiên cứu
Biến nghiên cứu có thể được phân loại theo kiểu dữ
liệu (dạng thang đo) Biến định tính là biến chứa các giá
trị quan sát ở dạng thang đo biểu danh và thang đo xếp
hạng theo bậc Biến định lượng là biến chứa các giá trị
quan sát ở dạng thang đo khoảng và thang đo tỷ lệ Trong bảng câu hỏi, mỗi một câu hỏi thường phải nhằm một mục đích quan sát nào đó Do vậy, thường mỗi một câu hỏi tương ứng với một biến quan sát
Thí dụ về biến nghiên cứu
Giả sử rằng “Các yếu tố tác động đến quyết định lựa chọn (mua) mì ăn liền nhãn hiệu “Hảo Hảo” của khách hàng trên thị trường TP.HCM” là: (a1) Chất lượng SP; (a2) Khẩu vị phù hợp; (a3) Định lượng vừa đủ; (a4) Dễ dàng mua; (a5) Bao bì hấp dẫn Khi đi sâu nghiên cứu về “ chất lượng” sản phẩm, các thuộc tính cấu thành kết luận chất lượng sản phẩm tốt của mì ăn liền ”Hảo Hảo” gồm có: (a1.1) Sợi mì dai (khi ăn); (a1.2) Màu sắc của mì
và nước dùng tươi ngon; (a1.3) Có thành phần dinh dưỡng cao;
… Và các yếu tố còn lại cũng có các thuộc tính xác định chúng
Trang 4Thí dụ về biến nghiên cứu
Ở thí dụ trên các biến số: a1; a2; a3; a4 là các biến số trực tiếp (cấp 1) tác động đến quyết định lựa chọn mì ăn liến “ Hảo Hảo” Còn các biến số a1.1; a1.2; … là các biến
số cấp 2 ( Xem mô hình nghiên cứu)
Thí dụ: Với câu hỏi “ Xin vui lòng cho biết sở thích của bạn đối với sữa chua Vinamilk? -> Ta có thể định biến nghiên cứu là:
c3: Sở thích của khách hàng đối với sữa chua Vinamilk
11
2.1.3 Mã hoá dữ liệu
Mã hoá dữ liệu (Coding) là quá trình chuyển đổi các trả lời thành dạng mã số để nhập và xử lý dữ liệu Mục đích của việc mã hoá là tạo nhãn (labels) cho các câu trả lời, thường là bằng các con số, hay ký hiệu Một trả lời khi mã hoá thường sẽ thể hiện bằng 1ký tự chỉ số trả lời (số đo) Thí dụ: Với câu hỏi “ Xin vui lòng cho biết sở thích của bạn đối với sữa chua Vinamilk?
Rất ghét Ghét Tạm được Thích Rất thích
2.1.3 Mã hoá dữ liệu
Mã hoá còn giúp giảm thiểu các câu trả lời bằng cách nhóm các câu trả lời vào 1 nhóm có cùng ý nghiã Mã hoá dữ liệu làm cơ sở cho việc thống kê phân tích dữ liệu Tiến trình
mã hoá có thể được tiến hành bằng việc lập Sổ mã hoá dữ
liệu như sau:
v Xác định loại câu trả lời cho những câu hỏi tương ứng Những câu trả lời này có thể thu thập từ một mẫu các bảng câu hỏi đã hoàn tất;
v Xây dựng một danh mục liệt kê các câu trả lời;
v Gán cho các câu trả lời một nhãn hiệu, ký hiệu, một giá trị (thường là một con số cụ thể)
Trang 5TT Câu hỏi nghiên cứu Biến quan sát Mã trả lời Trả lời
1 Vui lòng cho biết giới tính
của bạn?
2 Nam Nữ
2 Xin vui lòng cho biết bạn
thuộc nhóm tuổi nào dưới
đây?
2 3 4 5
Dưới 18 tuổi
Từ 19- 25
Từ 26-35
Từ 36-45 Trên 45 tuổi
3 Xin vui lòng cho biết sở
thích của bạn đối với sữa
chua Vinamilk?
a3: Sở thích của
khách hàng đối với sữa chua Vinamilk
1 2 3 4 5
Rất ghét Ghét Tạm được Thích Rất thích
…
13
2.2 Nhập dữ liệu và lưu trữ
2.2.1- Nhập dữ liệu vào máy tính
(Inputing data into computer)
2.2.2- Làm sạch dữ liệu
(Data cleaning)
2.2.3- Lưu trữ dữ liệu
(Data saving)
2.2.1 Nhập dữ liệu vào máy tính
Bảng câu hỏi sau khi phỏng vấn, hiệu chỉnh và mã hoá dữ liệu thì công việc tiếp theo là nhập dữ liệu vào máy
Dữ liệu sau khi nhập xong ở dạng một ma trận được gọi là
Ma trận dữ liệu (data matrix) Các phần mềm xử lý dữ
liệu trong thống kê đều cần dữ liệu ở dạng ma trận
Trang 62.2.2 Làm sạch dữ liệu
1- Ô trống
(Missing data)
2- Trả lời không hợp lý
(Roque value)
Có 2 sai sót thường gặp trong nhập dữ liệu là :
17
2.2.2 Làm sạch dữ liệu
Các ô trống là các ô của ma trận không chứa đựng
dữ liệu trả lời Nguyên nhân của sai sót là do thu thập dữ liệu bị sót, hoặc nhập dữ liệu sai Để phát hiện ô trống ta có thể dùng phép đếm (count) theo các biến, vì số ô theo các biến sẽ phải có số lượng đúng bằng cỡ mẫu Khi phát hiện sai sót phải chỉnh sửa lại
Trả lời không hợp lý là các trả lời có dữ liệu không
nằm trong thang đo đã thiết kế Ví dụ: thang đo có 5 bậc (từ 1-5), nhưng lại có dự liệu là 7, hoặc 33 là những dữ liệu không hợp lý Để phát hiện các trả lời không hợp lý ta chỉ cần tính tần số theo cột (biến) Loại sai sót này chủ yếu do nhập liệu (do gõ sai)
2.2.3 Lưu trữ dữ liệu: Dưới dạng văn bản hoặc files.
Dữ liệu sau khi được lưu giữ ở dạng ma trận dữ liệu, công việc tiếp theo là tóm tắt chúng để chuẩn bị cho các phương pháp phân tích tiếp theo Dữ liệu thường được tóm tắt ở 3 dạng:
3 TÓM TẮT DỮ LIỆU
Dạng thống kê
Dạng đồ thị Dạng bảng, biểu
Trang 73.1 Tóm tắt dạng thống kê
1- Đo lường mức độ tập trung
(Measure of centrality)
2- Đo lường mức độ phân tán
(Measure of dispersion)
Gồm có:
v Trung bình (mean);
v Trung vị ( Median);
v Mode.
Gồm có:
v Phương sai (Variance);
(Standard Deviation);
v Khoảng biến thiên (Range)
20
3.1 Tóm tắt thống kê
3.1.1 Đo lường mức độ tập trung
Ba đại lượng thường sử dụng trong đo lường mức độ tập trung của các quan sát có công thức tính như sau:
Ø Trung bình của biến Xi( i= 1,2,3… n) của mẫu:
X = (1/n ) Σn
i=1Xi
Ø Trung vị là giá trị nằm giữa của thang đo.
Ø Mode là giá trị có tần số xuất hiện lớn nhất của một tập
hợp các số đo
3.1 Tóm tắt thống kê
3.1.2 Đo lường mức độ phân tán
Ø Phương sai (S2) đo lường mức độ phân tán của một tập
số đo xung quanh trung bình của nó công thức tính như sau:
S 2 = [1/(n-1)] Σn
i=1 (X i – X) 2
Ø Căn bậc 2 của phương sai được gọi là độ lệch chuẩn
(SD),
Ø Khoảng biến thiên là khoảng cách giữa giá trị lớn nhất
và giá trị nhỏ nhất của một tập số đo
Trang 83.2 Tóm tắt dạng bảng
1- Bảng đơn
(Simple one-way
Tabulation)
2- Bảng chéo
(Cross- Tabulation)
Hai dạng bảng thường dùng trong nghiên cứu thị trường là:
23
Bảng đơn (mẫu)
Thang đo Tần số tuyệt
đối
Tần số tương đối (%)
Tần sô tích luỹ (%)
C3: Sở thích của khách hàng đối với sữa chua Vinamilk
Bảng chéo (mẫu)
C7: Sở thích về sữa chua Vinamilk theo giới tính
Trang 93.3 Tóm tắt dạng đồ thị
Có 4 dạng đồ thị thường dùng là:
Scatter
graph
Bar chart
Pie chart
Line graph
26
3.3 Tóm tắt dạng đồ thị
Đồ thị thanh thường được
sử dụng cho các câu hỏi
cho nhiều trả lời để biểu
diễn tần số - tổng của nó
lớn hơn kích thước mẫu (
tần số tuyệt đối) hay lớn
hơn 100% tần số tương
đối
3.3 Tóm tắt dạng đồ thị
Đồ thị bánh thường
được sử dụng cho các câu hỏi đơn trả lời để biểu diễn tần số tương
đối – Tổng của nó
bằng 100%.
Trang 103.3 Tóm tắt dạng đồ thị
Đồ thị đường và Đồ thị phân tán được sử dụng để biểu
diễn mối quan hệ giữa các biến
Để chọn phương pháp phân tích dữ liệu phù hợp, nhà nghiên cứu cần chú ý một số vấn đề có ý nghiã quan trọng sau:
29
4 CHỌN PHƯƠNG PHÁP PHÂN TÍCH
DỮ LIỆU
1- Thang đo
4- Số biến cần phân tích 2- Phân bố
của dữ liệu
3- Phương pháp
chọn mẫu
5- Mối quan hệ giữa các biến
4.1 Thang đo
Có các cách phân tích thích hợp đối với mỗi loại thang đo:
v Thang đo định danh chỉ cho chúng ta tính: tần số; kiểm
định tần số (Chi- bình phương).
v Thang đo xếp hạng theo thứ tự cho phép chúng ta tính:
tần số; trung vị; kiểm định tần số; Kolmogorov – Smirnov; Wilcoxon.
v Thang đo khoảng và thang đo tỷ lệ cho phép chúng ta
thực hiện các phân tích nêu trên Bên cạnh đó còn cho phép
ta tính: giá trị trung bình; Các phép kiểm định Z, t.
Trang 114.2 Phân bố của dữ liệu
Tuỳ theo sự phân bố của dữ liệu ở các dạng chúng ta
có phương pháp phân tích tương thích:
(1)Phân bố tham số (Parametric) : => dùng phép kiểm định Z,t;
(2)Phân bố phi tham số (Non- Parametric): => dùng phép kiểm định tần số; Wilcoxon.
32
4.3 Phương pháp chọn mẫu
1- Chọn mẫu theo xác suất 2- Chọn mẫu phi xác suất
Đây là phương pháp tốt nhất
để ta có thể chọn ra một mẫu
có khả năng đại biểu cho tổng
thể Vì có thể tính được sai số
do chọn mẫu, nhờ đó ta có thể
áp dụng được các phương
pháp ước lượng thống kê,
kiểm định giả thuyết thống kê
trong xử lý dữ liệu để suy rộng
kết quả trên mẫu cho tổng thể
chung
Việc chọn mẫu phi ngẫu nhiên hoàn toàn phụ thuộc vào kinh nghiệm và sự hiểu biết về tổng thể của người nghiên cứu nên kết quả điều tra thường mang tính chủ quan của người nghiên cứu Mặt khác, ta không thể tính được sai số
do chọn mẫu, do đó không thể áp dụng phương pháp ước lượng thống kê để suy rộng kết quả trên mẫu cho tổng thể chung
4.4 Số biến cần phân tích
Các nhà nghiên cứu thường căn cứ vào số lượng
biến số cần phân tích để phân loại các phương pháp phân
tích dữ liệu:
Ø Khi số biến được phân tích là 1 thì được gọi là phương
pháp phân tích đơn biến (Univariate data analysic);
Ø Khi số biến được phân tích là 2 thì gọi là phương pháp
phân tích nhị biến (Bivariate data analysic);
Ø Khi có nhiều biến để phân tích thì các phương pháp
phân tích đó gọi là phương pháp phân tích đa biến
(Multivariate data analysic)
Trang 124.5 Mối quan hệ giữa các biến
1- Phân tích
phụ thuộc
2- Phân tích phụ thuộc lẫn nhau
Xét về mối liên hệ giữa các biến, chúng ta có hai nhóm phân tích chính:
35
4.5.1 Phân tích phụ thuộc
Khi các biến phân tích được chia thành hai nhóm:
Bíên độc lập – biến phụ thuộc thí phương pháp phân tích
là phân tích phụ thuộc Các phương pháp phổ biến trong
nhóm này có thể kể như:
(1)Phân tích hồi qui đa biến (Multiple regression
analysis);
(2)Phân tích phân biệt (Discriminant analysis);
(3)Phân tích phương sai đa biến (Multivariate analysis of
variance)
4.5.2 Phân tích phụ thuộc lẫn nhau
Trong trường hợp không có biến độc lập và biến
phụ thuộc mà các biến này phụ thuộc lẫn nhau thì
phương pháp phân tích là phân tích phụ thuộc lẫn nhau
Các phương pháp thường dùng trong nhóm này như: (1)Phân tích yếu tố khám phá (Exploratory factor analysis); (2)Phân tích nhóm đồng nhất (Cluster analysis);
(3)Phân tích đa hướng (Multidimensional Scaling);…
Trang 13B: ỨNG DỤNG SPSS TRONG XỬ LÝ DỮ LIỆU
1- Giới thiệu phần mềm SPSS
2- Định biến và nhập dữ liệu trên SPSS
3- Các thao tác và phép biến đổi trên
tập dữ liệu
38
1 Giới thiệu phần mềm SPSS
SPSS (viết tắt của Statistical Package for the Social
Sciences) là một chương trình máy tính phục vụ công tác
thống kê SPSS được sử dụng rộng rãi trong công tác thống
kê xã hội Thế hệ đầu tiên của SPSS được đưa ra từ năm
1968 Thế hệ mới nhất là thế hệ (Verison) 18.0 được giới thiệu từ tháng 8 năm 2008, có cả phiên bản cho các hệ điều hành Microsoft Windows, Mac, và Linux / UNIX Trong phạm vi môn học này, chúng ta thống nhất sử dụng SPSS 15.0 cho việc xử lý dữ liệu
Phần mềm SPSS có tất cả 3 dạng màn hình:
1 Giới thiệu phần mềm SPSS
Màn hình hiển thị dữ liệu
(Data view)
Màn hình hiển thị kết quả
(Output)
Màn hình
hiển thị biến
(Variables view)
Trang 141 Giới thiệu phần mềm SPSS Màn hình quản lý dữ liệu (Data view): là nơi lưu
trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu
(data) bao gồm: Cột (Colum)- Đại diện cho biến quan sát, mỗi cột chứa đựng các dữ liệu (n dữ liệu); Hàng (Row)-
Đại diện cho 1 phần tử được quan sát, mỗi hàng chức đựng tất cả các câu trả lời (dữ liệu) của một đối tượng
nghiên cứu; và ô (Cell)- Chứa đựng một kết quả trả lời tương ứng với một câu hỏi khảo sát (biến) và một phần tử.
41
1 Giới thiệu phần mềm SPSS
Màn hình quản lý biến (Variable view): Là nơi
quản lý các biến (Variable) và các thông số đặc tính của biến Trong màn hình này mỗi dòng quản lý một biến, và mỗi cột thể hiện một thông số đặc tính của biến Cụ thể như sau:
1 Giới thiệu phần mềm SPSS
- Tên biến ( Name): Là tên đại diện cho biến Tên biến sẽ hiển thị
trên đầu mỗi cột trong màn hình quản lý dữ liệu.
- Lọai biến (Type): Thể hiện định dạng dữ liệu trong biến: Dang
số- Numeric (mặc định); Dạng chuỗi – String; Dạng ngày tháng – Date; Dạng đơn vị tiền tệ - Currency;…
- Chiều rộng cột (Width): Chỉ số lượng ký tự được hiển thị;
- Hiển thị số lẻ (Decimals) : Thể hiện số lượng con số sau dấu phẩy
được hiển thị;
- Nhãn của biến (Label): Nêu rõ hơn về ý nghĩa của biến số;
- Giá trị trong biến (Values): Cho phép khai báo các giá trị trong
biến với ý nghĩa cụ thể;
- Giá trị khuyết (Missing): Do thiết kế bảng câu hỏi có một số giá
trị chỉ mang tính chất quản lý, không có ý nghĩa phân tích Để lọai
bỏ biến này ta cần khai báo nó như là giá trị khuyết để lọai bỏ giá trị này ra khỏi các phân tích thống kê.
- Dạng thang đo (Measures): Hiển thị dạng thang đo của giá trị
trong biến.