giáo trình nghiên cứu marketing - chương 7 xử lý dữ liệuứng dụng phần mềm spss

XỬ LÝ DỮ LIỆU TRONG NC MAR Nhiệm vụ tổng quát của việc xử lý dữ liệu là “chuyển hóa” những ghi chép quan sát hoặc các câu trả lời dưới dạng “thô” thành các con số thống kê theo một trật

Trang 1

CHƯƠNG 7

XỬ LÝ DỮ LIỆU-ỨNG DỤNG PHẦN MỀM SPSS

NGHIÊN CỨU MARKETING

KHOA QUẢN TRỊ KINH DOANH

2

NỘI DUNG

A XỬ LÝ DỮ LIỆU

1 Các phương pháp xử lý dữ liệu;

2 Các giai đoạn xử lý dữ liệu.

B ỨNG DỤNG PHẦN MỀM SPSS

1 Giới thiệu phần mềm SPSS;

2 Chuẩn bị dữ liệu;

3 Định biến và nhập dữ liệu;

4 Các phép biến đổi và thao tác trên tập dữ liệu.

A XỬ LÝ DỮ LIỆU TRONG NC MAR

Nhiệm vụ tổng quát của việc xử lý dữ liệu là “chuyển hóa” những ghi chép quan sát hoặc các câu trả lời dưới dạng

“thô” thành các con số thống kê theo một trật tự nhất định

để chuẩn bị cho việc phân tích và diễn giải các kết quả nghiên cứu thu được

Trang 2

1 Các phương pháp xử lý dữ liệu

Xử lý

thủ công

Xử lý với trợ giúp của máy tính

Có 2 phương pháp xử lý dữ liệu cơ bản là :

5

2 Các giai đoạn xử lý dữ liệu

Chuẩn bị dữ liệu Nhập dữ liệu và lưu trữ

Giai đọan này gổm 3

bước:

Ø Kiểm tra và hiệu

chỉnh dữ liệu;

Ø Định biến dữ liệu;

Ø Mã hóa dữ liệu.

Giai đọan này cũng gồm 3 bước:

v Nhập dữ liệu vào máy

tính;

v Làm sạch dữ liệu;

v Lưu trữ dữ liệu.

2.1.1 Kiểm tra và hiệu chỉnh dữ liệu

Đây là bước kiểm tra chất lượng thông tin trong bảng câu hỏi nhằm đảm bảo không có bảng câu hỏi nào bị thiếu hoặc chứa đựng những thông tin sai sót theo yêu cầu thiết

kế ban đầu Người kiểm tra phải bảo đảm tính toàn vẹn và tính chính xác của từng bảng câu hỏi Thông thường ở bước này các nhà nghiên cứu sẽ tiến hành kiểm tra các đặc tính

cơ bản của bảng câu hỏi Cụ thể:

ØTính lôgíc của các câu trả lời;

Ø Tính đầy đủ của một câu trả lời và của một bảng câu hỏi;

Ø Tính hợp lý và xác thực của các câu trả lời.

Trang 3

2.1.1 Kiểm tra và hiệu chỉnh dữ liệu

Quá trình kiểm tra, rà soát lại bảng câu hỏi là nhằm mục đích kiểm tra, phát hiện, sửa chữa và thông báo kịp thời cho người thu thập dữ liệu để tránh những sai sót tương tự Để xử lý các sai sót phát hiện được qua kiểm tra,

ta có thể chọn cách xử lý tuỳ thuộc vào mức độ sai sót Cụ thể:

§ Trả về cho bộ phận thu thập dữ liệu nhằm làm sáng tỏ vấn đề;

§ Suy luận từ các câu trả lời khác;

§ Loại bỏ bảng câu hỏi

8

2.1.2 Định biến dữ liệu

Biến nghiên cứu là tập hợp các khái niệm có ý nghiã mô tả (định tính, định lượng ) cho mục tiêu nghiên cứu, được thể hiện bằng các ký hiệu (mã hoá) theo một qui ước nào đó Biến nghiên cứu được thể hiện và là một bộ phận không thể thiếu trong mô hình nghiên cứu

Biến nghiên cứu có thể được phân loại theo kiểu dữ

liệu (dạng thang đo) Biến định tính là biến chứa các giá

trị quan sát ở dạng thang đo biểu danh và thang đo xếp

hạng theo bậc Biến định lượng là biến chứa các giá trị

quan sát ở dạng thang đo khoảng và thang đo tỷ lệ Trong bảng câu hỏi, mỗi một câu hỏi thường phải nhằm một mục đích quan sát nào đó Do vậy, thường mỗi một câu hỏi tương ứng với một biến quan sát

Thí dụ về biến nghiên cứu

Giả sử rằng “Các yếu tố tác động đến quyết định lựa chọn (mua) mì ăn liền nhãn hiệu “Hảo Hảo” của khách hàng trên thị trường TP.HCM” là: (a1) Chất lượng SP; (a2) Khẩu vị phù hợp; (a3) Định lượng vừa đủ; (a4) Dễ dàng mua; (a5) Bao bì hấp dẫn Khi đi sâu nghiên cứu về “ chất lượng” sản phẩm, các thuộc tính cấu thành kết luận chất lượng sản phẩm tốt của mì ăn liền ”Hảo Hảo” gồm có: (a1.1) Sợi mì dai (khi ăn); (a1.2) Màu sắc của mì

và nước dùng tươi ngon; (a1.3) Có thành phần dinh dưỡng cao;

… Và các yếu tố còn lại cũng có các thuộc tính xác định chúng

Trang 4

Thí dụ về biến nghiên cứu

Ở thí dụ trên các biến số: a1; a2; a3; a4 là các biến số trực tiếp (cấp 1) tác động đến quyết định lựa chọn mì ăn liến “ Hảo Hảo” Còn các biến số a1.1; a1.2; … là các biến

số cấp 2 ( Xem mô hình nghiên cứu)

Thí dụ: Với câu hỏi “ Xin vui lòng cho biết sở thích của bạn đối với sữa chua Vinamilk? -> Ta có thể định biến nghiên cứu là:

c3: Sở thích của khách hàng đối với sữa chua Vinamilk

11

2.1.3 Mã hoá dữ liệu

Mã hoá dữ liệu (Coding) là quá trình chuyển đổi các trả lời thành dạng mã số để nhập và xử lý dữ liệu Mục đích của việc mã hoá là tạo nhãn (labels) cho các câu trả lời, thường là bằng các con số, hay ký hiệu Một trả lời khi mã hoá thường sẽ thể hiện bằng 1ký tự chỉ số trả lời (số đo) Thí dụ: Với câu hỏi “ Xin vui lòng cho biết sở thích của bạn đối với sữa chua Vinamilk?

Rất ghét Ghét Tạm được Thích Rất thích

2.1.3 Mã hoá dữ liệu

Mã hoá còn giúp giảm thiểu các câu trả lời bằng cách nhóm các câu trả lời vào 1 nhóm có cùng ý nghiã Mã hoá dữ liệu làm cơ sở cho việc thống kê phân tích dữ liệu Tiến trình

mã hoá có thể được tiến hành bằng việc lập Sổ mã hoá dữ

liệu như sau:

v Xác định loại câu trả lời cho những câu hỏi tương ứng Những câu trả lời này có thể thu thập từ một mẫu các bảng câu hỏi đã hoàn tất;

v Xây dựng một danh mục liệt kê các câu trả lời;

v Gán cho các câu trả lời một nhãn hiệu, ký hiệu, một giá trị (thường là một con số cụ thể)

Trang 5

TT Câu hỏi nghiên cứu Biến quan sát Mã trả lời Trả lời

1 Vui lòng cho biết giới tính

của bạn?

2 Nam Nữ

2 Xin vui lòng cho biết bạn

thuộc nhóm tuổi nào dưới

đây?

2 3 4 5

Dưới 18 tuổi

Từ 19- 25

Từ 26-35

Từ 36-45 Trên 45 tuổi

3 Xin vui lòng cho biết sở

thích của bạn đối với sữa

chua Vinamilk?

a3: Sở thích của

khách hàng đối với sữa chua Vinamilk

1 2 3 4 5

Rất ghét Ghét Tạm được Thích Rất thích

…

13

2.2 Nhập dữ liệu và lưu trữ

2.2.1- Nhập dữ liệu vào máy tính

(Inputing data into computer)

2.2.2- Làm sạch dữ liệu

(Data cleaning)

2.2.3- Lưu trữ dữ liệu

(Data saving)

2.2.1 Nhập dữ liệu vào máy tính

Bảng câu hỏi sau khi phỏng vấn, hiệu chỉnh và mã hoá dữ liệu thì công việc tiếp theo là nhập dữ liệu vào máy

Dữ liệu sau khi nhập xong ở dạng một ma trận được gọi là

Ma trận dữ liệu (data matrix) Các phần mềm xử lý dữ

liệu trong thống kê đều cần dữ liệu ở dạng ma trận

Trang 6

2.2.2 Làm sạch dữ liệu

1- Ô trống

(Missing data)

2- Trả lời không hợp lý

(Roque value)

Có 2 sai sót thường gặp trong nhập dữ liệu là :

17

2.2.2 Làm sạch dữ liệu

Các ô trống là các ô của ma trận không chứa đựng

dữ liệu trả lời Nguyên nhân của sai sót là do thu thập dữ liệu bị sót, hoặc nhập dữ liệu sai Để phát hiện ô trống ta có thể dùng phép đếm (count) theo các biến, vì số ô theo các biến sẽ phải có số lượng đúng bằng cỡ mẫu Khi phát hiện sai sót phải chỉnh sửa lại

Trả lời không hợp lý là các trả lời có dữ liệu không

nằm trong thang đo đã thiết kế Ví dụ: thang đo có 5 bậc (từ 1-5), nhưng lại có dự liệu là 7, hoặc 33 là những dữ liệu không hợp lý Để phát hiện các trả lời không hợp lý ta chỉ cần tính tần số theo cột (biến) Loại sai sót này chủ yếu do nhập liệu (do gõ sai)

2.2.3 Lưu trữ dữ liệu: Dưới dạng văn bản hoặc files.

Dữ liệu sau khi được lưu giữ ở dạng ma trận dữ liệu, công việc tiếp theo là tóm tắt chúng để chuẩn bị cho các phương pháp phân tích tiếp theo Dữ liệu thường được tóm tắt ở 3 dạng:

3 TÓM TẮT DỮ LIỆU

Dạng thống kê

Dạng đồ thị Dạng bảng, biểu

Trang 7

3.1 Tóm tắt dạng thống kê

1- Đo lường mức độ tập trung

(Measure of centrality)

2- Đo lường mức độ phân tán

(Measure of dispersion)

Gồm có:

v Trung bình (mean);

v Trung vị ( Median);

v Mode.

Gồm có:

v Phương sai (Variance);

(Standard Deviation);

v Khoảng biến thiên (Range)

20

3.1 Tóm tắt thống kê

3.1.1 Đo lường mức độ tập trung

Ba đại lượng thường sử dụng trong đo lường mức độ tập trung của các quan sát có công thức tính như sau:

Ø Trung bình của biến Xi( i= 1,2,3… n) của mẫu:

X = (1/n ) Σn

i=1Xi

Ø Trung vị là giá trị nằm giữa của thang đo.

Ø Mode là giá trị có tần số xuất hiện lớn nhất của một tập

hợp các số đo

3.1 Tóm tắt thống kê

3.1.2 Đo lường mức độ phân tán

Ø Phương sai (S2) đo lường mức độ phân tán của một tập

số đo xung quanh trung bình của nó công thức tính như sau:

S 2 = [1/(n-1)] Σn

i=1 (X i – X) 2

Ø Căn bậc 2 của phương sai được gọi là độ lệch chuẩn

(SD),

Ø Khoảng biến thiên là khoảng cách giữa giá trị lớn nhất

và giá trị nhỏ nhất của một tập số đo

Trang 8

3.2 Tóm tắt dạng bảng

1- Bảng đơn

(Simple one-way

Tabulation)

2- Bảng chéo

(Cross- Tabulation)

Hai dạng bảng thường dùng trong nghiên cứu thị trường là:

23

Bảng đơn (mẫu)

Thang đo Tần số tuyệt

đối

Tần số tương đối (%)

Tần sô tích luỹ (%)

C3: Sở thích của khách hàng đối với sữa chua Vinamilk

Bảng chéo (mẫu)

C7: Sở thích về sữa chua Vinamilk theo giới tính

Trang 9

3.3 Tóm tắt dạng đồ thị

Có 4 dạng đồ thị thường dùng là:

Scatter

graph

Bar chart

Pie chart

Line graph

26

Đồ thị thanh thường được

sử dụng cho các câu hỏi

cho nhiều trả lời để biểu

diễn tần số - tổng của nó

lớn hơn kích thước mẫu (

tần số tuyệt đối) hay lớn

hơn 100% tần số tương

đối

Đồ thị bánh thường

được sử dụng cho các câu hỏi đơn trả lời để biểu diễn tần số tương

đối – Tổng của nó

bằng 100%.

Trang 10

Đồ thị đường và Đồ thị phân tán được sử dụng để biểu

diễn mối quan hệ giữa các biến

Để chọn phương pháp phân tích dữ liệu phù hợp, nhà nghiên cứu cần chú ý một số vấn đề có ý nghiã quan trọng sau:

29

4 CHỌN PHƯƠNG PHÁP PHÂN TÍCH

DỮ LIỆU

1- Thang đo

4- Số biến cần phân tích 2- Phân bố

của dữ liệu

3- Phương pháp

chọn mẫu

5- Mối quan hệ giữa các biến

4.1 Thang đo

Có các cách phân tích thích hợp đối với mỗi loại thang đo:

v Thang đo định danh chỉ cho chúng ta tính: tần số; kiểm

định tần số (Chi- bình phương).

v Thang đo xếp hạng theo thứ tự cho phép chúng ta tính:

tần số; trung vị; kiểm định tần số; Kolmogorov – Smirnov; Wilcoxon.

v Thang đo khoảng và thang đo tỷ lệ cho phép chúng ta

thực hiện các phân tích nêu trên Bên cạnh đó còn cho phép

ta tính: giá trị trung bình; Các phép kiểm định Z, t.

Trang 11

4.2 Phân bố của dữ liệu

Tuỳ theo sự phân bố của dữ liệu ở các dạng chúng ta

có phương pháp phân tích tương thích:

(1)Phân bố tham số (Parametric) : => dùng phép kiểm định Z,t;

(2)Phân bố phi tham số (Non- Parametric): => dùng phép kiểm định tần số; Wilcoxon.

32

4.3 Phương pháp chọn mẫu

1- Chọn mẫu theo xác suất 2- Chọn mẫu phi xác suất

Đây là phương pháp tốt nhất

để ta có thể chọn ra một mẫu

có khả năng đại biểu cho tổng

thể Vì có thể tính được sai số

do chọn mẫu, nhờ đó ta có thể

áp dụng được các phương

pháp ước lượng thống kê,

kiểm định giả thuyết thống kê

trong xử lý dữ liệu để suy rộng

kết quả trên mẫu cho tổng thể

chung

Việc chọn mẫu phi ngẫu nhiên hoàn toàn phụ thuộc vào kinh nghiệm và sự hiểu biết về tổng thể của người nghiên cứu nên kết quả điều tra thường mang tính chủ quan của người nghiên cứu Mặt khác, ta không thể tính được sai số

do chọn mẫu, do đó không thể áp dụng phương pháp ước lượng thống kê để suy rộng kết quả trên mẫu cho tổng thể chung

4.4 Số biến cần phân tích

Các nhà nghiên cứu thường căn cứ vào số lượng

biến số cần phân tích để phân loại các phương pháp phân

tích dữ liệu:

Ø Khi số biến được phân tích là 1 thì được gọi là phương

pháp phân tích đơn biến (Univariate data analysic);

Ø Khi số biến được phân tích là 2 thì gọi là phương pháp

phân tích nhị biến (Bivariate data analysic);

Ø Khi có nhiều biến để phân tích thì các phương pháp

phân tích đó gọi là phương pháp phân tích đa biến

(Multivariate data analysic)

Trang 12

4.5 Mối quan hệ giữa các biến

1- Phân tích

phụ thuộc

2- Phân tích phụ thuộc lẫn nhau

Xét về mối liên hệ giữa các biến, chúng ta có hai nhóm phân tích chính:

35

4.5.1 Phân tích phụ thuộc

Khi các biến phân tích được chia thành hai nhóm:

Bíên độc lập – biến phụ thuộc thí phương pháp phân tích

là phân tích phụ thuộc Các phương pháp phổ biến trong

nhóm này có thể kể như:

(1)Phân tích hồi qui đa biến (Multiple regression

analysis);

(2)Phân tích phân biệt (Discriminant analysis);

(3)Phân tích phương sai đa biến (Multivariate analysis of

variance)

4.5.2 Phân tích phụ thuộc lẫn nhau

Trong trường hợp không có biến độc lập và biến

phụ thuộc mà các biến này phụ thuộc lẫn nhau thì

phương pháp phân tích là phân tích phụ thuộc lẫn nhau

Các phương pháp thường dùng trong nhóm này như: (1)Phân tích yếu tố khám phá (Exploratory factor analysis); (2)Phân tích nhóm đồng nhất (Cluster analysis);

(3)Phân tích đa hướng (Multidimensional Scaling);…

Trang 13

B: ỨNG DỤNG SPSS TRONG XỬ LÝ DỮ LIỆU

1- Giới thiệu phần mềm SPSS

2- Định biến và nhập dữ liệu trên SPSS

3- Các thao tác và phép biến đổi trên

tập dữ liệu

38

1 Giới thiệu phần mềm SPSS

SPSS (viết tắt của Statistical Package for the Social

Sciences) là một chương trình máy tính phục vụ công tác

thống kê SPSS được sử dụng rộng rãi trong công tác thống

kê xã hội Thế hệ đầu tiên của SPSS được đưa ra từ năm

1968 Thế hệ mới nhất là thế hệ (Verison) 18.0 được giới thiệu từ tháng 8 năm 2008, có cả phiên bản cho các hệ điều hành Microsoft Windows, Mac, và Linux / UNIX Trong phạm vi môn học này, chúng ta thống nhất sử dụng SPSS 15.0 cho việc xử lý dữ liệu

Phần mềm SPSS có tất cả 3 dạng màn hình:

Màn hình hiển thị dữ liệu

(Data view)

Màn hình hiển thị kết quả

(Output)

Màn hình

hiển thị biến

(Variables view)

Trang 14

1 Giới thiệu phần mềm SPSS Màn hình quản lý dữ liệu (Data view): là nơi lưu

trữ dữ liệu nghiên cứu với một cấu trúc cơ sở dữ liệu

(data) bao gồm: Cột (Colum)- Đại diện cho biến quan sát, mỗi cột chứa đựng các dữ liệu (n dữ liệu); Hàng (Row)-

Đại diện cho 1 phần tử được quan sát, mỗi hàng chức đựng tất cả các câu trả lời (dữ liệu) của một đối tượng

nghiên cứu; và ô (Cell)- Chứa đựng một kết quả trả lời tương ứng với một câu hỏi khảo sát (biến) và một phần tử.

41

Màn hình quản lý biến (Variable view): Là nơi

quản lý các biến (Variable) và các thông số đặc tính của biến Trong màn hình này mỗi dòng quản lý một biến, và mỗi cột thể hiện một thông số đặc tính của biến Cụ thể như sau:

- Tên biến ( Name): Là tên đại diện cho biến Tên biến sẽ hiển thị

trên đầu mỗi cột trong màn hình quản lý dữ liệu.

- Lọai biến (Type): Thể hiện định dạng dữ liệu trong biến: Dang

số- Numeric (mặc định); Dạng chuỗi – String; Dạng ngày tháng – Date; Dạng đơn vị tiền tệ - Currency;…

- Chiều rộng cột (Width): Chỉ số lượng ký tự được hiển thị;

- Hiển thị số lẻ (Decimals) : Thể hiện số lượng con số sau dấu phẩy

được hiển thị;

- Nhãn của biến (Label): Nêu rõ hơn về ý nghĩa của biến số;

- Giá trị trong biến (Values): Cho phép khai báo các giá trị trong

biến với ý nghĩa cụ thể;

- Giá trị khuyết (Missing): Do thiết kế bảng câu hỏi có một số giá

trị chỉ mang tính chất quản lý, không có ý nghĩa phân tích Để lọai

bỏ biến này ta cần khai báo nó như là giá trị khuyết để lọai bỏ giá trị này ra khỏi các phân tích thống kê.

- Dạng thang đo (Measures): Hiển thị dạng thang đo của giá trị

trong biến.

Định dạng
Số trang	20
Dung lượng	481,68 KB