PHÂN TÍCH MÔ TẢ THỐNG KÊ MÔ TẢ: Bảng phân bố tần suất Bảng phân phối tầng suất được thể hiện với tất cả các biến định tính rời rạc với các thang đo biểu danh, thứ tự và các biến định l
Trang 1+ Các thông số khác được thực hiện như ở mã hoá dùng lại biến cũ
PHÂN TÍCH MÔ TẢ (THỐNG KÊ MÔ TẢ):
Bảng phân bố tần suất
Bảng phân phối tầng suất được thể hiện với tất cả các biến định tính (rời rạc) với các thang đo biểu danh, thứ tự và các biến định lượng (liên tục) với thang đo khoảng cách hoặc tỉ lệ
Nhấn vào để lựa chọn các thông số đo lương (mode, median, trung bình…)
Nhấn vào để vẽ đồ thị các tầng suất
của biến sô
Central tendancy : Đo lường khuynh hướng hội tụ: tham số trung bình (mean), median, mode, tổng (sum)
Dispersion : Đo lường độ phân tán: độ lệch chuẩn (std deviation), phương sai
Distribution : Kiểm định phân phối chuẩn (skeness và kurtosis)
Trang 2Loai hinh doanh nghiep
Dich vu thuong mai
Xay dung
Cong nghiep
Total
Valid
Frequency Percent Valid Percent Cumulative Percent
Tần suất xuất hiện
Tỷ lệ phần trăm
So lao dong
Tu 1 den 5
Tu 6 den 20
Tu 21 den 200
Tu 200 den 300
Tren 300
Total
Valid Frequency Percent Valid Percent Cumulative Percent
Loai hinh doanh nghiep
28.0%
28.0%
44.0%
Cong nghiep
Xay dung
Dich vu thuong mai
Trang 3Lập bảng so sánh
Bảng so sánh 2 nhân tố:
Tu 1 den 5
Tu 6 den 20
Tu 21 den 200
Tu 200 den 300 Tren 300
So lao
dong
Group Total
Count Row %
Dich vu thuong mai
Count Row %
Xay dung
Count Row % Cong nghiep Loai hinh doanh nghiep
Phân tích một biến định lượng
Ước lượng tham số trung bình (một nhóm)
Trang 4
One-Sample Statistics
Thu nhap nam (trieu)
One-Sample Test
36.331 199 000 33224.00 31420.68 35027.32 Thu nhap nam (trieu)
t df Sig (2-tailed)
Mean Difference Lower Upper
95% Confidence Interval of the Difference Test Value = 0
Giới hạn trên của ước lượng
Giới hạn dưới của ước lượng
Giá trị trung bình Độ lệch chuẩn
Ước lượng sự khác biệt giữa hai tham số trung bình (độc lập hoặc phụ thuộc)
Phần này sẽ được trình bày ở chương sau cùng với phần kiểm định giả thiết
TÓM TẮT
Để dữ liệu chuyển thành thông tin theo mục tiêu nghiên cứu, cần phải xử lý và phân tích dữ liệu Tuy nhiên, vì dữ thu thập từ hiện trường về còn ở dạng “thô” nên cần thiết phải thực hiện khâu chuẩn bị dữ liệu Chuẩn bị dữ liệu là làm cho dữ liệu có giá trị, hiệu chỉnh dữ liệu, cấu trúc và mã hoá dữ liệu Làm cho dữ liệu có giá trị là kiểm tra các dữ liệu để đảm bảo chúng có giá trị đối với việc xử lý và phân tích Hiệu chỉnh dữ liệu là sửa chữa các sai sót về ghi chép hoặc ngôn từ phát hiện được qua kiểm tra Mã hóa dữ liệu là nhận diện và phân loại mỗi câu trả lời trên một ký hiệu (bằng số hoặc bằng chữ) Có 3 cách cơ bản để xử lý các dữ liệu xấu đó là quay trở lại người phỏng vấn hoặc người trả lời để làm sáng tỏ vấn đề; suy luận từ các câu trả lời khác hoặc loại toàn bộ câu trả lời
Để dữ liệu thu thập thường được xử lý bằng máy điện toán nên chúng ta phải mã hoá dữ liệu Mã hóa dữ liệu là quá trình liên quan tới việc nhận diện và phân loại mỗi câu trả lời trên một ký hiệu định (ký hiệu có thể bằng số hoặc bằng chữ) Công việc mã hóa có thể được thực hiện từ khi thiết
kế bản câu hỏi (mã hoá trước) hoặc sau khi dữ liệu được thu thập về (mã hoá sau) Mã hoá sau thường dùng đối với các câu hỏi mở vì câu trả lời thường theo tình huống tự do nên nhiều khi không dự đoán trước được Khi thiết lập kiểu mã hóa cần phải chú ý các nguyên tắc: đảm bảo số kiểu mã hóa thích hợp, ranh giới giữa các “loại mã hóa” rõ ràng, thông tin trả lời được xếp trong cùng một loại mã hóa phải tương tự nhau về đặc trưng nghiên cứu, đóng kín các khoảng lớp
Dữ liệu sau khi đã được chuẩn bị tốt sẽ tiến hành phân tích và diễn giải để tìm hiểu và rút ra ý nghĩa của các dữ liệu, cung cấp thông tin làm căn cứ đề xuất các giải pháp rõ ràng và khoa học hơn Phân tích và diễn giải dữ liệu là hai công việc gắn kết với nhau Phân tích dữ liệu đúng là
Trang 5điều kiện để đạt được sự diễn giải đúng Tuy nhiên nếu phân tích đúng nhưng kết quả được giải thích sai lệch thì cũng không có được thông tin đúng
Phân tích dữ liệu ở mức độ cơ bản đầu tiên liên quan đến các kỹ thuật lập bảng đơn giản hay lập bảng so sánh toàn diện, đo lường khuynh hướng hội tụ và phân tán, ước lượng các thông số thích hợp Bảng đơn giản tính số lần xuất hiện đặc tính giống nhau của cùng một biến Sự phân bố này
có thể được đánh giá là có tuân theo qui luật phân phối chuẩn hay không bằng các hệ số Skewness và Kurtosis là các hệ số đo lường mức độ đối xứng và độ nhọn của phân phối Bảng chéo khác bảng đơn giản là người ta đưa thêm nhân tố ảnh hưởng để phân tích cụ thể hơn đặc tính của dữ liệu Vì chúng ta thường không khảo sát toàn bộ tổng thể mà sử dụng mẫu nên trong nhiều tình huống phải ước lượng giá trị tham số tổng thể từ giá trị mẫu để có thông tin cho ra quyết định như ước lượng giá trị trung bình, tỷ lệ, phương sai, sự khác biệt hai giá trị trung bình của hai tổng thể, sự khác biệt tỷ lệ giữa hai tổng thể Hiện nay, việc phân tích dữ liệu ngày càng trở nên nhanh chóng và đơn giản hơn bởi chúng ta có thể ứng dụng những phần mềm rất hiệu quả trong công việc này
CÂU HỎI
1 Những sai sót nào thường gặp cần phải hiệu chỉnh dữ liệu?
2 Các cách tiếp cận để hiệu chỉnh dữ liệu, trong mỗi cách, cho ví dụ minh họa?
3 Mã hóa dữ liệu là gì ? Các nguyên tắc mã hóa dữ liệu?
4 Sự khác nhau giữa mã hoá trước và mã hoá sau ?
5 Người ta thực hiện mã hoá các câu hỏi mở như thế nào ?
6 Sau đây là một số câu hỏi trích ra từ một bản câu hỏi Hãy mã hoá cho các câu hỏi đặt ra :
A Bao lâu thì Anh/chị mua vitamin một lần ?
a Nhiều hơn một lần một tuần
b Một tuần một lần
c Hai tuần một lần
d Ba tuần một lần
e 1 thánh một lần
f Hai tháng một lần
g Ba tháng một lần
h Ít thường xuyên hơn
B Thường thì anh/ chị mua vitamin ở đâu?
a Nhà thuốc (không nằm trong bệnh viện)
b Từ bệnh viện/nhà thuốc nằm trong bệnh viện
c Phòng khám tư của bác sĩ
d Khác (ghi rõ) -
C Sau đây là một số yếu tố mà người ta thường quan tâm khi mua vitamin Đối với từng yếu tố, anh/chi cho biết mức độ quan trọng của nó đối với anh/chị trong việc chọn mua một nhãn hiệu vitamin:
Trang 6Rất không quan trọng
Rất quan trọng
Giúp tăng cường sức đề kháng, phòng bệnh tật
Giúp vượt qua những mệt nhọc về thể chất
Ngăn ngừa, chống stress, giảm căng thẳng, lo lắng
Được bác sĩ khuyên dùng
Được bạn bè, người than khuyên dùng
Giúp phục hồii nhanh chóng sau khi bị bệnh
Kích thích tiêu hoá, giúp ăn ngon miệng
Quảng cáo hấp dẫn
Được các dược sĩ/ người bán thuốc khuyên dung
Có giá phải chăng
Có tác dụng nhanh chóng
1
1
1
1
1
1
1
1
1
1
1
2
2
2
2
2
2
2
2
2
2
2
3
3
3
3
3
3
3
3
3
3
3
4
4
4
4
4
4
4
4
4
4
4
5
5
5
5
5
5
5
5
5
5
5
7 Hãy dùng SPSS để định nghĩa các biến mà bạn vừa mã hóa
8 Sự khác nhau chính giữa bảng phân phối tần suất và bảng chéo ?
9 Điều tra 100 sinh viên trường đại học kinh tế và quản trị kinh doanh có được số liệu về chiều
cao của họ như sau:
1,51-1,55 10 1,55-1,60 28 1,60-1,65 35 1,65-1,70 15 1,70-1,75 12 Hãy ước lượng khoảng tin cậy đối xứng của chiều cao trung bình của sinh viên với độ tin cậy là
95% Cho biết U0,95=1,645, U0,975=1,96
10 Định mức thời gian gia công một chi tiết là một đại lượng ngẫu nhiên tuân theo qui luật phân
phối chuẩn có thời gian quy định là 20 phút Do điều kiện tổ chức sản xuất thay đổi, người ta tiến
hành kiểm tra 25 chi tiết và thu được dữ liệu sau:
14-16 2 16-18 7 18-20 10 20-22 4 22-24 2 Với độ tin cậy 1- α = 0,95, hãy ước lượng thời gian gia công trung bình của chi tiết đó? Cho biết
)
=1,711, =2,064
24
(
05
,
0
T ( 24 )
025 , 0
T
11 Để định giá cho sản phẩm của mình, một hãng sản xuất đồ chơi trẻ em tiến hành phỏng vấn
ngẫu nhiên 50 người tiêu dùng và kết quả thu được như sau:
Trang 7Với độ tin cậy 1- α = 0,95 Hãy ước lượng tỷ lệ khách mua hàng của hãng nếu hãng định giá:
a 35 ngàn đồng
b 37 ngàn đồng
12 Để kiểm tra chất lượng sản phẩm, cục tiêu chuẩn đo lường chất lượng sản phẩm tiến hành kiểm tra 200 hộp sữa ở một kho hàng của một công ty sữa thấy có 50 hộp sữa bị biến chất Hãy tìm khoảng tin cậy của tỉ lệ hộp sữa bị biến chất của kho hàng với độ tin cậy 1- α = 0,95 Biết rằng kho hàng đó có 8000 hộp sữa
13 Để tìm hiểu về độ tuổi trung bình của sinh viên hệ tại chức tại một trường đại học, người ta đã tiến hành điều tra 1000 sinh viên và thu được số liệu như sau:
Độ tuổi
18-20
21-23
24-26
27-29
30-32
33-35
36-38
39-41
42-44
45-47
48-50
51-53
Số người 36 44 72 104 172 280 122 68 42 34 16 8 Hãy ước lượng khoảng tin cậy đối xứng của độ tuổi trung bình với độ tin cậy 95%?
14 Chiều dài trung bình của một chi tiết tại một xưởng lắp ráp của hãng Honda việt nam là đại lượng ngẫu nhiên tuân theo qui luật phân phối chuẩn, người ta kiểm tra 360 chi tiết và đo được chiều dài trung bình của chi tiết này là 20cm Hãy ước lượng chiều dài trung bình của chi tiết đó với độ tin cậy 95%?
15 Khi điều tra ngẫu nhiên 100 sản phẩm có trong một kho hàng thấy có 10 phế phẩm Hãy tìm khoảng tin cậy của tỷ lệ phế phẩm của kho hàng với độ tin cậy 95%?
16 Để xác định số chim yến có trên đảo A (độc lập với các đảo khác), người ta chọn 1.000 con chim yến và đánh dấu tất cả số chim yến đó rồi thả chúng lại ở khắp nơi trên đảo Sau một thời gian, bắt ngẫu nhiên 900 con kiểm tra thấy có 45 con có đánh dấu Hãy tìm khoảng tin cậy của số lượng chim có trên đảo A với độ tin cậy 95%?
TÀI LIỆU THAM KHẢO
A B Blankenship and B E Breen, State of the Art Marketing Research (Chicago: NTC Business Books, 1993), 106–112
V Kumar, International Marketing Research (Upper Saddle River, N.J.: Prentice-Hall, 2000), 247–248 Jerry Flint, “The Cadillac-to-Chevrolet strategy,” Forbes, vol 153, no 12 (June 4, 1994): 94
Alan T Shao, An Empirical Study of the Structures,Strategies, and Environments of U.S Multinational
Advertising Agency Affiliates (Ann Arbor: UMI Dissertation Information Service, 1989), 155
Trang 8CHƯƠNG TÁM 8
PHÂN TÍCH VÀ DIỄN GIẢI DỮ LIỆU TRONG NGHIÊN CỨU MARKETING
NỘI DUNG CHÍNH
Nội dung chương này bàn đến bao gồm:
- Thế nào là giả thuyết nghiên cứu
- Các loại sai lầm khi thực hiện kiểm định giả thuyết
- Các bước giải quyết một bài toán kiểm định
- Các phương pháp kiểm định tham số
- Các phương pháp kiểm định phi tham số
Trang 9MÔ HÌNH LỰA CHỌN PHƯƠNG PHÁP KIỂM ĐỊNH
Giả thiết thống kê là một giả thiết có liên quan đến một trong ba vấn đề sau:
(1) Tính độc lập hay phụ thuộc của đại lượng ngẫu nhiên cần nghiên cứu
(2) Dạng của qui luật phân phối xác suất của đại lượng ngẫu nhiên
(3) Giá trị của tham số của qui luật phân phối xác suất đã biết dạng
(1) & (2) là giả thiết phi tham số và (3) là giả thiết về tham số
Trong phần này sẽ giới thiệu phương pháp kiểm định giả thiết về tham số như tham số trung bình
x trong qui luật phân phối chuẩn N(µ,σ2), tham số tỷ lệ p trong qui luật phân phối A(P), tham số chi bình phương, tham số Fisher… Trong khuôn khổ cuốn sách này, chúng tôi chỉ giới thiệu cách thức áp dụng những phương pháp kiểm định đó để giải quyết những vấn đề liên quan đến nghiên cứu tiếp thị, những vấn đề khác liên quan đến việc giải thích bản chất của các công thức có thể tham khảo thêm trong các giáo trình chuyên môn về thống kê toán
Các khái niệm cơ bản
Giả thiết cần kiểm định
Giả sử đại lượng ngẫu nhiên X cần nghiên cứu tuân theo một qui luật phân phối xác suất đã biết dạng, nhưng chưa biết giá trị của tham số θ nào đó của nó Trên cơ sở những tin tức thu được, ta
có thể giả định rằng θ = θ0, trong đó θ0 là số thực Tất nhiên điều giả định θ = θ0 này có thể đúng hoặc có thể sai, do đó cần phải kiểm tra lại giả định đó Từ đó ta có giả thiết cần kiểm định là {H0: θ = θ0}
Các giả thiết đối (đối thiết)
Vì giả thiết H0 cũng có thể đúng và cũng có thể sai với một độ tin cậy nào đó, khi giả thiết H0 sai thì ta phải bác bỏ nó Khi đó phải chấp nhận một trong ba giả thiết đối (ký hiệu: H1) sau đây:
- Trong trường hợp kiểm định dạng "hai đuôi" (Two-tail test):
⎩
⎨
⎧
≠
=
0 1
0 0
:
H
:
θ θ
θ θ
H
- Trong trường hợp kiểm định dạng "một đuôi" (One-tail test):
⎩
⎨
⎧
>
=
0 1
0 0
:
H
:
θ θ
θ θ
H
⎩
⎨
⎧
<
=
0 1
0 0
: H
:
θ θ
θ θ
H
Do vậy trong bài toán kiểm định giả thiết, sau khi đã đề ra giả thiết cần kiểm định H0, ta cần phát biểu kèm một giả thiết đối H1 để khẳng định rằng nếu như giả thiết H0 bị bác bỏ thì ta chấp nhận giả thiết đối kèm theo với một mức ý nghĩa α nào đấy (1- α được gọi là độ tin cậy)
Các loại sai lầm
Chú ý rằng, vì mẫu không phải là hình ảnh chính xác của tổng thể, nên mọi mẫu chọn được đều chứa một sai số ngẫu nhiên nào đó Do vậy, khi dựa vào mẫu để kiểm định giả thiết có thể gặp phải hai loại sai lầm sau:
- Sai lầm loại 1: Khi ta bác bỏ một giả thiết đúng
- Sai lầm loại 2: Khi ta thừa nhận một giả thiết sai
Trang 10Trong khi tiến hành kiểm định, người ta thường ấn định trước một xác suất mức sai lầm loại 1 Nếu xác suất này bằng α, thì α được gọi là mức ý nghĩa của kiểm định (thông thường α phải khá
bé, α = 0,05, α = 0,1)
Chấp nhận Quyết định đúng Sai lầm loại 2 (xác suất β)
Bác bỏ Sai lầm loại 1 (xác suất α) Quyết định đúng
Tiêu chuẩn kiểm định và miền bác bỏ
Sau khi đã đề ra giả thuyết H0 cần kiểm định kèm theo giả thiết đối H1 và qui định mức ý nghĩa
α, ta cần phải tìm một thống kê T cùng qui luật phân phối xác suất của nó Với một mức ý nghĩa
α xác định, ta luôn tìm được mọi miền Wα, thỏa mãn điều kiện P(K∈Wα H0)=α (xác suất để
K thuộc miền miền bác bỏ Wα với điều kiện H0 đúng bằng α)
Do α khá bé, nên ta có thể coi biến cố (K∈Wα) là biến cố không thể có (với điều kiện giả thiết H0
đúng) Vì vậy, trong thực tế nếu dựa vào giá trị x của mẫu ngẫu nhiên X, ta tính được giá trị kqs
của thống kê K mà lại thấy giá trị kqs∈Wα, thì điều này sẽ mâu thuẫn với điều kiện nói trên Nguyên nhân sinh ra mâu thuẫn giữa lý thuyết và thực tế là do ta giả thiết rằng H0 đúng Để tránh mâu thuẫn này ta phải bác bỏ giả thiết, vì thế Wα được gọi là miền bác bỏ và kqs được gọi là tiêu chuẩn kiểm định
Chú ý:
- Khi giả thiết H0 đúng thì tiêu chuẩn kiểm định K vẫn có thể nhận giá trị kqs∈Wα với xác suất xảy ra là α Vì vậy trong trường hợp kqs∈Wα mà ta bác bỏ giả thiết H0 thì ta có thể mắc sai lầm loại 1, với xác suất mắc sai lầm loại 1 chính là α
- Nếu ta ký hiệu P(k qs ∈Wα H1)=β thì β là xác suất bác bỏ một giả thiết sai Do đó, xác suất không bác bỏ một giả thiết sai P(K qs∈Wα H1)=1−β là xác suất mắc sai lầm loại 2 và β sẽ được gọi là xác suất không mắc sai lầm loại 2, người ta gọi β là hiệu lực của kiểm định
- Với kích thước mẫu n xác định thì với mẫu tiêu chuẩn kiểm định ta sẽ có miền bác bỏ Wα thỏa mãn điều kiện: P(K qs ∈Wα H0)=α
Nếu tồn tại một tiêu chuẩn kiểm định kqs với miền bác bỏ Wα sao cho (1-β) là nhỏ nhất và β lớn nhất Khi đó kqs được gọi là tiêu chuẩn kiểm định mạnh nhất Một tiêu chuẩn được coi là mạnh nhất thì nó đảm bảo 3 yêu cầu:
- Xác suất mắc sai lầm loại 1 là α qui định trước
- Xác suất mắc sai lầm loại 2 là nhỏ nhất
- Khi bác bỏ giả thiết H0 thì ta có thể thừa nhận giả thiết đối H1
Như vậy chúng ta có thể xác định miền bác bỏ và miền chấp nhận trong các trường hợp kiểm định một đuôi và hai đuôi là:
- Trong kiểm định hai đuôi: