Hàng ngày chúng ta sử dụng các nguồn thông tin khác nhau để thu thập các sự kiện cần thiết cho việc định hướng các hoạt động trong cuộc sống của chúng ta. Chúng ta có thể nghe dự báo thời tiết để quyết định xem nên mặc loại quần áo nào, và nếu chúng ta sống trong một thành phố lớn, chúng ta có thể nghe bản tin về tình trạng ách tắc giao thông trên các tuyến phố để lựa chọn tuyến đường tốt nhất cho việc đi đến cơ quan hay trường học
Trang 11.1 Khái niệm và phân loại thống kê 1
1.2 Vai trò và bản chất của thống kê ứng dụng 4
1.3 Ứng dụng vi tính 5
Chương 2 THU THẬP DỮ LIỆU 6
2.1 Khái niệm 6
2.2 Phân loại dữ liệu 6
2.2.1 Phân loại dữ liệu theo tính chất định tính và định lượng 6
2.2.2 Phân loại dữ liệu theo thang đo 8
2.2.3 Phân loại dữ liệu theo nguồn 11
2.3 Các hình thức thu thập dữ liệu 11
2.3.1 Thu thập dữ liệu thông qua báo cáo 11
2.3.2 Thu thập dữ liệu thông qua điều tra 11
2.4 Các phương pháp lấy mẫu thường dùng 13
2.4.1 Các mẫu ngẫu nhiên 14
2.4.2 Các phương pháp lấy mẫu không ngẫu nhiên 17
2.5 Các phương pháp điều tra 18
2.6 Sai số do lấy mẫu và sai số không do lấy mẫu 19
2.7 Ứng dụng vi tính 20
Chương 3 TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU 22
3.1 Tóm tắt và trình bày dữ liệu định tính 22
3.1.1 Bảng tóm tắt 22
3.1.2 Biểu đồ cột (Bar chart) 23
3.1.3 Biểu đồ hình tròn (Pie chart) 24
3.2 Tóm tắt và trình bày dữ liệu định lượng 24
3.2.1 Dãy số sắp xếp 24
3.2.2 Biểu đồ thân và lá (Stem - and - leaf display) 25
3.2.3 Phân phối tần số 26
3.2.4 Phân phối tỷ lệ phần trăm 28
3.2.5 Phân phối tích lũy 29
3.2.6 Biểu đồ phân phối (Histogram) 30
Trang 23.3 Bảng phân tổ kết hợp (Bảng chéo – Cross Table) 32
3.4 Ứng dụng vi tính 34
CHƯƠNG 4 CÁC ĐẠI LƯỢNG ĐO LƯỜNG XU HƯỚNG TẬP TRUNG VÀ ĐỘ PHÂN TÁN 41
4.1 Các đại lượng đo lường xu hướng tập trung và độ phân tán của một mẫu 41
4.1.1 Trung bình (mean) 41
4.1.2 Trung vị (median) 46
4.1.3 Mốt (mode) 48
4.1.4 Tứ phân vị (Quartiles) 49
4.1.5 Trung bình nhân (geometric mean) 50
4.2 Các đại lượng đo lường độ phân tán 52
4.2.1 Khoảng biến thiên (Range) 52
4.2.2 Khoảng tứ phân vị (Interquartile Range) 52
4.2.3 Phương sai và độ lệch chuẩn 53
4.2.4 Hệ số biến thiên 55
4.3 Biểu đồ hình hộp 56
4.4 Mối quan hệ giữa µ và σ 2 57
4.5 Ứng dụng vi tính 57
CHƯƠNG 5 BIẾN NGẪU NHIÊN VÀ CÁC PHÂN PHỐI XÁC SUẤT THÔNG DỤNG 61
5.1 Biến ngẫu nhiên 61
5.2 Phân phối xác suất của biến ngẫu nhiên 62
5.2.1 Phân phối xác suất của biến ngẫu nhiên rời rạc 62
5.2.1 Phân phối xác suất của biến ngẫu nhiên liên tục 66
5.3 Một số quy luật phân phối xác suất thông dụng 68
5.3.1 Phân phối nhị thức 68
5.3.2 Phân phối normal 70
5.3.3 Phân phối normal chuẩn hóa (standard normal distribution) 72
5.3.4 Phân phối normal như là xấp xỉ của phân phối nhị thức 74
5.4 Các phân phối của các tham số mẫu 77
5.4.1 Khái niệm 77
5.4.2 Phân phối của trung bình mẫu 78
5.4.3 Phân phối của tỷ lệ mẫu 79
Trang 3CHƯƠNG 6 ƯỚC LƯỢNG KHOẢNG 85
6.1 Giới thiệu chung 85
6.2 Khoảng tin cậy của trung bình tổng thể 86
6.2.1 Trong trường hợp mẫu lớn (n≥30) 86
6.2.2 Mẫu bé (n < 30) 87
6.3 Khoảng tin cậy của tỷ lệ tổng thể trong trường hợp mẫu lớn (n ≥ 30) 88
6.4 Ứng dụng vi tính 89
CHƯƠNG 7 KIỂM ĐỊNH GIẢ THUYẾT 94
7.1 Giới thiệu chung 94
7.1.1 Khái niệm về kiểm định giả thuyết 94
7.1.2 Giả thuyết H0 và H1 94
7.1.3 Sai số loại I và loại II 95
7.1.4 Kiểm định một bên và hai bên 96
7.1.5 Các bước kiểm định giả thuyết 96
7.2 Kiểm định giả thuyết về trung bình tổng thể 96
7.2.1 Trường hợp mẫu lớn 96
7.2.2 Trường hợp mẫu bé (n<30) 98
7.3 Mối liên hệ giữa ước lượng khoảng và kiểm định giả thuyết 100
7.4 Kiểm định giả thuyết về tỷ lệ tổng thể trong trường hợp mẫu lớn 100
7.5 Xác suất tới hạn P (p-value) 101
7.6 Hệ số điều chỉnh tổng thể hữu hạn 101
7.7 The power of a test 103
7.8 Kiểm định tính bằng nhau của hai trung bình của hai tổng thể 103
7.8.1 Trường hợp mẫu cặp 103
7.8.2 Trường hợp mẫu độc lập 105
7.9 Kiểm định tính bằng nhau của hai tỷ lệ của hai tổng thể 109
7.10 Ứng dụng vi tính 110
CHƯƠNG 8 KIỂM ĐỊNH PHI THAM SỐ 116
8.1 Giới thiệu chung 116
8.2 Kiểm định dấu 116
Trang 48.3.2 Trường hợp mẫu lớn (n1 và n2 ≥ 10) 120
8.4 Kiểm định tính chất phân phối của dữ liệu 121
8.5 Kiểm định mối liên hệ 122
8.5.1 Trường hợp bảng kết hợp có kích thước 2 x 2 124
8.6 Kiểm định tính ngẫu nhiên của dãy dữ liệu (Run test) 124
8.7 Ứng dụng vi tính 126
Chương 9 TƯƠNG QUAN VÀ HỒI QUY 133
9.1 Giới thiệu chung 133
9.2 Tương quan 133
9.2.1 Khái niệm và các loại liên hệ 133
9.2.2 Biểu đồ phân tán 134
9.2.3 Hệ số tương quan tuyến tính của Pearson 135
9.3 Hồi qui 136
9.3.1 Lựa chọn đường hồi quy 137
9.3.2 Phương trình hồi qui tuyến tính đơn 138
9.3.3 Hệ số xác định R 2 139
9.4 Ứng dụng vi tính 140
CHƯƠNG 10 DÃY DỮ LIỆU THEO THỜI GIAN 143
10.1 Khái niệm và ý nghĩa 143
10.2 Các thành phần của dãy số thời gian 143
10.3 Các chỉ tiêu mô tả dãy số thời gian 144
10.3.1 Mức độ trung bình theo thời gian 144
10.3.2 Lượng tăng giảm tuyệt đối 145
10.3.3 Tốc độ phát triển (development rate) 145
10.3.4 Tốc độ tăng trưởng (growth rate) 145
10.3.5 Giá trị tuyệt đối của 1% tăng (giảm) 146
10.4 Các phương pháp biểu hiện xu hướng biến động của dãy số thời gian 146
10.4.1 Phương pháp bình quân di động 146
10.4.2 Phương pháp hàm xu hướng 148
10.5 Phương pháp biểu hiện biến động mùa vụ 149
Trang 510.6.2 Phương pháp làm trơn theo hàm mũ đơn giản (Simple Exponential Smoothing) 151
10.6.3 Phương pháp Holt-Winters 152
10.6.4 Phương pháp dự báo dựa trên mô hình nhân 153
10.6.5 Phương pháp dự báo dựa vào lượng tăng giảm tuyệt đối trung bình 155
10.6.6 Phương pháp dự báo dựa vào tốc độ phát triển trung bình 155
10.7 Ứng dụng vi tính 156
CHƯƠNG 11 CHỈ SỐ 159
11.1 Khái niệm và phân loại 159
11.1.1 Khái niệm 159
11.1.2 Phân loại chỉ số 159
11.2 Phương pháp tính chỉ số 159
11.3 Một số chỉ số thường gặp trong thực tế 163
11.3.1 Chỉ số giá tiêu dùng (CPI) 163
11.3.2 Chỉ số chứng khoán VN-Index 164
11.4 Ứng dụng vi tính 167
Trang 6Chương 1 GIỚI THIỆU CHUNG VỀ THỐNG KÊ ỨNG
để lựa chọn tuyến đường tốt nhất cho việc đi đến cơ quan hay trường học
Những sở thích cá nhân của chúng ta cũng ảnh hưởng đến một số quyết định của chúng
ta Mặc dù nghe những lời bình luận không tốt về một bộ phim, nhưng dù thế nào đi chăngnữa chúng ta vẫn quyết định đi xem nó chỉ vì tình cờ chúng ta thích một diễn viên nào đótrong phim
Tương tự như vậy, hàng ngày các nhà quản trị kinh doanh phải ra các quyết định Mặc
dù các nhà quản trị đôi khi sử dụng đến các khả năng bẩm sinh để ra một số quyết định (cácquyết định này được biết đến một cách chính thức hơn như là các quyết định không có cấutrúc), tuy nhiên họ ra các quyết định mà bị ảnh hưởng trực tiếp bởi các sự việc có căn cứ rõràng Là một sinh viên chuyên ngành quản trị kinh doanh, chúng ta thực sự không thể nào họccách làm thế nào để ra các quyết định không có cấu trúc như vậy được, bởi vì các quyết địnhnày đòi hỏi phải dựa trên các khả năng bẩm sinh và nhiều năm kinh nghiệm để thực hiện Tuynhiên, chúng ta có thể học các phương pháp mà sẽ giúp chúng ta ra các quyết định tốt hơn màcác quyết định này được dựa trên các căn cứ rõ rành có cơ sở khoa học Khi chúng ta bắt đầutập trung vào các phương pháp liên quan đến việc thu thập, tóm tắt và trình bày một bộ dữliệu hay rút ra các kết luận về bộ dữ liệu đó, chúng ta đã phát hiện ra thống kê
1.1 Khái niệm và phân loại thống kê
Thống kê là một nhánh của toán học nghiên cứu các phương pháp xử lý và phân tích dữ
liệu Thống kê cung cấp các phương pháp thu thập dữ liệu, tóm tắt và trình bày dữ liệu, phântích và giải thích ý nghĩa của các dữ liệu đó để trợ giúp cho việc ra các quyết định hiệu quảhơn
Các quyết định trong kinh doanh thường được thực hiện trong điều kiện thông tin khôngđầy đủ Thống kê cung cấp một cách để vượt qua sự thiếu hụt thông tin đó thông qua hai chứcnăng:
Trang 7 Rút ra các kết luận từ các dữ liệu thống kê
Chỉ ra độ tin cậy của các kết luận đó (hoặc các kết luận được rút ra bởi những ngườikhác)
Các họat động cơ bản của thống kê ứng dụng trong kinh doanh là:
Giai đoạn lập kế hoạch (cần các dữ liệu gì, làm thế nào để có các dữ liệu đó)
Khám phá dữ liệu (tóm tắt và trình bày dữ liệu, xác định các sai số, các mẫu hình vàcác mối quan hệ)
Ước lượng các tham số quan trọng
Đánh giá các kết luận
Dự báo / dự đoán thống kê
Để hiểu bất kỳ điều gì về thống kê, trước tiên chúng ta cần phải hiểu ý nghĩa của một tiêuthức thống kê
TIÊU THỨC THỐNG KÊ
Tiêu thức thống kê (Biến) – Variables: là đặc điểm của đơn vị tổng thể được chọn ra
để nghiên cứu tuỳ theo mục đích nghiên cứu
Ví dụ giới tính, lĩnh vực nghiên cứu, số tiền có trong ví của chúng ta là các tiêu thức
thống kê Khía cạnh then chốt của thuật ngữ tiêu thức thống kê (biến) là ở chỗ các đơn vị của
tổng thể khác nhau về trị số Người ngồi cạnh chúng ta có thể là nam thay vì là nữ, có thể cóchuyên môn trong lĩnh vực nghiên cứu khác với chúng ta, và hầu như chắc chắn có số tiềnkhác nhau trong ví của họ Chúng ta nên phân biệt giữa biến, chẳng hạn giới tính, và trị số củabiến đối với mỗi một quan sát nhất định (ví dụ “nam”)
TỔNG THỂ
Tổng thể – Population: là tập hợp tất cả các đơn vị (hay phần tử) thuộc hiện tượng nghiên cứu
mà chúng ta có thể thu thập dữ liệu từ chúng
Đại lượng thống kê – Statistic: là bất kỳ một đại lượng đo lường đặc trưng nào của một mẫu.
Cácví dụ về tổng thể là tất cả các sinh viên chính quy trong một trường đại học, tất cảcác cử chi đăng ký đi bầu cử ở Hà Nội, và tất cả các khách hàng đi mua sắm tại một siêu thịcuối tuần này Các mẫu có thể được lấy ra từ mỗi tổng thể trong ba tổng thể trên Các ví dụbao gồm 10 sinh viên chính quy được lựa chọn để thăm dò ý kiến về một chủ đề nào đó, 500
cử chi đã đăng ký ở Hà Nội được liên lạc bằng điện thoại để thăm dò ý kiến bầu cử, và 30khách hàng đi mua sắm ở siêu thị đã được hỏi để hoàn thành một cuộc điều tra về sự thỏa mãn
Trang 8khách hàng Trong mỗi trường hợp, những người trong mẫu đại diện cho một bộ phận củanhững người bao gồm trong tổng thể.
Số tiền trung bình được chi tiêu bởi tất cả những người đã đi mua sắm tại siêu thị cuốituần này là một tham số Các thông tin từ tất cả các khách hàng trong tổng thể được sử dụng
để tính tham số này Số tiền trung bình được chi tiêu bởi 30 khách hàng đã được hỏi trongcuộc điều tra về sự thỏa mãn khách hàng là một đại lượng thống kê Các thông tin chỉ từ 30người đã đi siêu thị cuối tuần này được sử dụng để tính đại lượng thống kê đó
Bản thân thống kê được chia thành hai nhánh là thống kê mô tả và thống kê suy diễn
và cả hai nhánh đó đều có thể ứng dụng trong quản trị kinh doanh Thống kê mô tả tập trung vào việc thu thập, tóm tắt và trình bày một bộ dữ liệu Thống kê suy diễn sử dụng dữ liệu của
một mẫu để rút ra các kết luận về một tổng thể
Thống kê mô tả bắt nguồn từ nhu cầu ghi chép và lưu trữ của các tổ chức chính trị - xãhội rộng lớn Ví dụ định kỳ khoảng mười năm, nước ta lại thực hiện một cuộc điều tra dân số
để thu thập và tóm tắt các dữ liệu về dân số nước ta Qua nhiều năm, Ủy ban Dân số và Kếhoạch hóa gia đình là một trong nhiều tổ chức mà đã trau chuốt các phương pháp thống kê mô
tả Nền tảng của thống kê suy diễn được dựa trên lý thuyết xác suất Các phương pháp suydiễn sử dụng các dữ liệu mẫu để tính toán các đại lượng thống kê mà được sử dụng để ướclượng các đặc trưng của tổng thể
Ngày nay, thống kê được ứng dụng trong nhiều lĩnh vực kinh doanh khác nhau Kế toán
sử dụng các phương pháp thống kê để lấy ra các mẫu cho các mục đích kiểm toán Tài chính
sử dụng các phương pháp thống kê để lựa chọn giữa các khoản đầu tư khác nhau và để theodõi các xu hướng của các thước đo tài chính qua thời gian Quản lý sử dụng các phương phápthống kê để cải tiến chất lượng của các sản phẩm được sản xuất hoặc các dịch vụ được phânphát bởi một tổ chức Marketing sử dụng các phương pháp thống kê để ước lượng tỷ lệ kháchhàng ưa thích một sản phẩm nào đó hơn một sản phẩm khác và tại sao họ lại thích hơn, và đểrút ra các kết luận về một chiến lược marketing mà có thể hữu ích nhất trong việc làm tăngdoanh số bán hàng của một sản phẩm
Trang 91.2 Vai trò và bản chất của thống kê ứng dụng
Thống kê được ứng dụng trong mọi lĩnh vực của nghiên cứu khoa học Đối với ngườihoạch định chính sách kinh tế, những người mà phải tư vấn cho chính phủ về các chính sáchkinh tế, thống kê đã chứng minh là một công cụ vô giá Các quyết định liên quan đến các tỷ lệthuế suất, các chương trình xã hội, chi tiêu quốc phòng, và nhiều vấn đề khác có thể đượcthực hiện một cách khôn khéo chỉ với sự trợ giúp của phân tích thống kê Các nhà quản lýtrong các doanh nghiệp, đã nhận thấy thống kê cần thiết trong quá trình ra quyết định Những
nỗ lực kiểm soát chất lượng, cực tiểu chi phí, hỗn hợp sản phẩm và dự trữ, và một loạt cácvấn đề kinh doanh khác có thể được quản lý hiệu quả bằng cách sử dụng các phương phápphân tích thống kê
Trong nghiên cứu marketing, thống kê là sự trợ giúp vô giá trong việc xác định xemliệu một sản phẩm mới có thể sẽ thành công hay không Thống kê cũng rất hữu ích cho cácnhà tư vấn tài chính trong việc đánh giá các cơ hội đầu tư Các nhân viên kế toán, các nhàquản lý nhân sự, và các nhà sản xuất tất cả đều tìm thấy vô số các cơ hội sử dụng các công cụphân tích thống kê
Những sự ứng dụng này và nhiều ứng dụng khác được minh họa một cách lặp đi lặplại trong cuốn sách này Chúng ta sẽ được chỉ ra thống kê có thể được ứng dụng như thế nào
để cải thiện kết quả làm việc của chúng ta và rất nhiều khía cạnh khác của cuộc sống hàngngày của chúng ta
Chúng ta đã nhấn mạnh đến tính hữu ích của thống kê và một loạt các vấn đề rộng lớnkhác mà nó có thể giải quyết Để minh họa đầy đủ hơn khả năng ứng dụng rộng rãi của thống
kê, chúng ta sẽ nghiên cứu các chức năng của thống kê Thống kê là khoa học liên quan đếnviệc thu thập dữ liệu, tóm tắt và trình bày dữ liệu, phân tích và giải thích ý nghĩa của các dữliệu đó
Bước đầu tiên trong nghiên cứu thống kê là thu thập dữ liệu Các dữ liệu sau khi thuthập xong, phải được tóm tắt và trình bày dưới dạng một số mẫu có ý nghĩa và có khả năng
mô tả các đặc trưng chung của hiện tượng nghiên cứu Các quá trình này cấu thành nênphương pháp thống kê mô tả và được thảo luận trong các chương tiếp theo Sau khi các dữliệu đã được tóm tắt và trình bày cho việc nghiên cứu, nhà thống kê phải phân tích và giảithích chúng Các quá trình này dựa trên các phương pháp thống kê suy diễn và cấu thành nênmột lợi ích chính của phân tích thống kê bởi sự trợ giúp trong quá trình ra quyết định và giaiquyết vấn đề
Trang 10Với những chức năng cơ bản này của phân tích thống kê, chúng ta nhấn mạnh rằngứng dụng cuối của thống kê là dự báo và dự đoán thống kê Chúng ta sẽ tìm thấy điều đóthông qua sự ứng dụng của một số phương pháp thống kê cụ thể nó có thể dự báo tương laivới một độ chính xác nhất định Bất kể một doanh nghiệp nào phải đối mặt với các áp lựccạnh tranh cũng có thể được lợi một cách đáng kể từ khả năng nhận ra các điều kiện kinhdoanh trước khi chúng xảy ra Nếu một doanh nghiệp biết doanh số bán hàng của họ sẽ là baonhiêu trong một khoảng thời gian trong tương lai gần, ban quản lý có thể lập kế hoạch chínhxác và hiệu quả hơn cho các hoạt động hiện tại Nếu doanh số bán hàng trong tương lai đượcước lượng với một độ chính xác đáng tin cậy, ban quản lý có thể dễ dàng ra các quyết địnhquan trọng liên quan đến các mức dự trữ, đặt hàng nguyên vật liệu, các yêu cầu về tuyểndụng, và các khía cạnh khác của hoạt động kinh doanh.
1.3 Ứng dụng vi tính
BÀI TẬP
1 Có ba loại nước giải khát được bán tại một nhà hàng là: nước giải khát có ga, chè và cà fê.a) Hãy giải thích tại sao loại nước giải khát được bán là một ví dụ về biến phân loại
b) Hãy giải thích tại sao loại nước giải khát được bán là một ví dụ về biến định danh
2 Các đồ uống có ga được bán tại một nhà hàng thức ăn nhanh dưới ba dạng kích thước khácnhau: nhỏ, trung bình và lớn Hãy giải thích tại sao kích thước của đồ uống có ga là một ví dụ
về biến thứ hạng
3 Hãy xác định xem trong mỗi trường hợp sau là biến phân loại hay biến số lượng Nếu làbiến số lượng, hãy xác định xem nó là biến rời rạc hay biến liên tục Ngoài ra, hãy xác địnhloại thang đo
a) Tên của nhà cung cấp Internet
b) Thời gian lướt trên mạng Internet mỗi tuần
c) Lưu lượng lớn nhất của Sông Hồng (m3/giây)
d) Số email nhận được trong mỗi tuần
e) Số cuốn sách đã mua
4 Có dữ liệu về mức độ tập trung trong công việc của 200 công nhân như sau:
gian tập trungtối đa trên côngviệc (phút)
Mức độ hoạtđộng
1 = thấp
Số lần bị giánđoạn khỏi côngviệc
Trang 112 = trung bình
3 = cao9
2,55,8
32
312 Hãy phân loại 5 biến trên theo tính chất định tính và định lượng Nếu là định lượng, hãy phânloại tiếp xem là rời rạc hay liên tục?
5 Có thông tin về các khách hàng đi mua hàng tại một cửa hàng ở cuối tuần này như sau:
mua hàng(phút)
Số tiền muahàng (nghìnđồng)
Số món hàngmua
Thời điểm đimua hàngtrong ngàyJ
3845
7801056
78
SángTối Hãy phân loại 6 biến trên theo tính chất định tính và định lượng Nếu là định lượng, hãy phânloại tiếp xem là rời rạc hay liên tục?
Trang 12Chương 2 THU THẬP DỮ LIỆU
2.1 Khái niệm
Thu thập dữ liệu là tổ chức một cách khoa học và theo một kế hoạch thống nhất để thuthập dữ liệu về các hiện tượng kinh tế - xã hội Để quản lý sản xuất kinh doanh có hiệu quảđòi hỏi các doanh nghiệp phải thu thập được các dữ liệu thích hợp Có rất nhiều trường hợpkhác nhau đòi hỏi phải thu thập dữ liệu:
quảng cáo mới trên tivi
Một nhà sản xuất dược phẩm cần phải quyết định xem liệu một loại thuốc mới có tốthơn các loại thuốc hiện đang được sử dụng
Nhà quản lý sản xuất muốn kiểm tra một quá trình sản xuất để xác định xem liệu chấtlượng của các sản phẩm được sản xuất có đáp ứng các tiêu chuẩn của công ty haykhông
Kiểm toán viên muốn kiểm tra lại các giao dịch tài chính của một công ty để xác địnhxem liệu công ty có tuân thủ các nguyên tắc kế toán được chấp nhận chung hay không
Một nhà đầu tư muốn xác định xem các hãng nào trong những ngành nào có thể tăngtốc trong giai đoạn kinh tế phục hồi
2.2 Phân loại dữ liệu
2.2.1 Phân loại dữ liệu theo tính chất định tính và định lượng
Dữ liệu là các giá trị quan sát được của các tiêu thức nghiên cứu, chẳng hạn các câu trả
lời thu được trong một cuộc điều tra Các nhà thống kê tổ chức các cuộc điều tra để nghiêncứu một lọat các tiêu thức khác nhau Trong Hình 2.1 cho thấy có hai loại tiêu thức khác nhau
là tiêu thức định tính và tiêu thức định lượng
Trang 13Loại dữ liệu Loại câu hỏi Câu trả lờiĐịnh tính Hiện tại bạn có sở hữu một loại cổ phiếu hay trái phiếu nào không?Có Không
Định lượng
Số lượng
milimét
Hình 2.1 Các loại tiêu thức
Tiêu thức định tính là tính chất hay loại hình của đơn vị tổng thể, không có biểu hiện
trực tiếp bằng các con số Tiêu thức định tính tạo ra các câu trả lời mang tính phân loại, chẳnghạn các câu trả lời có hoặc không Ví dụ câu trả lời đối với câu hỏi “Hiện tại chúng ta có sởhữu một loại cổ phiếu hay trái phiếu nào không?” bởi vì nó bị giới hạn bởi câu trả lời đơngiản là có hoặc không Hay trường hợp trả lời đối với câu hỏi của một nhà bán lẻ là “liệuchúng ta có thể mua thêm hàng hóa thông qua công ty của chúng tôi trong 12 tháng tới haykhông?” Tiêu thức định tính cũng có thể tạo ra nhiều hơn hai phương án trả lời Ví dụ “chúng
ta thích đi ăn ở nhà hàng vào ngày nào trong tuần nhất?” hay điều tra 12 nhà quản lí điều hànhvới câu hỏi: “trình độ học vấn cao nhất mà ông/bà đã hoàn thành là gì?” mẫu điều tra có thểliệt kê các lựa chọn có thể có như sau:
PTTH / Trung cấp / Cao đẳng / Đại học / Thạc sĩ / KhácCác câu trả lời đối với câu hỏi này có thể là:
Trung cấp, Cao đẳng, Đại học, Thạc sĩ, Thạc sĩ, Đại học, Trung cấp, Đại học,Thạc sĩ, Khác, Cao đẳng
Đây chính là một bộ dữ liệu định tính: các câu trả lời chỉ ra trình độ học vấn thích hợp đối vớimỗi nhà quản lí được hỏi
Tiêu thức định lượng tạo ra những kết quả trả lời bằng số chẳng hạn như chiều cao của
chúng ta dưới dạng milimét Các ví dụ khác là số tiền chúng ta kỳ vọng sẽ chi tiêu cho chiếc
xe máy của chúng ta trong 12 tháng tới là bao nhiêu hay kết quả trả lời đối với câu hỏi “Hiện
Trang 14tại chúng ta đặt mua bao nhiêu loại tạp chí?” Tiêu thức định lượng lại được chia thành hai loại:
Biến rời rạc chỉ có thể nhận các giá trị cụ thể và luôn luôn có khoảng cách giữa các giá
trị Các giá trị này thường là các số nguyên, ví dụ như số trẻ em có trong mỗi hộ gia đình Tuynhiên chúng không nhất thiết phải là số nguyên Ví dụ với câu hỏi từ một cuộc điều tra vềviệc sử dụng máy tính đối với nhân viên trong một công ty: “thời gian chúng ta dành để lướttrên mạng Internet ngày hôm nay là bao lâu (làm tròn đến ¼ giờ)?” các câu trả lời có thể là: 2;1,5; 0,25; 0,5; 0; 0,25,
Biến liên tục có thể nhận bất kỳ một giá trị nào trong một khoảng nhất định trên trục số.
Ví dụ: khoảng cách đi từ nhà đến trường của mỗi sinh viên hay trọng lượng của một hộp sữabột dinh dưỡng cho trẻ em (Tuy nhiên trọng lượng in trên bao bì được làm tròn đến đơn vị làgam, vì vậy sẽ là rời rạc.)
Trong thực tế, độ chính xác của bất kỳ một thiết bị đo nào cũng bị giới hạn đến một số chữ sốthập phân nhất định sau dấu phẩy, chính vì vậy mọi bộ dữ liệu trong thực tế đều là rời rạc Nóthường hữu ích để xem một bộ dữ liệu như là liên tục, mặc dù thực tế nó là rời rạc!
Ví dụ: doanh số bán hàng hàng tuần của một cửa hàng có thể là:
25.984, 35 nghìn đồng; 17.354, 85 nghìn đồng; 20.876,54 nghìn đồng,
Đây là một bộ dữ liệu rời rạc Tuy nhiên nó sẽ luôn luôn thích được xem như là một bộ dữliệu liên tục vì có rất nhiều giá trị có thể có
2.2.2 Phân loại dữ liệu theo thang đo
Các dữ liệu cũng có thể được phân loại theo thang đo Có bốn loại thang đo được sử dụngrộng rãi là: thang đo định danh, thang đo thứ bậc, thang đo khoảng và thang đo tỷ lệ
Thang đo định danh và thang đo thứ bậc
Các dữ liệu từ tiêu thức định tính được đo trên thang đo định danh hoặc thang đo thứ bậc.Thang đo định danh (Hình 2.2) phân loại dữ liệu thành các loại khác nhau trong đó không chobiết thứ hạng của chúng Trong cuộc điều tra mức độ thỏa mãn khách hàng của một công tybán lẻ, kết quả trả lời đối với câu hỏi “liệu chúng ta có thể mua thêm hàng hóa thông qua công
ty của chúng tôi trong 12 tháng tới hay không?” là một ví dụ về tiêu thức được đo trên thang
đo định danh Thang đo định danh là thang đo yếu nhất bởi vì chúng ta không thể chỉ ra được
sự hơn kém nào về thứ hạng giữa các nhóm
Trang 15Tiêu thức định tính Phân loại
Hình 2.2 Các ví dụ về thang đo định danh
Hình 2.3 Các ví dụ về thang đo thứ bậc
An toàn công việc Rất an toàn Tương đối an toàn Hơi rủi ro Nguy hiểm Cực kỳ nguy hiểm
Trung lậpTương đối thỏa mãnRất thỏa mãn
Thang đo thứ bậc phân loại dữ liệu thành các nhóm riêng biệt trong đó có cho biết
thứ hạng của chúng Trong cuộc điều tra mức độ thỏa mãn khách hàng của một hãng, các câutrả lời đối với câu hỏi “Chúng ta đánh giá như thế nào về toàn bộ dịch vụ được cung cấp bởicông ty chúng tôi?” là một tiêu thức được đo trên thang đo thứ bậc bởi vì các câu trả lời “tốthơn mong đợi rất nhiều, tốt hơn mong đợi, như mong đợi, kém hơn mong đợi và kém hơnmong đợi rất nhiều” được sắp xếp theo thứ tự của mức độ thỏa mãn khách hàng Hình 2.3 chỉ
ra các ví dụ về các tiêu thức được đo trên thang đo thứ bậc
Thang đo thứ bậc mạnh hơn thang đo định danh bởi vì một giá trị quan sát được phânloại vào trong một nhóm sở hữu nhiều hơn một thuộc tính so với một giá trị quan sát đượcphân loại vào trong một nhóm khác Tuy nhiên, thang đo thứ bậc vẫn tương đối yếu so với cácthang đo khác bởi vì thang đo thứ bậc không tính đến độ lớn của sự chênh lệch giữa các
nhóm Thang đo thứ bậc chỉ ám chỉ đến nhóm nào “lớn hơn”, “tốt hơn”, hay được “ưa thích hơn” – mà không ám chỉ đến là bao nhiêu.
Thang đo khoảng và thang đo tỷ lệ
Trang 16Tiêu thức định lượng Thang đo
Hình 2.4 Các ví dụ về thang đo khoảng và thang đo tỷ lệ
Các dữ liệu từ tiêu thức định lượng được đo trên thang đo khoảng hoặc thang đo tỷ lệ Thang
đo khoảng (Hình 2.4) là thang đo thứ bậc trong đó sự khác nhau giữa các giá trị là một số có
ý nghĩa, nhưng không bao hàm số không thực Ví dụ: thang đo nhiệt độ là thang đo khoảng.Trên thang đo này chúng ta dễ dàng xác định được, chẳng hạn:
- 31oC cao hơn 3 oC so với 28 oC
- chênh lệch giữa 31 oC và 28 oC cũng giống như chênh lệch giữa 55 oC và 52 oC,đều là 3 oC
- 0oC chỉ là một điểm trên thang đo
Thang đo tỷ lệ là thang đo trong đó sự khác nhau giữa các giá trị có bao hàm một số
không thực như các thang đo về chiều cao, cân nặng, tuổi hay tiền lương Trong điều tra mức
độ thỏa mãn khách hàng của một hãng, số tiền mà chúng ta kỳ vọng chi tiêu cho chiếc xe máycủa chúng ta trong 12 tháng tới là một tiêu thức được đo trên thang đo tỷ lệ Ví dụ khác, nếuthu nhập tháng trước là 3 triệu đồng, tháng này là 6 triệu đồng, thì có nghĩa là thu nhập thángnày gấp đôi tháng trước Thang đo nhiệt độ lại là trường hợp khác: Các thang đo nhiệt độCelsius và Fahrenheit là các thang đo khoảng, không phải thang đo tỷ lệ; giá trị 0 là tùy ý,không thực Chúng ta không thể nói là 40 oC là nóng gấp hai lần 20 oC Nhưng thang đo nhiệt
độ Kelvin, trong đó 0 oK có nghĩa là không có sự chuyển động của các phân tử, là thang đo tỷlệ Ngược lại, trong các thang đo nhiệt độ Celsius và Fahrenheit sử dụng các điểm 0o bắt đầutrên thang đo được lựa chọn một cách tùy ý
Trang 17Các dữ liệu được đo trên thang đo khoảng hoặc thang đo tỷ lệ cấu thành nên các thang
đo mạnh nhất Chúng mạnh hơn thang đo thứ bậc bởi vì chúng ta có thể xác định không chỉgiá trị quan sát nào là lớn nhất mà còn là lớn bao nhiêu
2.2.3 Phân loại dữ liệu theo nguồn
Theo nguồn hình thành, các dữ liệu được chia thành hai loại chính là dữ liệu sơ cấp và dữ
liệu thứ cấp Dữ liệu sơ cấp là loại dữ liệu mà trong đó người thu thập là người sử dụng dữ
liệu cho việc phân tích Khi một tổ chức hay một cá nhân sưu tập dữ liệu mà các dữ liệu nàyđã được sử dụng bởi một tổ chức hoặc cá nhân khác thì các dữ liệu đó là các dữ liệu thứ cấp
Các dữ liệu được các tổ chức và các cá nhân thu thập và công bố được xem điển hình
là các dữ liệu sơ cấp, và sau đó các dữ liệu này được các tổ chức và các cá nhân khác sử dụnglại được xem là các dữ liệu thứ cấp Ví dụ các dữ liệu được thu thập và phân phát bởi chínhphủ theo cách này cho cả các mục đích công cộng và tư nhân Các dữ liệu về việc làm và chỉsố lạm phát được thu thập và phân phát bởi Tổng cục thống kê
Các dữ liệu liên quan đến các ngành hay các thị trường nhất định cũng được phân phátbởi các hãng nghiên cứu marketing và các hiệp hội thương mại Các dữ liệu về tình hình tàichính của các công ty niêm yết được cung cấp bởi hiệp hội các nhà đầu tư tài chính Việt Nam(VAFI)
2.3 Các hình thức thu thập dữ liệu
2.3.1 Thu thập dữ liệu thông qua báo cáo
Là hình thức tổ chức điều tra thống kê thường xuyên định kỳ theo nội dụng, phương pháp vàchế độ báo cáo đã quy định thống nhất Ví dụ: các doanh nghiệp định kỳ hàng tháng, quí, nămphải lập và gửi các báo cáo lên cấp trên
2.3.2 Thu thập dữ liệu thông qua điều tra
Là hình thức tổ chức điều tra không thường xuyên được tiến hành theo một kế hoạch vàphương pháp quy định riêng cho mỗi lần điều tra Điều tra toàn bộ và điều tra chọn mẫu:
Điều tra toàn bộ là tiến hành thu thập dữ liệu trên tất cả các đơn vị của tổng thể, không bỏ
sót bất kỳ một đơn vị nào Ví dụ tổng điều tra dân số, điều tra năng lực máy móc thiết bị, haytổng điều tra vật tư hàng hóa
Trang 18Điều tra chọn mẫu là tiến hành thu thập dữ liệu chỉ trên một số đơn vị được lấy ra của tổng
thể, sau đó kết luận rút ra được suy rộng cho toàn bộ tổng thể Ví dụ: điều tra chất lượng sảnphẩm đồ hộp, điều tra giá cả hàng hóa hay điều tra nhu cầu thị hiếu của người tiêu dùng vềmột loại sản phẩm nào đó
Điều tra chọn mẫu có thể được sử dụng để giải quyết các vấn đề thực tế, như để đolường sự thành công của một chương trình quảng cáo Ngoài ra nó cũng được sử dụng để xâydựng hay kiểm định các lý thuyết
Ưu điểm của điều tra chọn mẫu là rất linh họat và hiệu quả
Linh hoạt: nó có thể là đơn giản hay phức tạp tùy theo ý muốn của nhà nghiên cứu, sựsẵn có về thời gian và kinh phí
Hiệu quả: chúng có thể cung cấp các thông tin đáng tin cậy về một tổng thể lớn từ mộtmẫu tương đối nhỏ, và nếu lập kế hoạch tốt có thể thực hiện một cách nhanh chóng
Hình 2.5 Các giai đoạng trong quá trình điều tra chọn mẫu
Xác định nhu cầu
thông tin
Xác định tổng thể phù hợp
Trang 19Các loại mẫu được sử dụng
Mẫu thuận tiệnMẫu hạn ngạchMẫu ngẫu nhiên đơn giảnMẫu hệ thốngMẫu phân tầngMẫu phân cụm
2.4 Các phương pháp lấy mẫu thường dùng
Trong chương trước, một mẫu được định nghĩa là một bộ phận của tổng thể mà được lấy ra đểnghiên cứu Thay vì nghiên cứu tất cả các đơn vị của tổng thể, các phương pháp lấy mẫuthống kê chỉ tập trung vào việc thu thập một nhóm đại diện nhỏ của một tổng thể lớn hơn Cácthông tin của mẫu lấy ra được sử dụng để ước lượng các đặc trưng của toàn bộ tổng thể Các
lý do chính để lấy ra một mẫu bao gồm:
Trong nhiều trường hợp, không thể kiểm tra được tất cả các đơn vị tổng thể
Tiết kiệm thời gian so với điều tra toàn bộ, nên điều tra lấy mẫu có tính kịp thời cao
Tiết kiệm chi phí, do số đơn vị điều tra ít
Kết luận rút ra từ mẫu thường là đủ để đại diện cho tổng thể
Bản chất phá hủy đơn vị mẫu của một số quá trình kiểm tra nhất định
Quá trình lấy mẫu bắt đầu bằng việc xác định khung lấy mẫu Khung lấy mẫu là sự
liệt kê các đơn vị tạo thành tổng thể Các khung lấy mẫu là các nguồn dữ liệu chẳng hạn nhưcác danh sách tổng thể, các danh bạ điện thoại, hay các bản đồ Các mẫu được lấy ra từ cáckhung này Các kết quả không chính xác hoặc có thành kiến có thể tạo ra nếu loại trừ một sốnhóm nhất định của tổng thể Sử dụng các khung lấy mẫu khác nhau để tạo ra dữ liệu có thểdẫn đến các kết luận trái ngược nhau
Sau khi lựa chọn khung lấy mẫu, chúng ta rút ra một mẫu từ khung đó Trong sơ đồsau minh họa hai loại mẫu: mẫu ngẫu nhiên và mẫu không ngẫu nhiên
Trang 202.4.1 Các mẫu ngẫu nhiên
2.4.1.1 Mẫu ngẫu nhiên đơn giản (Simple random sample)
Trong một mẫu ngẫu nhiên đơn giản, mọi đơn vị trong khung lấy mẫu đều có cơ hội được lựachọn vào trong mẫu là như nhau Lấy mẫu ngẫu nhiên đơn giản là phương pháp lấy mẫu ngẫunhiên cơ bản nhất Nó tạo cơ sở cho các phương pháp lấy mẫu ngẫu nhiên khác
Với phương pháp lấy mẫu ngẫu nhiên đơn giản, chúng ta ký hiệu kích thước mẫu là n
và kích thước khung lấy mẫu là N Chúng ta đánh số các đơn vị trong khung lấy mẫu từ 1 đến
N Xác suất mà chúng ta sẽ lựa chọn bất kỳ một đơn vị nào trong khung lấy mẫu trên lần rútthăm đầu tiên là 1/N
Chúng ta lựa chọn các mẫu có hoàn lại hoặc không có hoàn lại Lấy mẫu có hoàn lại
có nghĩa là sau khi chúng ta lựa chọn một đơn vị, chúng ta hoàn trả nó vào trong khung lấymẫu
Lấy mẫu không hoàn lại có nghĩa là sau khi chúng ta đã lựa chọn một đơn vị thì đơn
vị đó không thể được lựa chọn lại Xác suất mà chúng ta sẽ lựa chọn bất kỳ một đơn vị nàotrong khung lấy mẫu trên lần rút thăm đầu tiên là 1/N Xác suất mà chúng ta sẽ lựa chọn bất
kỳ một đơn vị nào không phải là đơn vị đã được lựa chọn trước đây trong lần rút thăm thứ hai
là 1/N-1 Quá trình tiếp tục cho đến khi chúng ta đã lựa chọn được mẫu có kích thước n mongmuốn
Quá trình lấy mẫu được thực hiện bằng cách rút thăm ngẫu nhiên hoặc bằng cách sử dụngcác số ngẫu nhiên mà được tạo ra bởi các máy tính hoặc các bảng số ngẫu nhiên
Ví dụ: Một công ty có một bộ chứng từ kế toán được đánh số từ 12290 đến 13110
Một đoạn trích của một bảng số ngẫu nhiên như sau:
Giải: Kích thước của tổng thể: N = 13110 – 12290 + 1 = 821
Lấy các số có ba chữ số mỗi lần ta có: 456, 928, 239, 065, 555, 955, 944, 624, 629,
Trang 21Loại bỏ các số trùng nhau và các số nằm ngoài khoảng 001 – 821, chúng ta sẽ thu được mẫusau: 456, 239, 065, 555, 624, 629.
2.4.1.2 Mẫu ngẫu nhiên theo hệ thống (Systematic sample)
Trong một mẫu ngẫu nhiên theo hệ thống, chúng ta chia N đơn vị trong khung lấy mẫu rathành n nhóm gồm k đơn vị, trong đó:
Nkn
Chúng ta làm tròn k đến số nguyên gần nhất Để lựa chọn một mẫu ngẫu nhiên theo hệthống, chúng ta chọn đơn vị đầu tiên là đơn vị sẽ được lấy ngẫu nhiên từ k đơn vị đầu tiêntrong khung lấy mẫu Sau đó chúng ta lựa chọn n – 1 đơn vị còn lại bằng cách chọn ra các đơn
vị tiếp theo với bước nhảy k thống nhất
Nếu khung lấy mẫu có chứa một danh sách các tờ séc không đánh số hay các hóa đơnbán hàng, để lấy ra một mẫu ngẫu nhiên theo hệ thống là nhanh hơn và dễ dàng hơn so vớiviệc lấy ra một mẫu ngẫu nhiên đơn giản Lấy mẫu ngẫu nhiên theo hệ thống cũng là một cơchế thuận tiện cho việc thu thập các dữ liệu từ các cuốn sổ điện thoại và các đơn vị liên tiếp đi
ra khỏi một dây chuyền sản xuất
Để lấy ra một mẫu ngẫu nhiên theo hệ thống n = 40 từ một tổng thể N = 800 côngnhân, chúng ta chia khung lấy mẫu 800 thành 40 nhóm, mỗi nhóm có chứa 20 công nhân Sau
đó chúng ta lựa chọn một số ngẫu nhiên từ 20 công nhân đầu tiên Ba chín công nhân tiếptheo được lựa chọn tại những bước nhảy thống nhất là k = 20 Ví dụ, nếu đơn vị đầu tiênchúng ta lựa chọn là 008, thì các lựa chọn tiếp theo của chúng ta sẽ là: 028, 048, 068, 088,
108, , 768, và 788
Mặc dù chúng là đơn giản hơn, tuy nhiên các phương pháp lấy mẫu ngẫu nhiên đơngiản và lấy mẫu ngẫu nhiên theo hệ thống nói chung là kém hiệu quả hơn các phương pháplấy mẫu ngẫu nhiên phức tạp hơn khác Thậm trí, phương pháp lấy mẫu ngẫu nhiên theo hệthống dễ mắc sai số hệ thống khi danh sách của tổng thể không được sắp xếp một cách ngẫunhiên mà lại theo một trật tự chủ quan nào đó Để kế hoạchắc phục hạn chế này, chúng ta cóthể sử dụng phương pháp lấy mẫu ngẫu nhiên phân tầng hoặc phương pháp lấy mẫu ngẫunhiên phân cụm
Trang 222.4.1.3 Mẫu ngẫu nhiên phân tầng (stratified sample)
Trong một mẫu ngẫu nhiên phân tầng, trước tiên chúng ta chia N đơn vị trong khung lấy mẫuthành những nhóm đồng nhất, và các mẫu ngẫu nhiên đơn giản được lấy ra từ mỗi nhóm, dựatrên kích thước và độ phân tán của mỗi nhóm đó Phương pháp này hiệu quả hơn phươngpháp lấy mẫu ngẫu nhiên đơn giản hay phương pháp lấy mẫu ngẫu nhiên theo hệ thống bởi vìchúng ta bảo đảm có sự đại diện của các đơn vị trong toàn tổng thể
Ví dụ: Một công ty muốn lựa chọn một mẫu 32 công nhân từ một tổng thể 800 công nhânviên để ước lượng các chi phí tài trợ khám răng của công ty Trong số các công nhân viên củacông ty, 25% là các cán bộ quản lý và 75% không phải là cán bộ quản lý Chúng ta sẽ lựachọn một mẫu ngẫu nhiên phân tầng như thế nào để cho mẫu có sự đại diện hợp lý của cáccán bộ quản lý?
Nếu chúng ta giả thiết tỷ lệ phản hồi là 80%, chúng ta cần phải phân phát 40 phiếuđiều tra để có được 32 phiếu phản hồi mong muốn Khung lấy mẫu bao gồm một danh sáchtên và số hộp thư công ty của tất cả 800 công nhân viên trong hồ sơ nhân sự của công ty Bởi
vì 25% công nhân viên là quản lý, trước tiên chúng ta phải chia khung tổng thể thành hainhóm: một nhóm liệt kê 200 cán bộ quản lý và một nhóm liệt kê 600 công nhân viên khôngphải là quản lý Bởi vì nhóm thứ nhất gồm 200 cán bộ quản lý, chúng ta đánh số các cán bộquản lý từ 001 đến 200 bởi vì nhóm thứ hai có chứa một danh sách 600 công nhân viênkhông phải là quản lý nên chúng ta đánh số các công nhân trong nhóm này từ 001 đến 600
Để lựa chọn một mẫu ngẫu nhiên phân tầng tỷ lệ với các kích thước của mỗi nhóm,chúng ta lựa chọn 25% của toàn bộ mẫu từ nhóm thứ nhất và 75% của toàn bộ mẫu từ nhómthứ hai Chúng ta lấy hai mẫu ngẫu nhiên đơn giản riêng biệt, mỗi mẫu được dựa trên mộtđiểm khởi đầu ngẫu nhiên riêng biệt từ một bảng số ngẫu nhiên Trong mẫu thứ nhất chúng talựa chọn 10 cán bộ quản lý từ danh sách 200 cán bộ quản lý trong nhóm thứ nhất, và trongmẫu thứ hai chúng ta lựa chọn 30 công nhân viên không phải là quản lý từ danh sách 600công nhân trong nhóm thứ hai Sau đó chúng ta kết hợp các kết quả để phản ánh kết cấu củatoàn bộ công ty
2.4.1.4 Mẫu ngẫu nhiên phân cụm (cluster sample)
Trong một mẫu ngẫu nhiên phân cum, chúng ta chia N đơn vị trong khung lấy mẫu thành mộtsố cụm sao cho mỗi cụm đại diện cho toàn bộ tổng thể Sau đó chúng ta lấy ra một mẫu ngẫunhiên các cụm và tiến hành nghiên cứu tất cả các đơn vị trong mỗi cụm Các cụm có thể được
Trang 23phân chia theo các các đường ranh giới địa lý, như là các tỉnh thành phố, các quận huyện, cácphường xã, các cụm dân cư, các tổ dân phố, hay các khu vực bán hàng
Lấy mẫu ngẫu nhiên phân cụm thường tiết kiệm chi phí hơn lấy mẫu ngẫu nhiên đơngiản, đặc biệt là khi tổng thể phân tán rộng theo địa lý Tuy nhiên, láy mẫu ngẫu nhiên phâncụm thường đòi hỏi một kích thước mẫu lớn hơn để tạo ra các kết quả có độ chính xác nhưcác kết quả thu được trong phương pháp lấy mẫu ngẫu nhiên đơn giản hay phương pháp lấymẫu ngẫu nhiên phân tầng
2.4.2 Các phương pháp lấy mẫu không ngẫu nhiên
Trong một mẫu không ngẫu nhiên, chúng ta lựa chọn các đơn vị hay phần tử mà không biếtcác xác suất lựa chọn của chúng Do đó lý thuyết mà đã được xây dựng cho các phương pháplấy mẫu ngẫu nhiên không thể được áp dụng cho các mẫu không ngẫu nhiên Một dạng chính
của phương pháp lấy mẫu không ngẫu nhiên là lấy mẫu thuận tiện Trong phương pháp lấy
mẫu thuận tiện, những đơn vị được lựa chọn để đưa vào trong mẫu trước tiên là vì sự thuận
tiện Trong một số trường hợp những người tham gia được tự lựa chọn Ví dụ: nhiều công tythực hiện các cuộc điều tra bằng cách cung cấp cho những vị khách viếng thăm website của
họ cơ hội để hoàn thành các mẫu điều tra và trình chúng theo đường điện tử Người trả lời đốivới các cuộc điều tra này có thể cung cấp một lượng lớn dữ liệu một cách nhanh chóng,nhưng mẫu chỉ bao gồm những người sử dụng webside tự lựa chọn
Lấy mẫu theo hạn ngạch là một dạng lấy mẫu thuận tiện của phương pháp lấy mẫu
ngẫu nhiên phân tầng Tổng thể trước tiên được chia thành các nhóm đồng nhất Sau đó, cáchạn ngạch được phân bổ cho các nhóm cụ thể, chẳng hạn như nam hoặc nữ, những ngườithích thể thao hay không thích thể thao, sao cho có sự đại diện hợp lý của mỗi nhóm trongmẫu
Các mẫu không ngẫu nhiên có thể có những ưu điểm nhất định như sự thuận tiện,nhanh và chi phí thấp Tuy nhiên, sự thiếu độ chính xác của chúng do những thành kiến tronglựa chọn và sự thiếu khả năng tổng quát hóa của các kết quả nhiều hơn là sự bù đắp các ưuđiểm này
Trong một mẫu ngẫu nhiên, chúng ta lựa chọn các đơn vị dựa trên các xác suất đã biết.Bất cứ khi nào có thể, chúng ta nên sử dụng các phương pháp lấy mẫu ngẫu nhiên Các mẫudựa trên các phương pháp này cho phép chúng ta thực hiện những sự suy diễn không thiên vị
về tổng thể nghiên cứu Trong thực tế thường rất khó hoặc không thể lấy ra một mẫu ngẫu
Trang 24nhiên Tuy nhiên chúng ta phải làm việc theo hướng đạt được một mẫu ngẫu nhiên và chấpnhận bất kỳ những sự thành kiến nào mà có thể tồn tại.
2.5 Các phương pháp điều tra
2.5.1.1 Phỏng vấn cá nhân trực tiếp
Là phương pháp thu thập dữ liệu bằng cách phỏng vấn những người thuộc đối tượng nghiêncứu với những câu hỏi đặt ra được cân nhắc rất cẩn thận
o Các thông tin chắc chắn thu được, không gặp vấn đề không trả lời
o Thời gian trả lời trung bình
o Người phỏng vấn cần được đào tạo và phải giám sát
o Các dữ liệu bị sai lệch khi người phỏng vấn ảnh hưởng đến những người trả lờithông qua ngôn ngữ cử chỉ hoặc những sự biểu hiện trên nét mặt của anh ta Ví
dụ một người phỏng vấn bệnh nhân sẽ làm cho người trả lời phải đưa ra nhữngcâu trả lời đối với những câu hỏi một cách vội vàng
o Rất tốn kém về kinh phí và thời gian nếu mẫu lựa chọn được phân tán rộngkhắp, vì vậy mẫu thường nhỏ
2.5.1.2 Phỏng vấn qua điện thoại
o Thời gian trả lời nhanh
o Sự giám sát tương đối dễ dàng
o Chi phí tương đối thấp
o Người phỏng vấn cần phải được đào tạo và giám sát ở một mức độ nhất định
o Chỉ có thể liên lạc được với những người có điện thoại và chỉ khi họ ở bêncạnh điện thoại
Trang 252.5.1.3 Bản câu hỏi
Là phương pháp thu thập dữ liệu bằng cách gửi các bản câu hỏi tới những người mà chúng tamuốn thu thập các dữ liệu từ họ
o Không cần đào tạo và giám sát người phỏng vấn
o Có thể liên lạc được với một mẫu phân tán rộng khắp
o Chi phí thấp
o Thời gian trả lời chậm
o Tỷ lệ không trả lời cao
2.5.1.4 Quan sát trực tiếp
Là phương pháp thu thập dữ liệu bằng cách quan sát và ghi chép thông tin về hành động, thái
độ, và cách thức của đối tượng nghiên cứu
Ví dụ: quan sát thứ tự hành động đi đến các kệ hàng của từng khách hàng đi siêu thị; quan sátcác thao tác làm việc của người công nhân trong phân tích và thiết kế công việc
Đây cũng là một phương pháp tốn kém về kinh phí và thời gian
2.6 Sai số do lấy mẫu và sai số không do lấy mẫu
Sai số do lấy mẫu (sampling errors): là sự chênh lệch giữa một tham số mẫu và tham số tổng
thể tương ứng của nó Sai số này tồn tại ngay trong bản thân quá trình điều tra chọn mẫu, doviệc điều tra chỉ được thực hiện trên một số ít đơn vị, nhưng kết quả thu được lại được tínhtoán suy rộng cho toàn bộ tổng thể
Sai số do lấy mẫu có thể giảm được bằng cách tăng kích thước mẫu
Sai số không do lấy mẫu (nonsampling errors): là loại sai số xuất hiện cả trong điều tra toàn
bộ và trong điều tra chọn mẫu Nguyên nhân:
Do tổng thể được lấy mẫu không phải là một tổng thể có liên quan
Do trả lời sai
Do ghi chép sai
Trang 26 Do tỷ lệ phản hồi thấp
Do đo lường sai,
2.7 Ứng dụng vi tính
BÀI TẬP
1 Nêu và giải thích rõ lý do phương pháp điều tra (như quan sát, phỏng vấn trực tiếp, phỏngvấn qua điện thoại, gửi bản câu hỏi để điều tra hoặc các phương pháp khác) mà chúng ta sẽ sửdụng trong các tình huống dưới đây:
(i) Nghiên cứu xem các nhân viên cửa hàng cư xử như thế nào khi đối mặt với một
khách hàng đang rất tức giận
(ii) Nghiên cứu thái độ của dân chúng đối với việc sử dụng cần sa
(iii) Xác định xem việc diễn đạt lại một câu hỏi bằng cách khác ảnh hưởng như thế nào
tới câu trả lời
Giải thích lý do chúng ta chọn lựa trong mỗi trường hợp Nếu chúng ta chọn một phươngpháp điều tra khác ngoài các phương pháp đã được đề cập ở trên, hãy giải thích rõ cách làmcủa chúng ta
2 Một trong các câu hỏi thường được bao gồm trong các cuộc điều tra là thu nhập Đôi khicâu hỏi được diễn đạt dưới dạng “Thu nhập của chúng ta là bao nhiêu (đơn vị tính: triệuđồng)?” Trong các cuộc điều tra khác, người trả lời được hỏi để “Đánh dấu X vào trong vòngtròn tương ứng với mức thu nhập của chúng ta” và cho trước một số khoảng thu nhập để lựachọn từ đó
a) Trong dạng câu hỏi đầu tiên, hãy giải thích tại sao thu nhập có thể được coi hoặc là biến rờirạc hoặc là biến liên tục
b) Chúng ta thích sử dụng dạng câu hỏi nào trong hai dạng câu hỏi trên nếu chúng ta thực hiệnmột cuộc điều tra? Tại sao?
c) Dạng câu hỏi nào có thể mang lại cho chúng ta tỷ lệ phản hồi cao hơn? Tại sao?
3 Trưởng bộ phận nghiên cứu thị trường của một chuỗi cửa hàng bách hóa lớn muốn thựchiện một cuộc điều tra trên địa bàn thủ đô để xác định lượng thời gian mà những người phụnữ đi làm dành cho việc mua sắm quần áo trong một tháng điển hình
a) Hãy mô tả cả tổng thể và mẫu nghiên cứu, và chỉ ra loại dữ liệu mà người trưởng nhómnghiên cứu thị trường muốn thu thập
b) Hãy xây dựng một bản các câu hỏi cần thiết trong phần a) bằng cách viết ba câu hỏi phânloại và ba câu hỏi định lượng mà chúng ta cảm thấy sẽ thích hợp cho cuộc điều tra này
Trang 274 Theo một cuộc điều tra của ngân hàng A, chỉ khoảng 4% các hộ gia đình sử dụng dịch vụngân hàng điện tử Một cuộc điều tra bởi ngân hàng B đã điều tra các lý do người dân thôikhông sử dụng dịch vụ ngân hàng điện tử sau khi đã thử dùng nó Một phần kết quả điều tra của ngân hàng B được cho dưới đây:
Tại sao chúng ta thôi không sử dụng dịch vụ ngân hàng điện tử
nữa?
Quá phức tạp hay tốn thời gian
Không hài lòng với dịch vụ khách hàng
Không cần thiết
Liên quan đến vấn đề án toàn
a) Hãy mô tả tổng thể đối với cuộc điều tra của ngân hàng A
b) Hãy mô tả tổng thể đối với cuộc điều tra của ngân hàng B
c) Sự trả lời đối với câu hỏi “tại sao chúng ta thôi không sử dụng dịch vụ ngân hàng điện tửnữa?” là định tính hay định lượng
d) 27% người trả lời chỉ ra rằng dịch vụ ngân hàng điện tử quá phức tạp hay tốn thời gian.Đây là một tham số hay một đại lượng thống kê?
Trang 28Chương 3 TÓM TẮT VÀ TRÌNH BÀY DỮ LIỆU
3.1 Tóm tắt và trình bày dữ liệu định tính
Khi chúng ta có các dữ liệu định tính, chúng ta kiểm các câu trả lời vào trong các nhómphân loại và sau đó trình bày tần số hoặc tỷ lệ phần trăm của mỗi nhóm trong các bảng hoặctrong các biểu đồ
3.1.1 Bảng tóm tắt
Bảng tóm tắt chỉ ra tần số, số lượng hay tỷ lệ phần trăm của mỗi loại trong tổng số, vì
vậy chúng ta có thể nhận thấy những sự khác nhau giữa các nhóm phân loại Bảng tóm tắt liệt
kê tất cả các nhóm phân loại trong một cột và tần số, số lượng hay tỷ lệ phần trăm trong mộthoặc các cột khác Bảng 3.1 minh họa một bảng tóm tắt dựa trên một cuộc điều tra mới đây về
lý do tại sao mọi người mua sắm trực tuyến các món quà tặng nhân ngày lễ Trong Bảng 3.1hầu hết các lý do mua sắm trực tuyến là vì không phải vận chuyển và thuận tiện, tiếp theo là
vì giá cả cạnh tranh Rất ít người trả lời mua sắm trực tuyến là vì có nhiều lựa chọn hơn hay vì
sự nhanh chóng
Giá cả cạnh tranhThuận tiệnKhông phải vận chuyểnNhiều lựa chọn hơnNhanh
23333464
Bảng 3.1 Các lý do mua sắm trực tuyến các món quà tặng nhân ngày lễ
Ví dụ: 121 quỹ hỗ tương được phân loại theo mức độ rủi ro của chúng như sau:
Bảng 3.2 Bảng tóm tắt tần số và tỷ lệ phần trăm theo mức độ rủi ro của 121 quỹ hỗ tương
47,9338,02 14,05100,00Hầu hết các quỹ hỗ tương có mức độ rủi ro thấp hoặc trung bình (104 hay xấp xỉ 85%) Rất ítquỹ hỗ tương có mức rủi ro cao (14%)
Trang 293.1.2 Biểu đồ cột (Bar chart)
Trong Biểu đồ cột, mỗi cột chỉ ra một nhóm, chiều cao của cột biểu diễn số lượng, tần số
hay tỷ lệ phần trăm các giá trị rơi vào trong nhóm đó Hình 3.1 mô tả biểu đồ cột cho các lý
do mua sắm trực tuyến các món quà tặng nhân ngày lễ mà đã được trình bày trong Bảng 3.1
Hình 3.1 Các lý do mua sắm trực tuyến
0 0,2 0,4 0,6 0,8 1 1,2
Giá cả cạnh tranh
Thuận tiện Không phải
vận chuyển
Nhiều lựa chọn hơn
Nhanh chóng
Lý do
Biểu đồ cột cho phép chúng ta so sánh các tỷ lệ phần trăm trong các nhóm khác nhau.Trong Hình 3.1 hầu hết các lý do mua sắm trực tuyến là vì không phải vận chuyển và thuậntiện, tiếp theo là vì giá cả cạnh tranh Rất ít người trả lời mua sắm trực tuyến là vì có nhiều lựachọn hơn hay vì sự nhanh chóng
Ví dụ: Biểu đồ cột các mức độ rủi ro của các quỹ hỗ tương dựa trên các thông tin cho trongBảng 3.2 như sau:
Hình 3.2 Mức độ rủi ro của các quỹ hỗ tương
0 10 20 30 40 50 60 70
Trang 303.1.3 Biểu đồ hình tròn (Pie chart)
Biểu đồ hình tròn được chia thành các lát cắt mà mỗi lát cắt biểu diễn các nhóm phân
loại Kích thước của mỗi lát cắt thay đổi theo tỷ lệ phần trăm trong mỗi nhóm Ví dụ trongBảng 3.1 , 33% người trả lời nói rằng sự thuận tiện là lý do chính cho việc mua sắm trựctuyến Do đó, trong việc xây dựng biểu đồ hình tròn, góc 360o tạo nên hình tròn nhân với 0,33được kết quả là một lát cắt của hình tròn chiếm 118,8o của 360o của hình tròn Từ Hình 3.3chúng ta có thể nhận thấy rằng biểu đồ hình tròn cho chúng ta biết tỷ lệ của mỗi nhóm trongtổng số Trong hình này, lý do sự thuận tiện chiếm 33% còn sự nhanh chóng chỉ chiếm 4%
Hình 3.3 Các lý do mua sắm trực tuyến
Nhanh chóng;
4%
Nhiều lựa chọn hơn; 6%
Không phải vận chuyển; 34%
Thuận tiện;
33%
Giá cả cạnh tranh; 23%
Chúng ta nên sử dụng dạng biểu đồ nào? Sự lựa chọn một dạng biểu đồ phụ thuộc vào
ý định của chúng ta Nếu sự so sánh giữa các nhóm phân loại là quan trọng nhất thì chúng tanên sử dụng dạng biểu đồ cột Nếu quan sát tỷ lệ của mỗi nhóm so với toàn bộ là quan trọngnhất thì chúng ta nên chọn dạng biểu đồ hình tròn
3.2 Tóm tắt và trình bày dữ liệu định lượng
3.2.1 Dãy số sắp xếp
Khi dữ liệu định lượng có nhiều giá trị, chúng ta có thể sắp xếp chúng thành một dãy sốtăng dần hoặc giảm dần để giúp chúng ta hiểu được các thông tin mà chúng ta có Giẳ rằngchúng ta quyết định so sánh chi phí của một bữa ăn tại các nhà hàng trong một thành phốchính với chi phí của một bữa ăn tương tự tại các nhà hàng ở ngoại ô thành phố đó Bảng 3.3chỉ ra dữ liệu đối với 50 nhà hàng thành phố và 50 nhà hàng ngoại ô Các dữ liệu không đượcsắp xếp theo thứ tự từ nhỏ nhất đến lớn nhất Sự sắp xếp này làm cho nó rất khó để rút ra cáckết luận về giá của các bữa ăn ở hai khu vực địa lý
Trang 31Bảng 3.3 Đơn giá cho mỗi suất ăn tại 50 nhà hàng thành phố và 50 nhà hàng ngoại ô
3.2.2 Biểu đồ thân và lá (Stem - and - leaf display)
Biểu đồ thân và lá là sự tóm tắt dữ liệu vào trong các nhóm (phần thân) sao cho các giá trị
trong mỗi nhóm (phần lá) mở rộng sang bên phải trên mỗi dòng Biểu đồ thân và lá cho thấyhình dáng phân phối dữ liệu như thế nào và xu hướng tập trung của dữ liệu ở đâu Để xembiểu đồ thân và lá được xây dựng như thế nào, giả thiết rằng 15 sinh viên trong lớp của chúng
Trang 32ta ăn trưa tại một nhà hàng thức ăn nhanh (fast-food) Dữ liệu về số tiền chi tiêu cho bữa trưanhư sau (đơn vị tính : nghìn đồng):
538899455913635Giá trị đầu tiên 53,5 được làm tròn thành 54 Thân của nó là 5 và lá là 4 Giá trị cuối cùng59,1 được làm tròn thành 59 Thân của nó là 5 và lá là 9
Chìa khóa:
4 5 = 45Từ biểu đồ thân và lá ở trên ta có thể kết luận rằng:
Giá trị nhỏ nhất là 35 nghìn đồng
Giá trị lớn nhất là 85 nghìn đồng
Phần lớn dữ liệu tập trung trong khoảng 45-55 nghìn đồng
Chỉ có một sinh viên chi tiêu dưới 40 nghìn đồng và chỉ có hai sinh viên chi tiêu trên
70 nghìn đồng
3.2.3 Phân phối tần số
Phân phối tần số giúp chúng ta rút ra các kết luận về một bộ dữ liệu lớn
Phân phối tần số là một bảng tóm tắt trong đó các dữ liệu được sắp xếp thành các tổ theo thứ
tự tăng dần
Khi xây dựng phân phối tần số, chúng ta phải chú ý lựa chọn số tổ thích hợp cho bảng,xác định khoảng cách tổ thích hợp và thiết lập các giới hạn trên và dưới cho mỗi tổ để tránhchồng chéo
Trang 33Số tổ chúng ta sử dụng phụ thuộc vào số lượng các giá trị trong bộ dữ liệu Số lượngcác giá trị lớn hơn cho phép số lượng các tổ lớn hơn Nói chung, phân phối tần số nên có ítnhất năm tổ nhưng không lớn hơn 15 Có quá ít hay quá nhiều tổ sẽ cung cấp ít thông tin mới.Khi xây dựng phân phối tần số, chúng ta phải định nghĩa mỗi tổ bởi các khoảng cách tổ
đều nhau Để xác định khoảng cách tổ, chúng ta chia khoảng biến thiên (giá trị lớn nhất –
giá trị nhỏ nhất) của bộ dữ liệu cho số tổ mong muốn
XÁC ĐỊNH KHOẢNG CÁCH TỔ
kho¶ng biÕn thiªnKho¶ng c¸ch tæ =
sè tæ mong muènDữ liệu nhà hàng thành phố bao gồm một mẫu 50 nhà hàng Với kích thước mẫu này,
10 tổ là có thể chấp nhận được.từ dãy số sắp xếp trong Bảng 3.4 khoảng biến thiên của bộ dữliệu là 63 nghìn đồng – 14 nghìn đồng = 49 nghìn đồng Sử dụng phương trình trên, chúng ta
có thể tính gần đúng khoảng cách tổ như sau:
4,9
49Kho¶ng c¸ch tæ =
10
Chúng ta sẽ lựa chọn khoảng cách tổ sao cho đơn giản hóa việc đọc và giải thích ýnghĩa Do đó thay vì lựa chọn khoảng cách tổ là 4,9 nghìn đồng, chúng ta nên chọn khoảngcách tổ là 5 nghìn đồng
Để xây dựng bảng phân phối tần số, chúng ta nên thiết lập các giới hạn trên và dướicủa mỗi tổ mà được định nghĩa một cách rõ ràng vì vậy các giá trị có thể được kiểm vào trongcác tổ một cách chính xác Chúng ta phân phối mỗi giá trị vào trong một và chỉ một tổ duynhất Chúng ta phải tránh sự chồng chéo của các tổ
Bởi vì chúng ta đã đặt khoảng cách tổ cho bộ dữ liệu về đơn giá mỗi bữa ăn tại nhàhàng là 5 nghìn đồng, chúng ta cần phải thiết lập các giới hạn của các tổ khác nhau sao chobao gồm toàn bộ khoảng biến thiên của các giá trị Bất cứ khi nào có thể, chúng ta nên chọncác giới hạn này để đơn giản hóa việc đọc và giải thích ý nghĩa Do đó, đối với các nhà hàngthành phố, đơn giá biến thiên từ 14 nghìn đồng đến 63 nghìn đồng, khoảng cách tổ thứ nhấtbiến thiên từ 10 đến nhỏ hơn 15 nghìn đồng, khoảng cách tổ thứ hai từ 15 đến nhỏ hơn 20nghìn đồng, và v.v cho đến khi chúng được phân thành 11 tổ Mỗi tổ có độ rộng khoảng
cách tổ là 5 nghìn đồng, không bị chồng chéo Điểm giữa tổ (class midpoint) chia đôi
khoảng cách của mỗi tổ Do đó, điểm giữa tổ của tổ thứ nhất từ 10 đến dưới 15 nghìn đồng là
Trang 3412,5 nghìn đồng, điểm giữa tổ của tổ từ 15 đến dưới 20 nghìn đồng là 17,5 nghìn đồng, vàv.v Bảng 3.5 là một phân phối tần số của đơn giá cho mỗi bữa ăn đối với 50 nhà hàng thànhphố và đối với 50 nhà hàng ngoại ô
Bảng 3.5 Phân phối tần số của đơn giá cho mỗi bữa ăn tại 50 nhà hàng thành phố và 50 nhà hàng ngoại ô
Đơn giá mỗi bữa ăn (nghìn đồng) Tần số thành phố Tần số ngoại ô
0041313124121 050Bảng tóm tắt cho phép chúng ta rút ra các kết luận về các đặc trưng chính của dữ liệu
Ví dụ, Bảng 3.5 đơn giá của các bữa ăn tại các nhà hàng thành phố được tập trung trongkhoảng giữa 30 và 50 nghìn đồng so với đơn giá của các bữa ăn tại các nhà hàng ngoại ô đượctập trung trong khoảng giữa 25 và 40 nghìn đồng
3.2.4 Phân phối tỷ lệ phần trăm
Do chúng ta thường muốn biết tỷ lệ của mỗi nhóm trong tổng số nên phân phối tỷ lệ phầntrăm được ưu tiên sử dụng hơn phân phối tần số Khi chúng ta so sánh hai hay nhiều nhóm màkhác nhau về kích thước mẫu của chúng, chúng ta phải sử dụng phân phối tỷ lệ phần trăm
Để xây dựng phân phối tỷ lệ phần trăm chúng ta chia các tần số trong mỗi nhóm của
phân phối tần số (xem Bảng 3.6) cho tổng số giá trị và nhân với 100% Do đó tỷ lệ phần trămcủa các bữa ăn tại các nhà hàng thành phố có đơn giá nằm giữa 30 và 35 nghìn đồng là 7 chiacho 50 và nhân với 100% hay 14% Bảng 3.6 trình bày phân phối tỷ lệ phần trăm của đơn giácủa các bữa ăn tại các nhà hàng thành phố và ngoại ô
Từ Bảng 3.6 chúng ta có thể kết luận rằng các bữa ăn tại các nhà hàng thành phố đơngiá lớn hơn tại các nhà hàng ngoại ô: 16% các bữa ăn tại các nhà hàng thành phố có đơn giánằm giữa 40 và 45 nghìn đồng so với 8% tại các nhà hàng ngoại ô; 16% các bữa ăn tại cácnhà hàng thành phố có đơn giá nằm giữa 50 và 55 nghìn đồng so với 4% tại các nhà hàngngoại ô; trong khi chỉ có 6% các bữa ăn tại các nhà hàng thành phố có đơn giá nằm giữa 25 và
30 nghìn đồng so với 26% tại các nhà hàng ngoại ô
Trang 35Bảng 3.6 Phân phối tỷ lệ phần trăm của đơn giá cho mỗi bữa ăn tại 50 nhà hàng thành phố và 50 nhà hàng ngoại ô
0082626248242 0100
3.2.5 Phân phối tích lũy
Phân phối tỷ lệ phần trăm tích lũy cung cấp một cách trình bày dữ liệu về tỷ lệ phần trăm củacác giá trị mà nhỏ hơn một giá trị nhất định nào đó Ví dụ chúng ta có thể muốn biết xem tỷ lệcác bữa ăn tại các nhà hàng thành phố có đơn giá dưới 20 nghìn đồng, dưới 30 nghìn đồng,dưới 50 nghìn đồng, v.v là bao nhiêu Phân phối tần số tỷ lệ phần trăm được sử dụng để xâydựng phân phối tỷ lệ phần trăm tích lũy Từ Bảng 3.7 0% bữa ăn có đơn giá dưới 10 nghìnđồng,
Bảng 3.7 phân phối tỷ lệ phần trăm tích lũy của đơn giá của các bữa ăn tại các nhà hàng thành phố và ngoại ô
Tỷ lệ phần trăm tích lũy Tỷ lệ phần trăm tích lũy
008346084929498100 1002% đơn giá dưới 15 nghìn đồng, cũng 2% đơn giá dưới 20 nghìn đồng (vì không có bữa ănnào đơn giá giữa 15 và 20 nghìn đồng), 6% đơn giá dưới 25 nghìn đồng, và v.v , cho đến khitất cả 100% bữa ăn có đơn giá dưới 65 nghìn đồng
Trang 363.2.6 Biểu đồ phân phối (Histogram)
Biểu đồ phân phối là một biểu đồ cột cho các dữ liệu định lượng đã được phân tổ trong đó
các tần số hay các tỷ lệ phần trăm của mỗi tổ của dữ liệu định lượng được trình bày trên cáccột riêng biệt Trong biểu đồ phân phối không có khoảng cách giữa các cột liên tiếp nhau như
là trong biểu đồ cột của các dữ liệu định tính Chúng ta có thể mô tả tiêu thức nghiên cứu trêntrục hoành (X) Trục tung (Y) biểu diễn tần số hoặc tỷ lệ phần trăm các giá trị rơi vào trongmỗi khoảng cách tổ
Hình 3.4 Biểu đồ phân phối tần số đối với đơn giá của các bữa ăn tại các nhà hàng thành phố
0 2 4 6 8 10 12 14 16
3.2.7 Đa giác (Polygon)
Xây dựng nhiều biểu đồ phân phối tần số trên cùng một hình khi so sánh hai hay nhiều bộ dữliệu là rất khó và gây lúng túng Bổ sung thêm các cột đứng của một biểu đồ phân phối tần sốlên một biểu đồ phân phối khác gây rất khó khăn cho việc giải thích Khi có hai hay nhiều tiêuthức nghiên cứu, Chúng ta nên sử dụng đa giác tỷ lệ phần trăm
ĐA GIÁC TỶ LỆ PHẦN TRĂM (PERCENTAGE POLYGON)
Trang 37Đa giác tỷ lệ phần trăm được xây dựng bằng cách lấy điểm giữa của mỗi tổ đại diện cho dữ
liệu trong tổ đó và sau đó nối tuần tự các điểm giữa tại các tỷ lệ phần trăm tổ tương ứng củachúng
Hình 3.5 Đa giác tỷ lệ phần trăm đối với đơn giá cho các bữa ăn tại các nhà hàng thành phố và ngoại ô
Hình 3.5 mô tả các đa giác tỷ lệ phần trăm đối với đơn giá của các bữa ăn tại các nhà hàngthành phố và ngoại ô Đa giác đối với các nhà hàng ngoại ô tập trung sang bên trái (tương ứngvới đơn giá thấp hơn) của đa giác đối với các nhà hàng thành phố Các tỷ lệ phần trăm caonhất của đơn giá đối với các nhà hàng ngoại ô là các điểm giữa 27,5 và 32,5 nghìn đồng, trongkhi tỷ lệ phần trăm cao nhất của đơn giá đối với các nhà hàng thành phố là điểm giữa tổ bằng37,5 nghìn đồng
Các đa giác trong hình 3.5 có các điểm mà giá trị của chúng trên trục X biểu diễn điểmgiữa của tổ Ví dụ, nhìn các điểm biểu diễn trên trục X tại 22,5 nghìn đồng Điểm biểu diễnđối với các nhà hàng ngoại ô (điểm cao hơn) cho thấy rằng 8% các nhà hàng này có đơn giácho mỗi bữa ăn nằm giữa 20 và 25 nghìn đồng Điểm biểu diễn đối với các nhà hàng thànhphố (điểm thấp hơn) cho thấy rằng 4% các nhà hàng này có chi phí cho mỗi bữa ăn nằm giữa
20 và 25 nghìn đồng
Trang 383.2.8 Đa giác tỷ lệ phần trăm tích lũy (Cumulative Percentage Polygon)
Đa giác tỷ lệ phần trăm tích lũy mô tả tiêu thức nghiên cứu dọc theo trục hoành (X) và tỷ lệ
phần trăm tích lũy dọc theo trục tung (Y)
Hình 3.6 minh họa các đa giác tỷ lệ phần trăm tích lũy của chi phí của các bữa ăn tạicác nhà hàng thành phố và ngoại ô Phần lớn đường cong đối với các nhà hàng thành phố là
Hình 3.6 Đa giác tỷ lệ phần trăm tích lũy của chi phí của các bữa ăn tại các nhà hàng thành phố và ngoại ô
0 10 20 30 40 50 60 70 80 90 100
ăn tại các nhà hàng ngoại ô
3.3 Bảng phân tổ kết hợp (Bảng chéo – Cross Table)
Nghiên cứu các mối liên hệ mà có thể tồn tại giữa hai hay nhiều tiêu thức định tính là phổbiến trong kinh doanh
Bảng phân tổ kết hợp trình bày các kết quả của hai tiêu thức định tính kết hợp với nhau Các
câu trả lời được phân tổ kết hợp theo hai tiêu thức nên các tổ của một tiêu thức được đặt trêncác dòng và các tổ của một tiêu thức kia được đặt trên các cột Các giá trị được đặt tại các ôgiao nhau giữa các dòng và các cột Tùy thuộc vào loại bảng kết hợp được xây dựng, các ôcho mỗi sự kết hợp dòng-cột có chứa hoặc tần số, tỷ lệ phần trăm so với tổng toàn bộ, tỷ lệphần trăm so với các tổng dòng hoặc tỷ lệ phần trăm so với các tổng cột
Trang 39Giả sử rằng chúng ta muốn nghiên cứu xem liệu có mối liên hệ giữa giới tính và mức
độ thỏa mãn của khách hàng tại một cửa hàng hay không Bảng 3.8 tóm tắt các thông tin củatất cả 155 khách hàng
Bảng 3.8 Bảng kết hợp mô tả giới tính và mức độ thỏa mãn của các khách hàng
Để khai thác xa hơn bất kỳ mối liên hệ có thể có nào giữa giới tình và mức độ thỏa mãn,chúng ta có thể xây dựng bảng kết hợp dựa trên các tỷ lệ phần trăm Trước tiên chúng tachuyển các tỷ lệ này thành các tỷ lệ phần trăm dựa trên ba tổng sau:
1 Tổng toàn bộ (ví dụ 155 khách hàng)
2 Các tổng dòng (87 nam bà 68 nữ)
3 Các tổng cột (ba mức độ thỏa mãn)
Bảng 3.9 Bảng kết hợp mô tả giới tính và mức độ thỏa mãn khách hàng dựa trên các tỷ lệ phần trăm so với tổng toàn bộ
Trang 40Không thỏa mãn Thỏa mãn Rất thỏa mãn Cộng
13289
a) Tính tỷ lệ phần trăm các giá trị trong mỗi nhóm
b) Vẽ biểu đồ cột (Bar chart)
c) Vẽ biểu đồ hình tròn
2 Một biến phân loại có bốn nhóm với các tỷ lệ phần trăm xuất hiện như sau: