Các kỹ thuật phân tích dữ liệu thăm dò là các tính toán đơngiản và các đồ thị đơn giản được dùng để tóm tắt dữ liệu mộtcách nhanh chóng.Một trong số kỹ thuật đó là Biểu đồ nhánh lá.Các kỹ thuật phân tích dữ liệu thăm dò là các tính toán đơngiản và các đồ thị đơn giản được dùng để tóm tắt dữ liệu mộtcách nhanh chóng.Một trong số kỹ thuật đó là Biểu đồ nhánh lá.Các kỹ thuật phân tích dữ liệu thăm dò là các tính toán đơngiản và các đồ thị đơn giản được dùng để tóm tắt dữ liệu mộtcách nhanh chóng.Một trong số kỹ thuật đó là Biểu đồ nhánh lá.
Trang 2Chương 2, Phần B Thống kê mô tả:
Trình bày bằng bảng và đồ thị
Bảng chéo và đồ thị phân tán
Phân tích dữ liệu thăm dò: Biểu đồ nhánh và lá
Trang 3Phân tích dữ liệu thăm dò
Các kỹ thuật phân tích dữ liệu thăm dò là các tính toán đơn giản và các đồ thị đơn giản được dùng để tóm tắt dữ liệu một cách nhanh chóng
Một trong số kỹ thuật đó là Biểu đồ nhánh lá
Trang 4Biểu đồ nhánh lá
Mỗi chữ số gắn trên nhánh là 1 lá
Mỗi chữ số bên trái đường thẳng là 1 nhánh
Bên phải đường thẳng, chúng ta ghi các chữ
số cuối của từng giá trị theo thứ tự từ nhỏ đến lớn
Các chữ số đầu tiên của mỗi giá trị được đặt bên trái của đường thẳng đứng
Nó giống với phân phối tần số histogram về hình dáng, nhưng có thêm một ưu điểm là thể hiện cả giá trị của dữ liệu
Biểu đồ nhánh lá thể hiện thứ tự xếp hạng và hình dáng phân phối của dữ liệu
Trang 5Ví dụ: Hudson Auto Repair
Người quản lý của Hudson Auto muốn tìm hiểu sâu hơn về chi phí của các bộ phận được sử
dụng để điều chỉnh động cơ ở cửa hàng Cho kiểm tra 50 hóa đơn của khách hàng có nhu cầu điều chỉnh động cơ Chi phí của các bộ phận, được làm tròn đến đồng đô la, được trình bày ở slide kế tiếp
Trang 6Mẫu chi phí các bộ phận (đô la) của 50 nhu cầu điều chỉnh động cơ
Trang 7Biểu đồ nhánh lá
5 6 7 8 9 10
Trang 8Biểu đồ nhánh lá mở rộng
Khi 1 giá trị nhánh được viết 2 lần, thì nhánh đầu sẽ gồm các giá trị của lá từ 0 – 4, nhánh 2 gồm các giá trị của lá từ 5-9
Nếu thấy biểu đồ nhánh là ban đầu của chúng
ta có quá nhiều dữ liệu, chúng ta có thể kéo dài cách hiển thị bằng cách sử dụng 2 nhánh cho
mỗi chữ số đầu
Trang 95 5 6 6 7 7 8 8 9 9 10 10
Ví dụ: Hudson Auto Repair
Trang 10• Trong ví dụ trước, đơn vị lá là 1.
• Mỗi chữ số được dùng để đại diện một lá
• Đơn vị của lá dùng để nhân với nhánh và lá
để có được giá trị gần đúng ban đầu của dữ liệu
Trang 11Ví dụ: Đơn vị lá = 0,1Nếu ta có dữ liệu như sau
8 91011
Đơn vị lá = 0,1
6 8
1 42
0 7
8,6 11,7 9,4 9,1 10,2 11,0 8,8
8,6 11,7 9,4 9,1 10,2 11,0 8,8
Biểu đồ nhánh lá sẽ là
Trang 12Ví dụ: Đơn vị lá = 10Nếu ta có dữ liệu như sau:
16 17 18 19
Số 82 trong 1682được làm tròn xuống là 80 và được hiển thị là 8
Trang 13Bảng chéo và đồ thị phân tán
Bảng chéo và đồ thị phân tán là hai phương
pháp tóm tắt dữ liệu cho hai biến đồng thời
Thường người quản lý quan tâm đến bảng và phương pháp đồ họa giúp hiểu được mối quan hệ giữa hai biến
Như vậy, đến thời điểm này chúng ta tập trung vào các phương pháp tóm tắt dữ liệu với một
biến tại 1 thời điểm
Trang 14Bảng chéo
Các nhãn bên trái và bên trên xác định các
nhóm của hai biến
Bảng chéo được dùng khi:
• Một biến là định tính và một biến là định lượng,
• Cả hai biến là định tính, hoặc
• Cả hai biến là định lượng
Bảng chéo là một bảng tóm tắt dữ liệu cho 2 biến
Trang 15Biến định tính
Số lượng căn hộ Finger Lakes được bán theo giá và theo loại trong 2 năm qua như
Trang 16Bảng chéoThông tin từ bảng chéo
• Chỉ có 3 căn hộ kiểu A-Frame và giá cao hơn hoặc bằng 200.000USD
• Phần lớn các căn hộ (19) trong mẫu có kiểu split-level và giá dưới 200.000 USD
Ví dụ: Finger Lakes Homes
Trang 18Bảng chéo: Phần trăm hàng và cột
Chuyển đổi các giá trị trong bảng thành tỷ lệ phần trăm theo cột hoặc tỷ lệ phần trăm theo hàng có thể cung cấp cái nhìn sâu hơn về mối quan hệ giữa hai biến
Trang 1926,67 31,11 35,56 6,67
Loại căn hộ
(Colonial và > 200.000USD)/(Tổng > 200.000USD) x 100
= (12/45) x 100Bảng chéo: Phần trăm theo hàng
Ví dụ: Finger Lakes Homes
Trang 20Loại căn hộ
100 100 100 100Tổng
Crosstabulation: Phần trăm theo cột
Ví dụ Finger Lakes Homes
Trang 21Bảng chéo: Nghịch lý Simpson
Trong một số trường hợp, các kết luận dựa
trên một bảng tổng hợp có thể sẽ ngược lại
hoàn toàn so với dữ liệu ban đầu Các kết luận nghịch lý dựa trên bảng tổng hợp so với dữ liệu ban đầu gọi là Nghịch lý Simpson
Chúng ta phải cẩn thận khi kết luận về mối
quan hệ giữa hai biến trong bảng chéo tổng hợp
Dữ liệu trong 2 hoặc 3 bảng chéo là thường
được gom lại để tạo ra một bảng chéo tổng
hợp
Trang 22 Những điểm giá trị vẽ trên đồ thị thể hiện mới
quan hệ tổng quát giữa 2 biến
Một biến được biểu diễn ở trục hoành và biến
còn lại trên trục tung
Đồ thị phân tán là trình bày đồ họa về mối
quan hệ giữa hai biến định lượng
Đồ thị phân tán và đường xu hướng
Đường xu hướng cung cấp một xấp xỉ về mối quan hệ
Trang 23Đồ thị phân tán
Mối quan hệ thuận
x y
Trang 24Đồ thị phân tán
Mối quan hệ nghịch
y
Trang 25Đồ thị phân tán
Không có mối quan hệ
x y
Trang 26 Ví dụ: Panthers Football Team
132
142418
Đội Panthers football qua tâm mối quan
hệ có hay không giữa chặn bóng và điểm ghi bàn
Trang 2735
Trang 28 Thông tin từ Đồ thị phân tán trước
• Mối quan hệ không phải là hoàn hảo các điểm trên đồ thị phân tán không nằm trên cùng một đường thẳng
• Điểm ghi bàn cao hơn liên hệ với số lần chặn nhiều
• Đồ thị phân tán cho biết mối quan hệ dương giữa số lần chặn bóng và điểm ghi bàn
Ví dụ: Panthers Football Team
Trang 29Đồ thị phân tán cho Panthers
0 5 10 15 20 25 30 35
Trang 31Kết thúc 2, Phần B