→ Nhận xét chi tiết về các bảng tần số trên. tabulate Manufacturerer Sales_in_thousands_groups → Bảng dữ liệu của biến Sales _in_ Thousands theo Manufacturer có tổng 30 quan sát, thể hi
Trang 1BÀI TẬP THỰC HÀNH NHÓM
THỐNG KÊ MÔ TẢ Phần mềm sử dụng: Stata
Trang 2BÀI LÀM
a Tải bộ dữ liệu Car Sales ở đường link trên LMS
b Mô tả bộ dữ liệu:
1 Mô tả bộ dữ liệu: gồm bao nhiêu biến? bao nhiêu quan sát? Dữ liệu của các
biến là định tính hay định lượng? Nếu là định lượng > liên tục hay rời rạc.
2 Dữ liệu của các biến được thu thập theo thang đo nào? Các dữ liệu được thu
thập theo đơn vị gì?
+ Số biến: 15, Số quan sát: 157
Sales_in_thousands Định lượng Liên tục Tỉ lệ Chiếc
Price_in_thousands Định lượng Liên tục Tỉ lệ dollar
Engine_size Định lượng Liên tục Tỉ lệ Cubic Centimeters (cc)
Trang 3Power_perf_factor Định lượng Liên tục Tỉ lệ
Latest _ Launch Định lượng Liên tục Tỉ lệ
* Note:
i Biến liên tục (continuous variable) là biến số có thể nhận bất kỳ giá trị nào trong một khoảng nhất định
ii Biến rời rạc (discrete variable) là biến số chỉ nhận các giá trị nguyên.
3 Mã hóa lại các thuộc tính của các biến định tính bằng các số (chẳng hạn: 1, 2, 3,…)
- Manufacturer:
Trang 4 tostringManufacturerMH,gen(Manufacturerer)
Trang 7- Model:
tostring ModelMH,gen(Modelly)
Trang 10- Vehicle_Type:
• tostring Vehicle_typeMH,gen(Vehicle_typel)
Trang 13c Mô tả các biến trong bộ dữ liệu
1 Lập các bảng tần số của từng biến sau: Manufacturer; Vehicle Type; Model
→ Nhận xét chi tiết về các bảng tần số trên
tab Manufacturerer
→Bảng dữ liệu biến Manufactures có tổng 30 quan sát, trong đó:
Trang 14- Dodge (giá trị 8) và Ford (giá trị 9) xuất hiện nhiều lần nhất với tần suất 7,01%.
- Infinity (giá trị 12) và Jaguar (giá trị 13) xuất hiện ít nhất với tần suất 0,64%
- Sự chênh lệch là 6, 57%
→ Dodge và Ford là 2 hãng có nhiều dòng xe nhất
Trang 15 tab Modelly
Trang 16→ Bảng dữ liệu biến Modelly có tổng 157 quan sát, trong đó:
- Carrera Coupe (giá trị 105) xuất hiện nhiều nhất với tần suất 1,27%
- Các giá trị còn lại đều xuất hiện với tần suất 0,64%
- Sự chênh lệch là 0,63%
→ Các quan sát của biến Model có độ phổ biến như nhau.
Trang 17 tab Vehicle_typel
→ Bảng dữ liệu biến Vehicle type có tổng 2 quan sát, trong đó:
- Giá trị lớn nhất Passenger, tức giá trị 2 với tần suất là 73,89%
- Giá trị nhỏ nhất là Car, tức giá trị 1 với tần suất là 26,11%
- Sự chênh lệch là 47, 78%
-> Loại phương tiện Passenger phổ biến nhất.
Trang 182 Lập các bảng tần số đồng thời của: Sales _in_ Thousands theo Manufacturer; Vehicle Type theo Manufacturer; Price_in_thousands theo Model → Nhận xét chi tiết về các bảng tần số trên.
tabulate Manufacturerer Sales_in_thousands_groups
→ Bảng dữ liệu của biến Sales _in_ Thousands theo Manufacturer có tổng 30 quan sát, thể hiện được sự so sánh tương quan về doanh số của các hãng xe, trong đó:
- Dodge và Ford, tức giá trị 8 và 9 có tần số xuất hiện nhiều nhất là 11
Trong đó, Dodge, tần số xuất hiện trong khoảng (0;78) là 6 lần, (78;1560 là 3 lần và 2 lần ở khoảng (154;234)
Trang 19Ford với tần số xuất hiện trong khoảng từ (0;78) và (78;156) đều là 3 lần, và 2 lần ở các khoảng (156;234) và (234;268), 1 lần ở khoảng lớn hơn 468
- Doanh số của Infiniti (giá trị 12) và Jaguar ( giá trị 13) có tần số xuất hiện ít nhất với tần số là 1 đều ở khoảng (0;78)
- Các thuộc tính còn lại được phân bố đồng đều, xuất hiện nhiều ở khoảng (0;78) với các tần số thường rơi vào 3,4,5,6
tabulate Manufacturerer Vehicle_typel
Trang 20→ Bảng dữ liệu của biến Vehicle_Typel theo Manufacturerer có tổng 30 quan sát, thể hiện được sự so sánh tương quan về 2 loại phương tiện Car (giá trị 1) và Passenger (giá trị 2) của các hãng xe, trong đó:
- Phương tiện Car: Hãng Dodge, tức giá trị 8 có tần số cao nhất với số lần xuất hiện là 6, và các hãng Acura (1), Audi (2), BMW (3), Buick (4), có tần số thấpnhất với số lần xuất hiện là 0 vì các hãng này đều không có phương tiện Car (thiếu dữ liệu) Xuất hiện nhiều giá trị 0, và khá ít các giá trị cao Các giá trị phân bố không đồng đều
- Phương tiện Passenger: Hãng Chevrolet, tức giá trị 6 có tần số cao nhất với số lần xuất hiện là 6, và Jeep tức giá trị 14 có tấn số ít nhất là 0 Các giá trị phân bốđồng đều hơn, chỉ có 1 giá trị 0, và các giá trị thường rơi vào khoảng 3 và 4
→ Với 2 trường hợp, ta sẽ có các giá trị tần số khác nhau của cùng 1 biến
Trang 21 tabulate Modelly Price_in_thousands_groups
Trang 22→ Bảng dữ liệu của biến Price_in_thousands theo Model có tổng 157 quan sát nhưng có 2 missing values generated nên chỉ còn 155, thể hiện được sự so sánh tương quan về giá của từng kiểu mẫu xe, trong đó:
- Kiểu mẫu CL500, tức giá trị 27, có giá cao nhất trên 75
- Các kiểu mẫu Alero (14), Avenger (18), Beetle (19) có giá thấp nhất từ 9 đến 20
- Giá các kiểu mẫu dao động phổ biến trong khoảng từ 9 đến 31
Trang 233 Dùng đồ thị phù hợp mô tả tất cả các biến có trong bộ dữ liệu và cho nhận xét
graph pie, over(Vehicle_typel) title(Vehicle_type)
→ Biểu đồ biểu thị cho biến Vehicle Type gồm 2 yếu tố, trong đó yếu tốPassenger (2) có giá trị gấp gần bằng 1,5 lần Car (1)
graph hbar (count), over(Manufacturer)
Trang 24→ Biểu đồ biểu thị cho các biến của Manufacturer gồm 30 yếu tố, trong đóDodge và Ford chiếm tỉ lệ cao nhất với 10,1% và thấp nhất là Infiniti và Jaguarvới tỉ lệ 1%
histogram Sales_in_thousands, frequency normal ytitle(Frequency)
xtitle(Sales_in_thousands) title(Sales_in_thousands) (bin=12, start=.11,
width=45.037583)
Trang 25→ Biểu đồ biểu thị tần suất xuất hiện của Sales_in_thousands, trong đó Modecủa biểu đồ nằm trong khoảng từ 0 đến 50 Giá trị xuất hiện nhiều nhất củathanh đạt được là 100, rơi vào biên bên trái biểu đồ và giá trị ít xuất hiện thườngxuyên nhất rơi vào biên phải biểu đồ.
histogram Engine_size, frequency normal ytitle(Frequency)
xtitle(Engine_size) title(Engine_size) (bin=12, start=1, width=.58333333)
Trang 26→ Biểu đồ biểu thị tần suất xuất hiện của Engine_size, trong đó Mode của biểu
đồ nằm trong khoảng từ 2 đến 4 và các giá trị ít xuất hiện thường xuyên nhất rơivào khoảng biên của biểu đồ
histogram Price_in_thousands, frequency normal ytitle(Frequency)
xtitle(Price_in_thousands) title(Price_in_thousands) (bin=12, start=9.235,
width=6.3554167)
Trang 27→ Biểu đồ biểu thị tần suất xuất hiện của Price_in_Thousands, trong đó Modecủa biểu đồ nằm trong khoảng từ 20 đến 40 và giá trị ít xuất hiện nhất rơi vàovùng biên bên phải biểu đồ
histogram Horsepower, discrete frequency normal ytitle(Frequency) xtitle(Horsepower) title(Horsepower) (start=55, width=1)
Trang 28→ Biểu đồ biểu thị tần suất xuất hiện của Horsepower, trong đó Mode của biểu
đồ nằm trong khoảng từ 100 đến 200
histogram Fuel_capacity, discrete frequency normal ytitle(Frequency) xtitle(Fuel_capacity) title(Fuel_capacity) (start=10.3, width=.09999943)
Trang 29→ Biểu đồ biểu thị tần suất xuất hiện của Fuel_capacity, trong đó Mode củabiểu đồ nằm trong khoảng từ 15 đến 20
histogram Fuel_efficiency, discrete frequency normal ytitle(Frequency) xtitle(Fuel_efficiency) title(Fuel_efficiency)
(start=15, width=1)
Trang 30→ Biểu đồ biểu thị tần suất xuất hiện của Fuel_efficiency, trong đó Mode củabiểu đồ nằm trong khoảng từ 25 đến 30 Các giá trị ít xuất hiện thường xuyênnhất rơi vào khoảng biên bên phải của biểu đồ.
histogram Latest_Launch, frequency normal ytitle(Frequency)
xtitle(latest_launch) title(latest_launch)
(bin=12, start=17575, width=148.41667)
Trang 31→ Biểu đồ biểu thị tần suất của Lastest_Launch, trong đó Mode của biểu đồnằm trong khoảng từ 1/1/2011 đến 1/1/2013 và các giá trị ít xuất hiện thườngxuyên nhất rơi vào khoảng biên bên trái của biểu đồ
histogram Power_perf_factor, frequency normal ytitle(Frequency)
xtitle(Power_perf_factor) title(Power_perf_factor) (bin=12, start=23.276272, width=13.739004)
Trang 32→ Biểu đồ biểu thị tần suất của Power_perf_factor, trong đó Mode của biểu đồnằm trong khoảng từ 50 đến 100 và các giá trị ít xuất hiện thường xuyên nhấtrơi vào khoảng biên bên phải của biểu đồ
histogram Width, frequency normal ytitle(Frequency) xtitle(Width) title(Width) (bin=12, start=62.6, width=1.4416667)
Trang 33→ Biểu đồ biểu thị tần suất của Width, trong đó Mode của biểu đồ nằm trongkhoảng từ 70 đến 75 và các giá trị ít xuất hiện thường xuyên nhất rơi vàokhoảng biên bên trái của biểu đồ
histogram Length, frequency normal ytitle(Frequency) xtitle(Length) title(Length) (bin=12, start=149.4, width=6.2583333)
Trang 34→ Biểu đồ biểu thị tần suất của Length, trong đó Mode của biểu đồ nằm trong khoảng
từ 175 đến 195 và các giá trị ít xuất hiện thường xuyên nhất rơi vào khoảng biên của biểu đồ.
histogram Wheelbase, frequency normal ytitle(Frequency)
xtitle(Wheelbase) title(Wheelbase)
(bin=12, start=92.6, width=3.8416667)
Trang 35→ Biểu đồ biểu thị tần suất của Wheelbase, trong đó Mode của biểu đồ nằm trong
khoảng từ 100 đến 110 và giá trị ít xuất hiện nhất rơi vào vùng biên bên phải biểu đồ Giá trị chiều dài cơ sở thường nằm trong khoảng 100 đến 110 cm
4 Phát hiện các Missing value (nếu có)
ssc install mdesc
mdesc
Trang 36- Xác định vị trí của Missing values:
Trang 385 Tính toán các trị thống kê mô tả đặc trưng của tất cả các biến có trong dữ liệu → Từ đó, nhận xét về hình dáng phân phối dữ liệu của các biến trên?
- Tính Mode của các biến:
Trang 42- Tính các trị thống kê khác:
Trang 47→ Nhận xét về hình dáng phân phối dữ liệu của các biến trên:
+ Price In Thousands: Dữ liệu lệch phải (Mean > Med (27,39075 > 22,799))+ Engine Size: Dữ liệu lệch phải (Mean > Med > Mode (3,060897 > 3 > 2))+ Horsepower: Dữ liệu lệch phải (Mean > Med > Mode (185,9487 > 177,5 >
150 v 170))
+ Wheelbase: Dữ liệu lệch phải
+ Width: Dữ liệu lệch phải ( Mean > Med (71,15 > 70,55))
+ Length: Dữ liệu gần như không lệch ( Mean, Med, Mode xấp xỉ nhau)
+ Curb Weight: Dữ liệu lệch phải (Mean > Med > Mode (3,378026 > 3,343 > 2,769 v 2,998))
+ Fuel Capacity: Dữ liệu lệch phải
+ Fuel Efficiency: Dữ liệu lệch trái ( Mean < Med < Mode (23,84416 < 24 < 25))
+ Power Perf Factor: Dữ liệu lệch phải (Mean > Med > Mode (77,04359 > 72,03092 > 52,085))
+ Sales in Thousands: Dữ liệu lệch phải (Mean > Med (52,99808 > 29,45))