- Dodge giá trị 8 và Ford giá trị 9 xuất hiện nhiều lần nhất với tần suất7,01%.- Infinitygiátrị12và Jaguargiátrị 13xuấthiệnítnhấtvớitầnsuất 0,64%... →Bảng dữ liệu của biến Vehicle_Typel
Trang 2a TảibộdữliệuCarSalesởđườnglinktrênLMS
b Môtảbộdữliệu:
1 Môtảbộdữliệu:gồmbaonhiêubiến?baonhiêuquansát?Dữliệucủacácbiếnlà
địnhtínhhayđịnhlượng? Nếulà địnhlượng >liêntụchayrờirạc.
2 Dữ liệu của các biến được thu thập theo thang đo nào? Các dữ liệu được
thuthậptheo đơnvị gì?
+ Sốbiến:15,Sốquansát:157
Trang 3Power_perf_factor Địnhlượng Liêntục Tỉlệ
Trang 4 tostringManufacturerMH,gen(Manufacturerer)
Trang 7- Model:
tostringModelMH,gen(Modelly)
Trang 10- Vehicle_Type:
• tostringVehicle_typeMH,gen(Vehicle_typel)
Trang 14- Dodge (giá trị 8) và Ford (giá trị 9) xuất hiện nhiều lần nhất với tần suất7,01%.
- Infinity(giátrị12)và Jaguar(giátrị 13)xuấthiệnítnhấtvớitầnsuất 0,64%
- Sựchênhlệchlà6,57%
→D o d g e vàFord là2hãng có nhiềudòngxenhất
Trang 15 tabModelly
Trang 182 Lậpcácbảngtầnsốđồngthờicủa:Sales_in_ThousandstheoManufacturer;Vehi cleTypetheoManufacturer;Price_in_thousandst h e o Model.→Nhận xétchi tiết về cácbảng tầnsố trên.
Trang 19Ford với tần số xuất hiện trong khoảng từ (0;78) và (78;156) đều là 3 lần, và 2lầnởcác khoảng (156;234) và(234;268), 1 lầnởkhoảnglớnhơn 468.
- Doanhsố củaInfiniti(giátrị12)và Jaguar(giátrị13)cótầnsốxuất hiện ítnhấtvới tầnsốlà1 đều ởkhoảng (0;78)
- Các thuộc tính còn lại được phân bố đồng đều, xuất hiện nhiều ở
khoảng(0;78)với cáctầnsố thườngrơivào 3,4,5,6
tabulateManufacturererVehicle_typel
Trang 20→Bảng dữ liệu của biến Vehicle_Typel theo Manufacturerer có tổng 30
quansát, thể hiện được sự so sánh tương quan về 2 loại phương tiện Car (giá trị1) vàPassenger(giátrị 2)củacáchãng xe,trong đó:
- Phương tiện Car: Hãng Dodge, tức giá trị 8 có tần số cao nhất với số lần xuấthiện là 6, và các hãng Acura (1), Audi (2), BMW (3), Buick (4), có tần
số thấpnhất với số lần xuất hiện là 0 vì các hãng này đều không có phương tiện Car(thiếu dữ liệu) Xuất hiện nhiều giá trị 0, và khá ít các giá trị cao Các giá trịphân bố không đồng đều
- Phương tiện Passenger: Hãng Chevrolet, tức giá trị 6 có tần số cao nhất với sốlần xuất hiện là 6, và Jeep tức giá trị 14 có tấn số ít nhất là 0 Các giá trị phânbốđồngđều hơn,chỉcó1 giátrị 0,và các giátrị thườngrơi vàokhoảng 3và 4
→Với2trườnghợp,tasẽcó cácgiátrịtầnsốkhác nhau củacùng1biến
Trang 21 tabulateModellyPrice_in_thousands_groups
Trang 22→Bảng dữ liệu của biến Price_in_thousands theo Model có tổng 157 quan sátnhưng có 2 missing values generated nên chỉ còn 155, thể hiện được sự so sánhtươngquan về giácủatừng kiểumẫuxe, trong đó:
Trang 24→Biểu đồ biểu thị cho các biến của Manufacturer gồm 30 yếu tố, trongđóDodge và Ford chiếm tỉ lệ cao nhất với 10,1% và thấp nhất là Infiniti vàJaguarvới tỉ lệ1%.
histogramSales_in_thousands,frequencynormalytitle(Frequency)xtitle(S
ales_in_thousands) title(Sales_in_thousands) (bin=12, start=.11,width=45.037583)
Trang 25→Biểu đồ biểu thị tần suất xuất hiện của Sales_in_thousands, trong đóModecủab i ể u đ ồ n ằ m t r o n g k h o ả n g t ừ 0 đ ế n 5 0 G i á t r ị x u ấ t h i ệ n n h i ề u n
h ấ t c ủ a thanh đạt được là 100, rơi vào biên bên trái biểu đồ và giá trị ít xuất hiện thườngxuyênnhấtrơi vào biênphảibiểuđồ
histogram Engine_size, frequency normal
ytitle(Frequency)xtitle(Engine_size)title(Engine_size)
(bin=12,start=1,width=.58333333)
Trang 26→Biểu đồ biểu thị tần suất xuất hiện của Engine_size, trong đó Mode củabiểuđồ nằm trong khoảng từ 2 đến 4 và các giá trị ít xuất hiện thường xuyênnhất rơivàokhoảngbiêncủabiểuđồ.
histogramPrice_in_thousands,frequencynormalytitle(Frequency)xtitle(P
rice_in_thousands) title(Price_in_thousands) (bin=12, start=9.235,width=6.3554167)
Trang 27→Biểu đồ biểu thị tần suất xuất hiện của Price_in_Thousands, trong đóModecủa biểu đồ nằm trong khoảng từ 20 đến 40 và giá trị ít xuất hiện nhất rơivàovùngbiênbênphải biểuđồ.
histogramHorsepower,discretefrequencynormalytitle(Frequency)xtitle(H
orsepower)title(Horsepower)(start=55,width=1)
Trang 28→ BiểuđồbiểuthịtầnsuấtxuấthiệncủaHorsepower,trongđóModecủabiểuđồ nằm trong khoảng từ 100 đến 200.
histogramFuel_capacity,discretefrequencynormalytitle(Frequency)xtitle(Fu el_capacity)title(Fuel_capacity)(start=10.3,width=.09999943)
Trang 29→ B i ể uđ ồ b i ể u t h ị t ầ n su ấ t x u ấ t h i ệ n c ủ a F u e l _ c a p a c i t y , t r o n g đ ó M o d e
c ủ a biểuđồ nằm trong khoảng từ 15 đến 20
histogramFuel_efficiency,discretefrequencynormalytitle(Frequency)xtitle(Fu el_efficiency) title(Fuel_efficiency)
(start=15,width=1)
Trang 30→Biểu đồ biểu thị tần suất xuất hiện của Fuel_efficiency, trong đó Modecủabiểu đồ nằm trong khoảng từ 25 đến 30 Các giá trị ít xuất hiện thườngxuyênnhấtrơi vào khoảng biênbên phảicủabiểuđồ.
histogramLatest_Launch,frequencynormalytitle(Frequency)xtitle(la
test_launch)title(latest_launch)
(bin=12,start=17575,width=148.41667)
Trang 31→ B i ể u đ ồ b i ể u t h ị t ầ n s u ấ t c ủ a L a s t e s t _ L a u n c h ,
t r o n g đ ó M o d e c ủ a b i ể u đ ồ nằm trong khoảng từ 1/1/2011 đến1/1/2013 và các giá trị ít xuất hiện thườngxuyênnhấtrơi vào khoảngbiênbêntráicủabiểu đồ
histogram Power_perf_factor, frequency normal
ytitle(Frequency)xtitle(Power_perf_factor) title(Power_perf_factor)
(bin=12, start=23.276272,width=13.739004)
Trang 32→Biểu đồ biểu thị tần suất của Power_perf_factor, trong đó Mode của biểuđồnằm trong khoảng từ 50 đến 100 và cácg i á t r ị í t x u ấ t h i ệ n
t h ư ờ n g x u y ê n n h ấ t rơivào khoảng biênbên phải củabiểuđồ
histogramWidth,frequencynormalytitle(Frequency)xtitle(Width)title(Wi
dth)(bin=12, start=62.6,width=1.4416667)
Trang 33→Biểu đồ biểu thị tần suất của Width, trong đó Mode của biểu đồ nằmtrongkhoảngt ừ 7 0 đ ế n 7 5 v à c á c g i á t r ị í t x u ấ t h i ệ n t h ư ờ n g x u y ê n n h
ấ t r ơ i v à o khoảngbiênbên trái củabiểuđồ
histogramLength,frequencynormalytitle(Frequency)xtitle(Length)title(Le ngth)(bin=12, start=149.4,width=6.2583333)
Trang 34→Biểuđồbiểu thịtầnsuấtcủaLength,trongđóModecủabiểuđồnằmtrongkhoảngtừ 175 đến 195 và các giá trị ít xuất hiện thường xuyên nhất rơi vào khoảng biên củabiểuđồ.
histogramWheelbase,frequencynormalytitle(Frequency)xtitle(
Wheelbase)title(Wheelbase)
(bin=12,start=92.6,width=3.8416667)
Trang 35→Biểu đồ biểu thị tần suất của Wheelbase, trong đó Mode của biểu đồ nằm
trongkhoảng từ 100 đến 110 và giá trị ít xuất hiện nhất rơi vào vùng biên bên phải biểu đồ.Giátrị chiềudàicơsởthườngnằmtrong khoảng100 đến110cm.
4 PháthiệncácMissingvalue(nếucó).
sscinstallmdesc
mdesc
Trang 36-XácđịnhvịtrícủaMissingvalues:
Trang 385 Tínhtoáncáctrịthốngkêmôtảđặctrưngcủatấtcảcácbiếncótrongdữliệu.
→ Từđó,nhậnxétvềhìnhdángphânphối dữliệucủacácbiếntrên?
- TínhModecủacácbiến:
Trang 42- Tínhcáctrịthốngkêkhác:
Trang 47→Nhậnxétvềhình dángphânphốidữliệucủacácbiếntrên:
+PriceInThousands:Dữliệulệchphải(Mean>Med(27,39075>22,799))
+EngineSize:Dữliệulệchphải(Mean >Med >Mode (3,060897>3>2))
+Horsepower:Dữliệulệch phải(Mean>Med >Mode(185,9487>177,5>150v 170))
+Wheelbase: Dữliệulệch phải
+Width:Dữliệulệchphải(Mean >Med(71,15>70,55))
+Length:Dữliệugầnnhưkhônglệch(Mean,Med, Mode xấpxỉnhau)
+ Curb Weight: Dữ liệu lệch phải (Mean > Med > Mode (3,378026 > 3,343
>2,769v 2,998))
+FuelCapacity:Dữliệulệchphải
+FuelEfficiency:Dữliệulệchtrái(Mean <Med<Mode(23,84416<24<25))
+PowerPerfFactor:Dữliệulệchphải(Mean>Med>Mode(77,04359>72,03092>52,085))
+SalesinThousands: Dữliệulệch phải(Mean>Med(52,99808>29,45))