1. Trang chủ
  2. » Luận Văn - Báo Cáo

Tiểu luận: Phương pháp Correspondence Analysis (CA)

23 66 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 23
Dung lượng 587,73 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phân tích tương ứng được áp dụng rất rộng rãi trong rất nhiều lĩnh vực như phân tích dữ liệu kinh doanh, điều tra xã hội học, khai phá dữ liệu,…. CA cho phép phát hiện các tri thức tiềm ẩn trong khối lượng dữ liệu lớn một cách dễ dàng thông qua phương pháp trực quan hóa (sử dụng bản đồ các điểm).

Trang 3

Danh sach nhom va bang phân công nhiêm vu ́ ́ ̀ ̉ ̣ ̣

­

­

­

Trang 4

MUC LUC ̣ ̣

Trang 5

CH ƯƠ NG 1: GI I THIÊU CHUNG Ơ ́ ̣

Trong viêc nghiên c u cac đăc tinh khac nhau cua cung môt san phâm hay cua cac̣ ứ ́ ̣ ́ ́ ̉ ̀ ̣ ̉ ̉ ̉ ́ san phâm khac nhau đê đ a ra kêt luân, đanh gia vê s  t̉ ̉ ́ ̉ ư ́ ̣ ́ ́ ̀ ự ương quan anh h̉ ưởng lân nhaũ  

gi a cac yêu tô trên hay s  anh hữ ́ ́ ́ ự ̉ ưởng cua chung đên môt gia tri khac… Ng̉ ́ ́ ̣ ́ ̣ ́ ươi phân tich̀ ́  san phâm găp kha nhiêu kho khăn trong viêc thu thâp va x  li sô liêu ban đâu. B i v ỉ ̉ ̣ ́ ̀ ́ ̣ ̣ ̀ ử ́ ́ ̣ ̀ ở ơ  ́

t ng san phâm khac nhau va t ng ngừ ̉ ̉ ́ ̀ ̀ư ươi th  – phep th  khac nhau se cho ra rât nhiêu kêt̀ ử ́ ử ́ ̃ ́ ̀ ́ qua đanh gia khac nhau.̉ ́ ́ ́

Vi du: Khao sat vê cac đăt tinh cam quan cua môt loai ń ̣ ̉ ́ ̀ ́ ̣ ́ ̉ ̉ ̣ ̣ ươc giai khat m i đ́ ̉ ́ ơ ượ  ́ c

th c hiên đanh gia v i 50 ngự ̣ ́ ́ ớ ươi th ,cho ra môt sô kêt qua đanh gia nh  sau:̀ ử ̣ ́ ́ ̉ ́ ́ ư

­ Vê mau săc: vang cam, cam, vang.̀ ̀ ́ ̀ ̀

­ Vê mui h̀ ̀ ương: hương cam, hương chanh, hương th m.ơ

­ Vê vi ngot: thâp, trung binh, cao.̀ ̣ ̣ ́ ̀

­ ……

Môi tinh chât co sô ng̃ ́ ́ ́ ́ ười cung đanh gia khac nhau.̀ ́ ́ ́

V i môt loat nh ng kêt qua đanh gia trên rât kho đê đ a ra kêt luân chinh xac vêớ ̣ ̣ ữ ́ ̉ ́ ́ ́ ́ ̉ ư ́ ̣ ́ ́ ̀ đăc tinh cua san phâm. Do đo nh ng d  liêu ban đâu trên ­ “bô d  liêu thô” cân đ̣ ́ ̉ ̉ ̉ ́ ữ ữ ̣ ̀ ̣ ữ ̣ ̀ ược xử 

li, tom tăt, ma hoa, phân tich…thanh dang đ n gian va khoa hoc h n, giup ta dê dang tiêṕ ́ ́ ̃ ́ ́ ̀ ̣ ơ ̉ ̀ ̣ ơ ́ ̃ ̀ ́ cân va co thê rut ra kêt luân t  cac kêt qua đa đ̣ ̀ ́ ̉ ́ ́ ̣ ừ ́ ́ ̉ ̃ ược x  li va phân tich. Môt trong sôử ́ ̀ ́ ̣ ́ 

nh ng phữ ương phap phân tich sô liêu th́ ́ ́ ̣ ương đ̀ ược s  dung la Phân tích tử ̣ ̀ ương  ngư  ́Correspondence Analysis­ CA

Correspondence Analysis­ CA la môt phân tich thanh phân chinh tông quat phu h p̀ ̣ ́ ̀ ̀ ́ ̉ ́ ̀ ợ  cho viêc phân tich d  liêu đinh tinh. Ban đâu, CA đ̣ ́ ữ ̣ ̣ ́ ̀ ược tao ra đê phân tich “bang ḍ ̉ ́ ̉ ự phong”̀ , nh ng vê sau no đư ̀ ́ ượ ửc s  dung linh hoat h n cho nhiêu bang d  liêu khac.co thệ ̣ ơ ̀ ̉ ữ ̣ ́ ́ ̉ hiêu đ n gian Correspondence Analysis­ CA la  ph̉ ơ ̉ ̀ ương pháp tr c quan đ  phân tích dự ể ữ 

Trang 6

li u đệ ược bi u di n b ng các b ng d  li u 2 chi u (contingency table) hay đa chiêu,ể ễ ằ ả ữ ệ ề ̀  giup đ n gian hinh th c phân tich trong nghiên c u.́ ơ ̉ ̀ ứ ́ ứ

M c tiêu c a phân tích tụ ủ ương  ng CA là chuy n đ i m t b ng d  li u thành haiứ ể ổ ộ ả ữ ệ  

bộ y u t  đi m: ế ố ể  M t cho các hàng và m t cho các c t.ộ ộ ộ  Đi m y u t  phai la điêm đaiể ế ố ̉ ̀ ̉ ̣  diên t t nh t c a c u trúc ṭ ố ấ ủ ấ ương t  c a các hàng và các c t trong b ng.ự ủ ộ ả  Ngoài ra, y uế  

t  đi m có th  đố ể ể ược v  trên b n đ , hi n th  các thông tin c n thi t c a bang d  liêuẽ ả ồ ể ị ầ ế ủ ̉ ữ ̣  

g c.ố  Trong các b n đ  này, toa đô cua cac điêm hiên thi cac yêu tô tả ồ ̣ ̣ ̉ ́ ̉ ̉ ̣ ́ ́ ́ ương t  nh  cacự ư ́ hang va cac côt trong bang d  liêu. Điêu đăc biêt la cac điêm y u t  c a các hàng và các̀ ̀ ́ ̣ ̉ ữ ̣ ̀ ̣ ̣ ̀ ́ ̉ ế ố ủ  

c t có cùng phộ ương sai và, do đó, c  hàng và c t có th  đả ộ ể ược đ i di n thu n ti n trênạ ệ ậ ệ  cung  m t b n đ  duy nhât.̀ ộ ả ồ ́

 Nh  vây k t qu  c a CA là b n đ  các đi m (Map of Points). Trong đó các đi mư ̣ ế ả ủ ả ồ ể ể  

bi u di n cho các dòng (rows) và các c t (columns) c a b ng. S  ể ễ ộ ủ ả ự hi n th  các hàng vàể ị  

c t c a m t b ng nh  là các đi m trong m t b n đ  không gian, v i m t gi i thíchộ ủ ộ ả ư ể ộ ả ồ ớ ộ ả  hình h c c  thọ ụ ể các v  trí c a các đi m nh  m t phị ủ ể ư ộ ương ti n đ  gi i thích nh ng đi mệ ể ả ữ ể  

tương đ ng và khác bi t gi a các hàng , s  gi ng nhau và khác nhau gi a c t và s  liênồ ệ ữ ự ố ữ ộ ự  

k t gi a các hàng và c tế ữ ộ  Cac kêt qua cung câp thông tin t́ ́ ̉ ́ ương t  nh  trong th c tiênự ư ự ̃ san xuât, giup chung ta phat hiên đ̉ ́ ́ ́ ́ ̣ ược môi quan hê tim ân anh h́ ̣ ̀ ̉ ̉ ưởng lân nhau cua cac̃ ̉ ́ yêu tô đ́ ́ ược phân tich trong bang.́ ̉

Trang 7

CH ƯƠ NG 2: ĐĂC ĐIÊM DATA/ D  LIÊU CÂN PHÂN TICH ̣ ̉ Ư ̃ ̣ ̀ ́

2.1. Môt sô khai niêm c  baṇ ́ ́ ̣ ơ ̉

Profile: T n   su t   tầ ấ ương   đ i   trong   bang   d   liêu   thông   kê   (Row   and   columnố ̉ ữ ̣ ́  profiles). Dung đ  xác đ nh t a đ  c a các đi m trong b n đ̀ ể ị ọ ộ ủ ể ả ồ

Masses (marginal distribution): Đo lường đ  quan tr ng c a các đi m.ộ ọ ủ ể

Centroid (tâm): Tr ng s  trung bình c a các v  tríọ ố ủ ị

Cać d  liêu dang văn ban nay cân đữ ̣ ̣ ̉ ̀ ̀ ược đông nhât vê măt ng  nghia. Do cac d̀ ́ ̀ ̣ ữ ̃ ́ ư ̃liêu dang văn ban tḥ ̣ ̉ ương rât đa dang va phong phu vê măt ng  nghia (nghia cua t ).̀ ́ ̣ ̀ ́ ̀ ̣ ữ ̃ ̃ ̉ ừ

Nh    vi du trên, khi khao sat đăc tinh cua môt loai nư ở ́ ̣ ̉ ́ ̣ ́ ̉ ̣ ̣ ươc giai khat…do cach caḿ ̉ ́ ́ ̉  nhân cua nh ng ng̣ ̉ ữ ươi khac nhau va cach kêt luân t  do nên se dân đên nh ng đanh già ́ ̀ ́ ́ ̣ ự ̃ ̃ ́ ữ ́ ́ 

co s  khac nhau vê măt t  ng  nh ng lai cung diên ta môt tinh chât chung nh : “vang”,́ ự ́ ̀ ̣ ừ ữ ư ̣ ̀ ̃ ̉ ̣ ́ ́ ư ̀  

“vang vang”, “vang nhat”,…cung mang môt y nghia kha giông nhau la “vang”; hay “ngoǹ ̀ ̀ ̣ ̀ ̣ ́ ̃ ́ ́ ̀ ̀ ̀ ngot”, “ngot diu”, “h i ngot”… cung diên đat tinh chât trung binh cua vi ngot…h n thệ ̣ ̣ ơ ̣ ̀ ̃ ̣ ́ ́ ̀ ̉ ̣ ̣ ơ ́ 

n a, nhân xet va đanh gia cua môt ngữ ̣ ́ ̀ ́ ́ ̉ ̣ ươi hoan toan co thê bi chi phôi b i yêu tô tâm li,̀ ̀ ̀ ́ ̉ ̣ ́ ở ́ ́ ́ 

được xem la cac d  liêu ngâu nhiên – t  phat. Do đo, viêc đông nhât d  liêu dang văǹ ́ ữ ̣ ̃ ự ́ ́ ̣ ̀ ́ ữ ̣ ̣  ban la viêc lam cân thiêt giup giam m c đô ph c tap cua d  liêu đâu vao.̉ ̀ ̣ ̀ ̀ ́ ́ ̉ ứ ̣ ứ ̣ ̉ ữ ̣ ̀ ̀

Phân tích tương  ng là hi u qu  nh t n u các đi u ki n sau đây:ứ ệ ả ấ ế ề ệ

Trang 8

­ Ma tr n d  li u là đ  l n, đ  ki m tra tr c quan ho c phân tích th ng kê đ nậ ữ ệ ủ ớ ể ể ự ặ ố ơ  

gi n không th  ti t l  c u trúc c a nóả ể ế ộ ấ ủ

­ Các bi n là đ ng nh t, do đó nó làm cho c m giác đ  tính toán kho ng cáchế ồ ấ ả ể ả  

th ng kê gi a các hàng ho c c t.ố ữ ặ ộ

­ Ma tr n d  li u làậ ữ ệ  m t  u tiênộ ư  "vô đ nh hình",ị  t c làứ  c u trúc c a nó, ho c làấ ủ ặ  không bi t ho c ch a đế ặ ư ược hi u rõ.ể

Trang 9

CH ƯƠ NG 3: CACH BÔ TRI D  LIÊU TRONG DATA ́ ́ ́ Ư ̃ ̣

3.1. Cach bô tri d  liêu đâu vao trong bang d  phonǵ ́ ́ ữ ̣ ̀ ̀ ̉ ự ̀

Trong phương phap phân tich t́ ́ ương  ng nay, “bô d  liêu thô” ban đâu cân đứ ̀ ̣ ữ ̣ ̀ ̀ ượ  ctom tăt va hê thông hoa vao môt bang d  liêu thông kê (bang ngâu nhiên).   bang thônǵ ́ ̀ ̣ ́ ́ ̀ ̣ ̉ ữ ̣ ́ ̉ ̃ Ở ̉ ́  

kê nay chung ta quan tâm đên hai biên: môt la biên t̀ ́ ́ ́ ̣ ̀ ́ ương  ng v i l i đanh gia cuaứ ơ ớ ̀ ́ ́ ̉  

nh ng ngữ ươ ượi đ̀ c khao sat (biên đăc tinh), biên th  hai t̉ ́ ́ ̣ ́ ́ ứ ương  ng v i san phâm đứ ớ ̉ ̉ ượ  cđanh gia.́ ́

Cac biên d  liêu trên đ́ ́ ữ ̣ ược bô tri trong bang nh  sau:́ ́ ̉ ư

­ Cac hang i (rows): ch a d  liêu t́ ̀ ứ ữ ̣ ương  ng v i cac san phâm đứ ớ ́ ̉ ̉ ược đanh gia.́ ́

­ Cac côt j (colums): ch a cac d  liêu t́ ̣ ứ ́ ữ ̣ ương  ng v i t  ng  dung đê mô ta đăc tinhứ ơ ứ ̀ ữ ̀ ̉ ̉ ̣ ́  cua san phâm.̉ ̉ ̉

­ Cac điêm giao nhau gi a hang i va côt j: ch a d  liêu ghi nhân tân sô t́ ̉ ữ ̀ ̀ ̣ ứ ữ ̣ ̣ ̀ ́ương quan 

gi a i va j, t c sô lân đanh gia đữ ̀ ứ ́ ̀ ́ ́ ược lâp lai đôi v i môt đăc tinh cua t ng saṇ ̣ ́ ớ ̣ ̣ ́ ̉ ừ ̉  phâm.̉

Vi du: Bang d  phong sau khao sat vê tân suât s  dung cua 4 nhan hiêu kem đanh́ ̣ ̉ ự ̀ ̉ ́ ̀ ̀ ́ ử ̣ ̉ ̃ ̣ ́  răng (Brand A, Brand B, Brand C và Brand D) t i 3 khu v c (Region 1,ạ ự  Region 2 và Region 3) được đi u tra ng u nhiên t  120 ngề ẫ ừ ười nh  sau:ư

  Region 1 Region 2 Region 3 Total

Trang 10

3.2. Tiên x  li d  liêu đâu vaò ử ́ ữ ̣ ̀ ̀

3.2.1.  χ2  Tính toánCâu hoi đăt ra la liêu ban co chăc chăn cac d  liêu trong bang d  phong đôc lâp v ỉ ̣ ̀ ̣ ̣ ́ ́ ́ ́ ữ ̣ ̉ ự ̀ ̣ ̣ ơ  ́nhau? Đê khăng đinh điêu đo chung ta cân kiêm tra ̉ ́ ̣ ̀ ́ ́ ̀ ̉ χ2 , đê xem cac tab cheo co lêch nhaủ ́ ́ ́ ̣  đanǵ  kê gi a cac hang va cac côt.̉ ữ ́ ̀ ̀ ́ ̣

Viêc ki m tra đ̣ ể ược mô t  chính th c b i các ma trânả ứ ở ̣  (i x j), F =[fij] . Chúng ta nhâṇ 

được các ma tr n tậ ương  ngứ  P từ F b ng cách chia các m c c a nó: ằ ụ ủ

P = [ pij] =[, where n =  (1)

Ti p theo, xác đ nh hàng và c t t ng: ế ị ộ ổ

      (2)    

null"), X2 nên theo m tộ   χ2    phân ph i v iố ớ  (I­1)x(J­1) b c t  do.ậ ự  Chúng ta có 

th  so sánh giá tr  th c t  tính toán cho các ví d  tab chéo v i phân ph i c aể ị ự ế ụ ớ ố ủ  

mình theo gi  thuy t. ả ế

Trang 11

3.2.2. χ2    Kho ng cách

Theo m c đích c a phân tích tụ ủ ương  ng, s  khác bi t gi a các b n phân ph i c aứ ự ệ ữ ả ố ủ  các   biên   hàng   ngang   c a   bang   cheo   (bang   d   phong)   đ́ ủ ̉ ́ ̉ ự ̀ ược   đo   băng̀  χ2   kho ng ả   cách, trong đó có tr ng lọ ượng kho ng cách Euclide gi a các hàng bình, v i tr ng lả ữ ớ ọ ượ  ng

t  l  ngh ch v i căn b c hai c a t ng s  c t.ỉ ệ ị ớ ậ ủ ổ ố ộ  Trong các bi u tể ượng, các χ2     kho ngả  cách gi a các hàngữ  i và hàng k được cho b i bi u th c:ở ể ứ

Trang 12

l ượ  c a hàng) và bình ph ng ủ ương kho ng cách c a nó v i tr ng tâmả ủ ớ ọ  pi+diz2. So sánh bi uể  

th cứ  diz2 trong (5) v i đ nh nghĩa c aớ ị ủ  χ2    . Th ng kê trong (3), nó sau đó t ng quán tínhố ổ  

c a t t c  các hàng trong m t ma tr n ng u nhiên b ng cácủ ấ ả ộ ậ ẫ ằ  χ2   . Th ng kê chiaố  n , M tộ  

s  lố ượng được g i làọ   mean­square contingency Pearson, ký hi u ệ ɸ2 :

(9)

T ng quán tính c a m t b ng đổ ủ ộ ả ượ ử ục s  d ng đ  đánh giá ch t lể ấ ượng c a đ i di nủ ạ ệ  

đ  h a c a nó trong phân tích tồ ọ ủ ương  ng.ứ  Đ  tham kh o trong tể ả ương lai, chúng ta có 

th  tính toánể  ɸ2 cho d  li u c a chúng ta.ữ ệ ủ

Trang 13

CH ƯƠ NG 4: PHÂN MÊN HÔ TR  VA CACH ĐOC KÊT QUA ̀ ̀ ̃ Ợ ̀ ́ ̣ ́ ̉

4.1. Gi i thiêu môt sô phân mên thông dungớ ̣ ̣ ́ ̀ ̀ ̣

Trong phương phap phân tich t́ ́ ương  ng CA co kha nhiêu phân mêm hô tr  nhămứ ́ ́ ̀ ̀ ̀ ̃ ợ ̀  giam b t cac công đoan tinh toan va giup hiên thi kêt qua thuân tiên h n cho ng̉ ớ ́ ̣ ́ ́ ̀ ́ ̣ ̣ ́ ̉ ̣ ̣ ơ ươi phâǹ  tich. Sau đây la môt sô phân mêm hô tr  phân tich:́ ̀ ̣ ́ ̀ ̀ ̃ ợ ́

­ Phân   mêm  ̀ ̀ SPSS  (vi t   t t   c aế ắ ủ  Statistical Package   for   the Social Sciences)   là 

m tộ  chương trình máy tính ph c v  công tácụ ụ  th ng kêố  Ph n m m SPSS h  trầ ề ỗ ợ 

x  lý và phân tích d  li u s  c p ­ là các thông tin đử ữ ệ ơ ấ ược thu th p tr c ti p tậ ự ế ừ 

đ i tố ượng nghiên c u, thứ ường đượ ử ục s  d ng r ng rãi trong các nghiên c u đi uộ ứ ề  tra xã h i h cộ ọ  và kinh t  lế ượ ng

­ Phâǹ mên ̀ R: là m tộ  ngôn ng  l p trìnhữ ậ  và môi trường ph n m m dành cho tínhầ ề  toán và đ  h aồ ọ  th ng kêố  Đây là m t b n hi n th cộ ả ệ ự  ngôn ng  l p trình Sữ ậ  v i ngớ ữ nghĩa   kh i   t   v ng   l y   c m   h ng   tố ừ ự ấ ả ứ ừ Scheme   R   do Ross   Ihaka và Robert Gentleman t o raạ  t iạ  Đ i h c Aucklandạ ọ , New Zealand

­ Phân mêm ̀ ̀ XLSTAT: la phân mêm  ng dung dung trong Excel, giup hô tr  tinh ̀ ̀ ̀ ứ ̣ ̀ ́ ̃ ợ ́

toan va đô hoa thông kê nh  CA, PCAva MCA,… ́ ̀ ̀ ̣ ́ ư ̀

4.2. Phân mêm ̀ ̀ XLSTAT

 Vi du: Bang d  phong sau khao sat vê tân suât s  dung cua 4 nhan hiêu kem đanh́ ̣ ̉ ự ̀ ̉ ́ ̀ ̀ ́ ử ̣ ̉ ̃ ̣ ́  răng (Brand A, Brand B, Brand C và Brand D) t i 3 khu v c (Region 1,ạ ự  Region 2 và Region 3) được đi u tra ng u nhiên t  120 ngề ẫ ừ ười nh  sau:ư

Trang 14

  Region 1 Region 2 Region 3

Total

Sau khi kh i đ ng XLSTAT và ch n bi u t ở ộ ọ ể ượ ng Correspondence Analysis

Ch n vùng d  li u đ  phân tích và b m OK đ  th c hi n CA ọ ữ ệ ể ấ ể ự ệ

V n đ  quan tr ng là gi i thích k t qu  mà CA sinh ra đ  tìm ra các tri th c h u ấ ề ọ ả ế ả ể ứ ữ   ích  n ch a trong d  li u ẩ ứ ữ ệ

Khai phá tri th c t  k t qu  CAứ ừ ế ả

Trang 15

Sau đây gi i thích t ng bả ừ ước các k t qu  sinh ra b i CA nh m giúp các b n cóế ả ở ằ ạ  

th  phát hi n các tri th c  n ch a trong d  li u t  Contingency table ban đ u.ể ệ ứ ẩ ứ ữ ệ ừ ầ

4.2.1. Rows and Column Profile

K t qu  cu i cùng c a CA là b n đ  các đi m (Map of Points), trong đó m i hàngế ả ố ủ ả ồ ể ỗ  (row) và m i c t (column) đỗ ộ ược bi u di n thành 1 đi m trong b n đ  Profile để ễ ể ả ồ ượ  ctính là t n su t tầ ấ ương đ i c a các dòng (Rows profile) và các c t (Columnsprofile)ố ủ ộ  trong Contingency table. Profile c a các dòng và c t đủ ộ ược dùng đ  xác đ nh t a đ  c aể ị ọ ộ ủ  các đi m trong b n đ  Vì v y các dòng ho c các c t có profile g n gi ng nhau sể ả ồ ậ ặ ộ ầ ố ẽ 

được đ t g n nhau trong b n đ  Sau đây là Profile c a các dòng và các c t đặ ầ ả ồ ủ ộ ược CA sinh ra t   bang d  phong (Contingency Table).ừ ̉ ự ̀

Row Profile  Region 1 Region 2 Region 3 Sum 

Trang 16

CA t  đ ng ki m tra m i qua h  này. V i d  li u trong ví d  trên, k t qu  ki mự ộ ể ố ệ ớ ữ ệ ụ ế ả ể  

đ nh gi  thuy t đị ả ế ược CA sinh ra nh  sau:ư

Trang 18

Gi  thuy t Hả ế 0 (Null hypothesis): Các dòng và các c t trong bang d  phong là đ cộ ̉ ự ̀ ộ  

l p nhau. (Nói cách khác là không có s  ph  thu c gi a các dòng và c t trong b ng).ậ ự ụ ộ ữ ộ ả

Gi  thuy t Hả ế 1 (gi  thuy t đ i): Có m i liên h  gi a dòng và c t trong b nả ế ố ố ệ ữ ộ ả

K t qu  ki m đ nh cho th y Pế ả ể ị ấ ­value <0.0001 nh  h n m c ý nghĩa  = 0.05 nên taỏ ơ ứ α  bác b  Hỏ 0 và ch p nh n Hấ ậ 1. Sai l m m c ph i khi bác b  Hầ ắ ả ỏ 0 trong khi H0 đúng nh  h nỏ ơ  0.1%. Nh  v y qua ki m đ nh gi  thuy t ta k t lu n r ng gi a các dòng và các c tư ậ ể ị ả ế ế ậ ằ ữ ộ  trong Contingency Table có m i quan h  v i nhau.ố ệ ớ

4.2.3.  Xác đ nh s  chi u c a không gian dùng đ  bi u di n các đi mị ố ề ủ ể ể ễ ể

Th c ch t c a ph n này là th c hi n các phép chi u (projection) lên các tr c vàự ấ ủ ầ ự ệ ế ụ  phép quay (rotation) các tr c đ  tìm ra không gian t t nh t đ  bi u di n các đi m dụ ể ố ấ ể ể ễ ể ữ 

Trang 19

Eigenvalue 0.410 0.253Inertia (%) 61.843 38.157Cumulative % 61.843 100.000

Trong ví d  này, 2 chi u (F1 và F2) đã gi i thích 100% c a inertia. Vì v y sụ ề ả ủ ậ ử 

d ng không gian 2 chi u đ  gi i thích toàn b  inertiaụ ề ủ ả ộ

4.2.4. Gi i thích các chi u (các tr c ­ axis)ả ề ụ

 Ph n này phân tích s  đóng góp c a các dòng và c tầ ự ủ ộ  và vi c xác đ nh các chi uệ ị ề  

Trang 20

bi u di n các đi m. Ta th y r ng Brand A đóng góp 62.6% ể ễ ể ấ ằ  trong vi c xác đ nh tr cệ ị ụ  

th  nh t (F1) và Brand B đóng góp 63.6% đ  xác đ nh tr c th  2 (F2). Vì v y có thứ ấ ể ị ụ ứ ậ ể nói r ng tr c F1 đằ ụ ược xác đ nh ch  y u d a vào Brand A và tr c F2 đị ủ ế ự ụ ược xác đ nh chị ủ 

Tươ  t , ta th y tr c F1 đng ự ấ ụ ược xác đ nh b i Region 3 và tr c F2 đị ở ụ ược xác đ nhị  

b i Region 2 (B i vì các c t này đóng góp > 100/3 =33.3%)ở ở ộ

 Chú ý r ng, Theo đóng góp c a cac dòng (Brands) thì Brand A xác đ nh F1 và theoằ ủ ́ ị  đóng góp c a c t (các Regions) thìủ ộ  F1 được xác đ nh b i Region 3, vì v y rõ ràng r ngị ở ậ ằ  Brand A k t h p m nh m  v i Region 3. Hay nói cách khác nhãn hi u kem đánh răngế ợ ạ ẽ ớ ệ  Brand A đượ ử ục s  d ng nhi u nh t   Region 3 (xem d  hi u trong Contingency Tableề ấ ở ữ ệ  

và b n đ  ph n sau)ả ồ ầ

4.2.5.  Bi u di n tr c quan b ng b n đ  k t qu  CAể ễ ự ằ ả ồ ế ả

Ví trí c a các dòng (trong trủ ường h p này là 4 nhãn hi u kem đánh răngợ ệ  Brand A,B,C,D)

Trang 21

Row Profile  Region 1 Region 2 Region 3 Sum 

Trong ví d  này ta th y Brand C và D đụ ấ ược đ t g n nhau vì profile c a chúng g nặ ầ ủ ầ  

gi ng nhau (60%, 75%) và Brand A đố ược đ t khá xa Brand C và Dặ  vì Profile c a Brandủ  

A (12.5%) khác xa so v i Profile c a Brand C và. Tr c F1 đớ ủ ụ ược xác đ nh b i Brand Aị ở  nên v  trí c a Brand A r t g n tr c F1 trên đ  thị ủ ấ ầ ụ ồ ị.

Thêm vào đó, n u profile c a m t brand càng khác bi t so v i tâm (centroid –ế ủ ộ ệ ớ  trung bình c a các profile) thì nó s  n m càng xa g c t a đ  (origin).ủ ẻ ằ ố ọ ộ

Tương t , ví trí c a các c t (trong trự ủ ộ ường h p này là các Regions) đợ ược bi u di nể ễ  

nh  sauư

Phát hi n các k t h p gi a các hàng và c t (trong ví d  này là gi a các nhãn hi u kem ệ ế ợ ữ ộ ụ ữ ệđánh răng và các khu v c).ự

 Nh c l i r ng, k t qu  c a CA là b n đ  các đi m (Map of Points). Trong đó cácắ ạ ằ ế ả ủ ả ồ ể  

đi m bi u di n cho các dòng (rows) và các c t (columns) c a b ng. V  trí c a các đi mể ể ễ ộ ủ ả ị ủ ể  cho bi t s  tế ự ương t  (similarities)ự  gi a các dòng, s  tữ ự ương t  gi a các c t và s  k tự ữ ộ ự ế  

Ngày đăng: 11/01/2020, 23:36

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w