Trường Đại Học Kinh Tế Quốc DânKhoa Thống Kê BÀI TẬP NHÓM HỌC PHẦN: PHÂN TÍCH DỮ LIỆU ĐỀ TÀI: Vận dụng phương pháp CA trong phân tích mối liên hệ giữa độ tuổi và tần suất mua hàng của n
Trang 1Trường Đại Học Kinh Tế Quốc Dân
Khoa Thống Kê
BÀI TẬP NHÓM HỌC PHẦN: PHÂN TÍCH DỮ LIỆU
ĐỀ TÀI:
Vận dụng phương pháp CA trong phân tích mối liên hệ giữa độ tuổi và tần suất mua hàng của người tiêu dùng tại thị trường bán
lẻ hoa quả tươi ở Trung Quốc
Giảng viên hướng dẫn: PGS.TS Trần Thị Bích
Lớp chuyên ngành : Thống kê Kinh tế 62B
Thành viên nhóm 11 :
Ngô Thị Hiền Lương 11202378
Nguyễn Thanh Huyền
Lê Cẩm Minh
Trịnh Thu Hà
Hồ Thị Huyền Trang
Trang 2LỜI MỞ ĐẦU
Khai phá dữ liệu đã và đang được nghiên cứu, ứng dụng nhiều trong các lĩnh vực khác nhau
và mang lại những lợi ích to lớn Những vấn được quan tâm trong khai phá dữ liệu là phân lớp, luật kết hợp, phân cụm dữ liệu,… Một trong những thuận lợi chính của những kỹ thuật này là khả năng phân tích dữ liệu lớn và phức tạp, có nhiều biến và nhiều đơn vị thí nghiệm
Correspondence Analysis - CA là phương pháp phân tích dữ liệu phổ biến xuất hiện từ năm
1935 và được phát triển đến ngày nay Phương pháp này nhằm phân tích mối liên hệ giữa hai biến định tính và trực quan kết quả phân tích trên đồ thị Việc trực quan kết quả trên đồ thị giQp người phân tích có thể mô tả chi tiết hơn mối liên hệ giữa hai biến Đây là đặc điểmnổi bâ Vt của CA so với các phương pháp phân tích mối liên hệ truyền thống
Mục đích của phân tích tương ứng là phân tích tương quan giữa các thuộc tính của hai biến định tính sử dụng bảng thống kê hai chiều tương tự như phương pháp kiểm định Khi bình phương Bên cạnh đó, CA sẽ định lượng các thuộc tính nhằm xác định toạ độ của các thuộc tính giQp trực quan kết quả trên đồ thị, cho phZp bổ sung các biến phụ (gọi là biến bổ sung) nhằm khai thác mối liên hệ của nhiều hơn hai biến định tính Kết quả của CA là bản đồ các điểm (Map of Points), trong đó các điểm biểu diễn cho các dòng và các cột Các kết quả giQp chQng ta phát hiện được mối liên hệ tiềm ẩn ảnh hưởng lẫn nhau của các yếu tố được phân tích trong bảng
Trong quá trình nghiên cứu, nhóm chQng em nhận được sự hướng dẫn nhiệt tình từ PGS.TSTrần Thị Bích và ứng dụng những kiến thức về môn Phân tích dữ liệu Tuy nhiên, với kiến thức và thời gian có hạn, bài viết không tránh khỏi những sai sót Do đó nhóm rất mong nhận được sự đóng góp và nhận xZt từ cô để hoàn thiện bài nghiên cứu
ChQng em xin chân thành cảm ơn cô!
Trang 3I Nghiên cứu ảnh hưởng của sọc trắng trên miếng thịt ức
gà đến sự lựa chọn của người tiêu dùng
Tên đề tài: Consumer acceptance of visual appearance of broiler
breast meat with varying degrees of white striping
Tác giả: V A Kuttappan, Y S Lee , G F Erf , J.-F C Meullenet ,
S R McKee and C M Owens
Đơn vị đăng tải: Thư viện Y học Quốc gia Hoa Kỳ
Thời gian: Tháng 5 năm 2012
1 Giới thiệu
Tiêu thụ thịt gia cầm đã tăng lên trong vài thập kỷ qua Kể từ năm
1970, mức tiêu thụ thịt gà bình quân đầu người ở Hoa Kỳ đã tăng từ 18 lên 38.5 kg, nhiều hơn so với thịt bò và thịt lợn (Theo Hội đồng Gà Quốcgia, 2011)
Các yếu tố khác nhau như mối quan tâm về sức khỏe của người tiêu dùng ngày càng tăng, nhu cầu về các sản phẩm tiện lợi, và sự thay đổi tương đối về giá có thể dẫn đến nhu cầu gia tăng của người tiêu dùng đối với thịt gia cầm (Davis và Stewart, 2002)
Theo khảo sát, hình thức bên ngoài là thuộc tính chính và quan trọng nhất để người tiêu dùng đánh giá chất lượng của một sản phẩm thịt được đóng gói sẵn Do đó, bất kỳ điều kiện nào ảnh hưởng tiêu cực đến hình thức bên ngoài của sản phẩm đều có thể ảnh hưởng đến quyết địnhmua hàng, có khả năng dẫn đến tổn thất kinh tế
Sọc trắng là một tình trạng đặc trưng bởi sự xuất hiện của các sọc trắngtrên miếng phi lê và đùi gà Có thể có các mức độ khác nhau của đường vân, và chúng được nhìn thấy song song với hướng của các sợi cơ Vì nó
có thể dễ dàng xác định, nên điều quan trọng là phải biết phản ứng của người tiêu dùng như thế nào về ảnh hưởng của sọc trắng đối với hình thức bên ngoài của miếng phi lê ức không xương, không da Mục tiêu chính của nghiên cứu này là xác định liệu có bất kỳ sự khác biệt nào trong sự chấp nhận và ý định mua của người tiêu dùng đối với phi lê ức
gà thịt với các mức độ sọc trắng khác nhau hay không
2 Cơ sở lý thuyết
Trang 4Phân tích tương ứng (CA) là một phương pháp phân tích mối liên hệ giữa hai biến định tính và trực quan kết quả phân tích trên đồ thị CA được sử dụng để hình dung mối quan hệ giữa các bản sao của miếng phi
lê với các mức độ sọc trắng khác nhau và các thuật ngữ được sử dụng
để giải thích chúng Ngoài ra, thử nghiệm Chi bình phương ( < 0,05) P
được sử dụng để đánh giá sự khác biệt về số lượng phản hồi trong mỗi loại cho từng mức độ sọc trắng
3 Nghiên cứu và phân tích.
a, Mẫu
- Phi lê từ gà thịt khoảng 6 đến 8 tuần tuổi, được xử lý tại Nhà máy Thí điểm Chế biến Gia cầm của Đại học Arkansas, được đánh giá trong khoảng thời gian 1 tháng để lấy các mẫu đại diện
- Những miếng phi lê ức lọc xương được sàng lọc bằng mắt thường và phân tách theo 3 mức độ sọc trắng: bình thường = NORM, trung bình
= MOD và dày đặc = SEV
+ Các miếng philê được phân loại là NORM không có bất kỳ đường màutrắng rõ ràng nào
+ Các miếng phi lê được phân loại là MOD có các đường màu trắng, song song với các sợi cơ, thường dày < 1mm nhưng dễ dàng nhìn thấy trên bề mặt miếng phi lê
+ Các miếng phi lê được phân loại là SEV có các đường màu trắng, songsong với các sợi cơ, thường dày > 1mm và rất dễ nhìn thấy trên bề mặt miếng phi lê
- Phi lê được ủ ở 4°C trong 24 giờ trong các túi zip đóng gói riêng lẻ Người ta đặc biệt cẩn thận để chọn những bức ảnh có bề ngoài đồng nhất về kích thước, hình dạng và màu sắc sao cho tình trạng sọc thực
tế là yếu tố chính tạo nên sự khác biệt giữa các bức ảnh
Trang 5- Tất cả các hình ảnh được hiển thị cho người tiêu dùng trên màn hình máy tính, mỗi người tiêu dùng phải đánh giá tất cả 15 bức ảnh theo mô hình đơn nguyên liên tiếp (từng bức ảnh được đánh giá lần lượt)
- Đối với từng miếng phi lê riêng lẻ, người tiêu dùng được phép bày tỏ sựyêu thích của họ đối với hình thức bên ngoài của từng hình ảnh miếng phi lê trên thang điểm 9 điểm (1 = cực kỳ không thích, 9 = cực kỳ thích)
và cũng được hỏi một câu hỏi mở để giải thích lý do họ thích hoặc khôngthích về mỗi miếng phi lê Mục đích mua của các hình ảnh gói khay được đánh giá bằng thang điểm 5 (1 = chắc chắn sẽ không mua, 5 = chắc chắn sẽ mua)
c, Phân tích dữ liệu
- Các kết quả từ ý thích tổng thể của người tiêu dùng trung bình và
tỷ lệ vùng trắng được thể hiện trong Bảng 1
+ Các miếng phi lê được phân loại là NORM có điểm trung bình thị hiếu cao hơn đáng kể (6.9) so với phi lê MOD (6.1), cũng cao hơn đáng kể so với phi lê SEV (4.5)
+ Các miếng phi lê SEV có khả năng chấp nhận thấp nhất và thực tế
sẽ bị người tiêu dùng coi là không thích
=> Điều này cho thấy rằng khi mức độ dày đặc của sọc trắng tăng lên, thì mức độ chấp nhận của người tiêu dùng giảm xuống
Bảng 1 Thị hiếu của người tiêu dùng, tỷ lệ phần trăm của vùng trắng
và điểm ý định mua hàng có ý nghĩa đối với 3 mức độ sọc trắng
- Bảng 2 cho thấy sự khác biệt về tần số của các phản hồi khác nhau trong thị hiếu người tiêu dùng với 3 mức độ sọc trắng
Trang 6+ Các miếng phi lê NORM có tỷ lệ phản hồi thích rất nhiều và cực kỳthích (xếp hạng theo thang điểm thị hiếu ≥8) cao hơn đáng kể so với các miếng phi lê MOD và SEV
+ Các miếng phi lê SEV có tỷ lệ phần trăm phản hồi không thích cao hơn đáng kể so với các miếng phi lê NORM (thang điểm thị hiếu ≤ 4) hoặc MOD (thang điểm thị hiếu ≤ 3)
+ Trên thực tế, hơn 50% người tiêu dùng báo cáo rằng họ không thích hình thức bên ngoài của những miếng phi lê được phân loại
là SEV, trong khi tỷ lệ không thích MOD và NORM lần lượt là khoảng 22 và 11%
Bảng 2 Bảng tần suất (%) phản hồi của người tiêu dùng đối với thang
đo thị hiếu và ý định mua đối với 3 mức độ sọc trắng
Điều quan trọng là xác định lý do khiến người tiêu dùng thích hoặc không thích sản phẩm; do đó, các nhận xét mở đã được đưa vào bảng cảm quan Các câu trả lời mở từ nghiên cứu hiện tại đã được đánh giá
và phân tích bằng cách sử dụng phương pháp CA để lấy thông tin có giátrị từ dữ liệu định tính, bổ sung cho các phát hiện định lượng
Nội dung các câu hỏi mở có liên quan đến độ béo, màu sắc, độ tươi, kết cấu bên ngoài, đường trắng, kích thước và độ đồng đều, và hình thức của miếng phi lê
(Bảng 3) Phân tích khi bình phương với số lượng câu trả lời trong mỗi danh mục cho thấy có một số khác biệt đáng kể về mức độ sọc trắng Nói chung, các mẫu SEV có nhiều nhận xét tiêu cực hơn, trong khi các mẫu NORM có nhiều nhận xét tích cực hơn
Trang 7-Principles of
1
Cơ sở lý thuyết đeff
Trang 8Bảng 3 Danh mục thuật ngữ, mẫu của câu hỏi mở và tần suất xuất
hiện đối với từng mức độ sọc trắng
Biểu đồ từ phân tích tương ứng (Hình 3) cung cấp một cách tốt hơn để xác định mối quan hệ giữa các thuật ngữ được sử dụng và các bản sao của miếng phi lê có 3 độ sọc trắng
+ 2 thành phần C1 và C2 lần lượt giải thích được 67,1 và 15,9% mức
độ biến thiên của dữ liệu Các điểm trên đồ thị được chiếu lên trục
để xác định các yếu tố thúc đẩy sự yêu thích của người tiêu dùng Hướng của vectơ biểu thị hướng tăng mức độ yêu thích của người tiêu dùng
+ Trong nghiên cứu hiện tại, các mẫu NORM và SEV đã được nhìn thấy ở hai đầu đối diện của vectơ, với các mẫu NORM hướng về phía tăng mức độ ưa thích Các mẫu MOD đã được nhìn thấy trải rộng giữa NORM và SEV
+ Hơn nữa, các mẫu NORM có tỷ lệ phản hồi thích cao nhất và tỷ lệ phản hồi không thích thấp nhất (Bảng 2) Điều này cho thấy rằng các thuật ngữ liên quan đến các mẫu NORM có thể là yếu tố thúc đẩy sở thích của người tiêu dùng Trong khi đó, các cụm từ liên quan đến mẫu SEV (có tỷ lệ phản hồi thích thấp nhất và tỷ lệ phảnhồi không thích cao nhất) có thể là yếu tố khiến người tiêu dùng không thích
Chuong 1 Unof cial
Principles of
52
Trang 9Hình 3 Phân tích tương ứng của các thuật ngữ được sử dụng trong các
câu trả lời mở cho 3 mức độ sọc trắng (■ = lặp lại với 3 mức độ sọc trắng; ♦ = các loại thuật ngữ được sử dụng trong nhận xét kết thúc mở), C1 và C2 = thành phần 1 và 2 tương ứng
=> Nhận Xét:
+ Việc không có các đường trắng và miếng phi lê có ít chất béo là những lý do chính khiến người tiêu dùng thích miếng phi lê ức gà thịt trong nghiên cứu này Trong khi đó, lượng chất béo cao và sự hiện diện của các vạch trắng là 2 lý do chính dẫn đến việc không thích
+ Người tiêu dùng thích màu sắc của các mẫu NORM, điều này có thể gián tiếp là do không có các sọc trắng cản trở màu sắc bình thường của các mẫu thịt Người tiêu dùng phản hồi rằng mẫu SEV
có kết cấu bên ngoài xấu, điều này có thể ngụ ý rằng nó có vẻ cứng hơn
+ Cuối cùng, các sọc trắng xuất hiện đối với một số người tiêu dùng
có thể là dấu hiệu của sự hư hỏng, dẫn đến cảm giác giảm độ tươi trong các mẫu SEV
Trang 10+ Tương tự, các thuật ngữ liên quan đến hình thức không đẹp, kích thước và độ đồng đều đẹp, cũng như kích thước và độ đồng đều xấu xuất hiện gần điểm gốc của cả hai trục, điều này cho thấy rằng các thuật ngữ này được sử dụng gần như bằng nhau cho cả 3
độ sọc trắng và không đóng góp nhiều vào việc thích hay không thích sản phẩm
4 Kết quả bài nghiên cứu và tính ứng dụng trong thực tiễn
Dựa trên kết quả của nghiên cứu này, có thể kết luận rằng sự hiện diện của sọc trắng (và mức độ phân bố dày đặc ngày càng tăng) làm giảm khả năng chấp nhận của người tiêu dùng dựa trên hình thức bên ngoài của miếng phi lê ức gà thịt, Hơn 50% người tiêu dùng cho biết họ có thể sẽ không hoặc chắc chắn không mua phi lê có sọc trắng ở bất kỳ mức độ nào Một trong những lý do chính khiến người tiêu dùng không thích là những miếng phi lê có sọc trắng SEV trông béo (nghĩa là nhiều chất béo) Vì hàm lượng chất béo thấp là một thuộc tính quan trọng gópphần làm tăng nhu cầu của người tiêu dùng đối với thịt gà, nên sự xuất hiện của sọc trắng có thể dẫn đến việc sản phẩm bị từ chối
=> Ứng dụng thực tiễn: Tìm ra đặc điểm nào của sản phẩm được ưa chuộng nhất và các nguyên nhân làm giảm ý định mua hàng của người tiêu dùng Từ đó, để giữ vững thị trường thì việc sản xuất ra những sản phẩm chất lượng, đáp ứng được nhu cầu của khách hàng là điều quan trọng, được ưu tiên hàng đầu
=> Đánh giá điểm yếu:
Việc phân tích các nhận xét mở có thể cung cấp thông tin quan trọng liên quan đến nhận thức của người tiêu dùng Tuy nhiên, nhược điểm chính là thông tin thu được là chủ quan và dữ liệu được phân tích với số lượng phản hồi, không dựa trên bất kỳ thang đo cường độ tiêu chuẩn hóa nào
II Phân tích tương ứng về việc khám phá mối liên hệ giữa nguyên nhân hỏa hoạn và các yếu tố ảnh hưởng.
Tên đề tài: Correspondence analysis on exploring the association
between fire
causes and influence factors
Tác giả: Guohui Li, Song Lu, Heping Zhang, Siuming Lo
Đơn vị đăng tải: Procedia Engineering 62 (2013) 581 - 591
Trang 11Chứng minh rằng CA có thể cung cấp một góc nhìn mới về việc khám phá thông tin bằng cách phân tích dữ liệu thống kê về hỏa hoạn.
2 Dữ liệu và phương pháp nghiên cứu
- Dữ liệu được lấy từ China Fire Services (2006-2011) Dữ liệu bao gồm 5 yếu tố ảnh hưởng và 9 nguyên nhân gây ra hỏa hoạn
- Phương pháp nghiên cứu: Áp dụng phương pháp phân tích tương ứng (CA)
3 Kết quả bài nghiên cứu và thảo luận
Trang 12
Kết luận về mối quan hệ giữa nguyên nhân và các yếu tố
- Về tỉnh: Hầu hết các tỉnh đều liên quan đến cháy do điện, hoạt động sản xuất, tự bốc cháy và các nguyên nhân khác Các tỉnh phát triển như Quảng Đông, Phúc Kiến, Giang Tô, Thượng Hải, Chiết Giang và Trùng Khánh có mối quan hệ chặt chẽ hơn với lửa điện, hoạt động sản xuất và tự cháy So với các phương pháp khác, kết quả định tính hoặc bán định tính của CA ngắn gọn, rõ ràng và
dễ hiểu
Trang 13- Về tháng: Tháng 2 và tháng 1 có mối liên hệ chặt chẽ với việc chơi với lửa hơn bất kỳ tháng nào khác Các tháng (tháng 3, tháng 4, tháng 5, tháng 10, tháng 11 và tháng 12) có xu hướng liên quan đến đốt phá, bất cẩn với lửa, không xác định, hút thuốc, cháy điện
- Về kiểu nhà: Các xu hướng ngầm có liên quan đến đốt phá, không xác định, vận hành sản xuất và tự bốc cháy Xu hướng nhà cao tầng gắn liền với việc đùa với lửa, bất cẩn với lửa và đốt phá Rõ ràng là xu hướng nhà một tầng có liên quan đến việc đốt phá, bất cẩn với lửa và những điều chưa biết Từ bản đồ CA, rõ ràng chúng
ta có thể thấy rằng nhà nhiều tầng rất gần với lửa điện, điều này cho thấy tồn tại mối quan hệ rất chặt chẽ giữa chúng
- Về địa điểm: hầu hết những nơi tập trung đông người đều ở gần nhau và những nơi này có liên quan đến các nguyên nhân gây hỏa hoạn do bất cẩn với lửa, nghịch lửa, hút thuốc, đốt phá, không xác định, chập điện và các nguyên nhân khác Do những nơi này có mật độ cư trú cao, nhiều thiết bị điện, tải trọng đám cháy lớn nên khi xảy ra cháy ở những nơi này sẽ gây thiệt hại nặng nề về người
và của Nhà xưởng, hóa dầu đang có xu hướng gắn liền với vận hành sản xuất, tự cháy và cháy do điện
4 Đánh giá bài nghiên cứu
Bằng cách phân tích số liệu thống kê về hỏa hoạn của lục địa Trung Quốc từ năm 2005 đến 2010 (kết quả được thể hiện trong Bảng 6), hướng dẫn hữu ích có thể được cung cấp cho việc phát triển chiến lược phòng cháy chữa cháy
Nghiên cứu chính tập trung vào mối liên hệ giữa chín nguyên nhân hỏa hoạn và năm yếu tố ảnh hưởng CA đã được sử dụng và kết quả cho thấynguyên nhân cháy có quy luật phân bố đặc biệt nào đó dưới ảnh hưởng của tỉnh, tháng, giờ, loại công trình và địa điểm Các kết quả chỉ ra rằng
Trang 14III Phân tích tương ứng giữa mối quan hệ giữa màu sắc - cảm xúc
Tên đề tài: Correspondence analysis of color-emotion
associations
Tác giả: Mitsuhiko Hanada
Đơn vị đăng tải:
Thời gian: Năm 2017
1 Giới thiệu
Nghiên cứu này điều tra giả thuyết rằng cảm xúc có liên quan đến màu sắc thông qua sự tương ứng giữa vòng tròn màu sắc và mô hình cảm xúc/ảnh hưởng bao quanh Nó được thử nghiệm theo mô hình tổng thể với dữ liệu về sự liên kết trực tiếp giữa màu sắc và cảm xúc bằng cách sử dụng phương pháp trực quan hóa dữ liệu, phân tích tương ứng
2 Dữ liệu và phương pháp nghiên cứu
- Dữ liệu: 47 sinh viên đại học và sau đại học Nhật Bản đã tham gia (tuổi: 19–23; 39 nam; 8 nữ)
- Phương pháp nghiên cứu: ứng dụng phương pháp phân tích tương ứng (CA) nhằm phân tích mối liên hệ giữa màu sắc và cảmxúc
3 Kết quả bài nghiên cứu và thảo luận