1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích theo nhóm thứ bậc HCA

17 1,1K 18
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Theo Nhóm Thứ Bậc (HCA)
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Xử Lý Số Liệu
Thể loại Tiểu Luận
Năm xuất bản 2007
Thành phố Hà Nội
Định dạng
Số trang 17
Dung lượng 474,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận văn về phân tích theo nhóm thứ bậc HCA

Trang 1

Trờng đại học bách khoa hà nội

-Tiểu luận Môn học xử lý số liệu

Đề Số: 28 Phân tích theo nhóm thứ bậc (HCA) cách tiến hành và làm ví dụ ứng dụng

Hà nội, 12 - 2007

Trang 2

Mở đầu

Chúng ta đã biết, trong quá trình nghiên cứu khoa học chúng ta thờng xuyên gặp phải các vấn đề xử lý số liệu Dữ liệu mà chúng ta thu đợc thờng ở dạng cồng kềnh, cha

đủ để phân tích, đánh giá Vì vậy, một trong những b ớc quan trọng của quá trình nghiên cứu đó là xử lý số liệu

Nghĩa là đòi hỏi chúng ta phải chuyển những mẫu dữ liệu quan sát thô mà ta đã tiến hành mã hóa và kiểm tra thành những con số thống kê có ý nghĩa cho việc diễn giải kết quả nghiên cứu Toàn bộ công việc xử lý – phân tích phức tạp này sẽ đ ợc thực hiện bởi các phần mềm chuyên dụng hỗ trợ

Hiện nay có ba bộ chơng trình thờng dùng phục vụ cho xử lý và phân tích số liệu thống kê trên thế giới, đó là SAS, SPSS và STATA Các chơng trình này không những

đ-ợc giảng dạy trong các trờng đại học mà còn là những công cụ không thể thiếu đđ-ợc đối với các nhà thống kê và các nghiên cứu quan sát thống kê ở nhiều lĩnh vực khác nhau Trong số ba bộ chơng trình thì SAS là chơng trình lớn nhất và mạnh nhất nhng lại đắt nhất, nên trong giai đoạn hiện nay ít đợc phổ biến ở nớc ta; còn hai bộ chơng trình SPSS

và STATA nhiều ngời biết và đang sử dụng trong nghiên cứu thống kê từ đầu những năm 1990

SPSS là một bộ chơng trình mà nhiều ngời sử dụng a thích do nó rất dễ sử dụng SPSS có một giao diện giữa ngời và máy cho phép sử dụng các menu thả xuống để chọn các lệnh thực hiện Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và chọn các biến phân tích và bấm OK là có kết quả ngay trên màn hình để xem xét SPSS cũng có một ngôn ngữ cú pháp có thể học bằng cách dán cú pháp lệnh vào cửa sổ cú pháp từ một lệnh vừa chọn và thực hiện, nhng nói chung khá phức tạp và không trực giác

Các bớc cơ bản trong quá trình xử lý dữ liệu :

Bớc 1: Xác định loại dữ liệu thu thập đợc

- Dữ liệu định tính: thang đo định danh/ thang đo thứ tự

- Dữ liệu định lợng: thang đo khoảng/ thang đo tỉ lệ

Bớc 2: Xác định những nội dung cần phân tích để mô tả kết quả dữ liệu (có thể xử lý

đơn hay xử lý chéo)

Bớc 3: Chọn lựa kỹ thuật phân tích tơng thích

Bớc 4: Nhập dữ liệu theo tiêu chuẩn kỹ thuật đã chọn và xử lý kết quả (do máy tính thực hiện)

Bớc 5: Đọc kết quả xử lý và nhận xét kết quả

I Giới thiệu về HCA

Phân tích theo nhóm (Cluster Analysis) là một trong những phơng pháp thông kê

mà trong đó mỗi nhóm riêng biệt quan sát sẽ đợc gộp lại thành 1 hạng, cấp (hay gọi là nhóm) dựa trên sự tơng tự nhau Nghĩa là phân chia n đối tợng thành k nhóm sao cho các

đối tợng trong mỗi nhóm giống nhau hơn các đối tợng của nhóm khác, với k cha biết

Các phơng pháp thông thờng dùng trong thuật toán phân nhóm là: phân nhóm theo

thứ bậc (Hierarchical cluster analysis ) và K-means analysis., mixture models, SOM,…

thực hiện để nhằm xác định các nhóm có cùng tính chất trong rất nhiều đặc tính khác nhau

Trang 3

Gộp nhóm

Phân nhóm

dựa trên các đặc tính đã lựa chọn Chúng ta có thể sử dụng phơng pháp phân tích theo nhóm thứ bậc để phân chia hoặc gộp nhóm

Hình 1: Thuật toán phân tích theo nhóm thứ bậc.

Nh vậy để phân nhóm theo thứ bậc, trớc hết chúng ta phải tính toán sự giống nhau giữa các phần tử của hai đối tợng Khi đó, hai nhóm giống nhau nhất sẽ tạo thành một nhóm mới ở đây, chúng ta lại cần phải tính toán sự giống nhau giữa nhóm mới với các nhóm còn lại, hai nhóm giống nhau nhất tạo thành một nhóm mới khác Chúng ta có thể biểu diễn quá trình này theo sơ đồ hình 1

Thủ tục của phơng pháp phân tích gộp nhóm bắt đầu từ n điểm ( n đợc coi là cỡ mẫu) gộp hai điểm giống nhau nhất trong mỗi bớc và kết thúc khi đạt đợc số nhóm cần thiết

Trang 4

Phơng pháp gộp nhóm đơn giản nhất trong HCA là sự kết nối đơn Nét đặc biệt của

phơng pháp này là khoảng cách giữa các nhóm bị giới hạn đợc coi là khoảng cách giữa các cặp đối tợng gần nhau nhất mà tại đó , mỗi cặp chứa một trong đối tợng từ mỗi nhóm

là đáng kể

Tính toán sự giống nhau

giữa các phần tử của hai

đối t ợng

Hai nhóm giống nhau

nhất tạo thành một

nhóm mới

Tính toán sự giống nhau

giữa nhóm mới với các

nhóm còn lại

Hình 1: Thủ tục phân nhóm

Hình 2 Sơ đồ kết nối đơn

Trang 5

Theo phơng pháp liên kết đơn, khoảng cách giữa hai đối tợng D(r,s) đợc tính theo công thức sau:

D(r,s)= min {d(i,j): trong đó i thuộc nhóm r và j thuộc nhóm s}

Nh vậy ở mỗi cấp ,nhóm r và nhóm s sẽ đợc trộn với nhau khi khoảng cách D(r,s) là nhỏ nhất Khoảng cách giữa các nhóm đợc minh hoạ ở hình 2

Ngợc với kết nối đơn, kết nối hoàn toàn mà

trong đó khoảng cách giữa các nhóm là khoảng

cách xa nhất trong không gian của các cặp đối

t-ợng từ mỗi nhóm Khoảng cách D(r,s) đợc tính :

D(r,s)= max {d(i,j), trong đó, i thuộc nhóm r và j

thuộcnhóm s}

Nh vậy khoảng cách giữa hai nhóm đợc đa ra với

giá trị đờng liên kết dài nhất giữa các nhóm Và ở

mỗi cấp của phân nhóm, nhóm r và nhóm s sẽ

đợc trộn với nhau khi khoảng cách D(r,s) là lớn

Một phơng pháp khác đợc sử dụng trong HCA đó là

kết nối trung bình ở đây sự khác biệt giữa hai nhóm

chính là trung bình các khoảng cách giữa các phần tử

của hai nhóm Khi đó, khoảng cách D(r,s) đợc tính

theo:

D(r,s)= Trs / (Nr*Ns)

Tại mỗi cấp của thứ bậc, nhóm r và nhóm s sẽ đợc trộn

với nhau khi khoảng cách D(r,s) là nhỏ nhất Điều này

đợc thể hiện rõ hơn ở hình vẽ 4

Ngoài các phơng pháp trên, kết nối trung bình

nhóm cũng đợc sử dụng trong HCA Theo phơng pháp này, sự khác biệt giữa hai nhóm

Có thể nói rằng, phơng pháp phân tích theo nhóm thứ bậc là một thủ tục thống kê tiêu chuẩn, HCA cung cấp sự hình dung về mặt trực quan của kích thớc của số liệu, trong

đó biểu đồ HCA đã kết hợp chặt chẽ về kích thớc với cơ sở dữ liệu Ngoài ra biểu đồ HCA còn cho biết mức độ tơng tự nhau ( giống nhau) của các mảng trái ngợc

Bên cạnh đó đối với một cơ sở dữ liệu, bất kỳ mẫu mới nào cha biết thì có thể dễ dàng đợc phân hạng khi sử dụng biểu đồ HCA để xác định hoặc ít nhất là cho ta sự nhận biết về mối quan hệ cơ sở dữ liệu gần nhất

Số liệu của phơng pháp phân tích theo nhóm thứ bậc(HCA)

Số liệu : áp dụng cho số liệu nhị phân, số đếm, định lợng Tỷ lệ của các biến là 1

vấn đề quan trọng – sự khác nhau về tỷ lệ có thể ảnh hởng tới giải pháp nhóm của chúng

ta Nếu các biến có tỷ lệ (độ chia) khác nhau quá lớn ( ví dụ nh 1 biến có giá trị là đôla và

1 biến là năm) thì chúng ta nên xem xét lại cho chuẩn (điều này có thể đợc làm tự động nhờ vào thủ tục HCA)

Hình 3: Kết nối hoàn toàn

Hình 4: Kết nối trung bình

Trang 6

Giả thuyết: Các phép đo giống và khác nhau đã đợc sử dụng phải nên phù hợp với

số liệu phân tích Việc để sót các biến số chịu ảnh hởng có thể dẫn tới kết quả có giải pháp sai lầm Bởi vậy phân tích theo nhóm thứ bậc là 1 phơng pháp có tích chất thăm dò, kết quả nên đợc xử lý tiếp bằng các thủ tục khác nh : Anova, PCA, K – mean cluster vv khi vẫn thấy hoài nghi cho tới khi chúng đợc khẳng định với một mẫu độc lập

Phân tích theo nhóm thứ bậc thích hợp với việc xử lý các mẫu nhỏ (<250 biến) Để

thực hiện phân nhóm thứ bậc, các nhà nghiên cứu phải chỉ rõ đợc các đặc tính tơng tự nhau hay khác xa nhau nh thế nào để xác định, những nhóm nh thế nào thì đợc gộp chung lại ( hoặc phân ra), và cần thiết bao nhiêu nhóm Phân tích theo nhóm thứ bậc có thể tạo ra

Trong nhóm thứ bậc, các nhóm thờng đợc xếp lồng vào nhau hơn là việc riêng rẽ qua lại, các nhóm lớn hơn sẽ tạo ra ở các cấp sau có thể chứa nhiều các nhóm nhỏ hơn đợc tạo ra ở các cấp phía trớc của quá trình kết hợp

Thông thờng sử dụng thủ tục phân tích nhóm thứ bậc (HCA) đối với 1 mẫu nhỏ ( ví

dụ 200) để kiểm tra đánh giá các kết quả về số lợng nhóm phân khác nhau Số nhóm tối u phụ thuộc mục đích nghiên cứu Nhận dạng các điểm “đặc trng” có thể sẽ cần cho 1 số các nhóm và việc nhận dạng các điểm “ khác thờng” cũng có thể cần thiết cho nhiều nhóm Sau khi phân tích theo nhóm thứ bậc để xác định số lợng các nhóm nh mong muốn, các nhà nghiên cứu có thể tiếp tục phân tích toàn bộ số liệu đã thành lập cùng với k – mean clustering ( phân tích nhóm trung bình) hoặc sử dụng PCA ( princical component analysis ) để phân tích để thấy rõ hơn sự phân nhóm theo các đặc tính cho trớc

Phân tích theo nhóm thứ bậc (HCA) là phơng pháp thông kê để tìm ra các nhóm trong các trờng hợp cụ thể tơng đối giống nhau dựa trên các đặc tính của phép đo Nó bắt

đầu trong mỗi trờng hợp nhóm tách ra và sau đó kết hợp lại thành các dãy nhóm, giảm số lợng nhóm qua từng bớc cho tới khi chỉ còn nhóm đợc loại ra Khi có N trờng hợp ( sự kiện) thì điều này bao gồm N – 1 các bớc nhóm, hoặc hợp nhất Quá trình phân nhóm thứ bậc có thể đợc mô tả nh là 1 cây hoặc dendrogram tại đó mỗi bớc trong quá trình phân nhóm đợc minh họa nhờ sự chắp nối ( kết hợp ) của cây Phân tách nhóm bắt đầu cùng với

1 nhóm lớn và tiếp tục quá trình chia cắt thành các nhóm nhỏ mà chúng khác nhau hoàn

toàn ( không đồng dạng) và phân nhóm không thứ bậc (là sự phân cắt các mẫu Mỗi nhóm

có 1 điểm gốc và tất cả các đối tợng trong phạm vi khoảng cách qui định thì đã bao gồm các nhóm thí dụ nh K-means clustering) là đợc sử dụng Bắt đầu từ thứ bậc phát sinh và

tiểu sử nhóm và sau đó sử dụng không thứ bậc để tạo ra sự đồng điều với các nhóm thành viên với khả năng chuyển mạch của nó Trong trờng hợp này, trọng tâm đợc hình thành ở các nhóm thứ bậc sẽ đợc di chuyển nh giống với trọng tâm ở phân nhóm không thứ bậc

Trong HCA, khoảng cách giữa các đối tợng trong dữ liệu đợc tính toán và so sánh Khi khoảng cách giữa các mẫu là khá nhỏ, điều này ngụ ý rằng các mẫu đều rất có thể nh nhau ( tơng tự nhau), ít nhất là do bởi phép đo đem lại Các mẫu không tơng tự nhau sẽ có khoảng cách liên quan lớn hơn Sự hiểu biết trong lĩnh vực khoa học sinh học khi phân loại số lợng, phân tích theo nhóm thứ bậc cho phép tập hợp dữ liệu thành nhóm thể hiện những thuộc tính tơng tự nhau

Mục tiêu ban đầu của HCA là hiển thị số liệu theo hạng với ý nghĩa nhấn mạnh tự tổ hợp tự nhiên trong ngân hàng dữ liệu Ngợc lại, với kỹ thuật phân tích cố gắng tập hợp những nhóm mẫu mới thành những loại ( hạng) đã có sẵn trớc, HCA sẽ tìm kiếm để xác

Trang 7

định các loại ( hạng) đó đầu tiên Kết quả biểu diễn HCA trong form hình cây làm cho việc hình dung về mối quan hệ giữa các nhóm có thể dễ dàng hơn nhiều so với những gì thực tế

Phân tích theo nhóm thứ bậc (HCA) là 1 phơng pháp phân tích số liệu quan trọng Mục đích đầu tiên của nó là biểu diễn số liệu bằng cách làm nổi bật thành các nhóm và mô hình tự nhiên của nó Kết quả với các thuộc tính tự nhiên đã đa ra đợc form hình cây cho phép có thể hình dung đợc về các mẫu hay biến ở không gian 2 chiều Khoảng cách giữa các mẫu hay biến đợc tính toán và biến đổi thành 1 ma trận tơng tự S ( thờng có 1 chú thích rằng không nên mắc lỗi từ ma trận của các giá trị duy nhất từ PCA) mà trong đó các yếu tố có các chỉ tiêu tơng tự nhau

Một số khái niệm trong phân tích nhóm

- Sự hình thành nhóm (Cluster formation): là quá trình lựa chọn các thủ tục để làm

cách nào đó tạo ra các nhóm và làm thế nào để tính toán đợc chúng Môi trờng hợp phân tích nhóm thứ bậc cùng tính chất thì đâu tiên ngời ta xem xét 1 nhóm sau đó trờng hợp thứ

2 với khoảng cách thấp nhấp ( hoặc là tơng tự cao nhất) sẽ đợc kết hợp thành 1 nhóm Nếu khoảng cách thấp nhấp # thì đợc xem nh là kế bên Nếu trờng hợp thứ 3 gần hơn với trờng hợp thứ 4 với khoảng cách hơn thì trờng hợp 3 và 4 sẽ trở thành trờng hợp nhóm thứ 2 Nếu không trờng hợp 3 đợc thêm vào trờng hợp nhóm 1 Quá trình đợc lặp, thêm các tr-ờng hợp để tạo thành các nhóm hiện tại, tạo ra nhóm mới hoặc kết hợp các nhóm để cuối cùng đạt đợc số lợng các phân nhóm

- Sự khác nhau (Distance.) : Bớc đầu tiên trong quá trình phân tích nhóm là thành

lập đợc ma trận tơng tự và khác nhau Ma trân này là 1 bảng trong đó cả dòng và cột là các

đơn vị của phép phân tích và các ô thêm vào là các phép đo ( giá trị đo) của phần tơng tự

và sai khác đối với bất kỳ trờng hợp nào Có rất nhiều các giá trị đo khác nhau trong quá

khi xem xét mối quan hệ của 1 điểm với 1 nhóm SPSS sẽ giúp chúng ta đo khoảng cách

giữa các điểm này cho việc đếm các số liệu nh : không gian ơclit (Euclidean distance), không gian ơclit vuông góc (squared Euclidean distance), Chebychev, block, Minkowski,

or customized vv

- Không gian ơclit (Euclidean distance) là không gian đo thông dụng nhất Nó đa

ra các cặp trờng hợp đợc vẽ bởi 2 biến (trong hệ trục) đợc tạo nên bởi trục x và y Không gian ơclit là căn bậc 2 của tổng bình phơng x khác nhau và bình phơng khoảng cách y ( nhớ lại công thức hình học lớp phổ thông : đây là công thức tính chiều dài của mặt thứ 3 của 1 hình lăng trụ tam giác)

- Không gian ơclit vuông góc (Squared Euclidean distance) : nó rời các điểm và vị

trí có tầm quan trọng lớn hơn trên đối tợng ra xa nhau hơn, do vậy làm tăng sự ảnh hởng của các phần bên ngoài

- Không gian ( City block) nh chúng ta đã biết không gian block và Manhattan, thì

có sự khác nhau tuyệt đối trung bình với 2 hay nhiều chiều đợc sử dụng để xác định khoảng cách

- Không gian ( Chebychev distance) là sự khác nhau tuyệt đối lớn nhất giữa từng

cặp trờng hợp về bất kỳ của 1 trong 2 hoặc nhiều chiều ( biến) đợc sử dụng để xác định khoảng cách Các cặp đôi sẽ đợc xác định khi có sự khác nhau về các kích thớc đơn lẻ khác nhau của chúng, bỏ qua các tơng tự (giống nhau) đối với kích thớc còn lại

Trang 8

- Không gian ( Minkowski distance) là 1 hàm khoảng cách tổng quát Đối với 2

điểm I và j, với khoảng cách đo đợc có kích thớc k (biến) cho p

dij = [sum(xik - xjk )p](1/p)

Khi p = 1 thì không gian Minkowski sẽ là không gian city block Trong tr ờng hợp

số liệu là hệ nhị phân, khi p = 1 không gian Minkowski là không gian Hamming, đợc xác

định bởi số 1 Khi p = 2 không gian Minkowski là không gian ơclit Khi biến k không thuộc dạng chuẩn và đo ở các tỷ lệ khác nhau, các biến với tỷ lệ lớn hơn sẽ chiếm u thế

II ứng dụng

ứng dụng kỹ thuật phân tích theo nhóm thứ bậc (Hierarchical Cluster Analysis – HCA ) để xác định sự giống và khác nhau của 5 mẫu quả có múi sau : Ora, hnj, anl, sih, nav

II.1 Phân tích thành phần các mẫu

II.2 Phân tích số liệu

Các giá trị phân tích thành phần hóa học của mỗi giống quả có múi sẽ đợc tập hợp thành 1 ma trận T (m, n) trong đó m là số lợng quả có múi (m = 5) và n là các thành phần

hóa học ( n = 33) sau đó tiến hành phân tích theo nhóm thứ bậc (Hierarchical Cluster

Analysis – HCA) đợc thực hiện trên phần mềm SPSS 11.5 for Window để xác định mối

tơng quan giữa các mẫu quả có múi

II.3 Xét sự giống nhau của các mẫu quả.

* Phơng pháp phân tích: Phân tích theo nhóm thứ bậc (HCA)

* Cách thực hiện: sử dụng phần mềm SPSS11.5 theo các bớc sau:

Bảng 2.1 Thành phần của các mẫu quả có múi

M uẫu No

Trang 9

Trong đó: nd: không phát hiện đợc

nq: không định lợng

* : vùng diện tích Peak < 0.005%

**: vùng diện tích Peak từ 0.005- 0.05%

1 Xử lí số liệu:

Dựa vào bảng trên ta thấy rằng, dữ liệu bài cho dùng để phân nhóm theo thành phần

Do vậy, để phân nhóm theo mẫu, chúng ta cần chuyển dữ liệu trên: chuyển cột  hàng Tuy nhiên khi nhập số liệu vào phần mềm, cần phải xem xét một số sao cho phù hợp với chơng trình nhận dữ liệu của phần mềm SPSS:

Ví dụ: (Z)-b-Ocimene => ZbOcimene

2 Nhập dữ liệu vào data view:

Click chuột theo thứ tự sau:

File ->open Database -> New Query

Trang 10

Khi đó trên màn hình xuất hiện bảng Database Wizard: Lựa chọn Excel files 

next Tìm đờng dẫn đến file số liệu, click OK Và một số bớc đơn giản tiếp theo ta đợc

bảng khai báo số liệu

3 Lựa chọn phơng pháp phân tích phân nhóm

Click chuột theo thứ tự sau: AnalyzeClassify Hierarchical Cluster

Ngày đăng: 28/04/2013, 08:36

HÌNH ẢNH LIÊN QUAN

Hình 1: Thủ tục phân nhóm - Phân tích theo nhóm thứ bậc HCA
Hình 1 Thủ tục phân nhóm (Trang 4)
Hình 2 Sơ đồ kết nối đơn - Phân tích theo nhóm thứ bậc HCA
Hình 2 Sơ đồ kết nối đơn (Trang 4)
Hình 3: Kết nối hoàn toàn - Phân tích theo nhóm thứ bậc HCA
Hình 3 Kết nối hoàn toàn (Trang 5)
Bảng 2.1 Thành phần của các mẫu quả có múi - Phân tích theo nhóm thứ bậc HCA
Bảng 2.1 Thành phần của các mẫu quả có múi (Trang 8)
Bảng khai báo số liệu. - Phân tích theo nhóm thứ bậc HCA
Bảng khai báo số liệu (Trang 10)
Bảng 3.1 Case Processing Summary(a,b) - Phân tích theo nhóm thứ bậc HCA
Bảng 3.1 Case Processing Summary(a,b) (Trang 13)
Bảng  3.3.Vertical Icicle - Phân tích theo nhóm thứ bậc HCA
ng 3.3.Vertical Icicle (Trang 14)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w