Luận văn về phân tích theo nhóm thứ bậc HCA
Trang 1Trờng đại học bách khoa hà nội
-Tiểu luận Môn học xử lý số liệu
Đề Số: 28 Phân tích theo nhóm thứ bậc (HCA) cách tiến hành và làm ví dụ ứng dụng
Hà nội, 12 - 2007
Trang 2Mở đầu
Chúng ta đã biết, trong quá trình nghiên cứu khoa học chúng ta thờng xuyên gặp phải các vấn đề xử lý số liệu Dữ liệu mà chúng ta thu đợc thờng ở dạng cồng kềnh, cha
đủ để phân tích, đánh giá Vì vậy, một trong những b ớc quan trọng của quá trình nghiên cứu đó là xử lý số liệu
Nghĩa là đòi hỏi chúng ta phải chuyển những mẫu dữ liệu quan sát thô mà ta đã tiến hành mã hóa và kiểm tra thành những con số thống kê có ý nghĩa cho việc diễn giải kết quả nghiên cứu Toàn bộ công việc xử lý – phân tích phức tạp này sẽ đ ợc thực hiện bởi các phần mềm chuyên dụng hỗ trợ
Hiện nay có ba bộ chơng trình thờng dùng phục vụ cho xử lý và phân tích số liệu thống kê trên thế giới, đó là SAS, SPSS và STATA Các chơng trình này không những
đ-ợc giảng dạy trong các trờng đại học mà còn là những công cụ không thể thiếu đđ-ợc đối với các nhà thống kê và các nghiên cứu quan sát thống kê ở nhiều lĩnh vực khác nhau Trong số ba bộ chơng trình thì SAS là chơng trình lớn nhất và mạnh nhất nhng lại đắt nhất, nên trong giai đoạn hiện nay ít đợc phổ biến ở nớc ta; còn hai bộ chơng trình SPSS
và STATA nhiều ngời biết và đang sử dụng trong nghiên cứu thống kê từ đầu những năm 1990
SPSS là một bộ chơng trình mà nhiều ngời sử dụng a thích do nó rất dễ sử dụng SPSS có một giao diện giữa ngời và máy cho phép sử dụng các menu thả xuống để chọn các lệnh thực hiện Khi thực hiện một phân tích chỉ đơn giản chọn thủ tục cần thiết và chọn các biến phân tích và bấm OK là có kết quả ngay trên màn hình để xem xét SPSS cũng có một ngôn ngữ cú pháp có thể học bằng cách dán cú pháp lệnh vào cửa sổ cú pháp từ một lệnh vừa chọn và thực hiện, nhng nói chung khá phức tạp và không trực giác
Các bớc cơ bản trong quá trình xử lý dữ liệu :
Bớc 1: Xác định loại dữ liệu thu thập đợc
- Dữ liệu định tính: thang đo định danh/ thang đo thứ tự
- Dữ liệu định lợng: thang đo khoảng/ thang đo tỉ lệ
Bớc 2: Xác định những nội dung cần phân tích để mô tả kết quả dữ liệu (có thể xử lý
đơn hay xử lý chéo)
Bớc 3: Chọn lựa kỹ thuật phân tích tơng thích
Bớc 4: Nhập dữ liệu theo tiêu chuẩn kỹ thuật đã chọn và xử lý kết quả (do máy tính thực hiện)
Bớc 5: Đọc kết quả xử lý và nhận xét kết quả
I Giới thiệu về HCA
Phân tích theo nhóm (Cluster Analysis) là một trong những phơng pháp thông kê
mà trong đó mỗi nhóm riêng biệt quan sát sẽ đợc gộp lại thành 1 hạng, cấp (hay gọi là nhóm) dựa trên sự tơng tự nhau Nghĩa là phân chia n đối tợng thành k nhóm sao cho các
đối tợng trong mỗi nhóm giống nhau hơn các đối tợng của nhóm khác, với k cha biết
Các phơng pháp thông thờng dùng trong thuật toán phân nhóm là: phân nhóm theo
thứ bậc (Hierarchical cluster analysis ) và K-means analysis., mixture models, SOM,…
thực hiện để nhằm xác định các nhóm có cùng tính chất trong rất nhiều đặc tính khác nhau
Trang 3Gộp nhóm
Phân nhóm
dựa trên các đặc tính đã lựa chọn Chúng ta có thể sử dụng phơng pháp phân tích theo nhóm thứ bậc để phân chia hoặc gộp nhóm
Hình 1: Thuật toán phân tích theo nhóm thứ bậc.
Nh vậy để phân nhóm theo thứ bậc, trớc hết chúng ta phải tính toán sự giống nhau giữa các phần tử của hai đối tợng Khi đó, hai nhóm giống nhau nhất sẽ tạo thành một nhóm mới ở đây, chúng ta lại cần phải tính toán sự giống nhau giữa nhóm mới với các nhóm còn lại, hai nhóm giống nhau nhất tạo thành một nhóm mới khác Chúng ta có thể biểu diễn quá trình này theo sơ đồ hình 1
Thủ tục của phơng pháp phân tích gộp nhóm bắt đầu từ n điểm ( n đợc coi là cỡ mẫu) gộp hai điểm giống nhau nhất trong mỗi bớc và kết thúc khi đạt đợc số nhóm cần thiết
Trang 4Phơng pháp gộp nhóm đơn giản nhất trong HCA là sự kết nối đơn Nét đặc biệt của
phơng pháp này là khoảng cách giữa các nhóm bị giới hạn đợc coi là khoảng cách giữa các cặp đối tợng gần nhau nhất mà tại đó , mỗi cặp chứa một trong đối tợng từ mỗi nhóm
là đáng kể
Tính toán sự giống nhau
giữa các phần tử của hai
đối t ợng
Hai nhóm giống nhau
nhất tạo thành một
nhóm mới
Tính toán sự giống nhau
giữa nhóm mới với các
nhóm còn lại
Hình 1: Thủ tục phân nhóm
Hình 2 Sơ đồ kết nối đơn
Trang 5Theo phơng pháp liên kết đơn, khoảng cách giữa hai đối tợng D(r,s) đợc tính theo công thức sau:
D(r,s)= min {d(i,j): trong đó i thuộc nhóm r và j thuộc nhóm s}
Nh vậy ở mỗi cấp ,nhóm r và nhóm s sẽ đợc trộn với nhau khi khoảng cách D(r,s) là nhỏ nhất Khoảng cách giữa các nhóm đợc minh hoạ ở hình 2
Ngợc với kết nối đơn, kết nối hoàn toàn mà
trong đó khoảng cách giữa các nhóm là khoảng
cách xa nhất trong không gian của các cặp đối
t-ợng từ mỗi nhóm Khoảng cách D(r,s) đợc tính :
D(r,s)= max {d(i,j), trong đó, i thuộc nhóm r và j
thuộcnhóm s}
Nh vậy khoảng cách giữa hai nhóm đợc đa ra với
giá trị đờng liên kết dài nhất giữa các nhóm Và ở
mỗi cấp của phân nhóm, nhóm r và nhóm s sẽ
đợc trộn với nhau khi khoảng cách D(r,s) là lớn
Một phơng pháp khác đợc sử dụng trong HCA đó là
kết nối trung bình ở đây sự khác biệt giữa hai nhóm
chính là trung bình các khoảng cách giữa các phần tử
của hai nhóm Khi đó, khoảng cách D(r,s) đợc tính
theo:
D(r,s)= Trs / (Nr*Ns)
Tại mỗi cấp của thứ bậc, nhóm r và nhóm s sẽ đợc trộn
với nhau khi khoảng cách D(r,s) là nhỏ nhất Điều này
đợc thể hiện rõ hơn ở hình vẽ 4
Ngoài các phơng pháp trên, kết nối trung bình
nhóm cũng đợc sử dụng trong HCA Theo phơng pháp này, sự khác biệt giữa hai nhóm
Có thể nói rằng, phơng pháp phân tích theo nhóm thứ bậc là một thủ tục thống kê tiêu chuẩn, HCA cung cấp sự hình dung về mặt trực quan của kích thớc của số liệu, trong
đó biểu đồ HCA đã kết hợp chặt chẽ về kích thớc với cơ sở dữ liệu Ngoài ra biểu đồ HCA còn cho biết mức độ tơng tự nhau ( giống nhau) của các mảng trái ngợc
Bên cạnh đó đối với một cơ sở dữ liệu, bất kỳ mẫu mới nào cha biết thì có thể dễ dàng đợc phân hạng khi sử dụng biểu đồ HCA để xác định hoặc ít nhất là cho ta sự nhận biết về mối quan hệ cơ sở dữ liệu gần nhất
Số liệu của phơng pháp phân tích theo nhóm thứ bậc(HCA)
Số liệu : áp dụng cho số liệu nhị phân, số đếm, định lợng Tỷ lệ của các biến là 1
vấn đề quan trọng – sự khác nhau về tỷ lệ có thể ảnh hởng tới giải pháp nhóm của chúng
ta Nếu các biến có tỷ lệ (độ chia) khác nhau quá lớn ( ví dụ nh 1 biến có giá trị là đôla và
1 biến là năm) thì chúng ta nên xem xét lại cho chuẩn (điều này có thể đợc làm tự động nhờ vào thủ tục HCA)
Hình 3: Kết nối hoàn toàn
Hình 4: Kết nối trung bình
Trang 6Giả thuyết: Các phép đo giống và khác nhau đã đợc sử dụng phải nên phù hợp với
số liệu phân tích Việc để sót các biến số chịu ảnh hởng có thể dẫn tới kết quả có giải pháp sai lầm Bởi vậy phân tích theo nhóm thứ bậc là 1 phơng pháp có tích chất thăm dò, kết quả nên đợc xử lý tiếp bằng các thủ tục khác nh : Anova, PCA, K – mean cluster vv khi vẫn thấy hoài nghi cho tới khi chúng đợc khẳng định với một mẫu độc lập
Phân tích theo nhóm thứ bậc thích hợp với việc xử lý các mẫu nhỏ (<250 biến) Để
thực hiện phân nhóm thứ bậc, các nhà nghiên cứu phải chỉ rõ đợc các đặc tính tơng tự nhau hay khác xa nhau nh thế nào để xác định, những nhóm nh thế nào thì đợc gộp chung lại ( hoặc phân ra), và cần thiết bao nhiêu nhóm Phân tích theo nhóm thứ bậc có thể tạo ra
Trong nhóm thứ bậc, các nhóm thờng đợc xếp lồng vào nhau hơn là việc riêng rẽ qua lại, các nhóm lớn hơn sẽ tạo ra ở các cấp sau có thể chứa nhiều các nhóm nhỏ hơn đợc tạo ra ở các cấp phía trớc của quá trình kết hợp
Thông thờng sử dụng thủ tục phân tích nhóm thứ bậc (HCA) đối với 1 mẫu nhỏ ( ví
dụ 200) để kiểm tra đánh giá các kết quả về số lợng nhóm phân khác nhau Số nhóm tối u phụ thuộc mục đích nghiên cứu Nhận dạng các điểm “đặc trng” có thể sẽ cần cho 1 số các nhóm và việc nhận dạng các điểm “ khác thờng” cũng có thể cần thiết cho nhiều nhóm Sau khi phân tích theo nhóm thứ bậc để xác định số lợng các nhóm nh mong muốn, các nhà nghiên cứu có thể tiếp tục phân tích toàn bộ số liệu đã thành lập cùng với k – mean clustering ( phân tích nhóm trung bình) hoặc sử dụng PCA ( princical component analysis ) để phân tích để thấy rõ hơn sự phân nhóm theo các đặc tính cho trớc
Phân tích theo nhóm thứ bậc (HCA) là phơng pháp thông kê để tìm ra các nhóm trong các trờng hợp cụ thể tơng đối giống nhau dựa trên các đặc tính của phép đo Nó bắt
đầu trong mỗi trờng hợp nhóm tách ra và sau đó kết hợp lại thành các dãy nhóm, giảm số lợng nhóm qua từng bớc cho tới khi chỉ còn nhóm đợc loại ra Khi có N trờng hợp ( sự kiện) thì điều này bao gồm N – 1 các bớc nhóm, hoặc hợp nhất Quá trình phân nhóm thứ bậc có thể đợc mô tả nh là 1 cây hoặc dendrogram tại đó mỗi bớc trong quá trình phân nhóm đợc minh họa nhờ sự chắp nối ( kết hợp ) của cây Phân tách nhóm bắt đầu cùng với
1 nhóm lớn và tiếp tục quá trình chia cắt thành các nhóm nhỏ mà chúng khác nhau hoàn
toàn ( không đồng dạng) và phân nhóm không thứ bậc (là sự phân cắt các mẫu Mỗi nhóm
có 1 điểm gốc và tất cả các đối tợng trong phạm vi khoảng cách qui định thì đã bao gồm các nhóm thí dụ nh K-means clustering) là đợc sử dụng Bắt đầu từ thứ bậc phát sinh và
tiểu sử nhóm và sau đó sử dụng không thứ bậc để tạo ra sự đồng điều với các nhóm thành viên với khả năng chuyển mạch của nó Trong trờng hợp này, trọng tâm đợc hình thành ở các nhóm thứ bậc sẽ đợc di chuyển nh giống với trọng tâm ở phân nhóm không thứ bậc
Trong HCA, khoảng cách giữa các đối tợng trong dữ liệu đợc tính toán và so sánh Khi khoảng cách giữa các mẫu là khá nhỏ, điều này ngụ ý rằng các mẫu đều rất có thể nh nhau ( tơng tự nhau), ít nhất là do bởi phép đo đem lại Các mẫu không tơng tự nhau sẽ có khoảng cách liên quan lớn hơn Sự hiểu biết trong lĩnh vực khoa học sinh học khi phân loại số lợng, phân tích theo nhóm thứ bậc cho phép tập hợp dữ liệu thành nhóm thể hiện những thuộc tính tơng tự nhau
Mục tiêu ban đầu của HCA là hiển thị số liệu theo hạng với ý nghĩa nhấn mạnh tự tổ hợp tự nhiên trong ngân hàng dữ liệu Ngợc lại, với kỹ thuật phân tích cố gắng tập hợp những nhóm mẫu mới thành những loại ( hạng) đã có sẵn trớc, HCA sẽ tìm kiếm để xác
Trang 7định các loại ( hạng) đó đầu tiên Kết quả biểu diễn HCA trong form hình cây làm cho việc hình dung về mối quan hệ giữa các nhóm có thể dễ dàng hơn nhiều so với những gì thực tế
Phân tích theo nhóm thứ bậc (HCA) là 1 phơng pháp phân tích số liệu quan trọng Mục đích đầu tiên của nó là biểu diễn số liệu bằng cách làm nổi bật thành các nhóm và mô hình tự nhiên của nó Kết quả với các thuộc tính tự nhiên đã đa ra đợc form hình cây cho phép có thể hình dung đợc về các mẫu hay biến ở không gian 2 chiều Khoảng cách giữa các mẫu hay biến đợc tính toán và biến đổi thành 1 ma trận tơng tự S ( thờng có 1 chú thích rằng không nên mắc lỗi từ ma trận của các giá trị duy nhất từ PCA) mà trong đó các yếu tố có các chỉ tiêu tơng tự nhau
Một số khái niệm trong phân tích nhóm
- Sự hình thành nhóm (Cluster formation): là quá trình lựa chọn các thủ tục để làm
cách nào đó tạo ra các nhóm và làm thế nào để tính toán đợc chúng Môi trờng hợp phân tích nhóm thứ bậc cùng tính chất thì đâu tiên ngời ta xem xét 1 nhóm sau đó trờng hợp thứ
2 với khoảng cách thấp nhấp ( hoặc là tơng tự cao nhất) sẽ đợc kết hợp thành 1 nhóm Nếu khoảng cách thấp nhấp # thì đợc xem nh là kế bên Nếu trờng hợp thứ 3 gần hơn với trờng hợp thứ 4 với khoảng cách hơn thì trờng hợp 3 và 4 sẽ trở thành trờng hợp nhóm thứ 2 Nếu không trờng hợp 3 đợc thêm vào trờng hợp nhóm 1 Quá trình đợc lặp, thêm các tr-ờng hợp để tạo thành các nhóm hiện tại, tạo ra nhóm mới hoặc kết hợp các nhóm để cuối cùng đạt đợc số lợng các phân nhóm
- Sự khác nhau (Distance.) : Bớc đầu tiên trong quá trình phân tích nhóm là thành
lập đợc ma trận tơng tự và khác nhau Ma trân này là 1 bảng trong đó cả dòng và cột là các
đơn vị của phép phân tích và các ô thêm vào là các phép đo ( giá trị đo) của phần tơng tự
và sai khác đối với bất kỳ trờng hợp nào Có rất nhiều các giá trị đo khác nhau trong quá
khi xem xét mối quan hệ của 1 điểm với 1 nhóm SPSS sẽ giúp chúng ta đo khoảng cách
giữa các điểm này cho việc đếm các số liệu nh : không gian ơclit (Euclidean distance), không gian ơclit vuông góc (squared Euclidean distance), Chebychev, block, Minkowski,
or customized vv
- Không gian ơclit (Euclidean distance) là không gian đo thông dụng nhất Nó đa
ra các cặp trờng hợp đợc vẽ bởi 2 biến (trong hệ trục) đợc tạo nên bởi trục x và y Không gian ơclit là căn bậc 2 của tổng bình phơng x khác nhau và bình phơng khoảng cách y ( nhớ lại công thức hình học lớp phổ thông : đây là công thức tính chiều dài của mặt thứ 3 của 1 hình lăng trụ tam giác)
- Không gian ơclit vuông góc (Squared Euclidean distance) : nó rời các điểm và vị
trí có tầm quan trọng lớn hơn trên đối tợng ra xa nhau hơn, do vậy làm tăng sự ảnh hởng của các phần bên ngoài
- Không gian ( City block) nh chúng ta đã biết không gian block và Manhattan, thì
có sự khác nhau tuyệt đối trung bình với 2 hay nhiều chiều đợc sử dụng để xác định khoảng cách
- Không gian ( Chebychev distance) là sự khác nhau tuyệt đối lớn nhất giữa từng
cặp trờng hợp về bất kỳ của 1 trong 2 hoặc nhiều chiều ( biến) đợc sử dụng để xác định khoảng cách Các cặp đôi sẽ đợc xác định khi có sự khác nhau về các kích thớc đơn lẻ khác nhau của chúng, bỏ qua các tơng tự (giống nhau) đối với kích thớc còn lại
Trang 8- Không gian ( Minkowski distance) là 1 hàm khoảng cách tổng quát Đối với 2
điểm I và j, với khoảng cách đo đợc có kích thớc k (biến) cho p
dij = [sum(xik - xjk )p](1/p)
Khi p = 1 thì không gian Minkowski sẽ là không gian city block Trong tr ờng hợp
số liệu là hệ nhị phân, khi p = 1 không gian Minkowski là không gian Hamming, đợc xác
định bởi số 1 Khi p = 2 không gian Minkowski là không gian ơclit Khi biến k không thuộc dạng chuẩn và đo ở các tỷ lệ khác nhau, các biến với tỷ lệ lớn hơn sẽ chiếm u thế
II ứng dụng
ứng dụng kỹ thuật phân tích theo nhóm thứ bậc (Hierarchical Cluster Analysis – HCA ) để xác định sự giống và khác nhau của 5 mẫu quả có múi sau : Ora, hnj, anl, sih, nav
II.1 Phân tích thành phần các mẫu
II.2 Phân tích số liệu
Các giá trị phân tích thành phần hóa học của mỗi giống quả có múi sẽ đợc tập hợp thành 1 ma trận T (m, n) trong đó m là số lợng quả có múi (m = 5) và n là các thành phần
hóa học ( n = 33) sau đó tiến hành phân tích theo nhóm thứ bậc (Hierarchical Cluster
Analysis – HCA) đợc thực hiện trên phần mềm SPSS 11.5 for Window để xác định mối
tơng quan giữa các mẫu quả có múi
II.3 Xét sự giống nhau của các mẫu quả.
* Phơng pháp phân tích: Phân tích theo nhóm thứ bậc (HCA)
* Cách thực hiện: sử dụng phần mềm SPSS11.5 theo các bớc sau:
Bảng 2.1 Thành phần của các mẫu quả có múi
M uẫu No
Trang 9Trong đó: nd: không phát hiện đợc
nq: không định lợng
* : vùng diện tích Peak < 0.005%
**: vùng diện tích Peak từ 0.005- 0.05%
1 Xử lí số liệu:
Dựa vào bảng trên ta thấy rằng, dữ liệu bài cho dùng để phân nhóm theo thành phần
Do vậy, để phân nhóm theo mẫu, chúng ta cần chuyển dữ liệu trên: chuyển cột hàng Tuy nhiên khi nhập số liệu vào phần mềm, cần phải xem xét một số sao cho phù hợp với chơng trình nhận dữ liệu của phần mềm SPSS:
Ví dụ: (Z)-b-Ocimene => ZbOcimene
2 Nhập dữ liệu vào data view:
Click chuột theo thứ tự sau:
File ->open Database -> New Query
Trang 10Khi đó trên màn hình xuất hiện bảng Database Wizard: Lựa chọn Excel files
next Tìm đờng dẫn đến file số liệu, click OK Và một số bớc đơn giản tiếp theo ta đợc
bảng khai báo số liệu
3 Lựa chọn phơng pháp phân tích phân nhóm
Click chuột theo thứ tự sau: AnalyzeClassify Hierarchical Cluster