1.3 CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU1.3.1 Khái niệm về phân cụm dữ liệu Phân cụm dữ liệu [7] Data Clustering là một kỹ thuật trong khai phá dữliệu Data mining nhằm tìm kiếm, phát hiện c
Trang 1Tôi xin cam đoan đề tài khoa học “Ứng dụng phân cụm dữ liệu vào việc phân
tích, đánh giá kết quả hoạt động của doanh nghiệp tại tỉnh Quảng Trị” này là
công trình nghiên cứu của bản thân tôi Các số liệu có nguồn gốc rõ ràng tuân thủđúng nguyên tắc và kết quả nghiên cứu trình bày trong luận văn này là trung thực,được thu thập từ quá trình nghiên cứu chưa từng được ai công bố trong bất kỳ côngtrình nào khác Đề tài khoa học đã được giáo viên hướng dẫn khoa học thông quanội dung và đồng ý cho ra bảo vệ trước hội đồng khoa học
Tác giả luận văn
Nguyễn Đức Quý
Trang 2Tôi xin gửi lời cảm ơn chân thành đến Khoa Công nghệ Thông tin, Trường Đạihọc Khoa học Huế, các Quý Thầy Cô đã giúp đỡ, trang bị kiến thức, tạo môi trườngthuận lợi nhất cho tôi trong suốt quá trình học tập và thực hiện luận văn này.
Với sự kính trọng và biết ơn, tôi xin bày tỏ lòng biết ơn sâu sắc đến Tiến sĩHoàng Thị Lan Giao đã động viện, khuyến khích và hướng dẫn tận tình cho tôitrong suốt thời gian thực hiện luận văn của mình
Đặc biệt xin được gửi lời cảm ơn đến Cục Thống kê tỉnh Quảng Trị, phòng thống
kê Công nghiệp – Xây dựng cục Thống kê tỉnh Quảng Trị đã giúp đỡ tôi rất nhiềutrong quá trình nghiên cứu và hoàn thiện luận văn
Tôi xin gửi lời cảm ơn chân thành tới Ban Giám hiệu, phòng Đào tạo sau đạihọc, Trường Đại học Khoa học Huế đã tạo điều kiện cho tôi trong quá trình học tậptại Trường
Cuối cùng tôi xin gửi lời cảm ơn đến gia đình, bạn bè, những người đã luôn bêntôi, động viên và khuyến khích tôi trong quá trình thực hiện luận văn của mình
Tác giả luận vănNguyễn Đức Quý
Trang 3Trang phụ bìa
Lời cam đoan
Lời cảm ơn
Mục lục
Danh mục các chữ viết tắt
Danh mục các bảng
Danh mục các hình vẽ
PHỤ LỤC
Trang 4AGNES Agglomerative Nesting
ASP Active Server Pages
CURE Clustering Using Representatives
CSS Cascading Style Sheets
IDE Integrated Development Environment
KDD Knowledge Discovery in Databases
SMTP Simple Mail Transfer Protocol
SQL Structure Query Language
SXKD Sản xuất kinh doanh
PAM Partition Around Mediods
XML Extensible Markup Language
Trang 5Số hiệu bảng Tên bảng Trang
2.1 Số lượng doanh nghiệp đang hoạt động có đến 31/12
2.2 Tiêu chí phân loại doanh nghiệp theo Nghị định số 56/2009/NĐ-CP 44
2.3 So sánh doanh tổng doanh thu của doanh nghiệp ngoài nhà nước tại tỉnh Quảng Trị 45
Trang 6Số hiệu hình vẽ
Tên hình vẽTrang1.1Quá trình khám phá tri thức
31.2
Ví dụ về phân cụm dữ liệu
81.3Phân cụm các đối tượng dựa trên khoảng cách
91.4Phân cụm các đối tượng dựa trên kích cỡ
101.5Các chiến lược phân cụm phân cấp
111.6Cây CF sử dụng trong thuật toán BRICH
131.7Các thiết lập để xác định danh giới các cụm ban đầu
161.8Tính toán trọng tâm của các cụm mới
171.9
Sự thay đổi tâm cụm trong thuật toán K-Means
191.10
Ví dụ về phân cụm theo mật độ
221.11Cấu trúc phân cụm dựa trên lưới
221.12
Ví dụ về phân cụm dựa trên mô hình
242.1
Trang 72.2Biểu đồ số lượng DN đang hoạt động có đến 31/12 hàng năm, phân theo loại hìnhdoanh nghiệp
382.3CSDL Doanh nghiệp tỉnh Quảng Trị
422.4Màn hình đăng nhập chương trình
432.5Giao diện màn hình sau khi đăng nhập
432.6Chọn loại hình doanh nghiệp cần phân cụm
452.7Chọn doanh nghiệp theo đơn vị hành chính
46 2.8Giao diện chức năng phân cụm theo tiêu chí doanh thu
462.9Thông tin 8 cụm được thực hiện
472.10Biểu đồ hình khối đánh giá tỷ lệ doanh thu theo cụm
472.11Danh sách doanh nghiệp cụm số 6 có tâm cụm là 79.599 triệu đồng
482.12Giao diện chức năng phân cụm theo tiêu chí nguồn vốn
492.13Thông tin 8 cụm được thực hiện theo tiêu chí nguồn vốn
502.14Kết quả phân 8 cụm theo tiêu chí nguồn vốn
502.15
Trang 82.16Biểu đồ hình khối đánh giá tỷ lệ nguồn vốn theo cụm
512.17Giao diện chức năng phân cụm theo tiêu chí lợi nhuận
522.18Thông tin 8 cụm được thực hiện theo tiêu chí lợi nhuận
522.19Biểu đồ hình khối đánh giá tỷ lệ lợi nhuận theo cụm
532.20Biểu đồ hình tròn đánh giá tỷ lệ lợi nhuận theo cụm
532.21Kết quả phân 8 cụm theo lợi nhuận
542.22Danh sách doanh nghiệp thua lỗ năm 203 năm ở cụm 5
542.23Giao diện chức năng phân cụm theo tiêu chí các khoản nộp ngân sách
552.24
Số lượng 8 cụm được thực hiện theo tiêu chí các khoản nộp ngân sách
552.25Biểu đồ hình khối đánh giá tỷ lệ các khoản nộp ngân sách theo cụm
562.26Biểu đồ hình tròn đánh giá tỷ lệ các khoản nộp ngân sách theo cụm
562.27Kết quả đánh giá tỷ lệ các khoản nộp ngân sách theo cụm
57
Trang 9cơ chế thị trường Nhằm phục vụ công tác quản lý, hoạch định chính sách phát triểnkinh tế - xã hội, phát triển doanh nghiệp của quốc gia và từng địa phương, Chínhphủ chỉ đạo các bộ, ngành liên quan điều tra, thu thập và thống kê số liệu về thựctrạng doanh nghiệp Các cơ quan chức năng được giao đã triển khai nhiều giải pháptrong thời gian gần đây Nhưng nhìn chung sự thiếu đồng bộ giữa các bộ, ngành dẫnđến không triển khai được các giải pháp thành một hệ thống hoàn chỉnh.
Tổng cục Thống kê Việt Nam là đơn vị hoạt động chính trong lĩnh vực điều tra,thống kê và công bố số liệu Tổng cục Thống kê được nhà nước giao nhiệm vụ điềutra toàn diện về thực trạng doanh nghiệp trên toàn quốc Thực hiện hướng dẫn chỉđạo của Tổng cục Thống kê Việt Nam, cục Thống kê Quảng Trị đã triển khai điềutra doanh nghiệp hàng năm theo định kỳ bắt đầu từ ngày 01 tháng 03 Kết quả điềutra về cơ bản đã phản ánh được thực trạng doanh nghiệp trên địa bàn Mặc dù nhiềuphương pháp tổng hợp, thống kê và đánh giá đã được triển khai song vẫn mang tínhchủ quan
Trong vài thập niên gần đây, cùng với sự thay đổi và phát triển không ngừng củangành công nghệ thông tin thì việc thu thập thông tin cũng như nhu cầu lưu trữthông tin ngày càng lớn Việc ứng dụng công nghệ thông tin trong hầu hết các lĩnhvực kinh tế xã hội đã tạo ra một khối lượng dữ liệu ngày càng khổng lồ Cácphương pháp quản trị, phân tích và khai thác dữ liệu truyền thống chưa đáp ứngđược yêu cầu thực tế của thông tin và dữ liệu Cùng với sự phát triển không ngừngcủa khoa học và kỹ thuật, lĩnh vực khai phá dữ liệu ra đời và trở thành một trongnhững lĩnh vực thời sự của nền công nghệ thông tin thế giới hiện nay Ngay từ khi
Trang 10xuất hiện, khai phá dữ liệu đã trở thành một trong những xu hướng nghiên cứu phổbiến trong lĩnh vực học máy và công nghệ tri thức Nhiều thành tựu nghiên cứu củakhai phá dữ liệu đã được áp dụng trong thực tế Phân cụm dữ liệu là một trongnhững kỹ thuật để khai thác dữ liệu có hiệu quả Phân cụm dữ liệu đã được ứngdụng trong nhiều lĩnh vực khác nhau như: kinh tế, giáo dục, tài chính, ngân hàng,bảo hiểm…
Để có cái nhìn tổng quát hơn về thực trạng doanh nghiệp tại Quảng Trị và đánhgiá mức độ hoạt động hiệu quả một cách khách quan, cần phải có công cụ hỗ trợtrên nền tảng khoa học hiện đại đáng tin cậy Với sự phát triển của các kỹ thuật khaiphá dữ liệu, đặc biệt là các tiêu chí phân cụm, việc phân tích đánh giá tỏ ra hiệu
quả Do đó, tôi chọn đề tài “Ứng dụng phân cụm dữ liệu vào việc phân tích,
đánh giá kết quả hoạt động của doanh nghiệp tại tỉnh Quảng Trị” để làm đề tài
luận văn tốt nghiệp của mình với mong muốn góp phần hoàn thiện hơn bộ công cụđánh giá, giúp cơ quan Thống kê tỉnh có thêm cơ sở đánh giá toàn diện hơn thựctrạng của các doanh nghiệp tại Quảng Trị
Bố cục của luận văn gồm phần mở đầu và hai chương nội dung, phần kết luận,hướng phát triển và danh mục các tài liệu tham khảo
Chương 1: Trình bày tổng quan về khai phá dữ liệu, một số phương pháp khai
phá dữ liệu, các thuật toán phân cụm phân cấp và không phân cấp
Chương 2: Giới thiệu dữ liệu doanh nghiệp và phương pháp đánh giá PAM,phân tích, đánh giá sự phân cụm các doanh nghiệp dựa vào thuật toán PAM Cài đặtứng dụng và so sánh, đánh giá kết quả với các phương pháp đánh giá hiện thời.Cuối cùng, phần kết luận và hướng phát triển của luận văn
Trang 11Gom dữ liệu
Trích lọc dữ liệuLàm sạch, tiền xử lý dữ liệu
Chuyển đổi dữ liệu
1.1.1 Khái niệm về khai phá dữ liệu (Data mining)
Khai phá dữ liệu [2] là quá trình khai thác (rút trích) những thông tin tiềm ẩn
có tính dự đoán, những thông tin có nhiều ý nghĩa, hữu ích từ những cơ sở dữ liệulớn, nó được coi như là một bước trong quá trình khám phá tri thức (KnowledgeDiscovery in Databases – KDD) Khai phá dữ liệu là giai đoạn quan trọng nhấttrong tiến trình khám phá tri thức từ cơ sở dữ liệu
Quá trình khám phá tri thức tiến hành qua 6 giai đoạn như Hình 1.1 [2]:
Trang 12Hình 1.1 Quá trình khám phá tri thứcBắt đầu của quá trình là kho dữ liệu thô và kết thúc với tri thức được chiếtxuất ra Về lý thuyết thì có vẻ rất đơn giản nhưng thực sự đây là một quá trình rấtkhó khăn, gặp phải rất nhiều vướng mắc như: quản lý các tập dữ liệu, phải lặp đi lặplại toàn bộ quá trình, v.v
1 Gom dữ liệu: Tập hợp dữ liệu là bước đầu tiên trong quá trình khai phá
dữ liệu Đây là bước được khai thác trong một cơ sở dữ liệu, một kho dữliệu và thậm chí các dữ liệu từ các nguồn ứng dụng Web
2 Trích lọc dữ liệu: Ở giai đoạn này dữ liệu được lựa chọn hoặc phân chia
theo một số tiêu chuẩn nào đó phục vụ mục đích khai thác
3 Làm sạch, tiền xử lý và chuẩn bị trước dữ liệu: Giai đoạn thứ ba này
là giai đoạn hay bị sao lãng, nhưng thực tế nó là một bước rất quan trọngtrong quá trình khai phá dữ liệu Một số lỗi thường mắc phải trong khigom dữ liệu là tính không đủ chặt chẽ, logíc Vì vậy, dữ liệu thường chứacác giá trị vô nghĩa và không có khả năng kết nối dữ liệu Giai đoạn này
sẽ tiến hành xử lý những dạng dữ liệu không chặt chẽ nói trên Những dữliệu dạng này được xem như thông tin dư thừa, không có giá trị Bởi vậy,đây là một quá trình rất quan trọng vì dữ liệu này nếu không được “làmsạch – tiền xử lý – chuẩn bị trước” thì sẽ gây nên những kết quả sai lệchnghiêm trọng
4 Chuyển đổi dữ liệu: Tiếp theo là giai đoạn chuyển đổi dữ liệu, dữ liệu
đưa ra có thể sử dụng và điều khiển được bởi việc tổ chức lại nó, tức là
dữ liệu sẽ được chuyển đổi về dạng phù hợp cho việc khai phá bằng cáchthực hiện các thao tác nhóm hoặc tập hợp
5 Khai phá dữ liệu: Đây là bước mang tính tư duy trong khai phá dữ liệu.
Ở giai đoạn này nhiều thuật toán khác nhau đã được sử dụng để trích racác mẫu từ dữ liệu Thuật toán thường dùng là nguyên tắc phân loại,nguyên tắc kết, v.v
Trang 13Xác định nhiệm vụXác định dữ liệu liên quanThu thập và tiền xử lý dữ liệu Thuật toán khai phá dữ liệu
Dữ liệu trực tiếp
Mẫu Thống kê tóm tắt
6 Đánh giá các luật và biểu diễn tri thức: Ở giai đoạn này, các mẫu dữ
liệu được chiết xuất ra bởi phần mềm khai phá dữ liệu Không phải bất
cứ mẫu dữ liệu nào cũng đều hữu ích, đôi khi nó còn bị sai lệch Vì vậy,cần phải ưu tiên những tiêu chuẩn đánh giá để chiết xuất ra các tri thức(Knowlege) cần chiết xuất ra Đánh giá sự hữu ích của các mẫu biểu diễntri thức dựa trên một số phép đo Sau đó sử dụng các kỹ thuật trình diễn
và trực quan hoá dữ liệu để biểu diễn tri thức khai phá được cho người sửdụng
Trong 6 giai đoạn trên của quá trình khám phá tri thức, trong đó giai đoạn 5 khai phá dữ liệu (hay còn gọi đó là Data Mining) là giai đoạn được quan tâm nhiềunhất
-1.1.2 Quá trình khai phá dữ liệu
Khai phá dữ liệu [2] là một giai đoạn quan trọng trong quá trình khám phátri thức Về bản chất là giai đoạn duy nhất tìm ra được thông tin mới, thông tin tiềm
ẩn có trong cơ sở dữ liệu chủ yếu phục vụ cho mô tả và dự đoán
Mô tả dữ liệu là tổng kết hoặc diễn tả những đặc điểm chung của nhữngthuộc tính dữ liệu trong kho dữ liệu mà con người có thể hiểu được
Dự đoán là dựa trên những dữ liệu hiện thời để dự đoán những quy luậtđược phát hiện từ các mối liên hệ giữa các thuộc tính của dữ liệu trên cơ sở đó chiếtxuất ra các mẫu, dự đoán được những giá trị chưa biết hoặc những giá trị tương laicủa các biến quan tâm
Hình 1.2 Quá trình khai phá dữ liệu [2]
- Xác định nhiệm vụ: Xác định chính xác các vấn đề cần giải quyết
Trang 14- Xác định các dữ liệu liên quan: Dùng để xây dựng giải pháp
- Thu thập và tiền xử lý dữ liệu: Thu thập các dữ liệu liên quan và tiền xử
lý chúng sao cho thuật toán khai phá dữ liệu có thể hiểu được Đây làmột quá trình rất khó khăn, có thể gặp phải rất nhiều các vướng mắc như:
dữ liệu phải được sao ra nhiều bản (nếu được chiết xuất vào các tệp),quản lý tập các dữ liệu, phải lặp đi lặp lại nhiều lần toàn bộ quá trình(nếu mô hình dữ liệu thay đổi)
- Thuật toán khai phá dữ liệu: Lựa chọn thuật toán khai phá dữ liệu vàthực hiện việc khai phá dữ liệu để tìm được các mẫu có ý nghĩa, các mẫunày được biểu diễn dưới dạng luật kết hợp, cây quyết định tương ứngvới ý nghĩa của nó
1.2 CÁC KỸ THUẬT TRONG KHAI PHÁ DỮ LIỆU
Các kỹ thuật khai phá dữ liệu [1] thường được chia thành 2 nhóm chính:
- Kỹ thuật mô tả: có nhiệm vụ mô tả về các tính chất hoặc các đặctính chung của dữ liệu trong cơ sở dữ liệu hiện có Các kỹ thuật này
có thể liệt kê: phân cụm (clustering), tóm tắt (summerization), trựcquan hóa (visualization), phân tích sự phát hiện biến đổi và độ lệch,phân tích luật kết hợp (association rules)
- Kỹ thuật dự đoán: có nhiệm vụ đưa ra các dự đoán dựa vào các suydiễn trên dữ liệu hiện thời Các kỹ thuật này gồm có: phân lớp(classification), hồi quy (regression)
Với hai mục đích khai phá dữ liệu là mô tả và dự đoán, người ta thường sửdụng các kỹ thuật sau cho khai phá dữ liệu [1]:
- Luật kết hợp (association rules): là phát hiện và đưa ra các mối liên
hệ giữa các giá trị dữ liệu trong cơ sở dữ liệu Mẫu đầu ra của giảithuật khai phá dữ liệu là tập luật kết hợp tìm được
- Phân lớp (Classfication): là việc xác định một hàm ánh xạ từ một
Trang 15mẫu dữ liệu vào một trong số các lớp đã được biết trước đó Mụctiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữathuộc tính dự báo và thuộc tính phân lớp Như thế quá trình phânlớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới
- Hồi quy (Regression): là việc học một hàm ánh xạ từ một mẫu dữliệu thành một biến dự đoán có giá trị thực Nhiệm vụ của hồi quytương tự như phân lớp, điểm khác nhau chính là ở chỗ thuộc tính
để dự báo là liên tục chứ không phải là rời rạc Việc dự báo các giátrị số thường được xác định bởi các phương pháp thống kê cổ điển,chẳng hạn như hồi quy tuyến tính
- Phân cụm (Clustering): các kỹ thuật phân cụm sẽ nhóm các đốitượng dữ liệu có tính chất giống nhau vào cùng một nhóm Cónhiều cách tiếp cận với những mục tiêu khác nhau trong phân cụm.Các kỹ thuật trong bài toán này thường được vận dụng trong vấn đềphân hoạch dữ liệu tiếp thị hay khảo sát sơ bộ các dữ liệu
- Tổng hợp (Summarization): là công việc liên quan đến các phươngpháp tìm kiếm một mô tả tập con dữ liệu Kỹ thuật tổng hợp thường
áp dụng trong việc phân tích dữ liệu có tính thăm dò và báo cáo tựđộng Nhiệm vụ chính là sản sinh ra các mô tả đặc trưng cho mộtlớp Mô tả loại này là một kiểu tổng hợp, tóm tắt các đặc tínhchung của tất cả hay hầu hết các mục của một lớp Các mô tả đặctrưng thể hiện theo luật có dạng sau: “Nếu một mục thuộc về lớp đãchỉ trong tiền đề thì mục đó có tất cả các thuộc tính đã nêu trongkết luận” Lưu ý rằng luật dạng này có các khác biệt so với luậtphân lớp Luật phát hiện đặc trưng cho lớp chỉ sản sinh ra khi cácmục đã thuộc về lớp đó
Có nhiều phương pháp khai phá dữ liệu được nghiên cứu ở trên, trong đó có
ba phương pháp được các nhà nghiên cứu sử dụng nhiều nhất đó là: Luật kết hợp,phân lớp dữ liệu và phân cụm dữ liệu
Trang 161.3 CÁC PHƯƠNG PHÁP PHÂN CỤM DỮ LIỆU
1.3.1 Khái niệm về phân cụm dữ liệu
Phân cụm dữ liệu [7] (Data Clustering) là một kỹ thuật trong khai phá dữliệu (Data mining) nhằm tìm kiếm, phát hiện các cụm, các mẫu dữ liệu tự nhiêntiềm ẩn và quan trọng trong tập dữ liệu lớn để từ đó cung cấp thông tin, tri thức choviệc ra quyết định
Phân cụm dữ liệu là sự phân chia một cơ sở dữ liệu lớn thành các nhóm dữliệu bao gồm các đối tượng tương tự như nhau Hay ta có thể hiểu “Phân cụm dữliệu là quá trình tổ chức các đối tượng thành từng nhóm mà các đối tượng ở mỗinhóm đều tương tự nhau theo một tính chất nào đó, những đối tượng không tương
tự tính chất sẽ ở nhóm khác” [7]
Phân cụm dữ liệu là một ví dụ của phương pháp học không giám sát Khônggiống như phân lớp dữ liệu, phân cụm dữ liệu không đòi hỏi phải định nghĩa trướccác mẫu dữ liệu huấn luyện Vì thế, có thể coi phân cụm dữ liệu là một cách họcbằng quan sát, trong khi phân lớp dữ liệu là học bằng ví dụ Ngoài ra phân cụm dữliệu còn có thể được sử dụng như một bước tiền xử lý cho các thuật toán khai phá
dữ liệu khác như là phân loại và mô tả đặc điểm, có tác dụng trong việc phát hiện racác cụm
Như vậy, phân cụm dữ liệu là quá trình phân chia một tập dữ liệu ban đầuthành các cụm dữ liệu sao cho các đối tượng trong một cụm “tương tự” (Similar)với nhau và các đối tượng trong các cụm khác nhau sẽ “không tương tự”(Dissimilar) với nhau Số các cụm dữ liệu được phân ở đây có thể được xác địnhtrước theo kinh nghiệm hoặc có thể được tự động xác định
Trang 17Hình 1.2 Ví dụ về phân cụm dữ liệuTrong trường hợp này, chúng ta dễ dàng xác định được 4 cụm dựa vào các
dữ liệu đã cho; các tiêu chí “tương tự” để phân cụm trong trường hợp này là khoảngcách: hai hoặc nhiều đối tượng thuộc nhóm của chúng được “nhóm” theo mộtkhoảng cách nhất định Điều này được gọi là phân cụm dựa trên khoảng cách
Một kiểu khác của phân cụm dữ liệu là phân cụm dữ liệu dựa vào khái niệm:hai hay nhiều đối tượng thuộc cùng nhóm nếu có một định nghĩa khái niệm chungcho tất cả các đối tượng trong đó Nói cách khác, đối tượng của nhóm phải phù hợpvới nhau theo miêu tả các khái niệm đã được định nghĩa, không phải theo nhữngbiện pháp đơn giản tương tự
1.3.2 Mục tiêu của phân cụm dữ liệu
Mục tiêu của phân cụm dữ liệu là để xác định các nhóm nội tại bên trongmột bộ dữ liệu không có nhãn Nhưng làm thế nào để quyết định cái gì đã tạo nênmột phân cụm dữ liệu tốt Nó có thể được hiển thị rằng không có tiêu chuẩn tuyệtđối “tốt nhất” mà sẽ là độc lập với mục đích cuối cùng của phân cụm dữ liệu Do
đó, người sử dụng phải cung cấp tiêu chuẩn, theo cách như vậy mà kết quả củaphân cụm dữ liệu sẽ phù hợp với nhu cầu họ cần
Ví dụ, chúng ta có thể quan tâm đến việc tìm kiếm đối tượng đại diện chocác nhóm đồng nhất trong “các cụm tự nhiên” và mô tả thuộc tính không biết củachúng trong việc tìm kiếm các nhóm hữu ích và phù hợp hoặc trong việc tìm kiếmcác đối tượng bất thường trong dữ liệu (cá biệt, ngoại lệ, nhiễu)
Trang 18Hình 1.3 Phân cụm các đối tượng dựa trên khoảng cáchMột vấn đề thường gặp trong phân cụm là hầu hết các dữ liệu cần phân cụmđều có chứa dữ liệu nhiễu do quá trình thu thập thiếu chính xác hoặc thiếu đầy đủ,
vì vậy cần phải xây dựng chiến lược cho bước tiền xử lí dữ liệu nhằm khắc phụchoặc loại bỏ nhiễu trước khi chuyển sang giai đoạn phân tích cụm dữ liệu Nhiễu ởđây được hiểu là các đối tượng dữ liệu không chính xác, không tường minh hoặc làcác đối tượng dữ liệu khuyết thiếu thông tin về một số thuộc tính Một trong các
kỹ thuật xử lí nhiễu phổ biến là việc thay thế giá trị các thuộc tính của đối tượngnhiễu bằng giá trị thuộc tính tương ứng Ngoài ra, dò tìm đối tượng ngoại lai cũng
là một trong những hướng nghiên cứu quan trọng trong phân cụm, chức năng của
nó là xác định một nhóm nhỏ các đối tượng dữ liệu khác thường so với các dữ liệutrong cơ sở dữ liệu, tức là các đối tượng dữ liệu không tuân theo các hành vi hoặc
mô hình dữ liệu nhằm tránh sự ảnh hưởng của chúng tới quá trình và kết quả củaphân cụm
Hình 1.4 Phân cụm các đối tượng dựa trên kích cỡTheo các nghiên cứu đến thời điểm hiện nay thì chưa có một phương phápphân cụm tổng quát nào có thể giải quyết trọn vẹn cho tất cả các dạng cấu trúc cơ
sở dữ liệu Hơn nữa, đối với các phương pháp phân cụm cần có cách thức biểu diễncấu trúc của cơ sở dữ liệu, với mỗi cách thức biểu diễn khác nhau sẽ có tương ứngmột thuật toán phân cụm phù hợp Vì vậy phân cụm dữ liệu vẫn đang là một vấn đềkhó và mở, vì phải giải quyết nhiều vấn đề cơ bản một cách trọn vẹn và phù hợp với
Trang 19Bước 0 Bước 1 Bước 2 Bước 3 Bước 4
Bottom-Upa
1.3.3 Phương pháp phân cụm phân cấp (Hierarchical Methods)
Phương pháp này xây dựng một phân cấp trên cơ sở các đối tượng dữ liệuđang xem xét Nghĩa là sắp xếp một tập dữ liệu đã cho thành một cấu trúc có dạnghình cây, cây phân cấp này được xây dựng theo kỹ thuật đệ quy Có hai cách tiếpcận phổ biến của kỹ thuật này đó là: hòa nhập nhóm, thường được gọi là tiếp cận từdưới lên (Bottom-Up); phân chia nhóm, thường được gọi là tiếp cận từ trên xuống(Top-Down)
- Phương pháp “dưới lên” (Bottom-Up): Phương pháp này bắt đầuvới mỗi đối tượng được khởi tạo tương ứng với các cụm riêng biệt,sau đó tiến hành nhóm các đối tượng theo một độ đo tương tự (nhưkhoảng cách giữa hai trung tâm của hai nhóm), quá trình này đượcthực hiện cho đến khi tất cả các nhóm được hòa nhập vào mộtnhóm (mức cao nhất của cây phân cấp) hoặc cho đến khi các điềukiện kết thúc thỏa mãn Như vậy, cách tiếp cận này sử dụng chiếnlược ăn tham trong quá trình phân cụm
Hình 1.5 Các chiến lược phân cụm phân
Trang 20- Phương pháp “trên xuống” (Top-Down): Bắt đầu với trạng thái làtất cả các đối tượng được xếp trong cùng một cụm Mỗi vòng lặpthành công, một cụm được tách thành các cụm nhỏ hơn theo giá trịcủa một phép đo độ tương tự nào đó cho đến khi mỗi đối tượng làmột cụm hoặc cho đến khi điều kiện dừng thỏa mãn Cách tiếp cậnnày sử dụng chiến lược chia để trị trong quá trình phân cụm.
Thuật toán phân cụm phân cấp BIRCH
BIRCH là thuật toán phân cụm phân cấp sử dụng chiến lược Top-Down.BIRCH là không lưu toàn bộ đối tượng dữ liệu của các cụm trong bộ nhớ mà chỉlưu các tham số thống kê Đối với mỗi cụm dữ liệu, BIRCH chỉ lưu bộ ba (N, LS,SS), trong đó N là số đối tượng trong cụm, LS là tổng các giá trị thuộc tính của cácđối tượng trong cụm, và SS là tổng bình phương của các giá trị thuộc tính của cácđối tượng trong cụm Bộ ba này được gọi là đặc trưng cụm (Cluster Feature - CF).Khi đó các cụm trong tập dữ liệu ban đầu sẽ được cho dưới dạng một cây CF Cóthể chứng mình rằng, các đại lượng thống kê chuẩn, như là độ đo khoảng cách, cóthể xác định từ cây CF
Cây CF chứa các nút trong và nút lá, nút trong là nút chứa các nút con và nút
lá thì không có con Nút trong lưu trữ các tổng đặc trưng cụm (CF) của các nút concủa nó Một cây (CF) được đặc trưng bởi hai tham số:
- Yếu tố nhánh (Braching Factor – B): Nhằm xác định tối đa các nútcon của một nút lá trong của cây
- Ngưỡng (Threshold – T): khoảng cách tối đa giữa bất kỳ một cặpđối tượng trong nút lá của cây, khoảng cách này còn gọi là đườngkính của các cụm con được lưu tại các nút lá
Thuật toán BIRCH thực hiện gồm hai giai đoạn sau:
Giai đoạn 1: BIRCH quét tất cả các đối tượng trong tập dữ liệu để xây dựngcây CF ban đầu, mà được lưu trữ trong bộ nhớ Trong giai đoạn này, các đối tượnglần lượt được chèn vào nút lá gần nhất của cây CF (nút lá của cây đóng vai trò là
Trang 21CF1 CF2 CF3
Child1 Child2 Child3
CF6Child6
Child1 Child2 Child3
CF5Child5
Non - Leaf
cụm con), sau khi chèn xong thì tất cả các nút trong cây CF được cập nhật thôngtin Nếu đường kính của cụm con sau khi chèn là lớn hơn ngưỡng T, thì nút lá đượctách Quá trình lặp lại cho đến khi tất cả các đối tượng trong cây chỉ được đọc mộtlần, để lưu toàn bộ cây CF trong bộ nhớ thì cần phải điều chỉnh kích thước của cây
CF thông qua điều chỉnh ngưỡng T
Giai đoạn 2: BIRCH lựa chọn một thuật toán phân cụm (như thuật toán phâncụm phân hoạch) để thực hiện phân cụm cho các nút lá của cây CF
Hình 1.6 Cây CF sử dụng trong thuật toán BRICHThuật toán BIRCH thực hiện qua các bước cơ bản như sau:
1 Các đối tượng dữ liệu lần lượt được chèn vào cây CF, sau khi chèn hết cácđối tượng thì thu được cây CF khởi tạo Một đối tượng được chèn vào nút lá gầnnhất tạo thành cụm con Nếu đường kính của cụm con này lớn hơn T thì nút lá đượctách ra Khi một đối tượng thích hợp được chèn vào nút lá, tất cả các nút trỏ tới gốccủa cây được cập nhật với thông tin cần thiết
2 Nếu cây CF hiện thời không có đủ bộ nhớ trong khi tiến hành xây dựng
Trang 22một cây CF nhỏ hơn: Kích thước của cây CF được điều khiển bởi tham số F và vìvậy việc chọn một giá trị lớn hơn cho nó sẽ hòa nhập một số cụm con thành mộtcụm, điều này làm cho cây CF nhỏ hơn Bước này không cần yêu cầu đọc dữ liệulại từ đầu nhưng vẫn đảm bảo hiệu chỉnh cây dữ liệu nhỏ hơn
3 Thực hiện phân cụm: Các nút lá cây CF lưu trữ các đại lượng thống kêcủa các cụm con Trong bước này, BIRCH sử dụng các đại lượng thống kê này để
áp dụng một số kỹ thuật phân cụm và tạo ra một khởi tạo cho phân cụm
4 Phân phối lại các đối tượng dữ liệu bằng cách dùng các đối tượng trọngtâm cho các cụm được khám phá từ bước 3: Đây là một bước tùy chọn để duyệt lạitập dữ liệu và gán lại nhãn cho các đối tượng dữ liệu tới các trọng tâm gần nhất.Bước này nhằm để gán nhãn cho các dữ liệu khởi tạo và loại bỏ các đối tượng ngoạilai
Đánh giá thuật toán BIRCH:
+ Ưu điểm:
Với cấu trúc cây CF được sử dụng, BIRCH có tốc độ thực hiện phân cụm dữliệu nhanh và có thể áp dụng đối với tập cơ sỡ dữ liệu lớn, BIRCH cũng có hiệu quảkhi áp dụng với tập dữ liệu tăng trưởng theo thời gian BIRCH thực hiện tính toánkhá tốt, độ phức tạp tính toán của BIRCH là tuyến tính tỷ lệ với số các đối tượng,
do BIRCH chỉ duyệt toàn bộ dữ liệu một lần với một lần quét thêm tùy chọn (thựchiện phân cụm lại các nút lá cây của CF), có thể được đo trong thời gian O(n) với n
là số đối tượng dữ liệu Thuật toán này kết hợp các cụm gần nhau và xây dựng lạicây CF, tuy nhiên mỗi nút trong cây CF có thể chỉ lưu trữ một số hữu hạn bởi kíchthước của nó
+ Hạn chế:
Thuật toán BIRCH không xử lý tốt nếu các cụm không có hình dạng cầu,bởi vì nó sử dụng khái niệm bán kính hoặc đường kính để kiểm soát ranh giới cáccụm và chất lượng của các cụm được khám phá không được tốt Nếu BIRCH sửdụng khoảng cách Eucle, nó thực hiện tốt chỉ với các dữ liệu số, mặt khác tham số
Trang 23vào T có ảnh hưởng rất lớn tới kích thước tự nhiên của cụm.
Ngoài thuật toán BIRCH còn có một số thuật toán điển hình trong phươngpháp tiếp cận theo phân cụm phân cấp là các thuật toán như: AGNES(Agglomerative Nesting), DIANA (Divisive Analysis), CURE (1998),CHAMELEON (1999)
1.3.4 Phương pháp phân cụm phân hoạch (Partitioning Methods)
Phương pháp này phân hoạch một tập hợp dữ liệu có n phần tử thành knhóm cho đến khi xác định số các cụm được thiết lập Số các cụm được thiết lập làcác đặc trưng được lựa chọn trước Phương pháp này là tốt cho việc tìm các cụmhình cầu trong không gian Euclidean Ngoài ra, phương pháp này cũng phụ thuộcvào khoảng cách cơ bản giữa các điểm để lựa chọn các điểm dữ liệu nào có quan hệ
là gần nhau với mỗi điểm khác và các điểm dữ liệu nào không có quan hệ hoặc cóquan hệ là xa nhau so với mỗi điểm khác Tuy nhiên, phương pháp này không thể
xử lí các cụm có hình dạng kỳ dị hoặc các cụm có mật độ các điểm dày đặc Cácthuật toán phân hoạch dữ liệu có độ phức tạp rất lớn khi xác định nghiệm tối ưutoàn cục cho vấn đề phân cụm dữ liệu, do nó phải tìm kiếm tất cả các cách phânhoạch có thể được Chính vì vậy, trên thực tế thường đi tìm giải pháp tối ưu cục bộcho vấn đề này bằng cách sử dụng một hàm mục tiêu để đánh giá chất lượng củacụm cũng như để hướng dẫn cho quá trình tìm kiếm phân hoạch dữ liệu Như vậy, ýtưởng chính của thuật toán phân cụm phân hoạch tối ưu cục bộ là sử dụng chiếnlược tham lam (Greedy) để tìm kiếm nghiệm
Thuật toán phân cụm phân hoạch K – Means:
K - Means là thuật toán phân cụm mà định nghĩa các cụm bởi trung tâm củacác phần tử Phương pháp này dựa trên độ đo khoảng cách của các đối tượng dữliệu trong cụm Nó được xem như là trung tâm của cụm Như vậy, nó cần khởi tạomột tập trung tâm các trung tâm cụm ban đầu và thông qua đó nó lặp lại các bướcgồm gán mỗi đối tượng tới cụm mà trung tâm gần, và tính toán tại trung tâm củamỗi cụm trên cơ sở gán mới cho các đối tượng
Trang 24Trong phương pháp K - Means, chọn một giá trị k và sau đó chọn ngẫunhiên k trung tâm của các đối tượng dữ liệu Tính toán khoảng cách giữa đối tượng
dữ liệu trung bình mỗi cụm để tìm kiếm phần tử nào là tương tự và thêm vào cụm
đó Từ khoảng cách này có thể tính toán trung bình mới của cụm và lặp lại quá trìnhcho đến khi hàm mục tiêu hội tụ
Thuật toán K - Means là sinh k cụm dữ liệu {C1, C2, , Ck} từ một tập dữliệu chứa n đối tượng trong không gian d chiều Xi = {xi1, xi2,…xid}, i = 1÷n, sao chohàm mục tiêu E:
đạt giá trị tối thiểuTrong đó : mi là trọng tâm của cụm Ci
Trọng tâm của cụm là một vectơ, trong đó giá trị của mỗi thành phần của nó
là trung cộng của các thành phần tương ứng của các đối tượng vectơ dữ liệu trongcụm đang xét Tham số đầu vào của thuật toán là số cụm k, và tham số đầu ra củathuật toán là các trọng tâm của các cụm dữ liệu Độ đo khoảng cách D giữa các đối
Trang 25tượng dữ liệu thường được sử dụng là khoảng cách Euclide
Khoảng cách Euclide:
Trong đó: i = ( và j = ( là 2 điểm trong không gian N chiều
Hình 1.8 Tính toán trọng tâm của các cụm mớiThuật toán K - Means thực hiện qua các bước cơ bản như sau:
Đầu vào: Số cụm k và các trọng tâm cụm
Đầu ra: các cụm C[i] (1≤ i ≤ k) và hàm tiêu chuẩn E đạt giá trị tối thiểu Bắt đầu
Bước 1: Khởi tạo
Chọn k trọng tâm ban đầu trong không gian |d| (d là số chiều của dữ liệu).Việc lựa chọn này có thể là ngẫu nhiên hoặc theo kinh nghiệm
Trang 26Bước 2: Lặp lại
Tính toán khoảng cách D
Đối với mỗi điểm Xi (1≤ i ≤ k), tính toán khoảng cách của nó tới mỗi trọngtâm mj (1≤ i ≤ k) Sau đó tìm trọng tâm gần nhất đối với mỗi điểm và nhóm chúngvào các nhóm gần nhất
Bước 3: Cập nhật lại trọng tâm
Đối với mỗi 1≤ i ≤ k, cập nhật trọng tâm cụm mj bằng cách xác định trungbình cộng các vectơ đối tượng dữ liệu
Đánh giá thuật toán K - Means:
+ Ưu điểm:
K - Means là có độ phức tạp tính toán O(tkn), với n là tổng số các bản ghicủa dữ liệu, k là số các nhóm và t là số các lần lặp lại (thường thì k,t ≤ n) K -Means phân tích phân cụm đơn giản nên có thể áp dụng đối với tập dữ liệu lớn
Trang 27Thuật toán phân cụm phân hoạch PAMGiải thuật K - Means rất nhạy với các phần tử ngoại lai, do vậy một đối
tượng giá trị cực lớn về cơ bản sẽ làm thay đổi tâm cụm
Hình 1.9 Sự thay đổi tâm cụm trong thuật toán K - Means
Ý tưởng của K - Medodis thay vì lấy giá trị trung bình của các đối tượngtrong cụm như một điểm tham khảo, K - Medoids lấy một đối tượng đại diện trongcụm, gọi là medoid, nó là điểm đại diện được định vị trung tâm nhất trong cụm Dovậy, phương pháp phân chia vẫn được thực hiện dựa trên nguyên tắc tối thiểu hoátổng các độ không tương đồng giữa mỗi đối tượng với điểm tham khảo tương ứngcủa nó, điểm này thiết lập nên cơ sở của phương pháp K - Medoids
Giải thuật thử xác định k phần phân chia cho n đối tượng sau khi lựa chọnđược K-Medodis ban đầu, giải thuật lặp lại việc thử để có một sự lựa chọn cácmedoid tốt hơn bằng cách phân tích tất cả các cặp đối tượng có thể để một đốitượng là medoid và đối tượng kia thì không phải Phép đo chất lượng phân cụmđược tính cho mỗi sự kết hợp như vậy Lựa chọn các điểm tốt nhất trong một lần lặp
Trang 28được chọn với tư cách là các medoid cho lần lặp tiếp theo.
Thuật toán PAM bao gồm các bước cơ bản sau:
Đầu vào: Số cụm k và một cơ sở dữ liệu chứa n đối tượng
Đầu ra: Một tập k cụm đã tối thiểu hoá tổng các độ đo không tương đồngcủa tất cả các đối tượng tới Medoid gần nhất của chúng
Bắt đầu
1 Chọn tuỳ ý k đối tượng giữ vai trò là các Medoid ban đầu;
2 Repeat
3 Ấn định mỗi đối tượng vào cụm có Medoid gần nó nhất;
4 Tính hàm mục tiêu (tổng các độ đo tương đồng của tất cả các đốitượng tới Medoid gần nhất của chúng);
5 Đổi Medoid x bằng một đối tượng y nếu như việc thay đổi này làmgiảm hàm mục tiêu;
6 Until: không có sự thay đổi nào
-+ Hạn chế:
Tuy nhiên, xử lý nó tốn thời gian hơn so với K - Means Độ phức tạp chomột lần lặp đơn là O(k(n - k)2), với độ phức tạp như trên không thích hợp cho phâncụm dữ liệu có số lượng n lớn và số cụm cần chia là nhiều
Ngoài thuật toán K - Means, PAM còn có một số thuật toán điển hình trong
Trang 29Data set Gattsslan
Data space
phương pháp tiếp cận theo phân cụm phân hoạch là các thuật toán như: CLARA(Clustering Large Applications), CLARANS
1.3.5 Phương pháp phân cụm dựa trên mật độ (Density-Based Methods)
Phương pháp này nhóm các đối tượng dữ liệu dựa trên hàm mật độ xác định,mật độ là số các đối tượng lân cận của một đối tượng dữ liệu theo một nghĩa nào
đó Trong cách tiếp cận này, khi một dữ liệu đã xác định thì nó tiếp tục được pháttriển thêm các đối tượng dữ liệu mới miễn là số các đối tượng lân cận này phải lớnhơn một ngưỡng đã được xác định trước Phương pháp phân cụm dựa trên mật độcủa các đối tượng để xác định các cụm dữ liệu có thể phát hiện ra các cụm dữ liệuvới hình thù bất kỳ Phương pháp này có thể khắc phục được các phần tử ngoại laihoặc giá trị nhiễu rất tốt, tuy nhiên việc xác định các tham số mật độ của thuật toán
là rất khó khăn
Hình 1.10 Ví dụ về phân cụm theo mật độ [6]
Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên mật độ là cácthuật toán như: DBSCAN, DENCLUE, CLIQUE, OPTICS
Trang 30Mức 1 (mức cao nhất) có thể chỉ chứa một cell
Mức i-1 có thể tương ứng với 4 cell của mức i
Tầng 1
Tầng i-1Tầng i
1.3.6 Phương pháp phân cụm dựa trên lưới (Grid-Based Methods)
Phương pháp phân cụm dựa trên lưới thích hợp với dữ liệu nhiều chiều, dựatrên cấu trúc dữ liệu lưới để phân cụm, phương pháp này chủ yếu tập trung áp dụngcho lớp dữ liệu không gian Mục tiêu của phương pháp này là lượng hóa dữ liệuthành các ô tạo thành cấu trúc dữ liệu lưới Sau đó, các thao tác phân cụm chỉ cầnlàm việc với các đối tượng trong từng ô trên lưới chứ không phải các đối tượng dữliệu Cách tiếp cận dựa trên lưới này không di chuyển các đối tượng trong các ô màxây dựng nhiều mức phân cấp của nhóm các đối tượng trong một ô Phương phápnày gần giống với phương pháp phân cụm phân cấp nhưng chúng không trộn các ô,đồng thời giải quyết khắc phục yêu cầu đối với dữ liệu nhiều chiều mà phương phápphân cụm dựa trên mật độ không giải quyết được Ưu điểm của phương pháp phâncụm dựa trên lưới là thời gian xử lí nhanh và độc lập với số đối tượng dữ liệu trongtập dữ liệu ban đầu, thay vào đó là chúng phụ thuộc vào số ô trong mỗi chiều củakhông gian lưới
Hình 1.11 Cấu trúc phân cụm dựa trên lưới [6]
Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên lưới là cácthuật toán như: STING (a STatistical INformation Grid approach) bởi Wang, Yang
và Muntz (1997), WAVECLUSTER bởi Sheikholeslami, Chatterjee và Zhang(1998), CLIQUE (Clustering In QUEst) bởi Agrawal, Gehrke, Gunopulos,Raghavan (1998)
Trang 31Layer 2 Inhibitory clusters
Layer 1 Inhibitory clusters
Input pattern
Exicitatory connectionsLayer 3 Inhibitory clusters
1.3.7 Phương pháp phân cụm dựa trên mô hình (Model-Based Clustering Methods)
Phương này cố gắng khám phá các phép xấp xỉ tốt của các tham số mô hìnhsao cho khớp với dữ liệu một cách tốt nhất Chúng có thể sử dụng chiến lược phâncụm phân hoạch hoặc phân cụm phân cấp, dựa trên cấu trúc hoặc mô hình màchúng giả định về tập dữ liệu và cách chúng hiệu chỉnh các mô hình này để nhận
dạng ra các phân hoạch
Hình 1.12 Ví dụ về phân cụm dựa trên mô hình [6]
Phương pháp phân cụm dựa trên mô hình cố gắng khớp giữa các dữ liệu với
mô hình toán học, nó dựa trên giả định rằng dữ liệu được tạo ra bằng hỗn hợp phânphối xác suất cơ bản Các thuật toán phân cụm dựa trên mô hình có hai cách tiếpcận chính: mô hình thống kê và mạng nơron Phương pháp này gần giống với
Trang 32phương pháp phân cụm dựa trên mật độ, vì chúng phát triển các cụm riêng biệtnhằm cải tiến các mô hình đã được xác định trước đó, nhưng đôi khi nó không bắtđầu với một số cụm cố định và không sử dụng cùng một khái niệm mật độ cho cáccụm
Điển hình trong phương pháp tiếp cận theo phân cụm dựa trên mô hình làcác thuật toán như: EM, COBWEB, CLASSIT, AutoClass (Cheeseman and Stutz,1996)
1.4 YÊU CẦU VÀ NHỮNG VẤN ĐỀ CÒN TỒN TẠI TRONG PHÂN CỤM DỮ LIỆU
1.4.1 Các yêu cầu của phân cụm dữ liệu
Phân cụm là một thách thức trong lĩnh vực nghiên cứu ở chỗ những ứngdụng tiềm năng của chúng được đưa ra ngay chính trong những yêu cầu đặc biệtcủa chúng Sau đây là những yêu cầu cơ bản của phân cụm trong khai phá dữ liệu:
- Có khả năng mở rộng: nhiều thuật toán phân cụm làm việc tốt vớinhững tập dữ liệu nhỏ chứa ít hơn 200 đối tượng, tuy nhiên, một cơ
sở dữ liệu lớn có thể chứa tới hàng triệu đối tượng Phân cụm với
dữ liệu lớn có thể ảnh hưởng tới kết quả
- Khả năng thích nghi với các kiểu thuộc tính khác nhau: nhiều thuậttoán được thiết kế cho việc phân cụm dữ liệu có kiểu khoảng (kiểusố) Tuy nhiên, nhiều ứng dụng có thể đòi hỏi việc phân cụm vớinhiều kiểu dữ liệu khác nhau, như kiểu nhị phân, kiểu tường minh(định danh - không thứ tự), và dữ liệu có thứ tự hay dạng hỗn hợpcủa những kiểu dữ liệu này
- Khám phá các cụm với hình dạng bất kỳ: nhiều thuật toán phâncụm xác định các cụm dựa trên các phép đo khoảng cách Euclidean
và khoảng cách Manhattan Các thuật toán dựa trên các phép đonhư vậy hướng tới việc tìm kiếm các cụm hình cầu với mật độ vàkích cỡ tương tự nhau Tuy nhiên, một cụm có thể có bất cứ một
Trang 33hình dạng nào Do đó, việc phát triển các thuật toán có thể khámphá ra các cụm có hình dạng bất kỳ là một việc làm quan trọng
- Tối thiểu lượng tri thức cần cho xác định các tham số đầu vào:nhiều thuật toán phân cụm yêu cầu người dùng đưa vào nhữngtham số nhất định trong phân tích phân cụm (như số lượng các cụmmong muốn) Kết quả của phân cụm thường khá nhạy cảm với cáctham số đầu vào Nhiều tham số rất khó để xác định, nhất là với cáctập dữ liệu có lượng các đối tượng lớn Điều này không những gâytrở ngại cho người dùng mà còn làm cho khó có thể điều chỉnhđược chất lượng của phân cụm
- Khả năng thích nghi với dữ liệu nhiễu: hầu hết những cơ sở dữ liệuthực đều chứa đựng dữ liệu ngoại lai, dữ liệu lỗi, dữ liệu chưa biếthoặc dữ liệu sai Một số thuật toán phân cụm nhạy cảm với dữ liệunhư vậy và có thể dẫn đến chất lượng phân cụm thấp
- Ít nhạy cảm với thứ tự của các dữ liệu vào: một số thuật toán phâncụm nhạy cảm với thứ tự của dữ liệu vào, ví dụ như với cùng mộttập dữ liệu, khi được đưa ra với các thứ tự khác nhau thì với cùngmột thuật toán có thể sinh ra các cụm rất khác nhau Do đó, việcquan trọng là phát triển các thuật toán mà ít nhạy cảm với thứ tựvào của dữ liệu
- Số chiều lớn: một cơ sở dữ liệu hoặc một kho dữ liệu có thể chứamột số chiều hoặc một số các thuộc tính Nhiều thuật toán phâncụm áp dụng tốt cho dữ liệu với số chiều thấp, bao gồm chỉ từ 2đến 3 chiều Người ta đánh giá việc phân cụm là có chất lượng tốtnếu nó áp dụng được cho dữ liệu có từ 3 chiều trở lên Nó là sựthách thức với các đối tượng dữ liệu cụm trong không gian với sốchiều lớn, đặc biệt vì khi xét những không gian với số chiều lớn cóthể rất thưa và có độ nghiêng lớn
Trang 34- Phân cụm ràng buộc: nhiều ứng dụng thực tế có thể cần thực hiệnphân cụm dưới các loại ràng buộc khác nhau Một nhiệm vụ đặt ra
là đi tìm những nhóm dữ liệu có trạng thái phân cụm tốt và thỏamãn các ràng buộc
- Dễ hiểu và dễ sử dụng: Người sử dụng có thể chờ đợi những kếtquả phân cụm dễ hiểu, dễ lý giải và dễ sử dụng Nghĩa là, sự phâncụm có thể cần được giải thích ý nghĩa và ứng dụng rõ ràng
1.4.2 Những vấn đề còn tồn tại trong phân cụm dữ liệu
Có một số vấn đề với phân cụm dữ liệu Một trong số đó là [5]:
- Kỹ thuật clustering hiện nay không trình bày được tất cả các yêucầu đầy đủ (và đồng thời);
- Giao dịch với số lượng lớn các mẫu và số lượng lớn các mẫu tincủa dữ liệu có thể gặp vấn đề phức tạp về thời gian;
- Hiệu quả của phương pháp phụ thuộc vào định nghĩa của “khoảngcách” (đối với phân cụm dữ liệu dựa trên khoảng cách) Nếu khôngtồn tại một thước đo khoảng cách rõ ràng chúng ta “phải tự xácđịnh”, một điều mà không thật sự dễ dàng chút nào, nhất là trongkhông gian đa chiều;
- Kết quả của thuật toán phân cụm dữ liệu có thể được giải thích theonhiều cách khác nhau, trong nhiều trường hợp chỉ có thể được giảithích theo ý riêng của mỗi người
1.5 TIỂU KẾT CHƯƠNG 1
Khai phá dữ liệu là lĩnh vực đã và đang trở thành một trong những hướng nghiêncứu thu hút được sự quan tâm của nhiều chuyên gia về công nghệ thông tin trên thếgiới Khai phá dữ liệu đã và đang được ứng dụng rộng rãi trong rất nhiều lĩnh vực
và hiện nay đã có rất nhiều công cụ thương mại và phi thương mại triển khai cácnhiệm vụ của khai phá dữ liệu Trong những năm gần đây, rất nhiều nghiên cứu mới
Trang 35trong khai phá dữ liệu được công bố Điều này chứng tỏ những ưu thế, lợi ích vàkhả năng ứng dụng thực tế to lớn của khai phá dữ liệu Chương I của luận văn đãtrình bày một số kiến thức tổng quan, những khái niệm và kiến thức về khai phá dữliệu, các mô hình và thuật toán phân cụm dữ liệu cơ bản.
Trang 36Chương 2 PHÂN TÍCH, ĐÁNH GIÁ KẾT QUẢ ĐIỀU TRA DOANH
NGHIỆP 2.1GIỚI THIỆU TỔNG QUAN VỀ DOANH NGHIỆP VÀ DỮ LIỆU CỦA DOANH NGHIỆP
2.1.1 Khái niệm doanh nghiệp:
Doanh nghiệp [3] là tổ chức kinh tế có tên riêng, có tài sản, có trụ sở giaodịch ổn định, được đăng ký kinh doanh theo quy định của pháp luật nhằm mục đíchthực hiện các hoạt động kinh doanh Doanh nghiệp là một trong những chủ thể kinhdoanh chủ yếu của xã hội Doanh nghiệp là một đơn vị kinh doanh được thành lập
để thực hiện hoạt động kinh doanh nhằm mục đích lợi nhuận
2.1.2 Phân loại doanh nghiệp:
Căn cứ theo Quyết định số 14/2011/QĐ-TTg ngày 4/3/2011 của Thủ tướngChính phủ về tiêu chí, danh mục phân loại doanh nghiệp nhà nước là 20 ngành, lĩnhvực và Quyết định số: 91/QĐ-TCTK ngày 26 tháng 02 năm 2014 của Tổng cụctrưởng Tổng cục Thống kê
- Khu vực doanh nghiệp nhà nước;
- Khu vực tập thể;
- Khu vực doanh nghiệp ngoài nhà nước;
- Khu vực doanh nghiệp có vốn đầu tư nước ngoài
2.1.3 Giới thiệu thông tin dữ liệu doanh nghiệp [3]:
1. Thông tin nhận dạng đơn vị doanh nghiệp
- Tên doanh nghiệp; Địa chỉ, điện thoại, Fax, Email; Loại hình doanhnghiệp; Ngành hoạt động SXKD
2. Thông tin về lao động và thu nhập của người lao động
3. Các chỉ tiêu về sản xuất kinh doanh
- Tài sản: Là tổng giá trị tài sản của doanh nghiệp tại thời điểm 31/12 củanăm, bao gồm tài sản ngắn hạn và tài sản dài hạn
- Nguồn vốn: Bao gồm toàn bộ các khoản nợ phải trả và nguồn vốn thuộc
sở hữu của chủ DN
- Kết quả sản xuất kinh doanh, bao gồm:
Trang 37• Tổng doanh thu bán hàng, các khoản giảm trừ doanh thu, doanh thu thuầnbán hàng, giá vốn hàng bán, lợi nhuận gộp về bán hàng, chi phí tài chính,chi phí quản lý doanh nghiệp, chi phí bán hàng
• Lợi nhuận sau thuế thu nhập doanh nghiệp: Tổng số lợi nhuận thuần(hoặc lỗ) sau thuế từ các hoạt động của doanh nghiệp (sau khi trừ chi phíthuế thu nhập doanh nghiệp) Chỉ tiêu này bằng tổng lợi nhuận kế toántrước thuế trừ (-) chi phí thuế thu nhập doanh nghiệp
- Thuế và các khoản nộp ngân sách: Là các loại thuế và các khoản màdoanh nghiệp phải nộp và đã nộp vào ngân sách nhà nước trong năm
4. Sử dụng công nghệ trong sản xuất:
- Tình hình sử dụng công nghệ/máy móc thiết bị sản xuất, công nghệ thôngtin và truyền thông;
- Cơ cấu đầu vào/đầu ra và quan hệ với nhà cung cấp/khách hàng;
- Các kênh chuyển giao công nghệ;
- Năng lực đổi mới và cải tiến công nghệ
Trang 38PHIẾU THU THẬP THÔNG TIN DOANH NGHIỆP, HỢP TÁC XÃ
NĂM 2013 (Áp dụng chung cho các DN nhà nước, DN ngoài nhà nước, DN có vốn đầu tư nước ngoài, hợp tác xã/liên hiệp hợp tác xã được chọn vào mẫu điều tra – sau đây gọi chung là doanh nghiệp)
Nguyên tắc điền phiếu
- Không ghi thông tin vào các ô có ký hiệu (x)
- Đối với những câu hỏi/mục lựa chọn, đề nghị khoanh tròn vào một mã số tương ứng câu trả lời thích hợp nhất.
- Đối với những câu hỏi/mục ghi thông tin, số liệu, đề nghị ghi vào đúng ô hoặc bảng tương ứng.
1 Tên doanh nghiệp/HTX ….……….
(Viết đầy đủ bằng chữ in hoa, có dấu) ……… Tên giao dịch (nếu có) ……….
Mã số thuế của doanh nghiệp (Viết đủ 10 số)
2 Địa chỉ doanh nghiệp/HTX
Tỉnh/TP trực thuộc trung ương: ……… Huyện/quận (thị xã, Tp thuộc tỉnh): ………
Xã/phường/thị trấn: ………
Thôn, ấp (số nhà, đường phố): ……… Năm bắt đầu SXKD:
3 Tình trạng hoạt động của doanh nghiệp
1 Đang hoạt động 2 Ngừng hoạt động để đầu tư, đổi mới công nghệ
3 Ngừng hoạt động để chờ giải thể, sát nhập 4 Khác (ghi rõ) ……….
4 DN có nằm trong khu CN, khu chế xuất, khu kinh tế, khu công nghệ cao không?
1 Có
2 Không
5 Loại hình kinh tế của doanh nghiệp
01 Cồn ty TNHH 1 thành viên 100% vốn NNTW 06 Doanh nghiệp tư nhân
02 Cồn ty TNHH 1 thành viên 100% vốn NNĐF 07 Công ty hợp danh
03 Cty CP, Cty TNHH có vốn Nhà nước >50% 08 Cty TNHH tư nhân có vốn Nhà nước ≤ 50%
04 Công ty nhà nước 09 Công ty cổ phần không có vốn Nhà nước
4.1 Trung ương 10 Công ty cổ phần có vốn Nhà nước ≤ 50% 4.2 Địa phương
05 Hợp tác xã/liên hiệp HTX 11 DN 100% vốn nước ngoài
5.1 Hợp tác xã 12 DN nhà nước liên doanh với nước ngoài
5.2 Liên hiệp HTX
5.3 Quỹ tín dụng nhân dân 13 DN khác liên doanh với nước ngoài
Cơ quan Thống kê ghi
DN số:
Phiếu 1A/ĐTDN-DN
- Nghĩa vụ cung cấp thông tin theo phiếu này được quy định tại Điều 10,
13 và 32 của Luật Thống kê.
- Các thông tin cung cấp theo phiếu này chỉ nhằm phục vụ công tác thống kê và được bảo mật theo luật định.
.
Thực hiện Quyết định số … , ngày … tháng … năm 2014 của Tổng cục
trưởng Tổng cục Thống kê về việc điều tra doanh nghiệp năm 2014.
Cơ quan Thống kê ghi
Trang 39Cơ quan Thống kê ghi
Cơ quan Thống kê ghi
Đơn vị tính: Người
Đơn vị tính: Triệu đồng
Người Người
6 Doanh nghiệp có xuất, nhập khẩu hang hóa trong năm 2013 không?
1 Có → Trị giá xuất khẩu: USD Trị giá nhập khẩu: USD
2 Không
7 Doanh nghiệp thực tế hoạt động sản xuất kinh doanh năm 2013
(Là tổng số tiền đã hoặc sẽ thu/chi về dịch vụ với nước ngoài, chi phí liên quan đến việc giao dịch mua/bán hang hóa, không tính giá trị của hang hóa mua, bán hang hóa)
1 Có Trị giá thu từ USD Trị giá chi cho USD nước ngoài nước ngoài
9.2 Lao động có tại thời điểm 21/12/2013
Trong tổng số:
Số lao động được đóng BHXH 02
Số lao động không được trả công, trả lương 03
Số lao động là người nước ngoài 04
10 Các khoản chi liên quan đến người lao động năm 2013
10.1 Tổng số tiền phải trả cho người lao động (01=02+03) 01
- Tiền lương, thưởng và các khoản phụ cấp, chi trả khác cho người
- Các khoản chi trả khác không tính vào chi phí SXKD 03
10.2 Bảo hiểm xã hội trả thay lương (theo chế độ ốm đau, thai sản ) 04
10.3 Đóng góp BHXH, bảo hiểm y tế, bảo hiểm thất nghiệp, kinh
Trong đó: Bảo hiểm thất nghiệp 06
Trang 4011 Tài sản và nguồn vốn năm 2013:
(Tham chiếu các mã trong Bảng cân đối kế toán của doanh nghiệp để trả lời câu hỏi này
Đơn vị tính: triệu đồng
số
Thời điểm 01/01/2013
Thời điểm 31/12/2013
- Giá trị hao mòn lũy kế 14
2 Tài sản cố định thuê tài chính
Kết quả sản xuất kinh doanh năm 2013
( Tham chiếu các mã trong Báo cáo kết quả SXKD của doanh nghiệp để trả lời câu hỏi này )
Đơn vị tí nh: Triệu đồng
2013
Trong đó: Trợ cấp sản xuất, kinh doanh 02
12.