1. Trang chủ
  2. » Giáo Dục - Đào Tạo

(TIỂU LUẬN) tích hợp dữ liệu data integration

26 6 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Tích hợp dữ liệu Data Integration
Tác giả Đồng Văn Dương, Trần Văn Tú, Nguyễn Thành Long, Nguyễn Minh Hiệp, Dương Đình Hùng
Trường học Đại học Bách khoa Hà Nội
Chuyên ngành Khoa học máy tính
Thể loại Tiểu luận
Thành phố Hà Nội
Định dạng
Số trang 26
Dung lượng 4,63 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

- Khi kết hợp các thuộc tính từ cơ sở dữ liệu này sang cơ sở dữ liệu khác trong quá trình tích hợp, phải đặc biệt chú ý đến cấu trúc của dữ liệu.Ví dụ: Trong một hệ thống, chiết khấu có

Trang 2

Tổng quát chung :

-Mục đích :

+Tích hợp cẩn thận có thể giúp giảm và tránh dư thừa và không nhất quán trongtập dữ liệu kết quả Điều này có thể giúp cải thiện độ chính xác và tốc độ của quá trình khai thác dữ liệu

Trang 3

1 Vấn đề nhận dạng thực thể

- Kết hợp dữ liệu từ nhiều nguồn vào một kho dữ liệu nhất quán Các nguồn này có thể bao gồm nhiều cơ

sở dữ liệu, khối dữ liệu hoặc tệp phẳng.Một số tài nguyên dữ liệu khớp với nhau, trở nên có giá trị nếu chúng được tích hợp

- Vậy vấn đề nhận dạng thực thể là gì ?

+Tích hợp lược đồ và đối sánh đối tượng có thể phức tạp

+ Làm cách nào để đối sánh các thực thể tương đương trong thế giới thực từ nhiều nguồn dữ liệu

2

Trang 4

Ví dụ: A.cust-id = B.cust-number Ở đây A, B là hai bảng cơ sở dữ liệu khác nhau Cust-id là thuộc tính của bảng A, cust-number là thuộc tính của bảng B Ở đây cust-id và cust-number là thuộc tính của các bảng khác nhau và không có mối quan hệ giữa các bảng này, nhưng thuộc tính cust-id và Thuộc tính cust-number đang nhận các giá trị giống nhau Đây là một ví dụ về Vấn đề Nhận dạng Thực thể trong mối quan hệ

select *from A,B where A.cust-id=B.cust-number

Trang 5

- Khi kết hợp các thuộc tính từ cơ sở dữ liệu này sang cơ sở dữ liệu khác trong quá trình tích hợp, phải đặc biệt chú ý đến cấu trúc của dữ liệu.

Ví dụ: Trong một hệ thống, chiết khấu có thể được áp dụng cho đơn đặt hàng, trong

khi trong một hệ thống khác, chiết khấu được áp dụng cho từng mục hàng riêng lẻ

trong đơn đặt hàng

Nếu điều này không được nắm bắt trước khi tích hợp, các mặt hàng trong hệ thống

có thể bị giảm giá một cách không thích hợp

4

Trang 6

2 Phân tích dự phòng và tương quan

2.1 Dư Thừa và tương quan dữ liệu

Một thuộc tính có thể bị dư thừa do :+ Được “bắt nguồn” từ một thuộc tính hoặc tập hợp các thuộc tính khác

+Sự không nhất quán trong cách đặt tên thuộc tính

Trang 7

2.2 phân tích tương quan của các thuộc tính danh

nghĩa Một số điểm dư thừa có thể được phát hiện bằng

phân tích tương quan

Ví dụ:Phân tích tương quan của các thuộc tính danh nghĩa bằng

cách sử dụng χ2 (còn được gọi là thống kê Pearson ).còn được gọi là thống kê Pearson )

Ta tìm mối quan hệ tương quan giữa hai thuộc tính, A và B (còn được gọi là thống kê Pearson ).với A là giớitính và là thể loại đọc sách)

A[i] : gồm Nam và Nữ

B[j] : gồm hư cấu và phi hư cấu

6

Trang 8

Oij:là tần xuất thưc.

Eij: là tần xuất dự kiến

Công thức tính Eij

Áp Dụng công thức:

Tính tần xuất dự kiến(Eij) của Nam – Hư cấu là A[1]B[1]:

Trang 10

Ứng dụng kết quả thu được

Đối với bảng 2 × 2 này, bậc tự do là (còn được gọi là thống kê Pearson ).2 - 1) (còn được gọi là thống kê Pearson ).2 - 1) = 1 Đối với 1 bậc dom tự do,giá trị χ2 cần thiết để bác bỏ giả thuyết ở mức ý nghĩa 0,001 là 10,828

Vì giá trị tính toán của chúng tôi cao hơn giá trị này, chúng tôi có thể bác

bỏ giả thuyết rằng giới tính và cách đọc ưa thích là độc lập và kết luận

rằng hai thuộc tính có tương quan (còn được gọi là thống kê Pearson ).mạnh) với một nhóm người nhất định

Trang 11

2.3 Hệ số tương quan cho dữ liệu số

Đối với thuộc tính số, chúng ta có thể đánh giá mối tương quan giữa hai thuộc tính A

và B bằng cách tính toán hệ số tương quan (còn được gọi là thống kê Pearson ).còn được gọi là hệ số mô men sản phẩm

của Pearson, được đặt theo tên người phát minh ra nó, Karl Pearson)

Trong đó

• n là số bộ giá trị,

• ai và bi là giá trị tương ứng của A và B trong bộ giá trị i,

• A¯ và B¯ là giá trị trung bình tương ứng của A và B,

• σA và σB là độ lệch chuẩn tương ứng của A và BA và σA và σB là độ lệch chuẩn tương ứng của A và BB là độ lệch chuẩn tương ứng của A và B

• Tổng (còn được gọi là thống kê Pearson ).aibi) là tổng của tích chéo AB (còn được gọi là thống kê Pearson ).nghĩa là đối với mỗi bộ, giá trị của A được nhân với giá trị của B trong bộ đó)

9

Trang 12

Lưu ý rằng −1 ≤ rA, B ≤ +1.

• Nếu rA, B lớn hơn 0, thì A và B có tương quan thuận, nghĩa là giá trị của A tăng khi giá trị của B tăng Giá trị càng cao, mối tương quan càng mạnh

• Nếu giá trị kết quả bằng 0, thì A và B là độc lập và không có mối tương quan giữa chúng

• Nếu giá trị kết quả nhỏ hơn 0, thì A và B là âm tương quan, trong đó giá trị của một thuộc tính tăng lên khi giá trị của thuộc tính khác giảm bớt Điều này có nghĩa là mỗi thuộc tính không khuyến khích thuộc tính kia.Biểu đồ phân tán cũng có thể là :

10

Trang 13

Ví Dụ:

Giả sử có 5 sinh viên được hỏi điểm trung bình trung học và điểm trung bình đại học

của họ, với các câu trả lời như sau:

Chúng tôi muốn biết: điểm trung bình của trường trung học và đại học có liên quan với nhautheo dữ liệu này không, và nếu chúng có liên quan với nhau, làm cách nào tôi có thể sử dụngđiểm trung bình trung học để dự đoán điểm trung bình đại học?

Có hai câu trả lời để đưa ra:

đầu tiên, chúng có liên quan với nhau không vàthứ hai, chúng liên quan với nhau như thế nào

11

Trang 14

• Nhìn vào dữ liệu này, có thể thấy rõ ràng rằng điểm trung bình đại học luôn kém hơn điểm trung học phổ thông, và điểm trung bình trung học càng nhỏ thì điểm trung bình đại học càng nhỏ.

• Nhưng một mối quan hệ bền chặt như thế nào, nếu có, dường như rất khó để định lượng

• Đầu tiên chúng ta sẽ thảo luận về cách tính toán và diễn giải cái gọi là hệ số tương quan để giúp quyết định xem hai biến số có liên quan hay không Nói cách khác, nó có thể trả lời câu hỏi đầu tiên của chúng ta

• Chúng tôi sẽ trả lời câu hỏi thứ hai trong các phần sau Đầu tiên, hãy xác định hệ số tương quan về mặt toán học

12

Trang 15

Trong ví dụ trên, hệ số tương quan rất gần với +1 Do đó, chúng ta có thể kết luận rằng thực sự cómột mối quan hệ tích cực mạnh mẽ giữa điểm trung bình trung học và điểm trung bình đại học

Trang 16

2.4 Phương sai của dữ liệu số

Trong lý thuyết xác suất và thống kê, tương quan và hiệp phương sai là hai thước đo tương

tự để đánh giá mức độ thay đổi của hai thuộc tính cùng nhau Xem xét hai thuộc tính số

A và B, và tập hợp n quan sát {(còn được gọi là thống kê Pearson ).a1, b1), , (còn được gọi là thống kê Pearson ).an, bn)} Giá trị trung bình của A và B,

tương ứng, còn được gọi là giá trị mong đợi trên A và B, nghĩa là,

Hiệp phương sai giữa A và B được định nghĩa là

Trang 17

Nếu chúng ta so sánh Eq (còn được gọi là thống kê Pearson ).3.3) cho rA, B (còn được gọi là thống kê Pearson ).hệ số tương quan) với Eq (còn được gọi là thống kê Pearson ).3.4) đối với hiệp phương sai,chúng ta thấy rằng

15

Trang 18

Trong đó σA và σB là độ lệch chuẩn tương ứng của A và BA và σA và σB là độ lệch chuẩn tương ứng của A và BB lần lượt là độ lệch chuẩn của A và B Nó cũng có thể được chỉ ra rằng

Phương trình này có thể đơn giản hóa các phép tính

Đối với hai thuộc tính A và B có xu hướng thay đổi cùng nhau, nếu A lớn hơn A¯ (còn được gọi là thống kê Pearson ).giá trị

kỳ vọng của A), thì B có khả năng lớn hơn B¯ (còn được gọi là thống kê Pearson ).giá trị kỳ vọng của B) Do đó, hiệp

phương sai giữa A và B là dương

Mặt khác, nếu một trong các thuộc tính có xu hướng cao hơn giá trị mong đợi của nó khi thuộc tính kia thấp hơn giá trị mong đợi, thì hiệp phương sai của A và B là số âm Nếu A

và B độc lập (còn được gọi là thống kê Pearson ).tức là chúng không có mối tương quan) thì E (còn được gọi là thống kê Pearson ).A · B) = E (còn được gọi là thống kê Pearson ).A) · E (còn được gọi là thống kê Pearson ).B) Do

đó, hiệp phương sai là Cov (còn được gọi là thống kê Pearson ).A, B) = E (còn được gọi là thống kê Pearson ).A · B) - A¯ B¯ = E (còn được gọi là thống kê Pearson ).A) · E (còn được gọi là thống kê Pearson ).B) - A¯ B¯ = 0

Tuy nhiên, điều ngược lại là không đúng Một số cặp biến ngẫu nhiên (còn được gọi là thống kê Pearson ).thuộc tính) có thể

có hiệp phương sai bằng 0 nhưng không độc lập Chỉ theo một số giả định bổ sung

Trang 19

Ví Dụ: Phân tích hiệp phương sai của các thuộc tính số.

Hãy xem bảng 3.2, trình bày một ví dụ mô phỏng về giá cổ phiếu được quan sát tại thời điểmcủa AllElectronics và HighTech, một công ty công nghệ cao

Nếu phiếu cổ được ảnh hưởng bởi xu hướng cùng ngành, giá của họ sẽ tăng hay giảm giốngnhau?

17

Trang 20

Do đó, với hiệp phương sai dương, chúng ta có thể nói rằng giá cổ phiếu của cả haicông ty cùng tăng.

Phương sai là một trường hợp đặc biệt của hiệp phương sai, trong đó hai thuộc tính giống hệt nhau (còn được gọi là thống kê Pearson ).tức là hiệp phương sai của một thuộc tính với chính nó) Phương sai đãđược thảo luận trong Chương 2

Trang 21

Khi dữ liệu được tích hợp từ một số cơ sở dữ liệu hoặc ứng dụng thì các thuộc tính dữ liệu dưthừa thường xảy ra Lượng dư thừa và trùng lặp bộ(còn được gọi là thống kê Pearson ).dữ liệu) là những vấn đề quan trọng trongtích hợp dữ liệu trong quá trình khai thác dữ liệu.

19

Trang 22

S.No Petal length Petal Width Sepal Length Sepal Width

Chúng ta hãy xem xét bảng trên của tập dữ liệu là một tập hợp các giá trị Bộ giá trị đầu tiên

và cuối cùng giống nhau trong bảng Vì vậy, Bộ giá trị cuối cùng được coi là một bản sao

Chúng ta coi bộ giá trị là trùng lặp nếu tất cả các giá trị thuộc tính của hai hàng giống nhau

Các dư thừa giữa các thuộc tính và các bộ giá trị trùng lặp phải được phát hiện Các bộ dữ liệu

trùng lặp cho kết quả giống nhau riêng lẻ và điều này ảnh hưởng đến hiệu suất tổng thể của

các thuật toán học máy nếu tập dữ liệu chứa các bộ dữ liệu trùng lặp Các bộ giá trị trùng lặp

cũng có thể dẫn đến khó khăn trong việc bảo trì cơ sở dữ liệu

Trang 23

20

Trang 24

4 Phát hiện và giải quyết xung đột giá trị dữ liệu

Tích hợp dữ liệu cũng liên quan đến việc phát hiện và giải quyết các xung đột về giá trị dữliệu

Đối với cùng một thực thể trong thế giới thực, các giá trị thuộc tính từ các nguồn khác nhau

có thể khác nhau

VD: chương trình giảng dạy và chương trình chấm điểm riêng Một trường đại học có thể áp dụng hệ thống một phần tư, cung cấp ba khóa học trên hệ thống cơ sở dữ liệu và ấn định điểm từ A + đến F, trong khi một trường đại học khác có thể áp dụng hệ thống học kỳ, cung cấp hai khóa học trên cơ sở dữ liệu và ấn định điểm từ 1

Rất khó để đưa ra các quy tắc chuyển đổi giữa các khóa học chính xác giữa hai trường đạihọc, làm cho việc trao đổi thông tin trở nên khó khăn

Trang 25

Các thuộc tính cũng có thể khác nhau ở cấp độ trừu tượng, trong đó một thuộc tính trong mộttem hệ thống được ghi ở mức trừu tượng thấp hơn so với cùng một thuộc tính trong hệ thốngkhác.

Ví dụ: tổng doanh số bán hàng trong một cơ sở dữ liệu có thể đề cập đến một chi nhánh của Tất cả các cửa hàng điện tử, trong khi một thuộc tính cùng tên trong cơ sở dữ liệu khác có thể đề cập đến tổng doanh số bán hàng cho Tất cả các cửa hàng Điện tử trong một khu vực nhất định.

22

Trang 26

Tài liệu tham khảo

1. https://www.javatpoint.com/entity-identification-problem-in-data-mining

2 [1] 2011 Data Mining - Concepts and Techniques

3. https://www.geeksforgeeks.org/tuple-duplication-in-data-mining/

Ngày đăng: 14/12/2022, 10:32

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

w