3.3. Chất lượng dữ liệu
3.3.1. Đo lường và dữ liệu
Không thực tế khi mong đợi rằng dữ liệu sẽ hoàn hảo. Có thể có sự cố do lỗi của con người, hạn chế của thiết bị đo hoặc sai sót trong quá trình thu thập dữ liệu. Giá trị hoặc thậm chí toàn bộ đối tượng dữ liệu có thể bị thiếu. Trong các trường hợp khác, có thể có các đối tượng giả hoặc trùng lặp; tức là nhiều đối tượng dữ liệu đều tương ứng với một đối tượng “thực”. Ví dụ, có thể có hai bản ghi khác nhau cho một người gần đây đã sống ở hai địa chỉ khác nhau.
Trong một vài phần tiếp theo, sẽ tập trung vào các khía cạnh của chất lượng dữ liệu có liên quan đến việc đo lường và thu thập dữ liệu. Đầu tiên sẽ bắt đầu với định nghĩa về sai số đo lường và thu thập dữ liệu, sau đó xem xét nhiều vấn đề liên quan đến sai số đo lường: nhiễu, hiện vật, độ chênh lệch, độ rõ ràng và độ chính xác. Chúng tôi kết luận bằng cách thảo luận về các vấn đề chất lượng dữ liệu liên quan đến cả vấn đề
đo lường và thu thập dữ liệu: giá trị ngoại lệ, giá trị bị thiếu và không nhất quán cũng như dữ liệu trùng lặp.
a. Lỗi đo lường và thu thập dữ liệu
Thuật ngữ sai số đề cập đến bất kỳ vấn đề nào phát sinh từ quá trình đo lường.
Một vấn đề phổ biến là giá trị được ghi lại khác với giá trị thực ở một mức độ nào đó.
Đối với các thuộc tính liên tục, sự khác biệt về số của giá trị đo được và giá trị thực được gọi là sai số. Thuật ngữ lỗi thu thập dữ liệu đề cập đến các lỗi như bỏ qua các đối tượng dữ liệu hoặc giá trị thuộc tính hoặc bao gồm một đối tượng dữ liệu một cách không thích hợp. Ví dụ, một nghiên cứu về động vật của một loài nhất định có thể bao gồm động vật của một loài liên quan có ngoại hình tương tự với loài quan tâm. Cả sai số đo lường và sai số thu thập dữ liệu có thể là hệ thống hoặc ngẫu nhiên.
Trong các miền cụ thể, một số loại lỗi dữ liệu nhất định là phổ biến và các kỹ thuật được phát triển tốt thường tồn tại để phát hiện và / hoặc sửa những lỗi này. Ví dụ, lỗi bàn phím thường gặp khi dữ liệu được nhập theo cách thủ công và do đó, nhiều chương trình nhập dữ liệu có các kỹ thuật để phát hiện và với sự can thiệp của con người, sửa các lỗi đó.
b. Nhiễu và tạo tác (Artifacts)
Nhiễu là thành phần ngẫu nhiên của sai số đo. Nó thường liên quan đến sự biến dạng của một giá trị hoặc thêm vào các đối tượng giả. Hình 3.7 cho thấy một chuỗi thời gian trước và sau khi nó bị gián đoạn bởi nhiễu ngẫu nhiên. Nếu thêm một chút nhiễu vào chuỗi thời gian, hình dạng của nó sẽ bị mất. Hình 3.8 cho thấy một tập hợp các điểm dữ liệu trước và sau khi một số điểm nhiễu đã được thêm vào. Lưu ý rằng một số điểm nhiễu được trộn lẫn với các điểm không nhiễu.
Hình 3. 7: Nhiễu theo thơi gian
Hình 3. 8: Nhiễu theo không gian
Thuật ngữ nhiễu thường được sử dụng liên quan đến dữ liệu có thành phần không gian hoặc thời gian. Trong những trường hợp như vậy, các kỹ thuật từ xử lý tín hiệu hoặc hình ảnh thường có thể được sử dụng để giảm nhiễu và do đó, giúp phát hiện ra các mẫu (tín hiệu) có thể bị “mất trong nhiễu”. Tuy nhiên, việc loại bỏ nhiễu thường rất khó và nhiều công việc trong khai phá dữ liệu tập trung vào việc đưa ra các thuật toán mạnh tạo ra kết quả chấp nhận được ngay cả khi có nhiễu. Lỗi dữ liệu có thể là kết quả của một hiện tượng xác định hơn, chẳng hạn như một vệt ở cùng một vị trí trên một bộ ảnh. Những biến dạng mang tính xác định như vậy của dữ liệu thường được gọi là tạo tác (Artifacts).
c. Precision, Bias, và Accuracy
Trong thống kê và khoa học thực nghiệm, chất lượng của quá trình đo và dữ liệu kết quả được đo bằng precision và bias. Precision là mức độ ở trạng thái gần của các phép đo lặp lại (giống nhau số lượng) với nhau. Bias là một sự thay đổi có hệ thống của các phép đo từ đại lượng đang đo lường
Precision thường được đo bằng độ lệch chuẩn của một bộ giá trị, trong khi bias được đo bằng cách lấy hiệu số giữa giá trị trung bình của bộ giá trị và giá trị đã biết của đại lượng được đo. Bias chỉ có thể được xác định đối với các đối tượng có đại lượng đo được biết bằng các phương tiện bên ngoài. Giả sử rằng chúng ta có một quả cân phòng thí nghiệm tiêu chuẩn với khối lượng 1g và muốn đánh giá độ chính xác và độ chệch của cân phòng thí nghiệm mới. Chúng ta cân khối lượng năm lần và thu được năm giá trị sau: {1,015, 0,990, 1,013, 1,001, 0,986}. Giá trị trung bình của các giá trị này là 1,001 và do đó, độ lệch là 0,001. Precision được đo bằng độ lệch chuẩn là 0,013.
Người ta thường sử dụng thuật ngữ chung hơn đó là accuracy để chỉ mức độ sai số đo trong dữ liệu. Accuracy là mức độ ở trạng thái gâng của các phép đo với giá trị thực của đại lượng đang được đo lường.
Accuracy (độ chính xác) phụ thuộc vào Precision và Bias, nhưng không có công thức cụ thể cho độ chính xác về hai đại lượng này. Một khía cạnh quan trọng của độ
chính xác là việc sử dụng các chữ số có nghĩa. Mục đích là chỉ sử dụng càng nhiều chữ số để biểu thị kết quả của một phép đo hoặc phép tính được chứng minh bằng độ chính xác của dữ liệu. Ví dụ, nếu chiều dài của một đối tượng được đo bằng một que tính có vạch nhỏ nhất là milimét, thì chúng ta chỉ nên ghi lại độ dài của dữ liệu chính xác đến từng milimet.
Các vấn đề như chữ số có nghĩa, precision, bias, accuracy đôi khi bị bỏ qua, nhưng chúng rất quan trọng đối với khai phá dữ liệu cũng như thống kê và khoa học.
Nhiều khi, các bộ dữ liệu không đi kèm với thông tin về độ chính xác ± 0,5mm của dữ liệu và hơn nữa, các chương trình được sử dụng để phân tích trả về kết quả mà không có bất kỳ thông tin nào như vậy. Tuy nhiên, nếu không có một số hiểu biết về tính chính xác của dữ liệu và kết quả, một nhà phân tích có nguy cơ mắc phải những sai lầm nghiêm trọng trong phân tích dữ liệu.
d. Ngoại lai
Các đối tượng ngoại lai là (1) các đối tượng dữ liệu, theo một nghĩa nào đó, có các đặc điểm khác với hầu hết các đối tượng dữ liệu khác trong tập dữ liệu hoặc (2) các giá trị của một thuộc tính khác thường so với các giá trị điển hình của thuộc tính. Ngoài ra, chúng có thể được gọi là các đối tượng hoặc giá trị bất thường. Có một khoảng thời gian đáng kể trong việc định nghĩa về giá trị ngoại lai, và nhiều định nghĩa khác nhau đã được các cộng đồng thống kê và khai phá dữ liệu đề xuất. Hơn nữa, điều quan trọng là phải phân biệt giữa các khái niệm về nhiễu và các giá trị ngoại lai. Không giống như nhiễu, các giá trị ngoại lai có thể là các đối tượng hoặc giá trị dữ liệu hợp pháp mà chúng ta muốn phát hiện. Ví dụ, trong phát hiện gian lận và xâm nhập mạng, mục tiêu là tìm ra các đối tượng hoặc sự kiện bất thường trong số lượng lớn các sự kiện bình thường.
e. Giá trị bị mất
Không có gì lạ khi một đối tượng bị thiếu một hoặc nhiều giá trị thuộc tính. Trong một số trường hợp, thông tin không được thu thập; Ví dụ: một số người từ chối cho biết tuổi hoặc cân nặng của họ. Trong các trường hợp khác, một số thuộc tính không thể áp dụng cho tất cả các đối tượng; Ví dụ: thông thường, biểu mẫu có các phần điều kiện chỉ được điền khi một người trả lời câu hỏi trước đó theo một cách nhất định, nhưng để đơn giản, tất cả các trường đều được lưu trữ. Dù vậy, các giá trị bị thiếu cần được tính đến trong quá trình phân tích dữ liệu.
Loại bỏ các đối tượng hoặc thuộc tính dữ liệu
Một ý tưởng đơn giản và hiệu quả là loại bỏ các đối tượng có giá trị bị thiếu. Tuy nhiên, ngay cả một đối tượng dữ liệu được chỉ định một phần cũng chứa một số thông tin và nếu nhiều đối tượng có giá trị bị thiếu, thì một phân tích đáng tin cậy có thể khó hoặc không thể thực hiện được. Tuy nhiên, nếu tập dữ liệu chỉ có một vài đối tượng bị thiếu giá trị, thì có thể bắt buộc phải bỏ qua chúng. Một ý tưởng liên quan là loại bỏ các
thuộc tính có giá trị bị thiếu. Tuy nhiên, điều này cần được thực hiện một cách thận trọng vì các thuộc tính bị loại bỏ có thể là những thuộc tính quan trọng đối với phân tích.
Ước tính các giá trị bị thiếu
Đôi khi dữ liệu bị thiếu có thể được ước tính một cách đáng tin cậy. Ví dụ: hãy xem xét một chuỗi thời gian thay đổi theo xu hướng đều và bằng phẳng, nhưng có một vài giá trị bị thiếu, rải rác rộng rãi. Trong những trường hợp như vậy, các giá trị bị thiếu có thể được ước tính (nội suy) bằng cách sử dụng các giá trị còn lại. Ví dụ khác, hãy xem xét một tập dữ liệu có nhiều điểm dữ liệu giống nhau. Trong tình huống này, các giá trị thuộc tính của các điểm gần nhất với điểm có giá trị bị thiếu thường được sử dụng để ước tính giá trị bị thiếu. Nếu thuộc tính là liên tục, thì giá trị thuộc tính trung bình của các hàng xóm gần nhất được sử dụng; nếu thuộc tính là phân loại, thì giá trị thuộc tính phổ biến nhất có thể được lấy. Để có một minh họa cụ thể, hãy xem xét các phép đo lượng mưa được ghi lại bởi các trạm mặt đất. Đối với các khu vực không có trạm mặt đất, lượng mưa có thể được ước tính bằng cách sử dụng các giá trị quan sát được tại các trạm mặt đất gần đó.
Bỏ qua giá trị bị thiếu trong quá trình phân tích
Nhiều phương pháp khai phá dữ liệu có thể được sửa đổi để bỏ qua các giá trị bị thiếu. Ví dụ, giả sử rằng các đối tượng đang được phân nhóm và sự tương đồng giữa các cặp đối tượng dữ liệu cần được tính toán. Nếu một hoặc cả hai đối tượng của một cặp có giá trị bị thiếu đối với một số thuộc tính, thì mức độ tương tự có thể được tính bằng cách chỉ sử dụng các thuộc tính không có giá trị bị thiếu. Đúng là độ tương tự sẽ chỉ là gần đúng, nhưng trừ khi tổng số thuộc tính nhỏ hoặc số lượng giá trị bị thiếu nhiều, thì mức độ không chính xác này có thể không quan trọng lắm. Tương tự như vậy, nhiều lược đồ phân loại có thể được sửa đổi với các giá trị bị thiếu.
f. Giá trị không nhất quán
Dữ liệu có thể chứa các giá trị không nhất quán. Hãy xem xét một trường địa chỉ, nơi cả mã zip và thành phố đều được liệt kê, nhưng vùng mã zip được chỉ định không có trong thành phố đó. Có thể cá nhân nhập thông tin này đã chuyển đổi hai chữ số hoặc có thể một chữ số đã bị đọc sai khi thông tin được quét từ một biểu mẫu viết tay. Bất kể nguyên nhân của các giá trị không nhất quán là gì, điều quan trọng là phải phát hiện và nếu có thể, khắc phục các vấn đề đó. Một số dạng không nhất quán rất dễ phát hiện. Ví dụ: chiều cao của một người không được âm. Trong các trường hợp khác, có thể cần tham khảo nguồn thông tin bên ngoài. Ví dụ: khi một công ty bảo hiểm xử lý yêu cầu bồi hoàn, công ty bảo hiểm sẽ kiểm tra tên và địa chỉ trên các biểu mẫu bồi hoàn dựa trên cơ sở dữ liệu về khách hàng của mình. Khi đã phát hiện ra sự không nhất quán, đôi khi có thể sửa dữ liệu. Mã sản phẩm có thể có các chữ số “kiểm tra” hoặc có thể kiểm tra kỹ mã sản phẩm với danh sách các mã sản phẩm đã biết và sau đó sửa mã nếu nó không chính xác, nhưng gần với mã đã biết. Việc sửa chữa sự không nhất quán yêu cầu thông tin bổ sung hoặc dư thừa.
g. Dữ liệu trùng lặp
Tập dữ liệu có thể bao gồm các đối tượng dữ liệu trùng lặp hoặc gần như trùng lặp với nhau. Nhiều người nhận được thư trùng lặp vì chúng xuất hiện trong cơ sở dữ liệu nhiều lần dưới các tên hơi khác nhau. Để phát hiện và loại bỏ những sự trùng lặp đó, hai vấn đề chính phải được giải quyết. Đầu tiên, nếu có hai đối tượng thực sự đại diện cho một đối tượng, thì một hoặc nhiều giá trị của các thuộc tính tương ứng thường khác nhau và các giá trị không nhất quán này phải được giải quyết. Thứ hai, cần phải cẩn thận để tránh vô tình kết hợp các đối tượng dữ liệu tương tự, nhưng không trùng lặp, tạo ra hai người khác biệt có tên giống hệt nhau. Thuật ngữ khử trùng lặp thường được sử dụng để chỉ quá trình xử lý các vấn đề này.
Trong một số trường hợp, hai hoặc nhiều đối tượng giống hệt nhau về các thuộc tính, nhưng chúng vẫn đại diện cho các đối tượng khác nhau. Ở đây, các bản sao là hợp pháp, nhưng vẫn có thể gây ra sự cố cho một số thuật toán nếu khả năng các đối tượng giống hệt nhau không được tính toán cụ thể trong thiết kế của chúng.