CHƯƠNG 5: PHÂN TÍCH DỮ LIỆU TRUYỀN THỐNG
5.3. Phương pháp phân tích
5.3.1. Phân tích thống kê
Phân tích thống kê là quá trình thu thập và phân tích dữ liệu để phân biệt các mẫu và xu hướng. Đây là một phương pháp để loại bỏ sự thiên vị khỏi việc đánh giá dữ liệu bằng cách sử dụng phân tích số. Kỹ thuật này rất hữu ích để thu thập các diễn giải của nghiên cứu, phát triển các mô hình thống kê và lập kế hoạch cho các cuộc điều tra và nghiên cứu.
Phân tích thống kê là một công cụ khoa học giúp thu thập và phân tích một lượng lớn dữ liệu nhằm xác định các mẫu và xu hướng chung để chuyển chúng thành thông tin có ý nghĩa. Nói một cách dễ hiểu, phân tích thống kê là một công cụ phân tích dữ liệu giúp đưa ra các kết luận có ý nghĩa từ dữ liệu thô và phi cấu trúc.
Các kết luận được rút ra bằng cách sử dụng phân tích thống kê tạo điều kiện thuận lợi cho việc ra quyết định và giúp các doanh nghiệp đưa ra các dự đoán trong tương lai trên cơ sở các xu hướng trong quá khứ. Nó có thể được định nghĩa là một ngành khoa học thu thập và phân tích dữ liệu để xác định các xu hướng và hình thái và trình bày chúng. Phân tích thống kê liên quan đến việc làm việc với các con số và được các doanh nghiệp và các tổ chức khác sử dụng để tận dụng dữ liệu để thu được thông tin có ý nghĩa.
Trong bối cảnh các ứng dụng kinh doanh, nó là một kỹ thuật rất quan trọng đối với các tổ chức kinh doanh thông minh cần hoạt động với khối lượng dữ liệu lớn. Mục tiêu cơ bản của phân tích dữ liệu thống kê là xác định các xu hướng, ví dụ: trong kinh doanh bán lẻ, phương pháp này có thể được tiếp cận để phát hiện ra các mẫu trong dữ liệu người tiêu dùng không cấu trúc và bán cấu trúc có thể được sử dụng để đưa ra các quyết định mạnh mẽ hơn nhằm nâng cao trải nghiệm của khách hàng và tiến độ bán hàng. Ngoài ra, phân tích dữ liệu thống kê có nhiều ứng dụng khác nhau trong lĩnh vực phân tích thống kê nghiên cứu thị trường, kinh doanh thông minh (BI), phân tích dữ liệu trong dữ liệu lớn, máy học và học sâu, và phân tích tài chính và kinh tế.
Tầm quan trọng của dữ liệu trong phân tích dữ liệu thống kê:
• Dữ liệu bao gồm các biến đơn biến hoặc đa biến và cực kỳ dựa vào số lượng biến, các chuyên gia thực hiện một số kỹ thuật thống kê.
+ Nếu dữ liệu có một biến số ít thì có thể tiến hành phân tích dữ liệu thống kê đơn biến bao gồm kiểm định t về mức ý nghĩa, z test, f test, ANOVA- phân tích phương sai.
+ Và nếu dữ liệu có nhiều biến thì các kỹ thuật đa biến khác nhau có thể được thực hiện như phân tích dữ liệu thống kê hoặc phân tích dữ liệu thống kê phân biệt,…
Ở đây, biến là một đặc tính, biến đổi từ một tính trạng riêng lẻ của quần thể sang một tính trạng khác. Các biến như chiều cao và cân nặng được đo bằng một số loại thang đo, truyền tải thông tin định lượng và được gọi là biến định lượng. Giới tính và màu mắt cung cấp thông tin định tính và được gọi là các biến định tính. Hình 5.1 dưới đây cho thấy sự phân loại của các biến dữ liệu.
Hình 5. 1:Phân loại biến dữ liệu
Dữ liệu định lượng hoặc số được chia nhỏ thành các phép đo rời rạc và liên tục.
Dữ liệu số rời rạc được ghi lại dưới dạng số nguyên như 0, 1, 2, 3,… (số nguyên), trong khi dữ liệu liên tục có thể giả định bất kỳ giá trị nào. Các quan sát có thể đếm được tạo thành dữ liệu rời rạc và các quan sát có thể đo được tạo thành dữ liệu liên tục. Ví dụ về dữ liệu rời rạc là số lần ngừng hô hấp hoặc số lần đặt lại nội khí quản trong một đơn vị chăm sóc đặc biệt. Tương tự, các ví dụ về dữ liệu liên tục là mức đường huyết nối tiếp, áp suất riêng phần của oxy trong máu động mạch và nhiệt độ thực quản.
Thang đo thứ bậc tăng độ chính xác có thể được sử dụng để quan sát và ghi lại dữ liệu dựa trên các thang đo phân loại, thứ tự, khoảng và tỷ lệ thể hiện trên hình trên.
Các biến phân loại hoặc danh nghĩa không có thứ tự. Dữ liệu chỉ được phân loại thành các loại và không thể được sắp xếp theo bất kỳ thứ tự cụ thể nào. Nếu chỉ tồn tại hai danh mục (ở giới tính nam và nữ), nó được gọi là dữ liệu lưỡng phân (hoặc nhị phân).
Các nguyên nhân khác nhau của việc đặt lại nội khí quản trong phòng chăm sóc đặc biệt
do tắc nghẽn đường hô hấp trên, suy giảm khả năng bài tiết, giảm oxy máu, tăng CO2 máu, phù phổi và suy giảm chức năng thần kinh là những ví dụ về các biến phân loại.
Các biến thứ tự có thứ tự rõ ràng giữa các biến. Tuy nhiên, dữ liệu được sắp xếp có thể không có khoảng thời gian bằng nhau. Các biến đo định khoảng tương tự như một biến thứ tự, ngoại trừ các khoảng giữa các giá trị của biến khoảng cách đều nhau. Một ví dụ điển hình về thang đo định khoảng là thang đo độ F được sử dụng để đo nhiệt độ.
Với thang Fahrenheit, chênh lệch giữa 70° và 75° bằng chênh lệch giữa 80° và 85°: Các đơn vị đo lường bằng nhau trong toàn bộ phạm vi của thang đo.
Thang đo tỷ lệ tương tự như thang đo khoảng, ở chỗ sự khác biệt bằng nhau giữa các giá trị thang đo có ý nghĩa định lượng ngang nhau. Tuy nhiên, các thang tỷ lệ cũng có một điểm 0 thực sự, điều này mang lại cho chúng một đặc tính bổ sung. Ví dụ, hệ thống xăng-ti-mét là một ví dụ về thang tỷ lệ. Có một điểm 0 thực sự và giá trị 0 cm có nghĩa là hoàn toàn không có độ dài. Khoảng cách 6 cm của tuyến giáp ở người lớn có thể gấp đôi so với trẻ em có thể là 3 cm.
Công cụ phân tích dữ liệu thống kê: Nhiều chương trình phần mềm khác nhau có sẵn để thực hiện phân tích dữ liệu thống kê, những phần mềm này bao gồm Hệ thống phân tích thống kê (SAS), Gói thống kê cho Khoa học xã hội (SPSS), Stat soft và nhiều hơn nữa. Các công cụ này cho phép khả năng xử lý dữ liệu mở rộng và một số phương pháp phân tích thống kê có thể kiểm tra một đoạn nhỏ đến thống kê dữ liệu rất toàn diện. Mặc dù máy tính đóng vai trò là nhân tố quan trọng trong phân tích dữ liệu thống kê có thể hỗ trợ việc tổng hợp dữ liệu, nhưng phân tích dữ liệu thống kê tập trung vào việc giải thích kết quả để đưa ra các suy luận và tiên tri.
Loại phân tích thống kê
Có 2 loại phân tích thống kê chính:
• Phân tích mô tả: Phân tích thống kê mô tả bao gồm việc thu thập, giải thích, phân tích và tóm tắt dữ liệu để trình bày chúng dưới dạng biểu đồ, đồ thị và bảng.
Thay vì đưa ra kết luận, nó chỉ đơn giản là làm cho dữ liệu phức tạp dễ đọc và dễ hiểu.
• Phân tích suy luận: Phân tích thống kê suy luận tập trung vào việc rút ra các kết luận có ý nghĩa trên cơ sở dữ liệu được phân tích. Nó nghiên cứu mối quan hệ giữa các biến số khác nhau hoặc đưa ra dự đoán cho toàn bộ dân số.
a. Phân tích mô tả
Thống kê mô tả tóm tắt và tổ chức các đặc điểm của một tập dữ liệu. Tập dữ liệu là tập hợp các câu trả lời hoặc quan sát từ một mẫu hoặc toàn bộ tập hợp. Trong nghiên cứu định lượng, sau khi thu thập dữ liệu, bước đầu tiên của phân tích thống kê là mô tả đặc điểm của các câu trả lời, chẳng hạn như giá trị trung bình của một biến (ví dụ: tuổi) hoặc mối quan hệ giữa hai biến (ví dụ: tuổi và khả năng sáng tạo). Bước tiếp theo là số liệu thống kê suy luận, giúp bạn quyết định xem dữ liệu của bạn xác nhận hay bác bỏ
giả thuyết của bạn và liệu nó có thể khái quát hóa cho một nhóm dân số lớn hơn hay không.
Có 4 loại thống kê mô tả chính:
• Phân phối liên quan đến tần số của mỗi giá trị.
• Xu hướng trung tâm liên quan đến mức trung bình của các giá trị.
• Sự thay đổi hoặc phân tán.
• Sự biên đổi vị trí
Có thể áp dụng những điều này để đánh giá chỉ một biến tại một thời điểm, trong phân tích đơn biến hoặc để so sánh hai hoặc nhiều hơn, trong phân tích hai biến và đa biến.
Ví dụ: Nghiên cứu mức độ phổ biến của các hoạt động giải trí khác nhau theo giới tính. Thi cần phân phối một cuộc khảo sát và hỏi những người tham gia xem họ đã làm bao nhiêu lần mỗi việc sau đây trong năm qua:
• Đi đến thư viện
• Xem phim tại rạp chiếu phim
• Thăm công viên quốc gia
Tập dữ liệu thu được là tập hợp các câu trả lời cho cuộc khảo sát. Sau đó sử dụng thống kê mô tả để tìm ra tần suất tổng thể của từng hoạt động (phân phối), mức trung bình cho từng hoạt động (xu hướng trung tâm) và mức độ phổ biến của các phản hồi cho từng hoạt động (tính thay đổi).
• Các phép đo tần số
Trong phân tích mô tả, điều cần thiết là phải biết tần suất một sự kiện hoặc phản hồi nhất định có khả năng xảy ra. Đây là mục đích chính của các phép đo tần suất để tạo ra một số đếm hoặc phần trăm.
Ví dụ: hãy xem xét một cuộc khảo sát trong đó 500 người tham gia được hỏi về nhóm IPL yêu thích của họ. Danh sách 500 câu trả lời sẽ khó sử dụng và phù hợp, nhưng dữ liệu có thể dễ tiếp cận hơn nhiều bằng cách đo lường số lần một nhóm IPL nhất định đã được chọn.
• Xu hướng trung tâm
Trong phân tích mô tả, điều quan trọng là phải tìm ra Xu hướng hoặc phản ứng trung tâm (hoặc trung bình). Xu hướng trung tâm được đo lường bằng cách sử dụng ba mức trung bình - trung bình, trung vị và mode. Ví dụ, hãy xem xét một cuộc khảo sát trong đó cân nặng của 1.000 người được đo. Trong trường hợp này, giá trị trung bình trung bình sẽ là một số liệu mô tả tuyệt vời để đo lường các giá trị trung bình.
• Các biện pháp phân tán
Đôi khi, điều quan trọng là phải biết cách dữ liệu được phân chia trên một phạm vi.
Để giải thích rõ điều này, hãy xem xét trọng lượng trung bình của một mẫu gồm hai người. Nếu cả hai cá thể là 60 kg, trọng lượng trung bình sẽ là 60 kg. Tuy nhiên, nếu một con là 50 kg và con còn lại là 70 kg thì trọng lượng trung bình vẫn là 60 kg. Các phép đo phân tán như khoảng hoặc độ lệch chuẩn có thể được sử dụng để đo loại phân bố này.
• Các thước đo về vị trí
Phân tích mô tả cũng liên quan đến việc xác định vị trí của một giá trị đơn lẻ hoặc phản ứng của nó trong mối quan hệ với những giá trị khác. Các phép đo như phần trăm và phần tư trở nên rất hữu ích trong lĩnh vực chuyên môn này.
Kỹ thuật phân tích mô tả
Tổng hợp dữ liệu và khai thác dữ liệu là hai kỹ thuật được sử dụng trong phân tích mô tả để phân tích dữ liệu lịch sử. Trong tổng hợp dữ liệu, dữ liệu đầu tiên được thu thập và sau đó được sắp xếp để giúp các tập dữ liệu dễ quản lý hơn.
• Các kỹ thuật mô tả thường bao gồm việc xây dựng các bảng lượng tử và phương tiện, các phương pháp phân tán như phương sai hoặc độ lệch chuẩn, và lập bảng chéo hoặc “bảng chéo” có thể được sử dụng để thực hiện nhiều giả thuyết khác nhau. Những giả thuyết này thường làm nổi bật sự khác biệt giữa các nhóm con.
• Các phương pháp đo như phân biệt, phán đoán và bất thường được nghiên cứu bằng cách sử dụng các kỹ thuật mô tả chuyên biệt. Sự phán đoán được đo lường với sự trợ giúp của các nghiên cứu kiểm toán hoặc các phương pháp phân tích.
Sự phân biệt hơn trên cơ sở loại hoặc bất thường của các kết quả không cần phải hoàn toàn tốt hay xấu; đo lường chính xác các bước khác nhau trong không gian và thời gian là điều kiện tiên quyết để hiểu các quy trình này.
• Một bảng phương tiện theo nhóm con được sử dụng để chỉ ra những khác biệt quan trọng giữa các nhóm con, phần lớn dẫn đến kết luận và kết luận được đưa ra. Ví dụ, khi chúng ta nhận thấy sự chênh lệch trong thu nhập, chúng ta thường có xu hướng ngoại suy các lý do cho việc tuân thủ các mô hình đó. Nhưng điều này cũng đi vào tcác phạm vi đo lường các tác động đòi hỏi sử dụng các kỹ thuật khác nhau. Thông thường, sự biến đổi ngẫu nhiên gây ra sự khác biệt về phương tiện và cần có suy luận thống kê để xác định xem liệu sự khác biệt quan sát được có thể xảy ra đơn thuần do ngẫu nhiên hay không.
• Bảng chéo hoặc bảng hai chiều được cho là hiển thị tỷ lệ của các thành phần với các giá trị duy nhất cho mỗi trong số hai biến có sẵn, hoặc tỷ lệ ô.
Ưu điểm của Phân tích mô tả
• Mức độ khách quan và trung lập cao của các nhà nghiên cứu là một trong những lợi thế chính của Phân tích mô tả. Lý do tại sao các nhà nghiên cứu cần phải hết sức thận trọng là vì phân tích mô tả cho thấy các đặc điểm khác nhau của dữ liệu được trích xuất và nếu dữ liệu không khớp với xu hướng thì nó sẽ dẫn đến việc sự đổ xuống của dữ liệu lớn.
• Phân tích mô tả được coi là rộng lớn hơn các phương pháp định lượng khác và cung cấp một bức tranh rộng hơn về một sự kiện hoặc hiện tượng. Nó có thể sử dụng bất kỳ số lượng biến nào hoặc thậm chí một số biến đơn lẻ để thực hiện một nghiên cứu mô tả.
• Loại phân tích này được coi là một phương pháp tốt hơn để thu thập thông tin mô tả các mối quan hệ là tự nhiên và thể hiện thế giới như nó tồn tại. Lý do này làm cho phân tích này rất thực tế và gần gũi với con người vì tất cả các xu hướng được thực hiện sau khi nghiên cứu về hành vi thực của dữ liệu.
• Nó được coi là hữu ích để xác định các biến và giả thuyết mới có thể được phân tích thêm thông qua các nghiên cứu thực nghiệm và suy luận. Nó được coi là hữu ích vì tỷ lệ sai sót là rất ít khi chúng tôi lấy các xu hướng trực tiếp từ các thuộc tính dữ liệu.
• Loại nghiên cứu này mang lại cho nhà nghiên cứu sự linh hoạt trong việc sử dụng cả dữ liệu định lượng và định tính để khám phá các thuộc tính của tổng thể.
Ví dụ, các nhà nghiên cứu có thể sử dụng cả hai nghiên cứu điển hình là phân tích định tính và phân tích tương quan để mô tả một hiện tượng theo cách riêng của nó. Sử dụng các nghiên cứu điển hình để mô tả con người, sự kiện, tổ chức cho phép nhà nghiên cứu hiểu được hành vi và khuôn mẫu của nhóm có liên quan đến mức tối đa tiềm năng của nó.
Trong trường hợp các cuộc khảo sát bao gồm một trong các loại Phân tích mô tả chính, nhà nghiên cứu có xu hướng thu thập các điểm dữ liệu từ một số lượng mẫu tương đối lớn, không giống như các nghiên cứu thực nghiệm thường cần các mẫu nhỏ hơn.
b. Thống kê suy luận
Thống kê suy luận có thể được định nghĩa là một lĩnh vực thống kê sử dụng các công cụ phân tích để đưa ra kết luận về một tổng thể bằng cách kiểm tra các mẫu ngẫu nhiên. Mục tiêu của thống kê suy luận là tạo ra những khái quát về dân số. Trong thống kê suy luận, một thống kê được lấy từ dữ liệu mẫu (ví dụ: trung bình mẫu) được sử dụng để đưa ra suy luận về tham số tổng thể (ví dụ: trung bình tổng thể).
Không giống như thống kê suy luận, thống kê mô tả chỉ đơn giản mô tả một tập dữ liệu mà không giúp rút ra các suy luận. Trong bối cảnh này, thống kê suy luận được cho là vượt ra ngoài thống kê mô tả. Nó đặc biệt được sử dụng khi không thể kiểm tra từng điểm dữ liệu của tổng thể.