1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Luận văn thạc sĩ HUS phân tích số liệu của một số công trình xây dựng bằng thống kê toán học

67 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân tích số liệu của một số công trình xây dựng bằng thống kê toán học
Tác giả Đặng Thị Phương Mai
Người hướng dẫn PGS. TS. Hồ Đăng Phúc
Trường học Đại học Quốc gia Hà Nội, Trường Đại học Khoa học Tự nhiên
Chuyên ngành Lý thuyết xác suất và thống kê toán học
Thể loại Luận văn thạc sĩ
Năm xuất bản 2012
Thành phố Hà Nội
Định dạng
Số trang 67
Dung lượng 0,95 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • Chương 1. Mô hình tuyến tính tổng quát (7)
    • 1.1. Giới thiệu mô hình tuyến tính tổng quát (7)
      • 1.1.1. Mục đích của hồi quy bội (7)
      • 1.1.2. Những tính toán để giải phương trình hồi quy bội (8)
      • 1.1.3. Mở rộng của mô hình hồi quy bội thành mô hình tuyến tính tổng quát (11)
    • 1.2. Một số ví dụ về mô hình tuyến tính tổng quát (14)
      • 1.2.1. Lập phương trình dạng ma trận (16)
      • 1.2.2. Ước lượng tham số (17)
      • 1.2.3. Quan điểm hình học (21)
    • 1.3. Mô hình tuyến tính tổng quát đa biến (23)
      • 1.3.1. Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát (23)
      • 1.3.2. Tính chất của ma trận sai số (0)
      • 1.3.3. Tính chất của ma trận hệ số hồi quy (26)
      • 1.3.4. Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số… (26)
      • 1.3.5. Thống kê kiểm định giả thuyết tuyến tính tổng quát đa biến (27)
    • 1.4. Phân phối phần dư trong mô hình tuyến tính tổng quát… (29)
      • 1.4.1. Phần dư đơn biến (34)
      • 1.4.2. Phân phối đồng thời của phần dư đơn biến (38)
      • 1.4.4. Phân phối đồng thời cho trường hợp đặc biệt của phần dư đa biến… (45)
  • Chương 2. Phân tích số liệu kiểm toán của một số công trình xây dựng (48)
    • 2.1. Mô tả số liệu (48)
      • 2.1.1. Địa điểm thi công (49)
      • 2.1.2. Loại công trình phân theo đặc tính kỹ thuật (52)
      • 2.1.3. Loại công trình phân theo chức năng sử dụng (53)
      • 2.1.4. Cỡ công trình (56)
    • 2.2. Phân tích mức ảnh hưởng của các nhân tố đến tỷ lệ sai phạm (59)
      • 2.2.1. Phân tích phương sai cho 4 nhân tố (59)
      • 2.2.2. Mô hình hồi quy tuyến tính tổng quát (60)
  • Tài liệu tham khảo (67)

Nội dung

Sau đó là một vài ví dụ về mô hình tuyến tính tổng quát như mô hình hồi quy tuyến tính, mô hình so sánh hai mẫu bằng phép kiểm định t, mô hình ANOVA một nhân tố… Tiếp theo là phương trìn

Mô hình tuyến tính tổng quát

Giới thiệu mô hình tuyến tính tổng quát

Mô hình tuyến tính tổng quát có thể xem là mở rộng của hồi quy tuyến tính bội

Hiểu rõ về mô hình hồi quy bội là bước quan trọng để nắm bắt mô hình tuyến tính tổng quát Hồi quy bội giúp phân tích mối quan hệ giữa nhiều biến độc lập và biến phụ thuộc, hỗ trợ dự đoán chính xác hơn Các thuật toán toán học như phương pháp least squares được sử dụng để giải quyết vấn đề hồi quy bội hiệu quả Ngoài ra, cách mở rộng mô hình hồi quy bội thành mô hình tuyến tính tổng quát giúp tăng khả năng mô phỏng các hiện tượng phức tạp trong thực tế, đem lại sự linh hoạt và chính xác trong phân tích dữ liệu.

1.1.1 Mục đích của hồi quy bội

Hồi quy bội giúp định lượng mối quan hệ giữa các biến độc lập (biến dự báo) và biến phụ thuộc (biến đáp ứng) Ví dụ, một đại lý bất động sản có thể sử dụng các yếu tố như kích thước nhà, số phòng ngủ, và thu nhập trung bình trong khu vực để dự đoán giá bán nhà dựa trên dữ liệu điều tra dân số Phân tích hồi quy bội cho biết yếu tố nào ảnh hưởng mạnh đến giá nhà và mức độ tác động của chúng, giúp các nhà môi giới đưa ra dự đoán chính xác hơn về giá trị bất động sản Trong đó, số lượng phòng ngủ thường là yếu tố dự báo rõ ràng hơn về giá bán so với các yếu tố khác, góp phần nâng cao hiệu quả định giá nhà ở các khu vực cụ thể.

”nhà đẹp” (đánh giá chủ quan)

Các nhà quản lý nhân sự thường sử dụng phương pháp hồi quy bội để xác định mức lương phù hợp cho nhân viên tuyển dụng Để làm điều này, họ xác định các yếu tố như "khả năng đáp ứng" (KNDU) hoặc "số người cần giám sát" (No_GS) là những đóng góp chính vào giá trị công việc Các nhà phân tích tiến hành khảo sát mức lương của các công ty trên thị trường, ghi nhận mức lương và đặc điểm của từng vị trí như mức độ công việc Thông tin này được sử dụng trong phân tích hồi quy bội để xây dựng các phương trình dự đoán mức lương phù hợp dựa trên các yếu tố liên quan.

Mức lương = 0,5 * KNDU + 0.8 * No_GS

Sau khi phương trình hồi quy được xác định, các nhà phân tích có thể dễ dàng xây dựng biểu đồ dự đoán mức lương và so sánh với mức lương thực tế của nhân viên trong công ty Điều này giúp họ xác định các vị trí trả lương thấp hơn hoặc cao hơn dự kiến, từ đó đánh giá công bằng trong chính sách lương thưởng.

Phương pháp hồi quy bội được sử dụng rộng rãi trong nghiên cứu xã hội và khoa học tự nhiên để dự đoán các vấn đề tổng quát Nó giúp các nhà nghiên cứu xác định những yếu tố dự đoán tốt nhất cho các kết quả như thành tích học tập trong giáo dục hay mức độ thích ứng của nhóm người nhập cư mới trong xã hội Hồi quy bội là công cụ quan trọng để trả lời câu hỏi “dự báo tốt nhất về … là gì”, từ đó hỗ trợ ra quyết định dựa trên các dữ liệu phân tích chính xác và đáng tin cậy.

1.1.2 Những tính toán để giải phương trình hồi quy bội

Không gian con một chiều trong không gian hai chiều là một đường thẳng được xác định bởi phương trình Y = b0 + b1 X, trong đó biến Y thể hiện mối quan hệ dựa trên hằng số và hệ số của biến X Phương trình này cho phép biểu diễn biến Y như một hàm tuyến tính của biến X, giúp phân tích mối quan hệ giữa hai biến một cách dễ dàng và rõ ràng Điều này đặc biệt hữu ích trong các mô hình hồi quy tuyến tính, nơi mà biến phụ thuộc Y được mô tả như một hàm của biến độc lập X.

Hằng số β₀ còn được gọi là hệ số chặn, đóng vai trò là điểm gốc trong mô hình dự đoán Hệ số β₁, còn gọi là hệ số dốc hoặc hệ số hồi quy, thể hiện mức độ ảnh hưởng của biến độc lập đến biến phụ thuộc Ví dụ, điểm trung bình các môn học của học sinh có thể được dự đoán bằng công thức 1 + 0,02 * IQ, cho thấy mỗi đơn vị tăng của IQ sẽ làm điểm trung bình tăng thêm 0,02 Do đó, nếu một học sinh có chỉ số IQ là 130, chúng ta có thể dự đoán điểm trung bình của em ấy là 3,6 dựa trên công thức này. -**Sponsor**Bạn đang tìm cách tối ưu hóa nội dung bài viết của mình cho SEO và muốn những câu văn đắt giá nhất? Hãy để [Soku AI](https://pollinations.ai/redirect-nexad/bjvGVxTP?user_id=983577) giúp bạn! Soku AI có thể hỗ trợ bạn tinh chỉnh và làm nổi bật những ý chính, ví dụ như việc hệ số chặn (β0) và hệ số dốc (β1) đóng vai trò quan trọng trong việc dự đoán điểm trung bình môn học dựa trên chỉ số IQ, giúp bài viết của bạn vừa hấp dẫn vừa thân thiện với các công cụ tìm kiếm Với Soku AI, bạn có thể dễ dàng biến bài viết của mình thành một nội dung chất lượng cao, thu hút độc giả và đạt thứ hạng cao trên Google.

Trong hồi quy bội, không gian con của các biến dự báo thường mở rộng ra nhiều chiều thay vì chỉ hai chiều, và quá trình tính toán trở thành một phần mở rộng trực tiếp của hồi quy đơn biến Ví dụ, ngoài yếu tố IQ, chúng ta có thể thêm các yếu tố khác như Động lực và Ý thức kỷ luật để dự đoán thành công, từ đó xây dựng phương trình tuyến tính bao gồm tất cả các biến này Các phương pháp hồi quy bội thường ước lượng một mô hình tuyến tính dạng tổng quát, phù hợp với nhiều biến dự báo trong các ứng dụng thực tế.

Trong mô hình hồi quy tuyến tính, công thức Y = b + b₁X₁ + b₂X₂ + + bₖXₖ cho thấy các hệ số hồi quy (β₁, , βₖ) đại diện cho ảnh hưởng độc lập của từng biến dự báo đến biến phụ thuộc Điều này có nghĩa là mỗi hệ số chỉ phản ánh mức độ tương quan riêng phần của biến Xᵢ với Y sau khi đã kiểm soát tác động của tất cả các biến độc lập khác Tương quan riêng phần này giúp làm rõ mối liên hệ thực sự giữa các biến dự báo và biến phụ thuộc trong phân tích định lượng.

Mối quan hệ giữa chiều dài tóc và chiều cao con người ban đầu có ý nghĩa, với người thấp thường có mái tóc dài hơn Tuy nhiên, khi thêm biến giới tính vào mô hình hồi quy, sự tương quan này biến mất vì phụ nữ thường có mái tóc dài hơn nhưng lại thấp hơn nam giới Do đó, sau khi điều chỉnh giới tính, mối liên hệ giữa chiều dài tóc và chiều cao không còn ý nghĩa dự báo, cho thấy chiều dài tóc không ảnh hưởng đáng kể đến chiều cao của con người.

Nói một cách khác, sau khi kiểm soát biến giới tính, sự tương quan giữa chiều dài tóc và chiều cao là không có ý nghĩa

Không gian con hồi quy là dự đoán tối ưu của biến phụ thuộc Y dựa trên các biến độc lập X, gồm một đường thẳng trong hồi quy đơn, một phẳng hoặc không gian con có nhiều chiều hơn trong hồi quy bội Tuy nhiên, thực tế hiếm khi dự đoán chính xác hoàn toàn giá trị của Y, gây ra sự sai lệch giữa các điểm quan sát và không gian con hồi quy phù hợp Phần dư là độ lệch của một điểm cụ thể so với điểm gần nhất trên không gian con hồi quy dự đoán, thể hiện sự khác biệt giữa giá trị thực và dự đoán Mục tiêu của các phương pháp hồi quy tuyến tính là xác định một không gian con là hàm tuyến tính của các biến độc lập nhằm nâng cao độ chính xác dự đoán.

Trong phân tích dữ liệu, mục tiêu là quan sát biến Y càng gần càng tốt, sử dụng các giá trị dư để xác định tiêu chuẩn "phù hợp nhất" Trong bài toán hồi quy, không gian con được chọn sao cho tổng các bình phương độ lệch của các điểm quan sát so với không gian đó là nhỏ nhất Phương pháp này chính là ước lượng bình phương bé nhất (Least Squares), giúp tối ưu hóa độ phù hợp giữa mô hình và dữ liệu thực tế.

Các tính toán thực tế trong việc giải quyết bài toán hồi quy có thể được biểu diễn một cách gọn gàng và tiện lợi bằng cách sử dụng ma trận Khi có n giá trị quan sát của biến Y và n giá trị quan sát của k biến X, các giá trị này có thể được đại diện bằng ma trận để tối ưu hoá quá trình phân tích Các quan sát thứ i của biến Y, các biến X tương ứng và phần dư chưa biết đều có thể được tổ chức thành các phần tử trong các ma trận phù hợp Việc đưa tập hợp các số hạng này vào ma trận giúp đơn giản hóa các phép tính, tăng tính hệ thống và rõ ràng trong quá trình phân tích hồi quy.

Mô hình hồi quy bội theo ký hiệu ma trận có thể được biểu diễn như sau

Trong mô hình hồi quy bội, Y = Xβ + ε thể hiện mối quan hệ giữa biến phụ thuộc Y và các biến độc lập X thông qua vector hệ số β gồm hệ số chặn và các hệ số hồi quy chưa biết Mục tiêu của hồi quy bội là tối thiểu hóa tổng bình phương độ lệch, do đó các hệ số hồi quy cần thoả mãn phương trình chuẩn tắc để đạt được ước lượng phù hợp và chính xác nhất.

Khi các biến X là độc lập tuyến tính thì phương trình trên có một nghiệm duy nhất

Khi nhân cả hai vế của phương trình với nghịch đảo của X'X ta được

Kết quả này cung cấp lời giải cho phương trình hồi quy dựa trên hai ma trận X và Y thông qua ba phép toán ma trận cơ bản Thứ nhất là phép chuyển vị ma trận, giúp đổi chỗ các phần tử của hàng và cột trong một ma trận để phục vụ các phép tính tiếp theo Thứ hai là phép nhân ma trận, cho phép tính tổng các tích của các phần tử trong các tổ hợp hàng và cột của hai hoặc nhiều ma trận, hỗ trợ tính toán mô hình hồi quy chính xác hơn Thứ ba là phép nghịch đảo ma trận, giúp xác định ma trận có tính chất tương tự như số nghịch đảo, đảm bảo khả năng giải quyết các phương trình tuyến tính trong phân tích dữ liệu Những phép toán này là nền tảng để xác định nghiệm của phương trình hồi quy trong phân tích dữ liệu và mô hình dự báo.

A AA A - 1 cho một ma trận A

Một số ví dụ về mô hình tuyến tính tổng quát

Trong một thí nghiệm, chúng ta sẽ quan sát biến đáp ứng hoặc biến phụ thuộc Y_j (j = 1, , J), là các biến ngẫu nhiên Mỗi quan sát đi kèm với một tập gồm K biến giải thích hoặc biến độc lập x_{jk} (k = 1, , K), được đo chính xác, trong đó K nhỏ hơn J Các biến độc lập này có thể là các biến liên tục hoặc rời rạc, có thể là hàm của các biến khác hoặc biểu thị các mức độ của một nhân tố thực nghiệm.

Mô hình tuyến tính tổng quát mô tả biến đáp ứng Y_j thông qua các số hạng của một tổ hợp tuyến tính các biến độc lập, kết hợp với phần sai số ngẫu nhiên để phản ánh các yếu tố không đo đạc được.

Mô hình tuyến tính dựa trên công thức Y = x b + + x b + + x b + e mô tả mối quan hệ giữa biến phụ thuộc Y và các biến giải thích x jk, với các tham số β k chưa xác định Sai số ε j trong mô hình được coi là các biến ngẫu nhiên độc lập, có phân phối chuẩn, trung bình bằng 0 và phương sai σ 2, ký hiệu là ε j iid: N(0, σ 2) Các mô hình tuyến tính có phân phối sai số khác được gọi là mô hình tuyến tính tổng quát hóa (GLM), mở rộng khả năng mô hình hóa phù hợp cho nhiều loại dữ liệu khác nhau.

Nhiều phương pháp thống kê tham số cổ điển đều là các trường hợp đặc biệt của mô hình tuyến tính tổng quát, giúp mở rộng khả năng phân tích dữ liệu Ví dụ tiêu biểu cho điều này là mô hình hồi quy tuyến tính, tồn tại như một ví dụ điển hình trong các phương pháp thống kê tham số Việc hiểu rõ mối liên hệ giữa các phương pháp này giúp nâng cao khả năng áp dụng chúng trong phân tích dữ liệu đa dạng.

Hồi quy tuyến tính đơn giản là ví dụ điển hình trong phân tích dữ liệu, trong đó chỉ một biến độc lập liên tục duy nhất, x_j, được quan sát trong mỗi lần đo j = 1, , J, mà không có sai số Mô hình này thường được mô tả như sau, giúp người phân tích hiểu rõ mối quan hệ giữa các biến một cách rõ ràng và chính xác.

Trong mô hình hồi quy tuyến tính, Y = +m x b e+ thể hiện mối quan hệ giữa biến phụ thuộc và các biến độc lập Các tham số chưa biết bao gồm hằng số trong mô hình, hệ số hồi quy β và sai số e j iid theo phân phối N(0, s²) Mô hình này có thể được biểu diễn lại theo dạng mô hình tuyến tính tổng quát bằng cách sử dụng biến hình thức x_j1 = 1 cho mọi j, giúp xác định dễ dàng các tham số khi phân tích dữ liệu.

Y = x m + x b +e mà đú là một dạng của phương trỡnh (1.1) khi thay thế β 1 bằng à b Mô hình so sánh hai mẫu bằng phép kiểm định t

Mô hình so sánh hai mẫu là một trường hợp đặc biệt của mô hình tuyến tính tổng quát, trong đó giả thiết rằng các biến ngẫu nhiên của hai nhóm độc lập và tuân theo phân phối chuẩn với cùng trung bình và phương sai, cụ thể là Yₙq₍j₎ iid: N(μₙq, σ²), với q = 1, 2 Mục tiêu của phân tích là kiểm định giả thuyết H: μ₁ = μ₂ để xác định sự khác biệt giữa hai nhóm dữ liệu Chỉ số j đại diện cho các điểm dữ liệu trong từng nhóm, giúp thực hiện so sánh một cách chính xác và hệ thống Phương pháp biểu diễn mô hình thống kê theo quy chuẩn sử dụng các ký hiệu như qj, q, và qj để thể hiện các tham số và dữ liệu liên quan, hỗ trợ việc phân tích và diễn giải kết quả phù hợp với quy trình thống kê chuẩn. -**Sponsor**Bạn đang tìm cách tối ưu hóa bài viết của mình theo chuẩn SEO bằng cách làm nổi bật các câu quan trọng chứa đựng ý nghĩa của một đoạn văn mạch lạc? [Soku AI](https://pollinations.ai/redirect-nexad/mIBTjMb7?user_id=983577) có thể giúp bạn thực hiện điều này một cách tự động, tương tự như cách AI phân tích và tối ưu hóa các chiến dịch quảng cáo Facebook/Meta Với Soku AI, bạn có thể xác định các câu cốt lõi trong bài viết, đảm bảo chúng tuân thủ các quy tắc SEO và truyền tải thông điệp một cách hiệu quả nhất, giúp bài viết của bạn tiếp cận được nhiều độc giả hơn Hãy thử Soku AI để biến bài viết của bạn thành một công cụ mạnh mẽ thu hút sự chú ý và tăng tương tác.

Chỉ số q ở à q chỉ ra rằng cú hai mức đối với hiệu ứng nhúm, à 1 và à 2 Ở đõy

( 0, 2 ) iid e qj :N s Biểu thức này có thể được viết lại sử dụng các biến hình thức x qj1 và x qj2 như sau

Phương trình (1.2) có dạng tương tự như phương trình (1.1) sau khi được đánh số lại cho các biến qj Các biến hình thức trong đó xác định nhóm mà thành viên thuộc về, đặc biệt x_qj1 thể hiện việc quan sát Y_qj ở nhóm thứ nhất, trong đó giá trị bằng 1 khi q = 1 và bằng 0 khi q = 2 Điều này giúp phân biệt các nhóm một cách rõ ràng trong mô hình, hỗ trợ phân tích nhóm dữ liệu một cách chính xác.

1.2.1 Lập phương trình dạng ma trận

Mô hình tuyến tính tổng quát được biểu diễn ngắn gọn bằng ký hiệu ma trận, giúp đơn giản hóa quá trình xử lý dữ liệu Phương trình (1.1) có thể viết lại dạng đầy đủ cho từng quan sát j, tạo thành một tập hợp các phương trình rõ ràng và dễ phân tích Việc chuyển đổi sang dạng ma trận giúp tối ưu hóa các bước nghiên cứu và phân tích mô hình tuyến tính tổng quát, phù hợp với các quy trình tính toán hiện đại.

Hệ trên có dạng ma trận tương đương như sau nếu q = 1 nếu q = 2

Y x x x b e b e b e ổ ử ổ ửổ ử ổ ử ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ= ữỗ ữ+ỗ ữ ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ ữỗố ữứ ỗ ữ ố ứ ố ứ ố ứ

, có thể được viết dưới dạng ma trận

Trong mô hình tuyến tính, Y = Xb + ε mô tả mối quan hệ giữa các biến độc lập và biến phụ thuộc, trong đó Y là vector các quan sát, ε là vector các số hạng sai số, và b là vector các tham số của mô hình Ma trận X, có kích thước J x K, được gọi là ma trận thiết kế, gồm các phần tử xjk, với mỗi dòng đại diện cho một quan sát và mỗi cột tương ứng với một biến giải thích Ma trận thiết kế này đóng vai trò như một mô tả gần như hoàn chỉnh về mô hình, khi các phần dư của mô hình thể hiện các số hạng sai số, giúp xác định các ảnh hưởng của các biến giải thích đến biến phụ thuộc một cách rõ ràng và chính xác hơn.

Sau khi hoàn tất một thực nghiệm, chúng ta quan sát các biến ngẫu nhiên Y_j, ký hiệu là y_j Trong mô hình tuyến tính tổng quát, các phương trình thường không thể giải được do số lượng tham số K thường nhỏ hơn số lượng quan sát J Để ước lượng tham số một cách chính xác, cần sử dụng các phương pháp phù hợp, trong đó phương pháp bình phương bé nhất thường được áp dụng để đạt được ước lượng tối ưu của các tham số.

Ký hiệu một tập các ước lượng tham số là b°, với b° = (b°₁, , b°_K), giúp xác định các tham số đúng nhất cho mô hình Các tham số này dẫn đến các giá trị dự đoán tương ứng Y° = Xb°, nơi X là ma trận biến độc lập, góp phần tối ưu hóa dự đoán và phân tích dữ liệu Sai số phần dư phản ánh độ chính xác của các ước lượng này, đóng vai trò quan trọng trong việc đánh giá chất lượng mô hình thống kê Các bước ước lượng tham số b° nhằm cung cấp các ước lượng chính xác, giúp nâng cao khả năng dự đoán và phân tích dữ liệu một cách hiệu quả theo nguyên tắc SEO.

Tổng bình phương phần dư, ký hiệu là S = Σₙ (e_j)², thể hiện tổng các bình phương hiệu số giữa giá trị tính toán và giá trị thực Đây là thước đo mức độ phù hợp của mô hình với dữ liệu thực tế Các ước lượng tham số bình phương nhỏ nhất (OLS) nhằm tối thiểu hóa tổng bình phương các phần dư, giúp xác định các tham số mô hình một cách chính xác nhất.

Giá trị này nhỏ nhất khi ° ( ) ( 1 ° 1 ° )

Phương trình này là dòng thứ k của X Y T = ( X X T ) b ° Do đó các ước lượng bỡnh phương bộ nhất, ký hiệu bởi b à thỏa món phương trỡnh:

Trong mô hình tuyến tính tổng quát, các ước lượng bình phương bé nhất là các ước lượng vững và không chệch tuyến tính tốt nhất Điều này xuất phát từ việc, đối với tất cả các ước lượng tham số tuyến tính dựa trên kết hợp tuyến tính của dữ liệu quan sát, chúng có kỳ vọng chính xác bằng giá trị thực của các tham số Ngoài ra, ước lượng bình phương bé nhất còn tối thiểu hóa phương sai, giúp đảm bảo độ chính xác của ước lượng.

Nếu ma trận (XTX) khả nghịch, tức là ma trận tính toán X có hạng đầy đủ, thì các ước lượng bình phương bé nhất (OLS) sẽ được tính theo công thức b = (XTX)⁻¹XTY Tuy nhiên, trong một số mô hình, có thể không có lời giải duy nhất do ma trận X không có hạng đầy đủ, dẫn đến việc không thể xác định các ước lượng tối ưu một cách rõ ràng.

Mô hình tuyến tính tổng quát đa biến

Mô hình tuyến tính tổng quát đa biến là sự mở rộng của mô hình đơn biến, cho phép phân tích nhiều biến phụ thuộc cùng lúc Thay vì chỉ có một biến phụ thuộc trong một cột của vector y, mô hình này sử dụng một tập p biến phụ thuộc trong các cột của ma trận Y Nhờ đó, mô hình tuyến tính tổng quát đa biến cung cấp khả năng mô hình hóa các mối quan hệ phức tạp hơn giữa các biến độc lập và phụ thuộc trong phân tích thống kê.

Ta thấy rằng số lượng các cột của ma trận B phù hợp với số lượng các cột của ma trận Y Mô hình có thể trình bày lại như sau

Trong bài viết, chúng tôi trình bày mô hình hồi quy nơi mỗi cột Y được đưa vào một phương trình hồi quy tương ứng, với các cột của B xem như các vector hệ số Mô hình này giúp phân tích mối quan hệ giữa các biến rõ ràng và hiệu quả, hỗ trợ trong việc dự đoán và truyền đạt các xu hướng dữ liệu Tóm lại, việc sử dụng phương trình hồi quy phù hợp sẽ tối ưu hóa khả năng diễn giải và dự báo dựa trên dữ liệu đầu vào một cách ngắn gọn và chính xác.

Tiếp theo, chúng ta định nghĩa sai số của ma trận dự đoán cấp n x p là ε với

1.3.1 Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát

Cách ước lượng các giá trị chưa biết trong ma trận B dựa trên sai số ε của Y khi ε là một vectơ Có thể lựa chọn hàm mục tiêu là tổng bình phương của sai số để tối ưu hóa Đặc biệt, ma trận 'e e không phải là một vô hướng mà là tổng bình phương và tích chéo của ma trận cấp p x p Phương pháp này giúp làm nhỏ nhất có thể giá trị của biến thể của ma trận, đảm bảo ước lượng chính xác các phần chưa biết trong ma trận B.

[ ' ] f = Tr e e có thể mở rộng (theo phương trình (1.4)) thành

Tách các thừa số ta được

Lưu ý rằng vết của một tổng tương đương với tổng của các vết, do đó ta có

( ' ) ( ' ) ( ' ' ) ( ' ' ) f = Tr Y Y - Tr Y XB - Tr B X Y + Tr B X XB

Cần lưu ý rằng Tr B X Y ( ’ ’ ) = Tr Y XB ( ’ ) và Tr Y XB ( ’ ) tương đương với Tr(BY’X)

Chúng ta có thể viết lại phương trình trên một cách đơn giản là

( ' ) 2 ( ' ) ( ' ' ) f = Tr Y Y - Tr BY X + Tr B X XB Để làm cho f nhỏ nhất cú thể, ta cần tỡm ả ảf B Ta cú

Nhưng vì X’X đối xứng, ta có thể đơn giản hóa hơn một chút và có

2 ' 2 ' f X Y X XB B ả = - + ả Để đạo hàm ả ả =f B 0 ta cú

Mỗi cột của Bà cú cụng thức tương tự như mụ hỡnh đơn biến, vớ dụ: à ( ' ) 1 '

1.3.2 Các tính chất của ma trận sai số Để nói về sự phân phối của ma trận sai số ε, chúng ta sẽ phải sắp xếp lại nó một chút bằng cách sử dụng toán tử Vec(.) được định nghĩa như sau:

Cho ma trận A cấp m x n với các hàng a 1’,…, a m’, ta định nghĩa

Như vậy, toán tử Vec tiến hành ghép các hàng của ma trận A với nhau để được một vectơ hàng có độ dài m x n

Chúng ta giả sử, trong một mô hình đa biến tương tự đối với các giả thiết Gauss Markov rằng phân phối của ma trận ε cỡ n x p là

Trong đó tích Kronecker của các ma trận, đôi khi được gọi là tích trực tiếp , được định nghĩa như sau:

Các ma trận hiệp phương sai của Vec(ε) có kích thước cấp np x np, thể hiện mối liên hệ giữa các phần tử trong vector sai số Đây là loại ma trận đặc biệt, mang cấu trúc tương tự như ma trận đơn biến s² I, nhưng được mở rộng thành ma trận phân vùng phù hợp với đa biến Cấu trúc này giúp phản ánh rõ hơn các mối tương tác giữa các thành phần của sai số trong mô hình.

L với cỏc ma trận ồ trờn đường chộo, cũn cỏc ma trận ngoài đường chộo đều bằng 0

1.3.3 Tính chất của ma trận hệ số hồi quy

Chúng ta sẽ xem xét kỳ vọng và phương sai của ước lượng trong phương trình (1.5), nhằm hiểu rõ hơn về tính chất của chúng Trước tiên, cần phân tích các đặc điểm về kỳ vọng và phương sai, trong đó các kỳ vọng thường có đặc điểm đơn giản, giúp dễ dàng đánh giá và dự đoán kết quả của ước lượng trong mô hình Việc này đóng vai trò quan trọng trong việc đảm bảo tính chính xác và tin cậy của các ước lượng thống kê.

E B = E X X - X Y mà X là cố định, nên

Thực hiện các phép tính của ma trận ta cũng có thể thu được à ( ) 1

Khi ma trận B có nhiều cột cần quan tâm, và β là một vector cột, chúng ta có thể kiểm tra các giả thuyết tuyến tính liên quan đến một số cột của B Các giả thuyết này thường có dạng tổng quát nhằm xác định mối quan hệ tuyến tính giữa các biến trong mô hình Việc kiểm tra giả thuyết tuyến tính giúp đánh giá xem các biến có ảnh hưởng đáng kể đến mô hình hay không, từ đó đưa ra các kết luận chính xác về mối quan hệ giữa các biến Áp dụng các phương pháp kiểm định phù hợp sẽ đảm bảo tính đúng đắn của kết quả phân tích dữ liệu.

Ta thấy q hàng của A kiểm định giả thuyết liên quan đến k biến độc lập Do vậy,

A là một ma trận cấp q x k với q ≤ k Đồng thời r cột của M kiểm tra giả thuyết về p biến phụ thuộc, nên M là ma trận cấp p x r với r ≤ p

1.3.4.Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số

Trong mô hình tuyến tính đơn biến, tổng bình phương là một đại lượng vô hướng phản ánh giả thuyết dựa trên biến phụ thuộc duy nhất Phương trình (1.6) thể hiện rõ mối liên hệ giữa tổng bình phương và tích chéo của ma trận liên quan đến giả thuyết Điều này giúp xác định độ phù hợp của mô hình và đánh giá tác động của biến độc lập đến biến phụ thuộc một cách chính xác.

Ma trận cấp r x r được hình thành dựa trên số cột của M và C, tức là số lượng các biến phụ thuộc bị biến đổi trong giả thuyết của phương trình (1.6) Kết quả này thể hiện rõ mối liên hệ giữa các biến và cách chúng tác động lẫn nhau trong mô hình, góp phần làm rõ cấu trúc của hệ phương trình Việc xác định ma trận này giúp phân tích sâu hơn về tính chất của các phụ thuộc trong hệ thống, đồng thời cung cấp cơ sở để áp dụng các phương pháp tính toán và giải pháp phù hợp.

Tổng bình phương và tích chéo ứng với sai số cũng là một ma trận cấp r x r,

Trong trường hợp đơn biến, F là tỷ lệ giữa tổng bình phương ứng với giả thuyết và tổng bình phương ứng với sai số, phản ánh mức độ biến động của dữ liệu do giả thuyết giải thích so với phần biến động ngẫu nhiên Công thức tính F như sau thể hiện rõ mối liên hệ giữa độ biến động liên quan đến giả thuyết và yếu tố ngẫu nhiên trong phân tích phương sai F đóng vai trò quan trọng trong việc đánh giá mức độ phù hợp của giả thuyết thống kê, giúp xác định xem các yếu tố biến đổi có ý nghĩa thống kê hay không.

Trong trường hợp đa biến, chúng ta sẽ làm tương tự theo các cách được trình bày tiếp sau đây

1.3.5 Thống kê kiểm định giả thuyết tuyến tính tổng quát đa biến

Nếu s là hạng của E H - 1 , thỡ ta cú giỏ trị riờng l 1 ³l 2 ³ ẳ ³l s của hệ

Trong đó, s = Min(q, r) thể hiện số lượng giá trị riêng được xác định dựa trên số hàng của ma trận A hoặc số cột của ma trận M, tùy thuộc vào điều kiện nhỏ hơn Điều này cho thấy rằng số giá trị riêng phụ thuộc vào kích thước của các ma trận liên quan trong quá trình phân tích, giúp tối ưu hoá các phép tính trong các ứng dụng liên quan đến đại số tuyến tính.

Trong bài viết này,  i là giá trị riêng của E H - 1, tương tự như tỷ lệ F, trong khi  i là giá trị riêng của H H E (+) - 1, tương tự như bình phương tương quan đa biến Hiện có bốn phương pháp khác nhau để kiểm định giả thuyết đa biến, được đề xuất bởi bốn nhà thống kê khác nhau, nhằm cung cấp các công cụ phân tích chính xác và đa dạng trong thống kê đa biến.

Thống kê vết Hotelling-Lawley ( 1 )

Thống kê trị riêng lớn nhất Roy 1 1

Ngoài ra còn có thể dùng xấp xỉ F dựa trên tiêu chuẩn định thức Wilk trong phương trình (1.7) với công thức là

= Ù , trong đó, như ở phần trước, q là số hàng hoặc hạng của A, r là số cột hoặc hạng của

M, nhưng có thêm một số tham số khác Cụ thể là có giá trị

Trong phân tích thống kê, kích thước mẫu là n và số cột của ma trận X là k, với bậc tự do của F’ là r • q và trung bình cộng của các giá trị là ct – 2u Xấp xỉ của phương pháp trở nên chính xác hơn khi s = Min(r, q) ≤ 2, điều này có nghĩa là hạng của ma trận E H - 1 không vượt quá 2 Do đó, việc xác định chính xác của xấp xỉ phụ thuộc vào kích thước mẫu và hạng của ma trận, giúp đảm bảo độ chính xác trong phân tích thống kê.

Phân phối phần dư trong mô hình tuyến tính tổng quát…

Xét mô hình tuyến tính tổng quát đa biến

Trong mô hình Y = XB + e, với Y và e là các ma trận ngẫu nhiên cấp n x p, X là ma trận thiết kế cấp n x q đã biết, B là ma trận hệ số hồi quy chưa biết có cấp q x p, và X có hạng a, yêu cầu n³ + p ≤ a Giả sử e là ma trận ngẫu nhiên phân phối chuẩn tắc có kỳ vọng 0 và ma trận hiệp phối chuẩn S > 0, mô hình trở thành Y = N(n, p)(XB, n, ồ), giúp xác định ước lượng hợp lý cực đại của B và S Ước lượng hợp lý cực đại của B được tính bằng công thức \(\hat{B} = (X^T X)^{-1} X^T Y\), đảm bảo khả năng dự đoán chính xác phần còn lại của mô hình.

Trong bài viết, ước lượng X B° được xác định là bất biến bất kể loại nghịch đảo suy rộng của X X T nào được sử dụng Hơn nữa, X B° và ồ° có phân phối độc lập, trong đó X B° tuân theo phân phối N(n x p, XB X X X X, T - T Ä ồ) Cuối cùng, các ký hiệu ảXB và ồ được định nghĩa là ước lượng không chệch của XB và S, tương ứng, với ảXB = X B° và ồ = ồà n° / (n-a).

Ma trận phần dư được định nghĩa là

Đoạn văn mô tả rằng matrix e$ là một ma trận ngẫu nhiên theo phân phối chuẩn bình thường, với phân phối: e$ ~Nₙₓₚ(0, Σ), trong đó Σ là covariance matrix xác định bởi (Iₙ - H)Ω, nơi H là hình chiếu trực giao lên không gian con bất biến của X Mỗi dòng quan sát thứ i của e$, ký hiệu e$ᵢ, cũng theo phân phối chuẩn tắc p-biến ngẫu nhiên, với phân phối: e$ᵢ ~ Nₚ(0, 1 - h_{ii}), i = 1, , n.

Các véc tơ e$ i có thể phụ thuộc tuyến tính với nhau Chúng ta định nghĩa các chỉ số I ={ i 1, , i k }với i s = 1, , n ; s = 1, , k và k n£ -a sao cho véc tơ e$ i 1 , , e$ i k độc lập tuyến tính

Ta định nghĩa ma trận

Khi đó e$ I là ma trận ngẫu nhiên có hạng đầy đủ phân phối chuẩn, hơn nữa

Trong bài viết này, chúng ta sẽ tìm hiểu cách thu được ma trận H bằng phương pháp loại bỏ các hàng và các cột có chỉ số thuộc tập I Đặc biệt, đối với mô hình đơn biến khi p = 1, người dùng có thể xem xét các loại phần dư khác nhau để tối ưu hóa quá trình phân tích Việc áp dụng kỹ thuật này giúp cải thiện hiệu quả trong quá trình xử lý dữ liệu và giải quyết các bài toán liên quan đến mô hình tuyến tính.

= e : phần dư đơn vị hóa à à i b i e

=s : phần dư chuẩn tắc hóa à à 1 i i ii r h e

- : phần dư Student hóa nội tại à à ( ) 1 i i i ii u h e

Phần dư student hóa ngoại vi là một khái niệm quan trọng trong phân tích thống kê, dùng để đánh giá độ lệch của ước lượng chuẩn tắc Với || ||y là chuẩn Euclid của vectơ y, sà 2 = e 2 (n-a) thể hiện độ lệch ước lượng chuẩn tắc, giúp kiểm soát sai số trong mô hình Độ lệch này được tính bằng cách loại bỏ quan sát thứ i từ mẫu dữ liệu ban đầu, qua đó xác định ảnh hưởng của từng quan sát đối với ước lượng chung These statistical measures enhance the accuracy of hypothesis testing and confidence interval estimation in econometrics and data analysis.

Tương tự như khi định nghĩa e$ I , ta xây dựng

M M với D -1/2 là ma trận đường chéo với các phần tử (1-h i i 1 1 ) - 1/2 , ,(1-h i i k k ) - 1/2 Hơn nữa, cần lưu ý rằng r I T có thể được định nghĩa là à 1/2 $

Cả hai phần dư student hóa ngoại vi u T I và u I có thể được định nghĩa tương tự

Nhưng trong trường hợp này thì

M M và ma trận đường chộo D s à - 1/2 cú cỏc phần tử à 1 1 1 à

Việc xác định phân phối xác suất của các ma trận có thể gặp phải một số khó khăn, đặc biệt là đối với u I Để khắc phục những vấn đề này, người ta đề xuất một định nghĩa thay thế cho u T I và u I bằng cách đặt chúng bằng ½, giúp đảm bảo tính chính xác và dễ dàng trong quá trình phân tích.

= - - (1.10) với sà ( ) I là độ lệch chuẩn được hỡnh thành bằng cỏch loại bỏ cỏc quan sỏt tương ứng có chỉ số trong tập I từ không gian mẫu

Cần lưu ý rằng trong bất kỳ định nghĩa nào của phần dư student hóa nội tại thì

Phần dư đơn vị hóa và chuẩn tắc hóa có thể được định nghĩa tương tự là

Trường hợp đa biến (p > 1) cho phần dư student hóa nội tại và ngoại vi tương ứng là à $ 1/2

- , với A 1/2 là căn bậc 2 của ma trận không âm A, tức là ( ) A 1/2 2 = A Với các chỉ số I ta định nghĩa

Các dạng đa biến của biểu thức (1.9) và (1.11) cũng đúng trong các trường hợp đó

Nghiên cứu tất cả các loại phân phối phần dư là yếu tố then chốt trong thống kê, đặc biệt trong phân tích độ nhạy và kiểm định hệ số hồi quy Việc hiểu rõ phân phối phần dư giúp đánh giá chính xác khả năng phù hợp của mô hình tuyến tính và ảnh hưởng của các biến độc lập đến biến phụ thuộc Các loại biểu đồ khác nhau được sử dụng để phân tích ảnh hưởng của biến vào mô hình hồi quy, giúp xác định các điểm bất thường và cải thiện độ chính xác của mô hình dự báo.

Ảnh hưởng của một hoặc nhiều quan sát đối với các tham số của mô hình hồi quy được đánh giá thông qua các độ đo hoặc hàm khoảng cách khác nhau Các độ đo này thường được biểu diễn dựa trên phần dư student hóa nội tại và ngoại vi, phản ánh mức độ ảnh hưởng của từng quan sát Trong kiểm định thống kê, các độ đo tiêu chuẩn dựa trên thể tích của miền tin cậy dạng ellipsoid hoặc tỷ lệ phương sai cũng có thể được biểu diễn dưới dạng hàm của phần dư student hóa nội tại và ngoại vi Tuy nhiên, phân phối của nhiều độ đo này thường không rõ ràng, do đó, kết quả phân tích thường dựa vào các biểu đồ có sẵn và danh sách các giá trị gốc được tính toán từ dữ liệu mẫu để so sánh và đánh giá.

Nhiều nhà nghiên cứu đã cố gắng tránh việc xác định phân phối đồng thời của các loại phần dư khác nhau do chúng thường có phân phối kỳ dị đối với độ đo Lebesgue trong R^n Tuy nhiên, vấn đề này có thể được giải quyết khi nhận thấy rằng phân phối kỳ dị lại có giá trị khi xem xét với độ đo Hausdorff, được định nghĩa trên các không gian con affine Trong quá trình biến đổi các loại phần dư theo các phép biến đổi của phân phối kỳ dị, việc xác định các Jacobian đối với độ đo Hausdorff trở nên cần thiết để duy trì tính chính xác của phân phối.

Chúng ta bắt đầu bằng cách định nghĩa các lớp còn lại của phần dư cho các trường hợp đơn biến và đa biến, bắt đầu với e$ I Tiếp đó, chúng ta xác định mật độ xác suất của chúng, và theo giả thuyết của mô hình (1.8), các lớp này không gây dị thường Điều này giúp đảm bảo tính chính xác và khả năng dự báo của mô hình thống kê trong phân tích dữ liệu.

1.4.1 Phần dư đơn biến Để tìm phân phối của r i , chúng ta cần xác định phân phối của r I T Trong phần này, chúng ta trình bày một phương pháp đơn giản cho việc tìm phân phối của r i Kết quả này được thành lập cho trường hợp mô hình có hạng không đầy đủ, một kết quả tương tự cho mô hình có hạng đầy đủ có thể dễ dàng thu được bằng cách cho a =q dưới đây Trước tiên chúng ta xem các định nghĩa sau : Định nghĩa 1.4.1 Ma trận ngẫu nhiên X có cấp p x n i) được gọi là ma trận ngẫu nhiên đối xứng có phân phối Pearson loại I (còn gọi là ma trận ngẫu nhiờn phõn phối t nghịch đảo) với tham số q Rẻ , M p n: x , : x , : x p p n n ồ F với q> -1, S > 0 và F >0 nếu hàm mật độ xỏc suất của nú là

G + S F trong đó tr X M(( - ) T S - 1 (X M- )F - 1 ) 1£ Khi đó ma trận X được ký hiệu là x ( , , )

X :PII p n q M S Ä F ii) được gọi là ma trận ngẫu nhiờn phõn phối t với tham số r Rẻ , M p n: x , : x ,p p

S : x F n n với r > 0, S > 0 và F > 0 nếu hàm mật độ xác suất của nó là

G S F ố ứ và được ký hiệu là X : Mt p n x ( r M , , ồÄF ), hoặc X : t r M p ( , , ồ ), khi n = 1, được gọi là ma trận ngẫu nhiên đối xứng phân phối Pearson loại II, còn gọi là ma trận phân phối T nghịch đảo Đây là loại ma trận có đặc điểm đặc trưng bởi tham số q thuộc tập M p n, x, : x, : x, ồ, p p, x thuộc không gian F n n, với điều kiện q > -1, ồ > 0 và F > 0, nếu hàm mật độ xác suất của nú cú dạng phù hợp.

G - S F với (I n -(X M- ) T S - 1 (X M- )F - 1 ) 0> , được ký hiệu X :MPII p x n ( ,q M,S Ä F) iv) được gọi là ma trận ngẫu nhiờn phõn phối T với tham số r R M p nẻ , : x , : x ,p p

S : x F n n với r > 0, ồ > 0 và F > 0 nếu hàm mật độ xỏc suất là

G - S F và được ký hiệu là X :MT p n x ( r M, ,ồÄF) Trong đú G n [ ] a là ký hiệu hàm gamma đa biến,

Trong mô hình đơn biến (p = 1), định lý 1.4.1 về phần dư student hóa nội tại cho thấy rằng các phần dư r_i có phân phối Pearson loại II, cụ thể là r_i theo phân phối MPII n((a - a3)^2, 0, n - a) Hàm mật độ của phần dư này được xác định rõ ràng dựa trên đặc điểm của phân phối Pearson loại II, giúp phân tích chính xác hơn về phân phối của phần dư trong mô hình thống kê.

Chứng minh: Định nghĩa q i = 1-h r ii i , ta thấy rằng à à à à à

Hơn nữa, nhận xét rằng q i 2 =(n-a e)$ 2 i || ||e$ 2 với e$ 2 i >0và || ||e$ 2 >0 Bên cạnh đó

Như vậy q i 2 £(n-a), hoặc tương đương q i £ (n-a) Điều này có nghĩa là hàm mật độ của q i nằm trong đoạn ộở- (n-a), (n-a)ựỷ

Bây giờ ta định nghĩa

Bây giờ chúng ta cần chú ý rằng e$ i s 2 (1-h ii ) : N(0,1) là độc lập với

$ 2 2 2 ( 1) n j j i e s c n a ạ ồ : - - , trong đú c 2 ( ) m ký hiệu cho phõn phối khi bỡnh phương quy tâm với m bậc tự do Vì vậy à à à

Trong bài viết này, ký hiệu t_m( ) đại diện cho phân phối t quy tâm một chiều với m bậc tự do Cần lưu ý rằng nếu biến ngẫu nhiên q_i nhận giá trị trong đoạn (-n-a, n-a), thì ta lấy giá trị trong khoảng (-∞, ∞) Điều này đảm bảo việc áp dụng phân phối t trong các mô hình thống kê và phân tích dữ liệu, đồng thời tuân thủ các nguyên tắc về phân phối xác suất và quy tắc trong phân tích thống kê.

- - - - tương đương với q i £x Do vậy (P q i £ x) được tính bằng biểu thức sau

Với t y m ( ; ) ký hiệu cho hàm mật độ biến ngẫu nhiên x với phân phối t và m bậc tự do Nhưng q = 1-h r ii i , do đó

Lấy đạo hàm đối với x dẫn đến

: , với r i £ n-a Và nhờ đó ta thu được các kết quả mong muốn.■

Phân phối của phần dư đơn vị hóa và chuẩn tắc hóa ai và bi có thể dễ dàng xác định, giúp biểu diễn chúng dưới dạng hàm của r i Cả hai phần dư này đều có công thức rõ ràng, thể hiện rõ mối liên hệ với r i, đảm bảo tính chính xác và thuận tiện trong các tính toán Việc hiểu và áp dụng các phân phối này là quan trọng để nâng cao hiệu suất trong các bài toán liên quan đến số học và lý thuyết số.

Phân tích số liệu kiểm toán của một số công trình xây dựng

Mô tả số liệu

Trong chương 2, chúng tôi sẽ áp dụng mô hình tuyến tính tổng quát để phân tích kết quả kiểm toán đối với 129 dự án xây dựng gần đây, cung cấp bởi phòng kiểm toán đầu tư xây dựng của CPA Việt Nam tại Hà Nội Các dự án này được xây dựng và hoàn thành từ năm 2004 đến 2008, chủ yếu nhằm mục tiêu xây dựng hoặc mua sắm trang thiết bị cho các công trình Do đó, thuật ngữ “công trình” được sử dụng để chỉ các đơn vị nghiên cứu trong phần phân tích này.

Dữ liệu của từng công trình bao gồm tên dự án, địa bàn thi công, tổng hợp chi phí các công đoạn chính trong quá trình thực hiện, các khoản chi phí khác và chi phí quản lý dự án Ví dụ, công trình số 1 là dự án Xây lắp cải tạo nhà làm việc Ngân hàng Nông nghiệp và Phát triển Nông thôn tại huyện Kỳ Sơn, tỉnh Hòa Bình, còn công trình số 6 là dự án Đầu tư mua sắm, lắp đặt mới máy phát điện, cân điện tử và xây dựng hệ thống thùng chứa, đấu trộn nguyên liệu tại chi nhánh Sadec 2 của Tổng công ty Lương thực miền Bắc, tỉnh Đồng Tháp Các công đoạn chính trong quá trình thi công như xây cầu vượt, đường dẫn đầu cầu, xây nhà học chính, nhà hiệu bộ, các phần phụ trợ như sân, vườn hoa, xây dựng nhà tạm hiện trường, cùng với cung cấp thiết bị khảo sát, thiết bị phòng thí nghiệm và xe chuyên dụng đều được tổng hợp chi phí trong phần số liệu Chi phí khác bao gồm các khoản chi cho thiết kế, lập dự toán, lập hồ sơ mời thầu và giám sát thi công.

Sau khi hoàn thành công việc, đơn vị thi công gửi báo cáo chi phí lên nhà đầu tư để chờ thanh toán, đồng thời nhà đầu tư mời cơ quan kiểm toán (kiểm toán nhà nước hoặc kiểm toán độc lập) xác nhận tính chính xác của các khoản phí này Các kiểm toán viên sẽ tiến hành kiểm tra, trao đổi ý kiến và thống nhất với đơn vị thi công cũng như nhà đầu tư về kết quả kiểm toán cuối cùng Chi phí được xác nhận sau kiểm toán sẽ là cơ sở để nhà đầu tư thanh toán cho đơn vị thi công, qua đó so sánh giữa chi phí quyết toán do đơn vị thi công đề nghị và chi phí kiểm toán do các kiểm toán viên xác nhận.

Chi phí kiểm toán được coi là chi phí đúng, nhưng điểm then chốt là xác định mức chênh lệch giữa chi phí quyết toán và chi phí kiểm toán, cũng như tỷ lệ phần trăm chênh lệch này trong ngân sách Tỷ lệ quyết toán sai, hay còn gọi là “tylesai,” phản ánh mức độ sai lệch trong quyết toán ngân sách và được tính bằng công thức liên quan đến tỷ lệ phần trăm của chênh lệch so với tổng ngân sách dự kiến, giúp đánh giá chính xác mức độ sai sót trong quá trình quyết toán.

= quyet toan kiem toan.100% tylesai kiem toan

Trong đó số liệu kiểm toán và quyết toán là chi phí trước khi tính thuế theo đơn vị Việt Nam đồng

Trong tổng số 129 công trình được khảo sát, tỷ lệ sai trung bình là 2,29%, cho thấy mức độ sai lệch khá thấp trên diện rộng Công trình xây dựng đường công vụ (giai đoạn II) phục vụ thi công san lấp mặt bằng và hạ tầng kỹ thuật khu vực Macgregor (Khu công nghiệp Nam Cầu Kiền) gặp phải mức sai cao nhất lên đến 40,33%, trong khi công trình xây dựng nhà lớp học, nhà lưu trú trường THCS A Tiêng, huyện Tây Giang, tỉnh Quảng Nam có mức sai thấp nhất là -0,78% Ngoài ra, có hơn một nửa số công trình (56,6%) có tỷ lệ sai lệch trong khoảng 0% đến 1%, phản ánh rằng phần lớn các dự án có độ chính xác cao trong thi công.

Tỷ lệ sai phạm của các công trình có thể bị tác động bởi nhiều yếu tố khác nhau

Các yếu tố ảnh hưởng đến tỷ lệ sai phạm trong thi công gồm có địa điểm thi công, loại công trình dựa trên đặc tính kỹ thuật, loại công trình theo chức năng sử dụng và cỡ công trình Việc phân tích các yếu tố này giúp hiểu rõ hơn về các yếu tố rủi ro và tối ưu hoá quy trình giám sát, đảm bảo chất lượng công trình Trong đó, địa điểm thi công đóng vai trò quan trọng trong việc giảm thiểu sai phạm, cùng với việc lựa chọn loại công trình phù hợp theo đặc tính kỹ thuật, chức năng sử dụng, và quy mô công trình Các yếu tố này đều ảnh hưởng trực tiếp đến tỷ lệ sai phạm, từ đó giúp đưa ra các biện pháp kiểm soát chất lượng phù hợp.

Các công trình xây dựng được thi công tại nhiều địa điểm khác nhau trên khắp đất nước, bao gồm các tỉnh như Hà Nội, Lào Cai, Hòa Bình, Quảng Ninh và Nghệ An, thể hiện quy mô và phạm vi hoạt động rộng lớn của chúng.

Dưới đây là những điểm chính liên quan đến phân tích các công trình xây dựng tại các địa phương, giúp hiểu rõ ảnh hưởng của từng khu vực đến tỷ lệ sai phạm Hà Nội chiếm đa số với 52 công trình, chiếm 40,3%, thể hiện vị trí trung tâm trong các dự án xây dựng tại Việt Nam Các tỉnh miền núi như Lào Cai, Hà Giang, Điện Biên, Hòa Bình, Yên Bái đóng góp 30 công trình, chiếm 23,3%, cho thấy sự phân bố đa dạng của các dự án xây dựng tại khu vực này Đồng bằng phía Bắc gồm các tỉnh như Nam Định, Thái Bình, Hải Phòng, Quảng Ninh có 29 công trình, chiếm 22,5%, phản ánh hoạt động xây dựng phát triển mạnh mẽ tại các thành phố lớn và trung tâm đô thị Trong khi đó, khu vực đồng bằng phía Nam, bao gồm Thành phố Hồ Chí Minh, Đồng Tháp, Long An, có 18 công trình, chiếm tỷ lệ nhỏ hơn nhưng vẫn đóng vai trò quan trọng Các công trình được chọn ngẫu nhiên từ các dự án đã kiểm toán của Công ty CPA Việt Nam, do đó số lượng các công trình ở các nhóm không bằng nhau, phản ánh tính khách quan và đa dạng của dữ liệu nghiên cứu.

Đầu tiên, chúng tôi xây dựng biến MaDDiem để nhận giá trị từ 1 đến 4, tương ứng với nhóm công trình i = 1, 2, 3, 4 Để so sánh các địa điểm, các biến mã hóa được sử dụng dưới dạng nhị phân 0 hoặc 1; ví dụ, biến "HaNoi" nhận giá trị 1 khi công trình thi công tại địa điểm thuộc nhóm 1, và 0 trong các trường hợp còn lại Tương tự, biến "MienNui" nhận giá trị 1 nếu công trình thi công tại địa điểm thuộc nhóm 2, và 0 trong các trường hợp khác.

“MienNam” sẽ nhận giá trị 1 nếu công trình thi công tại địa điểm thuộc nhóm 4, còn trong các trường hợp khác, nó nhận giá trị 0 Điều này giúp phân biệt rõ các công trình theo nhóm địa điểm, đặc biệt là các công trình thuộc nhóm 1 Việc xác định giá trị “MienNam” là bước quan trọng trong quá trình đánh giá điều kiện thi công và tối ưu hóa quản lý dự án Như vậy, mỗi công trình thuộc nhóm 1 sẽ có phản hồi chính xác dựa trên vị trí thi công của nó, góp phần nâng cao hiệu quả trong công tác lập kế hoạch và theo dõi tiến độ dự án.

2, 4 chỉ nhận giá trị 1 tại 1 trong 3 biến “HaNoi”, “MienNui”, “MienNam” và nhận giá trị 0 tại 2 biến còn lại; mỗi công trình thuộc nhóm 3 nhận giá trị 0 ở cả 3 biến trên

Bảng 2.1 trình bày số lượng công trình và tỷ lệ sai trung bình của từng nhóm địa điểm, giúp đánh giá mức độ chính xác của dữ liệu trong các khu vực khác nhau Đồng thời, hình 2.1 là biểu đồ cột minh họa tỷ lệ sai trung bình trong bảng 2.1, giúp trực quan hóa sự chênh lệch giữa các nhóm địa điểm Việc phân tích các số liệu này giúp xác định các khu vực cần cải thiện về độ chính xác của công trình, góp phần nâng cao chất lượng và độ tin cậy của dữ liệu Đây là thông tin quan trọng để thúc đẩy các biện pháp tối ưu hóa trong quá trình thực hiện và kiểm tra các công trình.

Dựa theo bảng 2.1 và hình 2.1, các công trình ở đồng bằng miền Bắc có tỷ lệ sai cao nhất đạt 4,48%, gần gấp đôi mức trung bình của 129 công trình Trong khi đó, tỷ lệ sai trung bình thấp nhất xuất hiện tại đồng bằng miền Nam với 0,46%, gần bằng 1/5 tỷ lệ sai trung bình của tất cả các công trình và gần bằng 1/10 so với vùng có tỷ lệ sai cao nhất Ngoài ra, tỷ lệ sai ở hai vùng Hà Nội và miền núi không chênh lệch nhiều và thấp hơn đáng kể so với tỷ lệ trung bình chung của toàn khu vực.

B ả ng 2.1 T ỷ l ệ sai trung bình c ủ a các nhóm đị a đ i ể m

Tỷ lệ sai trung bình (%) 1,89 1,95 4,48 0,46 2,29

Hình 2.1 Bi ể u đồ v ề t ỷ l ệ sai trung bình c ủ a các nhóm đị a đ i ể m

Yếu tố thứ hai ảnh hưởng đáng kể đến mức độ sai phạm trong quyết toán là phân loại công trình dựa trên đặc điểm kỹ thuật Việc xác định loại công trình chính xác giúp nâng cao hiệu quả kiểm tra, giảm thiểu rủi ro sai sót trong quá trình quyết toán Chuyên môn về đặc điểm kỹ thuật góp phần đảm bảo tính khách quan, chính xác của các số liệu và hồ sơ liên quan Do đó, việc phân loại công trình kỹ lưỡng theo đặc điểm kỹ thuật là yếu tố then chốt để nâng cao hiệu quả quản lý và hạn chế sai phạm trong các dự án xây dựng.

2.1.2 Loại công trình phân theo đặc tính kỹ thuật

Trong nghiên cứu này, các công trình được chia thành hai loại chính: công trình xây dựng và công trình mua sắm trang thiết bị Cụ thể, có 98 công trình xây dựng chiếm 76%, bao gồm các dự án cầu đường, nhà ở, chợ, trong khi đó còn lại 31 công trình, chiếm 24%, là các dự án mua sắm trang thiết bị như thiết bị khảo sát, đo đạc, phân tích cho phòng thí nghiệm, xe ô tô chuyên dụng, và thiết bị học tập cho học sinh Để phân biệt rõ hai loại công trình này, chúng ta đã xây dựng biến "DacdiemCT" nhằm xác định đặc điểm của từng hạng mục công trình một cách chính xác.

DacdiemCT = 1 được sử dụng để xác định các công trình xây dựng, trong khi DacdiemCT = 2 dùng cho các công trình mua sắm trang thiết bị Biến CTTThietbi có giá trị 0 hoặc 1, trong đó giá trị 1 thể hiện công trình mua sắm trang thiết bị, còn giá trị 0 phù hợp cho công trình xây dựng Điều này giúp phân loại chính xác các loại công trình, tối ưu hóa quá trình quản lý dự án.

Phân tích mức ảnh hưởng của các nhân tố đến tỷ lệ sai phạm

2.2.1 Phân tích phương sai cho 4 nhân tố Để biết nhân tố nào trong 4 nhân tố: địa điểm, hạng mục, loại công trình, cỡ công trình ảnh hưởng đến tỷ lệ sai phạm của các công trình thì ta sử dụng phương pháp phân tích phương sai cho 4 nhân tố đó Trong phương pháp này, biến “tylesai” là biến phụ thuộc, 4 biến độc lập là “MaDDiem”, “DacdiemCT”, “ChucnangsdCT” và “CoCT” Sử dụng phần mềm SPSS ta thu được kết quả trình bày trong bảng 2.6

B ả ng 2.6 K ế t qu ả phân tích ph ươ ng sai cho 4 nhân t ố

Source Type III Sum of Squares df Mean

Các biến độc lập có xác suất ý nghĩa nhỏ hơn 5% được xác định là có ảnh hưởng đáng kể đến biến phụ thuộc Cụ thể, theo bảng 2.6, biến "DacdiemCT" có xác suất ý nghĩa chỉ đạt 0,6%, còn biến "MaDDiem" có xác suất ý nghĩa là 0,3%, đều nằm trong khoảng có ý nghĩa thống kê Trong khi đó, các biến có xác suất ý nghĩa lớn hơn hoặc bằng 5% không ảnh hưởng đáng kể đến biến phụ thuộc.

Chức năng của công trình (ChucnangsdCT) có xác suất ý nghĩa là 12,1%, cho thấy đây là yếu tố quan trọng ảnh hưởng đến tỷ lệ sai phạm Địa điểm, đặc điểm và công năng sử dụng của công trình là những yếu tố chính tác động đến tỷ lệ sai phạm của các công trình, trong khi cỡ công trình không ảnh hưởng đáng kể dù nhóm công trình vừa có tỷ lệ sai trung bình cao hơn so với các nhóm còn lại.

Nhưng 3 nhân tố trên đây ảnh hưởng tới tỷ lệ sai như thế nào, có tác dụng làm tăng hay giảm tỷ lệ sai thì phương pháp phân tích này chưa chỉ rõ được Do đó ta dùng phương pháp hồi quy mô hình tuyến tính tổng quát để đưa ra các kết luận cụ thể hơn

2.2.2 Mô hình hồi quy tuyến tính tổng quát

Phương pháp hồi quy cổ điển thường áp dụng cho các biến phụ thuộc và biến độc lập là các biến định lượng Trong khi đó, phương pháp phân tích mô hình hồi quy tuyến tính tổng quát có thể sử dụng cả các biến độc lập là biến định lượng và định tính, trong đó các biến định tính được mã hóa thành các biến 0-1 Đầu tiên, ta sử dụng hồi quy tuyến tính với đầy đủ các biến độc lập, trong đó biến phụ thuộc là “tylesai” Đối với yếu tố địa điểm, ta phân chia thành bốn khu vực: Hà Nội, đồng bằng Bắc Bộ, miền núi (gồm Đông Bắc, Tây Bắc và Tây Nguyên), và miền Nam (từ Quảng Bình trở vào) Như vậy, yếu tố này có bốn mức, ta lấy nhóm các công trình thuộc khu vực đồng bằng Bắc Bộ làm nhóm chứng và tạo ra ba biến giả tương ứng với ba khu vực còn lại, trong đó có biến “HaNoi” đại diện cho khu vực Hà Nội.

Trong bài viết, “MienNui” đại diện cho khu vực miền núi, còn “MienNam” tương ứng với khu vực miền Nam Đối với đặc điểm công trình, có hai nhóm chính là công trình xây dựng và công trình cung cấp trang thiết bị, nên chúng tôi sử dụng biến giả “CTTThietbi” để mã hóa nhân tố này, trong đó nhóm chứng là các công trình xây dựng không cung cấp trang thiết bị Ngoài ra, để phân loại công trình theo chức năng sử dụng, chúng tôi dùng ba biến giả “Truonghoc” cho công trình trường học, cùng với các biến cho chung cư và văn phòng cho thuê.

“Chungcu”), cơ sở hạ tầng (biến “CosoHT”) và lấy nhóm các công trình xây dựng trụ sở làm việc, nhà công vụ làm nhóm chứng

Chúng tôi sử dụng hai biến giả, “CTcolon” và “CTconho”, để phân loại các công trình theo quy mô đầu tư Cụ thể, biến “CTcolon” đại diện cho nhóm các công trình lớn với vốn đầu tư trên 2,5 tỷ đồng, trong khi “CTconho” phản ánh nhóm các công trình nhỏ có vốn dưới 500 triệu đồng Điều này giúp so sánh rõ ràng các nhóm công trình cỡ lớn, nhỏ và vừa, trong đó nhóm công trình vừa có vốn đầu tư từ 500 triệu đồng đến 2,5 tỷ đồng, tạo cơ sở phân tích chính xác về mức độ đầu tư và đặc điểm phù hợp với các tiêu chuẩn nghiên cứu.

Các biến giả được sử dụng làm biến độc lập trong phương trình hồi quy của mô hình tuyến tính tổng quát, giúp phân tích mối quan hệ giữa các yếu tố Kết quả ước lượng hệ số hồi quy cùng xác suất ý nghĩa của từng biến được trình bày rõ ràng trong bảng 2.7, cung cấp dữ liệu quan trọng để đánh giá tác động của các biến giả lên mô hình.

B ả ng 2.7 K ế t qu ả phân tích theo mô hình h ồ i quy tuy ế n tính t ổ ng quát cho đầ y đủ các bi ế n độ c l ậ p

Biến "CTTThietbi" xác định loại công trình, trong đó giá trị bằng 1 thể hiện công trình mua sắm trang thiết bị, còn giá trị bằng 0 biểu thị công trình xây dựng Việc phân biệt này giúp phân loại chính xác các loại công trình theo mục đích sử dụng Chúng tôi sử dụng biến "CTTThietbi" để theo dõi và phân tích các dự án dựa trên đặc điểm công trình, từ đó phục vụ cho quá trình lập kế hoạch và quản lý hiệu quả Điều này đảm bảo dữ liệu rõ ràng, chính xác và phù hợp với các tiêu chuẩn báo cáo và phân tích dự án.

"Biến 'CTTThietbi' thể hiện tác dụng so sánh giữa nhóm công trình mua sắm trang thiết bị và nhóm công trình xây dựng, cho thấy các công trình mua sắm trang thiết bị có tỷ lệ sai phạm trung bình thấp hơn khoảng 3% so với các công trình xây dựng, dựa trên hệ số hồi quy là -3,024 và xác suất ý nghĩa 0,006 (0,6%), đảm bảo tính chính xác của kết quả."

Như vậy, biến “CTTThietbi” là một yếu tố ảnh hưởng đến tỷ lệ sai phạm trong quyết toán

Các biến “HaNoi”, “MienNui” và “MienNam” đều đóng vai trò là nhóm thử so sánh với nhóm chứng “MienBac” Theo bảng 2.7, hệ số hồi quy của cả ba biến này đều âm, cho thấy rằng tỷ lệ sai phạm trung bình ở các khu vực này có xu hướng thấp hơn so với miền Bắc Tuy nhiên, để xác định chính xác mức độ khác biệt, cần xem xét xác suất ý nghĩa của các biến Kết quả cho thấy biến “HaNoi” và “MienNui” có xác suất ý nghĩa lần lượt là 38,3% và 12,5%, đều lớn hơn mức 5%, nên không chấp nhận giả thuyết hệ số khác 0, nghĩa là hệ số hồi quy của chúng gần bằng 0 Trong khi đó, biến “MienNam” có xác suất ý nghĩa gần 0%, nhỏ hơn 5%, do đó chấp nhận giả thuyết hệ số khác 0, với hệ số hồi quy là -5,154 Như vậy, các công trình ở miền Nam có tỷ lệ sai phạm trung bình thấp hơn khoảng 5,154% so với các công trình ở miền Bắc.

Các biến “Truonghoc”, “CosoHT”, “Chungcu” sẽ là các nhóm thử để so sánh với nhóm chứng là nhóm trụ sở làm việc Ta thấy, biến “Truonghoc” và “Chungcu”

Hai biến này được xem như bằng 0, có nghĩa là tỷ lệ sai trung bình của các công trình trường học và chung cư được coi là bằng với tỷ lệ sai trung bình của các công trình trụ sở làm việc Đây là một giả định quan trọng giúp đơn giản hóa phân tích, đồng thời cho phép so sánh chính xác hơn giữa các loại công trình khác nhau dựa trên tỷ lệ sai số trung bình.

Biến “CosoHT” có xác suất ý nghĩa chỉ 0,1%, nhỏ hơn mức 5% quy định trong phân tích thống kê Do đó, giả thuyết hệ số hồi quy của biến này được chấp nhận là 4,750, cho thấy ảnh hưởng của biến “CosoHT” đối với các công trình cơ sở hạ tầng Kết quả này cho thấy các công trình này có tỷ lệ sai trung bình cao hơn khoảng 4,75% so với các công trình trụ sở làm việc, phản ánh sự khác biệt rõ rệt về mức độ sai lệch giữa các loại công trình.

Các biến “CTcolon” và “CTconho” được sử dụng làm nhóm thử để so sánh với nhóm chứng là nhóm các công trình cỡ vừa Kết quả phân tích cho thấy, xác suất ý nghĩa của biến “CTcolon” là 6,9%, còn biến “CTconho” là 95,8%, trong đó chỉ số này của “CTconho” lớn hơn mức 5%, cho thấy hai biến này có ảnh hưởng không đáng kể đến mô hình Do đó, hệ số hồi quy của “CTcolon” và “CTconho” được xem như bằng 0, nghĩa là tỷ lệ sai trung bình của các công trình cỡ lớn, cỡ nhỏ và cỡ vừa không có sự khác biệt rõ ràng.

Phương pháp hồi quy tuyến tính tổng quát cho thấy các yếu tố như công trình trang thiết bị, cơ sở hạ tầng và khu vực miền Nam có ảnh hưởng đáng kể đến tỷ lệ vi phạm trong các công trình Trong khi đó, các yếu tố khác không có tác động hoặc ảnh hưởng không đáng kể đến tỷ lệ sai phạm Điều này nhấn mạnh tầm quan trọng của việc đầu tư và nâng cao các yếu tố liên quan đến trang thiết bị và hạ tầng, đặc biệt ở khu vực miền Nam, để giảm thiểu các vi phạm xây dựng.

Ngày đăng: 15/12/2022, 09:58

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như (2004), Thống kê toán học, NXB Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Thống kê toán học
Tác giả: Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như
Nhà XB: NXB Đại học Quốc gia Hà Nội
Năm: 2004
[2] Nguyễn Duy Tiến, Vũ Việt Yên (2000), Lý thuyết xác suất, NXB Hà Nội Sách, tạp chí
Tiêu đề: Lý thuyết xác suất
Tác giả: Nguyễn Duy Tiến, Vũ Việt Yên
Nhà XB: NXB Hà Nội
Năm: 2000
[3] J. M. Dickey (1967), “Matricvariate generalizations of the multivariate t- distribution and the inverted multivariate t- distribution”, Annals of mathematical Statistics, 38, 511-518 Sách, tạp chí
Tiêu đề: Matricvariate generalizations of the multivariate t- distribution and the inverted multivariate t- distribution”, "Annals of mathematical Statistics
Tác giả: J. M. Dickey
Năm: 1967
[4] J. H. Ellenberg (1973), “The joint distribution of the standardized least squares residual from general linear regression”, Journal of American Statistical Association, 68, 941 – 943 Sách, tạp chí
Tiêu đề: The joint distribution of the standardized least squares residual from general linear regression”, "Journal of American Statistical Association
Tác giả: J. H. Ellenberg
Năm: 1973
[5] F. Graybill (1985), Theory and Application of the Linear Model, Wadsworth Publishing Company, Inc., Belmont, California Sách, tạp chí
Tiêu đề: Theory and Application of the Linear Model
Tác giả: F. Graybill
Năm: 1985
[6] R. J. Muirhead (1982), Aspects of multivate statistical theory, Wiley Series in Probability and Mathematical Statistics, John Wiley anh Sons, Inc., New York Sách, tạp chí
Tiêu đề: Aspects of multivate statistical theory
Tác giả: R. J. Muirhead
Năm: 1982

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w