1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận Văn Thạc Sĩ Phân Tích Số Liệu Của Một Số Công Trình Xây Dựng Bằng Thống Kê Toán Học.pdf

67 5 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Phân Tích Số Liệu Của Một Số Công Trình Xây Dựng Bằng Thống Kê Toán Học
Tác giả Đặng Thị Phương Mai
Người hướng dẫn PGS. TS. Hồ Đăng Phúc
Trường học Đại Học Khoa Học Tự Nhiên, Đại Học Quốc Gia Hà Nội
Chuyên ngành Lý thuyết xác suất và thống kê toán học
Thể loại Luận văn thạc sĩ
Năm xuất bản 2012
Thành phố Hà Nội
Định dạng
Số trang 67
Dung lượng 0,95 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Cấu trúc

  • Chương 1. Mô hình tuyến tính tổng quát (7)
    • 1.1. Giới thiệu mô hình tuyến tính tổng quát (7)
      • 1.1.1. Mục đích của hồi quy bội (7)
      • 1.1.2. Những tính toán để giải phương trình hồi quy bội (8)
      • 1.1.3. Mở rộng của mô hình hồi quy bội thành mô hình tuyến tính tổng quát (11)
    • 1.2. Một số ví dụ về mô hình tuyến tính tổng quát (14)
      • 1.2.1. Lập phương trình dạng ma trận (16)
      • 1.2.2. Ước lượng tham số (17)
      • 1.2.3. Quan điểm hình học (21)
    • 1.3. Mô hình tuyến tính tổng quát đa biến (23)
      • 1.3.1. Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát (23)
      • 1.3.2. Tính chất của ma trận sai số (0)
      • 1.3.3. Tính chất của ma trận hệ số hồi quy (26)
      • 1.3.4. Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số… (26)
      • 1.3.5. Thống kê kiểm định giả thuyết tuyến tính tổng quát đa biến (27)
    • 1.4. Phân phối phần dư trong mô hình tuyến tính tổng quát… (29)
      • 1.4.1. Phần dư đơn biến (34)
      • 1.4.2. Phân phối đồng thời của phần dư đơn biến (38)
      • 1.4.4. Phân phối đồng thời cho trường hợp đặc biệt của phần dư đa biến… (45)
  • Chương 2. Phân tích số liệu kiểm toán của một số công trình xây dựng (48)
    • 2.1. Mô tả số liệu (48)
      • 2.1.1. Địa điểm thi công (49)
      • 2.1.2. Loại công trình phân theo đặc tính kỹ thuật (52)
      • 2.1.3. Loại công trình phân theo chức năng sử dụng (53)
      • 2.1.4. Cỡ công trình (56)
    • 2.2. Phân tích mức ảnh hưởng của các nhân tố đến tỷ lệ sai phạm (59)
      • 2.2.1. Phân tích phương sai cho 4 nhân tố (59)
      • 2.2.2. Mô hình hồi quy tuyến tính tổng quát (60)
  • Tài liệu tham khảo (67)

Nội dung

Output file ĐẠI HỌC QUỐC GIA HÀ NỘI TRƯỜNG ĐẠI HỌC KHOA HỌC TỰ NHIÊN ĐẶNG THỊ PHƯƠNG MAI PHÂN TÍCH SỐ LIỆU CỦA MỘT SỐ CÔNG TRÌNH XÂY DỰNG BẰNG THỐNG KÊ TOÁN HỌC LUẬN VĂN THẠC SĨ Chuyên ngành Lý thuyết[.]

Mô hình tuyến tính tổng quát

Giới thiệu mô hình tuyến tính tổng quát

Mô hình tuyến tính tổng quát là một mở rộng của hồi quy tuyến tính bội, giúp xử lý các vấn đề phức tạp hơn trong phân tích dữ liệu Hiểu rõ về mô hình hồi quy bội là bước cơ bản để nắm bắt cách thức hoạt động của mô hình tuyến tính tổng quát Các thuật toán tính toán hiệu quả được sử dụng để giải quyết các bài toán hồi quy bội đóng vai trò quan trọng trong quá trình mở rộng sang mô hình tuyến tính tổng quát Việc mở rộng từ mô hình hồi quy bội thành mô hình tuyến tính tổng quát giúp nâng cao khả năng mô phỏng và dự đoán dữ liệu một cách chính xác hơn.

1.1.1 Mục đích của hồi quy bội

Hồi quy bội nhằm mục đích định lượng mối quan hệ giữa các biến độc lập (biến dự báo) và biến phụ thuộc (biến đáp ứng) Ví dụ, trong bất động sản, các yếu tố như kích thước nhà, số phòng ngủ và thu nhập trung bình trong khu vực được sử dụng để dự đoán giá bán nhà Việc tổng hợp dữ liệu giúp xác định yếu tố nào ảnh hưởng mạnh đến giá nhà, chẳng hạn như số lượng phòng ngủ có vai trò dự báo tốt hơn so với các yếu tố khác trong việc xác định giá bán tại một khu phố cụ thể.

”nhà đẹp” (đánh giá chủ quan)

Các nhà quản lý nhân sự thường sử dụng phương pháp hồi quy bội để xác định mức lương phù hợp cho nhân viên Họ xem xét các yếu tố như "khả năng đáp ứng" (KNDU) hoặc "số người cần giám sát" (No_GS) như những đóng góp chính vào giá trị công việc Thông qua khảo sát lương so sánh giữa các công ty, các phân tích này ghi lại mức lương và đặc điểm công việc của từng vị trí Dữ liệu thu thập được sau đó được dùng trong mô hình hồi quy bội để xây dựng phương trình dự đoán mức lương dựa trên các yếu tố này, giúp xác định chính xác hơn mức lương phù hợp cho từng vị trí tuyển dụng.

Mức lương = 0,5 * KNDU + 0.8 * No_GS

Sau khi xác định phương trình hồi quy, các nhà phân tích có thể dễ dàng xây dựng biểu đồ so sánh mức lương dự kiến và thực tế của nhân viên trong công ty Điều này giúp họ xác định các vị trí trả lương thấp hơn hoặc cao hơn so với đường hồi quy, từ đó đánh giá mức độ công bằng trong chính sách lương thưởng.

Trong xã hội và khoa học tự nhiên, phương pháp hồi quy bội được sử dụng rất rộng rãi trong nghiên cứu Nói chung, hồi quy bội cho phép các nhà nghiên cứu đặt ra câu hỏi (và hy vọng câu trả lời) về những vấn đề tổng quát "dự báo tốt nhất về … là gì" Ví dụ, các nhà nghiên cứu giáo dục có thể muốn tìm hiểu các yếu tố dự đoán tốt nhất về kết quả học tập ở trường trung học là gì Xã hội học có thể muốn tìm ra nhiều chỉ số xã hội dự đoán tốt nhất về việc nhóm người nhập cư mới có thích ứng và được hoà nhập vào xã hội hay không,

1.1.2 Những tính toán để giải phương trình hồi quy bội

Trong không gian hai chiều, không gian con một chiều được định nghĩa là một đường thẳng theo phương trình Y = b₀ + b₁X Phương trình này cho phép biểu diễn biến Y như một hàm của hệ số intercept b₀, cùng với hệ số góc b₁ nhân với biến X Điều này giúp mô tả mối quan hệ tuyến tính giữa hai biến trong phân tích hồi quy.

Hằng số  0 cũng được gọi là hệ số chặn, còn  1 được gọi là hệ số dốc hay hệ số hồi quy Ví dụ, điểm trung bình các môn học của học sinh được dự đoán bằng công thức 1 + 0,02 * IQ Vì vậy, khi biết rằng một học sinh có chỉ số IQ là 130, chúng ta sẽ dự đoán rằng điểm trung bình các môn học của học sinh đó sẽ là 3,6

Trong hồi quy bội, khi có nhiều biến dự báo, không gian con hồi quy thường không nằm trong một mặt phẳng hai chiều mà là một mở rộng của các tính toán trong hồi quy đơn biến Ví dụ, ngoài yếu tố IQ, các yếu tố như Động lực và Ý thức kỷ luật cũng có thể được đưa vào mô hình dự đoán, hình thành một phương trình tuyến tính đa biến Các phương pháp hồi quy bội cho phép ước lượng một phương trình tuyến tính tổng quát chứa tất cả các biến dự báo, giúp tối ưu hóa khả năng dự đoán.

Y =b +b X +b X + +b X với k là số các yếu tố dự báo Lưu ý rằng trong phương trình này, các hệ số hồi quy ( 1 , ,  k ) đại diện cho những đóng góp độc lập của mỗi biến dự báo vào giá trị của biến phụ thuộc Nói cách khác thì đó chính là sự tương quan của biến X i với biến Y, sau khi kiểm soát tác động của tất cả các biến độc lập khác Loại tương quan này cũng được gọi là tương quan riêng phần Ví dụ sau sẽ làm rõ vấn đề này

Trong các nghiên cứu, người ta thường thấy có mối tương quan giữa chiều dài mái tóc và chiều cao của con người, với người thấp thường có mái tóc dài hơn Tuy nhiên, khi thêm biến giới tính vào phương trình hồi quy, mối tương quan này biến mất, bởi vì phụ nữ có mái tóc dài hơn nhưng lại thấp hơn so với nam giới trên trung bình Do đó, sau khi kiểm soát yếu tố giới tính, mối liên hệ giữa chiều dài tóc và chiều cao không còn ý nghĩa thống kê, cho thấy chiều dài tóc không ảnh hưởng đáng kể đến dự đoán chiều cao.

Không gian con hồi quy (một đường thẳng trong hồi quy đơn, một phẳng hoặc không gian con có số chiều cao hơn trong hồi quy bội) là dự đoán tốt nhất của biến phụ thuộc Y, được đưa ra bởi các biến độc lập X Tuy nhiên, thực tế là rất hiếm khi chúng ta hoàn toàn dự đoán được chính xác giá trị của Y và thường có sự sai lệch giữa những điểm quan sát được so với không gian con hồi quy thích hợp Độ lệch của một điểm cụ thể từ điểm tương ứng gần nhất trên không gian con hồi quy dự đoán (dự đoán giá trị của nó) được gọi là phần dư Vì mục tiêu của các phương pháp hồi quy tuyến tính là đưa ra một không gian con là một hàm tuyến tính của các biến

Trong phân tích dữ liệu, mục tiêu của X là quan sát biến Y càng gần càng tốt Các giá trị dư của điểm quan sát được sử dụng để xác định tiêu chuẩn "phù hợp nhất" cho mô hình Trong bài toán hồi quy, không gian con được chọn sao cho tổng bình phương độ lệch của các điểm quan sát khỏi không gian này là nhỏ nhất, giúp tối ưu hóa độ chính xác của mô hình Phương pháp này được gọi là ước lượng bình phương bé nhất, là kỹ thuật phổ biến trong thống kê để ước lượng các tham số mô hình một cách tối ưu.

Các tính toán thực tế trong giải các bài toán hồi quy được thể hiện rõ ràng và tiện lợi bằng cách sử dụng ma trận Khi có n quan sát của biến phụ thuộc Y và n quan sát của k biến độc lập X, chúng ta có thể đại diện các dữ liệu này bằng các vector và ma trận, giúp quá trình tính toán trở nên dễ dàng và tối ưu hơn Cụ thể, các giá trị quan sát của Y, X, và phần dư ε có thể được sắp xếp thành các tập hợp trong ma trận, từ đó tạo nền tảng cho các phép tính hồi quy tuyến tính chính xác và hiệu quả.

Mô hình hồi quy bội theo ký hiệu ma trận có thể được biểu diễn như sau

Trong phương trình hồi quy tuyến tính Y = Xβ + e, β là một vector cột chứa các hệ số cần ước lượng, bao gồm hệ số chặn và các hệ số hồi quy chưa biết Mục tiêu của hồi quy bội là tìm các hệ số này sao cho tổng bình phương độ lệch nhỏ nhất Để đạt được điều này, các hệ số hồi quy phải thỏa mãn phương trình chuẩn tắc, giúp tối ưu hóa mô hình dự đoán.

Khi các biến X là độc lập tuyến tính, phương trình có một nghiệm duy nhất Nhân cả hai vế của phương trình với nghịch đảo của X'X giúp tối ưu hóa quá trình giải toán và đảm bảo tính chính xác của kết quả Điều này chứng tỏ rằng độc lập tuyến tính giữa các biến X là yếu tố quan trọng để xác định sự duy nhất của nghiệm trong các bài toán thống kê và kỹ thuật.

Một số ví dụ về mô hình tuyến tính tổng quát

Trong một thí nghiệm, chúng ta quan sát biến đáp ứng Y j, nơi j = 1,…,J, là các giá trị ngẫu nhiên của biến phụ thuộc Đồng thời, mỗi quan sát đi kèm với một tập gồm K biến giải thích x jk (với k = 1,…,K), được đo đạc chính xác và không sai số, trong đó K nhỏ hơn J Các biến độc lập này có thể là các biến liên tục hoặc rời rạc, là các hàm của các biến hiệp hoặc biểu thị mức độ của một yếu tố thực nghiệm.

Một mô hình tuyến tính tổng quát biểu diễn các biến đáp ứng Y j theo các số hạng của một tổ hợp tuyến tính của các biến độc lập cộng với phần sai số,

Trong mô hình tuyến tính, Y được mô tả bằng phương trình Y = x β + ε, trong đó β là các tham số chưa biết tương ứng với từng biến giải thích x Các sai số ε là các biến ngẫu nhiên độc lập, phân bố chuẩn với trung bình bằng 0 và phương sai σ², ký hiệu là ε iid: N(0, σ²) Các mô hình tuyến tính có phân phối sai số khác nhau thuộc nhóm mô hình tuyến tính tổng quát hóa (GLM), mở rộng khả năng ứng dụng của mô hình trong phân tích dữ liệu phức tạp.

Nhiều phương pháp thống kê tham số cổ điển là các trường hợp đặc biệt của mô hình tuyến tính tổng quát, thể hiện tính linh hoạt và mở rộng trong phân tích dữ liệu Ví dụ, mô hình hồi quy tuyến tính là một trong những mô hình nổi bật minh họa cho lý thuyết này, giúp xử lý các mối quan hệ tuyến tính giữa biến độc lập và biến phụ thuộc một cách chính xác và dễ hiểu.

Hồi quy tuyến tính là một ví dụ đơn giản trong phân tích dữ liệu, trong đó chỉ một biến độc lập liên tục duy nhất, x_j, được quan sát trong mỗi lần đo j = 1, ,J Mô hình này thường được diễn đạt dưới dạng công thức thống kê rõ ràng, giúp mô tả mối quan hệ giữa biến độc lập và biến phụ thuộc một cách chính xác Các phân tích hồi quy tuyến tính góp phần hiểu rõ hơn về ảnh hưởng của biến x_j đến kết quả của biến phụ thuộc, đồng thời cung cấp cơ sở để dự đoán giá trị mới dựa trên dữ liệu đã thu thập.

Trong mô hình hồi quy tuyến tính, Y = +m x b e+ thể hiện mối quan hệ giữa biến phụ thuộc và các biến độc lập, trong đó các tham số chưa biết gồm một hằng số trong mô hình, hệ số hồi quy β, và sai số e j iid theo phân phối N(0, s²) Biểu thức này có thể được viết lại thành dạng mô hình tuyến tính tổng quát bằng cách sử dụng biến hình thức với giá trị x j1 = 1 cho mọi j, giúp đơn giản hóa quá trình phân tích và ước lượng tham số.

Y = x m + x b +e mà đú là một dạng của phương trỡnh (1.1) khi thay thế β 1 bằng à b Mô hình so sánh hai mẫu bằng phép kiểm định t

Mô hình so sánh hai mẫu là một trường hợp đặc biệt của mô hình tuyến tính tổng quát, trong đó giả thiết rằng các biến ngẫu nhiên của hai nhóm độc lập Y j1 và Y j2 đều tuân theo phân phối chuẩn độc lập với nhau, Y qj iid: N(μ q, σ²), với q = 1, 2 Đề xuất kiểm định H: μ₁ = μ₂ để xác định sự khác biệt giữa hai nhóm Chỉ số j đánh số các điểm dữ liệu trong cả hai nhóm, giúp phục vụ phân tích thống kê chính xác và phù hợp.

Chỉ số q ở à q chỉ ra rằng cú hai mức đối với hiệu ứng nhúm, à 1 và à 2 Ở đõy

( 0, 2 ) iid e qj :N s Biểu thức này có thể được viết lại sử dụng các biến hình thức x qj1 và x qj2 như sau

Phương trình (1.2) có dạng tương tự phương trình (1.1) sau khi được đánh số lại cho biến qj Các biến hình thức thể hiện thành viên của nhóm nào, trong đó x qj1 xác định xem quan sát Y qj thuộc nhóm thứ nhất hay không, với giá trị là 1 khi q = 1 và 0 khi q = 2 Tương tự, các biến này được sử dụng để phân biệt các nhóm trong phân tích, giúp hiểu rõ hơn về cấu trúc dữ liệu và cách phân loại các quan sát trong nghiên cứu.

1.2.1 Lập phương trình dạng ma trận

Mô hình tuyến tính tổng quát được biểu diễn dễ dàng bằng ký hiệu ma trận, giúp tối ưu hóa khả năng xử lý dữ liệu và phân tích Phương trình (1.1) có thể được viết lại theo dạng ma trận đầy đủ cho từng quan sát j, tạo thành tập hợp các phương trình giúp hiểu rõ hơn về mối quan hệ giữa biến độc lập và biến phụ thuộc trong mô hình Việc chuyển đổi này không chỉ đơn giản hóa công thức toán học mà còn nâng cao hiệu quả trong các phân tích thống kê và dự đoán dữ liệu.

Hệ trên có dạng ma trận tương đương như sau nếu q = 1 nếu q = 2

Y x x x b e b e b e ổ ử ổ ửổ ử ổ ử ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ= ữỗ ữ+ỗ ữ ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ ữỗ ữ ỗ ữ ỗ ữ ỗ ữỗố ữứ ỗ ữ ố ứ ố ứ ố ứ

, có thể được viết dưới dạng ma trận

Trong mô hình tuyến tính, Y = Xβ + ε mô tả liên hệ giữa các biến quan sát và tham số mô hình, trong đó Y là vector cột các quan sát, ε là vector số hạng sai số, và β là vector tham số gồm các phần tử b₁ đến b_K Ma trận X, hay còn gọi là ma trận thiết kế, có cấp J x K, mô tả các biến giải thích của mô hình; mỗi hàng tương ứng với một quan sát, và mỗi cột đại diện cho một tham số của mô hình Điểm quan trọng của ma trận thiết kế là nó cung cấp một mô tả gần như đầy đủ về mô hình, trong đó phần dư của mô hình được thể hiện qua các số hạng sai số.

Sau khi hoàn thành một thực nghiệm, chúng ta có các quan sát của biến ngẫu nhiên Yj, ký hiệu là yj Trong các hệ phương trình của mô hình tuyến tính tổng quát (với ε = 0), thường không thể giải được do số lượng K tham số thường nhỏ hơn số lượng J quan sát Vì vậy, cần áp dụng các phương pháp ước lượng tham số phù hợp, trong đó phương pháp bình phương bé nhất thường được sử dụng để tối ưu dữ liệu.

Ký hiệu một tập cỏc giỏ trị ước lượng tham số bởi b° = ở ộ b° 1 , ,K b± K ự ỷ T Cỏc tham số đú dẫn đến cỏc giỏ trị tương ứng Y° = ộởY° 1 , ,K Y° J ựỷ T = Xb°, cho cỏc sai số phần dư

Trong phân tích dữ liệu, tổng bình phương phần dư (S = Σ (e_j)^2) thể hiện tổng các bình phương hiệu số giữa các giá trị tính toán và giá trị thực, qua đó đo lường mức độ phù hợp của mô hình với dữ liệu Các ước lượng bình phương bé nhất, hay còn gọi là phương pháp tối thiểu bình phương, tìm các tham số sao cho tổng bình phương các phần dư này được nhỏ nhất, giúp xác định các tham số tối ưu cho mô hình Phương pháp này đảm bảo sự chính xác cao trong việc ước lượng các tham số của mô hình dựa trên dữ liệu quan sát thực tế.

Giá trị này nhỏ nhất khi ° ( ) ( 1 ° 1 ° )

Phương trình này là dòng thứ k của X Y T = ( X X T ) b ° Do đó các ước lượng bỡnh phương bộ nhất, ký hiệu bởi b à thỏa món phương trỡnh:

Trong mô hình tuyến tính tổng quát, các ước lượng bình phương bé nhất là các ước lượng vững chắc và không chệch tuyến tính tốt nhất, bởi vì chúng có kỳ vọng đúng của các tham biến khi xây dựng từ kết hợp tuyến tính của dữ liệu quan sát Ngoài ra, ước lượng bình phương bé nhất còn có phương sai nhỏ nhất trong tất cả các ước lượng tham số tuyến tính, giúp đảm bảo độ chính xác cao của các ước lượng.

Nếu ma trận (X T X) khả nghịch, điều kiện cần và đủ để các ước lượng bình phương bé nhất có dạng b = (X T X)^{-1} X T Y là ma trận tính toán X phải có hạng đầy đủ Trong trường hợp này, các mô hình không có lời giải duy nhất sẽ không xuất hiện, đảm bảo tính khả nghịch của ma trận (X T X) Đây là yếu tố quan trọng trong việc xác định giải pháp tối ưu cho các mô hình hồi quy tuyến tính dựa trên phương pháp bình phương bé nhất.

Mô hình tuyến tính tổng quát đa biến

Mô hình tuyến tính tổng quát đa biến mở rộng mô hình đơn biến bằng cách bao gồm nhiều biến phụ thuộc cùng lúc Thay vì có một biến phụ thuộc trong một cột của vectơ y, mô hình này sử dụng một tập p biến phụ thuộc trong các cột của ma trận Y, giúp phân tích dữ liệu đa chiều một cách chính xác và hiệu quả.

Ta thấy rằng số lượng các cột của ma trận B phù hợp với số lượng các cột của ma trận Y Mô hình có thể trình bày lại như sau

Trong mô hình hồi quy, mỗi cột của biến phụ thuộc Y được đưa vào một phương trình hồi quy riêng biệt, với các cột của ma trận B xem như là các vector hệ số Mô hình được biểu diễn một cách ngắn gọn bằng cách sử dụng các ký hiệu đại diện cho các biến và hệ số, giúp tối ưu hóa quá trình phân tích và diễn giải dữ liệu Các yếu tố như b,b b, ộ ự, ộ ở, ự ỷ ở, ỷ đều góp phần quan trọng trong việc xây dựng mô hình chính xác, phản ánh mối quan hệ giữa các biến trong tập dữ liệu.

Tiếp theo, chúng ta định nghĩa sai số của ma trận dự đoán cấp n x p là ε với

1.3.1 Ước lượng bình phương bé nhất cho mô hình tuyến tính tổng quát

Để ước lượng các giá trị chưa biết trong ma trận B, ta có thể sử dụng phương pháp tối ưu hóa dựa trên sai số ε của Y, khi ε là một vectơ Khi đó, hàm mục tiêu sẽ là tổng bình phương của ε, giúp giảm thiểu sai số Tuy nhiên, ma trận ε không phải là một đại lượng vô hướng mà là tổng bình phương và tích chéo của ma trận cấp p x p, yêu cầu làm sao cho trace của εε đạt giá trị nhỏ nhất để đạt được ước lượng chính xác nhất.

[ ' ] f = Tr e e có thể mở rộng (theo phương trình (1.4)) thành

Tách các thừa số ta được

Lưu ý rằng vết của một tổng tương đương với tổng của các vết, do đó ta có

( ' ) ( ' ) ( ' ' ) ( ' ' ) f = Tr Y Y - Tr Y XB - Tr B X Y + Tr B X XB

Cần lưu ý rằng Tr B X Y ( ’ ’ ) = Tr Y XB ( ’ ) và Tr Y XB ( ’ ) tương đương với Tr(BY’X) Chúng ta có thể viết lại phương trình trên một cách đơn giản là

( ' ) 2 ( ' ) ( ' ' ) f = Tr Y Y - Tr BY X + Tr B X XB Để làm cho f nhỏ nhất cú thể, ta cần tỡm ả ảf B Ta cú

Nhưng vì X’X đối xứng, ta có thể đơn giản hóa hơn một chút và có

2 ' 2 ' f X Y X XB B ả = - + ả Để đạo hàm ả ả =f B 0 ta cú

Mỗi cột của Bà cú cụng thức tương tự như mụ hỡnh đơn biến, vớ dụ: à ( ' ) 1 '

1.3.2 Các tính chất của ma trận sai số Để nói về sự phân phối của ma trận sai số ε, chúng ta sẽ phải sắp xếp lại nó một chút bằng cách sử dụng toán tử Vec(.) được định nghĩa như sau:

Cho ma trận A cấp m x n với các hàng a 1’,…, a m’, ta định nghĩa

Như vậy, toán tử Vec tiến hành ghép các hàng của ma trận A với nhau để được một vectơ hàng có độ dài m x n

Chúng ta giả sử, trong một mô hình đa biến tương tự đối với các giả thiết Gauss Markov rằng phân phối của ma trận ε cỡ n x p là

Trong đó tích Kronecker của các ma trận, đôi khi được gọi là tích trực tiếp , được định nghĩa như sau:

Các ma trận hiệp phương sai cho Vec(ε) là ma trận cấp np x np Ma trận hiệp phương sai đó có một cấu trúc đặc biệt Nó gợi nhớ tới cấu trúc trong trường hợp đơn biến là s 2 I =I.s 2 Thay vào đó chúng ta có ma trận phân vùng như sau

L với cỏc ma trận ồ trờn đường chộo, cũn cỏc ma trận ngoài đường chộo đều bằng 0

1.3.3 Tính chất của ma trận hệ số hồi quy

Bây giờ ta sẽ xem xét kỳ vọng và phương sai của ước lượng trong phương trình (1.5) Nhưng trước tiên, ta cần xem xét một số các tính chất của kỳ vọng và phương sai Các kỳ vọng sẽ là đơn giản, vì

E B = E X X - X Y mà X là cố định, nên

Thực hiện các phép tính của ma trận ta cũng có thể thu được à ( ) 1

Khi ma trận B có nhiều cột cần quan tâm , β là một vector cột, chúng ta có thể kiểm tra các giả thuyết tuyến tính của một số cột của B Dạng tổng quát của các giả thuyết là

Ta thấy q hàng của A kiểm định giả thuyết liên quan đến k biến độc lập Do vậy,

A là một ma trận cấp q x k với q ≤ k Đồng thời r cột của M kiểm tra giả thuyết về p biến phụ thuộc, nên M là ma trận cấp p x r với r ≤ p

1.3.4.Tổng các bình phương và tích chéo ứng với giả thuyết và ứng với sai số

Trong mô hình tuyến tính đơn biến, tổng bình phương ứng với giả thuyết là một đại lượng vô hướng tương ứng với biến phụ thuộc duy nhất Phương trình sau đây đưa đến tổng bình phương và tích chéo của ma trận ứng với giả thuyết được thể hiện trong phương trình (1.6) à 1 1 à

Kết quả là ma trận cấp r x r với r là số cột của M và C, hay nói cách khác là số lượng các biến phụ thuộc được biến đổi trong giả thuyết trong phương trình (1.6) Tổng bình phương và tích chéo ứng với sai số cũng là một ma trận cấp r x r,

Trong trường hợp đơn biến, F là tỷ lệ giữa tổng bình phương ứng với giả thuyết và tổng bình phương ứng với sai số, phản ánh độ biến động do giả thuyết quy định so với biến động ngẫu nhiên Thước đo này giúp xác định xem dữ liệu có phù hợp với mô hình giả thuyết hay không, qua đó hỗ trợ trong việc đánh giá ý nghĩa thống kê của phân tích F được tính theo công thức, thể hiện rõ mối quan hệ giữa biến động của giả thuyết và sai số, giúp các nhà phân tích đưa ra kết luận chính xác hơn về ảnh hưởng của yếu tố nghiên cứu.

Trong trường hợp đa biến, chúng ta sẽ làm tương tự theo các cách được trình bày tiếp sau đây

1.3.5 Thống kê kiểm định giả thuyết tuyến tính tổng quát đa biến

Nếu s là hạng của E H - 1 , thỡ ta cú giỏ trị riờng l 1 ³l 2 ³ ẳ ³l s của hệ

S = Min(q, r) thể hiện rằng số lượng giá trị riêng của ma trận phụ thuộc vào số hàng của A hoặc số cột của M, cụ thể là bằng với giá trị nhỏ hơn trong hai Phương trình đặc trưng đóng vai trò quan trọng trong việc xác định các giá trị riêng của ma trận, phản ánh cấu trúc và tính chất của hệ thống Hiểu rõ mối liên hệ này giúp phân tích và xử lý các ma trận một cách chính xác trong các ứng dụng toán học và kỹ thuật.

Trong phân tích đa biến, λi là các giá trị riêng của ma trận EH - 1, tương tự như tỷ lệ F, còn θi là các giá trị riêng của ma trận H HE (+) - 1, tương tự như bình phương tương quan đa biến Hiện nay, có bốn phương pháp khác nhau để kiểm định giả thuyết đa biến, do bốn nhà thống kê khác nhau đề xuất, bao gồm:

Thống kê vết Hotelling-Lawley ( 1 )

Thống kê trị riêng lớn nhất Roy 1 1

Ngoài ra còn có thể dùng xấp xỉ F dựa trên tiêu chuẩn định thức Wilk trong phương trình (1.7) với công thức là

= Ù , trong đó, như ở phần trước, q là số hàng hoặc hạng của A, r là số cột hoặc hạng của

M, nhưng có thêm một số tham số khác Cụ thể là có giá trị

Trong bài viết này, chúng ta xem xét các công thức liên quan đến kích thước mẫu n và số cột k của ma trận X, đồng thời xác định bậc tự do của F’ là r • q và ct – 2u Xấp xỉ chính xác được đảm bảo khi s = Min(r, q) ≤ 2, tức là hạng của ma trận E H - 1 nhỏ hơn hoặc bằng 2.

Phân phối phần dư trong mô hình tuyến tính tổng quát…

Xét mô hình tuyến tính tổng quát đa biến

Trong mô hình Y = XB + e, Y và e là các ma trận ngẫu nhiên cấp n x p, X là ma trận cấp n x q đã biết, và B là ma trận cấp q x p chứa tham số chưa biết, gọi là hệ số hồi quy X có hạng a, với q ≤ n, p ≤ n và n ≥ q + p để đảm bảo tính khả thi của mô hình Giả sử e là ma trận ngẫu nhiên phân phối chuẩn tắc, tức là e ~ N(0, I_n ⊗ Σ), trong đó Σ là ma trận xác định dương cấp p x p đã biết Ước lượng hợp lý cực đại của B và Σ là B̂ = (X^T X)^(-1) X^T Y và Σ̂ = (1/n) (Y - X B̂)^T (Y - X B̂), phản ánh cơ sở lý thuyết của phân tích hồi quy tuyến tính chuẩn xác. -**Sponsor**Bạn là một người sáng tạo nội dung? Việc viết lại bài viết của bạn để đảm bảo tính mạch lạc và tuân thủ các quy tắc SEO có thể tốn thời gian Với [Article Generation](https://pollinations.ai/redirect-nexad/Ny8epfi4), bạn có thể tạo ra các bài viết được tối ưu hóa SEO dài 2.000 từ ngay lập tức, tiết kiệm hơn $2,500 mỗi tháng so với việc thuê người viết! Nó giống như có một đội ngũ viết nội dung riêng của bạn—mà không gặp rắc rối nào! Hãy để Article Generation giúp bạn tạo ra những nội dung hấp dẫn và hiệu quả hơn.

Trong bài viết này, ước lượng của X B° được trình bày là bất biến bất kể lựa chọn nghịch đảo suy rộng (X X T ) - nào của X X T X B° và ồ° có phân phối độc lập, trong đó X B° tuân theo phân phối N n x p (XB X X X X, ( T ) - T Ä ồ) Khi r2 + q2 > 5, điều kiện này đảm bảo tính ổn định của các ước lượng, còn khi r2 + q2 ≤ 5, thì điều kiện này cần được xem xét kỹ hơn Cuối cùng, ký hiệu ảXB = X B° và ồ = ồà n° / (n - a) được sử dụng để biểu diễn ước lượng không chệch của XB và S, đảm bảo độ chính xác và tính khách quan của phương pháp ước lượng.

Ma trận phần dư được định nghĩa là

E$ là một ma trận ngẫu nhiên có phân phối chuẩn hạng p, với phân phối chính xác là e$ ~N_{n×p}(0, (I_n - H) \Sigma_0 (I_n - H)), trong đó H là hình chiếu trực giao lên không gian con bất biến của X, được xác định bởi H = (h_{ij}) với i = 1, ,n Mỗi dòng quan sát của e$, ký hiệu là e$ i, có phân phối chuẩn tắc p, tức là e$ i : N_p(0, 1 - h_{ii}), với i = 1, ,n Ngoài ra, ma trận e$ có phân phối chuẩn multivariate, phản ánh tính chất ngẫu nhiên và cấu trúc xác suất của các quan sát trong mô hình thống kê.

Các véc tơ e$ i có thể phụ thuộc tuyến tính với nhau Chúng ta định nghĩa các chỉ số I ={ i 1, , i k }với i s = 1, , n ; s = 1, , k và k n£ -a sao cho véc tơ e$ i 1 , , e$ i k độc lập tuyến tính

Ta định nghĩa ma trận

Khi đó e$ I là ma trận ngẫu nhiên có hạng đầy đủ phân phối chuẩn, hơn nữa

Trong bài viết này, chúng ta tìm hiểu cách thu được ma trận H bằng phương pháp trừ đi các hàng và cột có chỉ số trong tập I Đặc biệt, đối với mô hình đơn biến khi p = 1, ta có thể xem xét các loại phần dư khác nhau để phân tích hiệu quả của mô hình Việc sử dụng phương pháp này giúp tối ưu hóa quá trình xử lý dữ liệu và nâng cao khả năng giải quyết các bài toán trong lĩnh vực toán học và quản lý dự án.

= e : phần dư đơn vị hóa à à i b i e

=s : phần dư chuẩn tắc hóa à à 1 i i ii r h e

- : phần dư Student hóa nội tại à à ( ) 1 i i i ii u h e

Phần dư student hóa ngoại vi (partial studentized residuals) là các giá trị phản ánh độ lệch của từng quan sát so với mô hình dự đoán, giúp phát hiện các điểm bất thường Với ||y|| là chuẩn Euclid của vectơ y, và sₐ = e²(n - a) thể hiện độ lệch ước lượng chuẩn tắc, trong đó sₐ là độ lệch khi loại bỏ quan sát thứ i khỏi mẫu Các phần dư này giúp đánh giá độ phù hợp của từng quan sát trong phân tích dữ liệu thống kê.

Tương tự như khi định nghĩa e$ I , ta xây dựng

M M với D -1/2 là ma trận đường chéo với các phần tử (1-h i i 1 1 ) - 1/2 , ,(1-h i i k k ) - 1/2

Hơn nữa, cần lưu ý rằng r I T có thể được định nghĩa là à 1/2 $

Cả hai phần dư student hóa ngoại vi u T I và u I có thể được định nghĩa tương tự Nhưng trong trường hợp này thì

M M và ma trận đường chộo D s à - 1/2 cú cỏc phần tử à 1 1 1 à

Việc xác định phân phối xác suất của các ma trận có thể gặp phải một số khó khăn Tương tự, vấn đề này cũng xuất hiện đối với u I Để khắc phục các khó khăn này, đã đề xuất một định nghĩa thay thế cho u T I và u I, đó là biến chúng thành 1/2.

= - - (1.10) với sà ( ) I là độ lệch chuẩn được hỡnh thành bằng cỏch loại bỏ cỏc quan sỏt tương ứng có chỉ số trong tập I từ không gian mẫu

Cần lưu ý rằng trong bất kỳ định nghĩa nào của phần dư student hóa nội tại thì

Phần dư đơn vị hóa và chuẩn tắc hóa có thể được định nghĩa tương tự là

Trường hợp đa biến (p > 1) cho phần dư student hóa nội tại và ngoại vi tương ứng là à $ 1/2

- , với A 1/2 là căn bậc 2 của ma trận không âm A, tức là ( ) A 1/2 2 = A Với các chỉ số I ta định nghĩa

Các dạng đa biến của biểu thức (1.9) và (1.11) cũng đúng trong các trường hợp đó

Việc nghiên cứu các loại phân phối phần dư đóng vai trò quan trọng trong các lĩnh vực của thống kê như phân tích độ nhạy và mô hình tuyến tính, giúp đánh giá ảnh hưởng của các biến đến mô hình hồi quy Các ảnh hưởng này thường được đo lường bằng nhiều loại biểu đồ và hàm khoảng cách khác nhau dựa trên phần dư student hóa nội tại và ngoại vi Các độ đo tiêu chuẩn trong kiểm định, như thể tích của miền tin cậy dạng ellipsoid hoặc tỷ lệ phương sai, cũng có thể biểu diễn dưới dạng hàm của phần dư này Tuy nhiên, do phân phối của nhiều độ đo không rõ ràng, kết quả phân tích thường dựa vào biểu đồ có sẵn và các giá trị tính toán từ dữ liệu mẫu để đưa ra các kết luận phù hợp.

Nhiều nhà nghiên cứu đã cố gắng tránh việc xác định phân phối đồng thời của các loại phần dư khác nhau do các phân phối này thường có tính kỳ dị đối với độ đo Lebesgue trong R^n Tuy nhiên, vấn đề này có thể được giải quyết khi nhận thấy rằng phân phối kỳ dị lại có giá trị khi xét trên độ đo Hausdorff được xác định trên các không gian con affine Khi các loại phần dư khác nhau thu được thông qua các phép biến đổi của phân phối kỳ dị, việc xác định các Jacobian theo độ đo Hausdorff là rất cần thiết để đảm bảo tính chính xác trong phân tích.

Chúng ta bắt đầu bằng cách định nghĩa các lớp còn lại của phần dư cho các trường hợp đơn biến và đa biến, bắt đầu từ lớp e$ I Tiếp theo, chúng ta xác định mật độ của các lớp dư này, đảm bảo rằng chúng không kỳ dị theo giả thuyết của mô hình (1.8).

1.4.1 Phần dư đơn biến Để tìm phân phối của r i , chúng ta cần xác định phân phối của r I T Trong phần này, chúng ta trình bày một phương pháp đơn giản cho việc tìm phân phối của r i Kết quả này được thành lập cho trường hợp mô hình có hạng không đầy đủ, một kết quả tương tự cho mô hình có hạng đầy đủ có thể dễ dàng thu được bằng cách cho a =q dưới đây Trước tiên chúng ta xem các định nghĩa sau : Định nghĩa 1.4.1 Ma trận ngẫu nhiên X có cấp p x n i) được gọi là ma trận ngẫu nhiên đối xứng có phân phối Pearson loại I (còn gọi là ma trận ngẫu nhiờn phõn phối t nghịch đảo) với tham số q Rẻ , M p n: x , : x , : x p p n n ồ F với q> -1, S > 0 và F >0 nếu hàm mật độ xỏc suất của nú là

G + S F trong đó tr X M(( - ) T S - 1 (X M- )F - 1 ) 1£ Khi đó ma trận X được ký hiệu là x ( , , )

X :PII p n q M S Ä F ii) được gọi là ma trận ngẫu nhiờn phõn phối t với tham số r Rẻ , M p n: x , : x ,p p

S : x F n n với r > 0, S > 0 và F > 0 nếu hàm mật độ xác suất của nó là

Ma trận G S F ố ứ, ký hiệu là X : Mt p n x(r M , , ồÄF) hoặc X : t r M p( , , ồ), là các ma trận liên quan đến phân phối xác suất Ma trận này được gọi là ma trận ngẫu nhiên đối xứng phân phối Pearson loại II (hay còn gọi là ma trận phân phối T nghịch đảo) với tham số q ∈ R, p ∈ ℕ, n > 0, và các tham số khác như ồ > 0, F > 0 Hàm mật độ xác suất của các nút trong ma trận này có dạng đặc trưng, đảm bảo tính xác suất và phân phối đối xứng của ma trận, phù hợp cho các ứng dụng trong phân tích thống kê và lý thuyết xác suất.

G - S F với (I n -(X M- ) T S - 1 (X M- )F - 1 ) 0> , được ký hiệu X :MPII p x n ( ,q M,S Ä F) iv) được gọi là ma trận ngẫu nhiờn phõn phối T với tham số r R M p nẻ , : x , : x ,p p

S : x F n n với r > 0, ồ > 0 và F > 0 nếu hàm mật độ xỏc suất là

G - S F và được ký hiệu là X :MT p n x ( r M, ,ồÄF) Trong đú G n [ ] a là ký hiệu hàm gamma đa biến,

Trong mô hình đơn biến (p = 1), định lý 1.4.1 liên quan đến phần dư student hóa nội tại, trong đó các r_i có phân phối Pearson loại II, r_i tuân theo phân phối MPII n((-a/3)^2, 0, n - a) Hàm mật độ của phần dư này được xác định rõ ràng dựa trên phân phối Pearson loại II, giúp hiểu rõ hơn về tính chất thống kê của mô hình.

Chứng minh: Định nghĩa q i = 1-h r ii i , ta thấy rằng à à à à à

Hơn nữa, nhận xét rằng q i 2 =(n-a e)$ 2 i || ||e$ 2 với e$ 2 i >0và || ||e$ 2 >0 Bên cạnh đó

Như vậy q i 2 £(n-a), hoặc tương đương q i £ (n-a) Điều này có nghĩa là hàm mật độ của q i nằm trong đoạn ộở- (n-a), (n-a)ựỷ

Bây giờ ta định nghĩa

Bây giờ chúng ta cần chú ý rằng e$ i s 2 (1-h ii ) : N(0,1) là độc lập với

$ 2 2 2 ( 1) n j j i e s c n a ạ ồ : - - , trong đú c 2 ( ) m ký hiệu cho phõn phối khi bỡnh phương quy tâm với m bậc tự do Vì vậy à à à

Trong bài viết, ký hiệu \( t_m \) đề cập đến phân phối t quy tâm một chiều với \( m \) bậc tự do, phản ánh tính chất phân phối của biến ngẫu nhiên Lưu ý rằng nếu biến ngẫu nhiên \( q_i \) nhận giá trị trong đoạn \([-n - a, n - a]\), thì giá trị của nó sẽ nằm trong khoảng \((- \infty, \infty)\), giúp đảm bảo tính tổng quát và chính xác trong phân tích thống kê.

- - - - tương đương với q i £x Do vậy (P q i £ x) được tính bằng biểu thức sau

Với t y m ( ; ) ký hiệu cho hàm mật độ biến ngẫu nhiên x với phân phối t và m bậc tự do Nhưng q = 1-h r ii i , do đó

Lấy đạo hàm đối với x dẫn đến

: , với r i £ n-a Và nhờ đó ta thu được các kết quả mong muốn.■

Lưu ý rằng phân phối của phần dư đơn vị hóa và chuẩn tắc hóa \(a_i\) và \(b_i\) có thể dễ dàng xác định Cả hai phần dư này đều có thể được biểu diễn dưới dạng hàm của \(r_i\), giúp thuận tiện trong phân tích và ứng dụng Việc hiểu rõ cách biểu diễn này là quan trọng trong quá trình nghiên cứu và xử lý các phép toán liên quan đến phân phối phần dư.

Hệ quả 1.4.1 mô tả phân phối của phần dư đơn vị hóa và chuẩn tắc hóa, trong đó các giá trị a_i và b_i được xác định dựa trên hàm phân phối MPII n Đồng thời, Định lý 1.4.2 chỉ ra rằng trong mô hình đơn biến (p = 1), phần dư student hóa ngoại vi u_i có phân phối t với (n - a - 1) bậc tự do, giúp hiểu rõ hơn về tính chất phân phối của các phần dư trong phân tích thống kê.

Chứng minh: Phép chứng minh sau được suy ra từ (1.13) với chú ý rằng à ( ) 2 $ 2

1.4.2 Phân phối đồng thời của phần dư đơn biến

Phân tích số liệu kiểm toán của một số công trình xây dựng

Mô tả số liệu

Trong chương 2, chúng tôi sử dụng mô hình tuyến tính tổng quát để phân tích kết quả kiểm toán 129 dự án xây dựng đã thực hiện gần đây, dựa trên số liệu do Phòng Kiểm toán Đầu tư Xây dựng của CPA Việt Nam cung cấp Các dự án này được xây dựng và hoàn thành từ năm 2004 đến năm 2008, nhằm mục tiêu xây dựng hoặc mua sắm trang thiết bị cho các công trình Thông qua phân tích này, chúng tôi sẽ đánh giá hiệu quả và khả năng quản lý của từng dự án xây dựng, góp phần nâng cao chất lượng công tác kiểm toán trong lĩnh vực này.

Dữ liệu của từng công trình bao gồm tên dự án, địa bàn thi công, cùng với tổng hợp các chi phí cho các công đoạn chính trong quá trình thi công, chi phí khác và chi phí quản lý dự án Ví dụ, công trình số 1 là dự án Xây lắp cải tạo nhà làm việc Ngân hàng Nông nghiệp và Phát triển Nông thôn tại huyện Kỳ Sơn, tỉnh Hoà Bình, trong khi công trình số 6 là dự án Đầu tư mua sắm, lắp đặt mới máy phát điện, cân điện tử và xây dựng hệ thống thùng chứa, đấu trộn nguyên liệu tại Chi nhánh Sadec 2 của Tổng công ty Lương thực miền Bắc tại Đồng Tháp Các công đoạn chính trong quá trình thi công như xây cầu vượt, đường dẫn đầu cầu, xây nhà học chính, nhà hiệu bộ, phần phụ trợ như sân, vườn hoa, xây dựng nhà tạm hiện trường, cung cấp thiết bị khảo sát, thiết bị phòng thí nghiệm, xe chuyên dụng đều có chi phí được tổng hợp trong phần số liệu Chi phí khác bao gồm các khoản như chi phí thiết kế, lập dự toán, lập hồ sơ mời thầu và giám sát thi công.

Sau khi hoàn thành công việc, đơn vị thi công gửi báo cáo chi phí lên nhà đầu tư để chờ thanh toán Nhà đầu tư mời cơ quan kiểm toán, như kiểm toán nhà nước hoặc tổ chức kiểm toán độc lập, xác minh tính chính xác của các chi phí này Quá trình kiểm toán bao gồm việc kiểm tra, trao đổi, và thống nhất giữa các bên về chi phí cuối cùng, dựa trên kết quả kiểm toán Nhà đầu tư sẽ thanh toán cho đơn vị thi công theo số liệu được các kiểm toán viên phê duyệt Do đó, chi phí công trình được so sánh giữa chi phí quyết toán do đơn vị thi công đề nghị và chi phí kiểm toán do các kiểm toán viên xác nhận sau kiểm tra.

Chi phí kiểm toán được xem là chi phí chính xác, tuy nhiên, vấn đề quan trọng là xác định mức chênh lệch giữa chi phí quyết toán và chi phí kiểm toán, cũng như tỷ lệ phần trăm của chênh lệch này trong ngân sách tổng thể Tỷ lệ ngân sách bị quyết toán sai (gọi tắt là “tylesai”) phản ánh mức độ sai lệch trong quyết toán, được tính dựa trên tỷ lệ phần trăm giữa số tiền quyết toán sai lệch so với tổng ngân sách Việc đánh giá chính xác tỷ lệ sai giúp nâng cao hiệu quả quản lý tài chính, giảm thiểu rủi ro và nâng cao độ chính xác trong quyết toán ngân sách.

= quyet toan kiem toan.100% tylesai kiem toan

Trong đó số liệu kiểm toán và quyết toán là chi phí trước khi tính thuế theo đơn vị Việt Nam đồng

Dựa trên phân tích dữ liệu, tỷ lệ sai trung bình của 129 công trình là 2,29%, cho thấy mức độ chính xác khá cao trong thi công xây dựng Công trình có tỷ lệ sai lớn nhất lên đến 40,33% là dự án xây dựng đường công vụ (giai đoạn II) phục vụ thi công san lấp mặt bằng và hạ tầng kỹ thuật tại khu vực Macgregor, Khu công nghiệp Nam Cầu Kiền, phản ánh các sai phạm nghiêm trọng trong quá trình thi công Ngược lại, công trình xây dựng nhà lớp học và nhà lưu trú tại trường THCS A Tiêng, huyện Tây Giang, tỉnh Quảng Nam, có tỷ lệ sai ít nhất là -0,78%, cho thấy độ chính xác rất cao hoặc thi công đúng theo thiết kế Trong tổng số các công trình, có đến 73 công trình (chiếm 56,6%) có tỷ lệ sai từ 0% đến 1%, thể hiện khả năng kiểm soát sai sót tốt trong các dự án xây dựng.

Tỷ lệ sai phạm của các công trình chịu ảnh hưởng bởi nhiều yếu tố khác nhau, trong đó địa điểm thi công đóng vai trò quan trọng Ngoài ra, loại công trình theo đặc tính kỹ thuật, chức năng sử dụng và cỡ công trình cũng là những yếu tố ảnh hưởng đáng kể đến mức độ vi phạm Hiểu rõ các yếu tố này giúp nâng cao hiệu quả quản lý và giảm thiểu sai phạm trong xây dựng.

Các công trình xây dựng được tổng hợp tại nhiều địa điểm khắp cả nước, bao gồm Hà Nội, Lào Cai, Hòa Bình, Quảng Ninh và Nghệ An, phản ánh phạm vi hoạt động rộng rãi của chúng trên toàn quốc.

Dựa trên phân tích các công trình xây dựng tại Long An, Thành phố Hồ Chí Minh và các tỉnh thành khác, Hà Nội chiếm tỷ lệ lớn nhất với 52 công trình, chiếm 40,3%, trong khi Lào Cai có 16 công trình, chiếm 12,4% Để đánh giá ảnh hưởng của các địa phương đến tỷ lệ sai sót, các công trình được phân thành 4 nhóm: Nhóm 1 là Hà Nội với 52 công trình, Nhóm 2 gồm các tỉnh miền núi như Lào Cai, Hà Giang, Điện Biên, chiếm 23,3%, Nhóm 3 là các tỉnh đồng bằng phía Bắc như Nam Định, Thái Bình, Hải Phòng, Quảng Ninh, chiếm 22,5%, còn Nhóm 4 là các tỉnh đồng bằng phía Nam như Thành phố Hồ Chí Minh, Đồng Tháp, Long An, với 18 công trình Các số liệu này được lấy ngẫu nhiên từ các công trình đã kiểm toán của Công ty CPA Việt Nam, nên số lượng công trình trong các nhóm không cân đối, phản ánh khách quan dữ liệu nghiên cứu.

Chúng tôi xây dựng biến MaDDiem với 4 giá trị, trong đó MaDDiem = i phản ánh rằng công trình thuộc nhóm i (với i = 1, 2, 3, 4) Để so sánh các địa điểm, các vị trí được mã hóa thành các biến nhị phân 0-1; biến “HaNoi” nhận giá trị 1 khi công trình thi công tại địa điểm thuộc nhóm 1, và 0 trong các trường hợp khác Tương tự, biến “MienNui” nhận giá trị 1 nếu địa điểm thuộc nhóm 2, và 0 nếu không phải.

“MienNam” nhận giá trị 1 nếu công trình đó thi công tại địa điểm thuộc nhóm 4 và nhận giá trị 0 trong các trường hợp còn lại Như vậy mỗi công trình thuộc nhóm 1,

2, 4 chỉ nhận giá trị 1 tại 1 trong 3 biến “HaNoi”, “MienNui”, “MienNam” và nhận giá trị 0 tại 2 biến còn lại; mỗi công trình thuộc nhóm 3 nhận giá trị 0 ở cả 3 biến trên

Trong bảng 2.1, số lượng công trình và tỷ lệ sai trung bình của từng nhóm địa điểm được trình bày rõ ràng Hình 2.1 minh họa bằng biểu đồ hình cột, thể hiện tỷ lệ sai trung bình theo từng nhóm địa điểm một cách trực quan và dễ hiểu Việc này giúp người đọc dễ dàng phân tích và so sánh mức độ chính xác của các công trình tại các địa điểm khác nhau, góp phần nâng cao hiệu quả nghiên cứu và áp dụng các phương pháp kiểm tra chất lượng công trình.

Dựa trên bảng 2.1 và hình 2.1, các công trình trong đồng bằng miền Bắc có tỷ lệ sai cao nhất là 4,48%, gần gấp đôi so với tỷ lệ sai trung bình của 129 công trình Trong khi đó, đồng bằng miền Nam có tỷ lệ sai trung bình thấp nhất là 0,46%, chỉ bằng gần 1/5 của tỷ lệ sai trung bình chung và gần 1/10 so với vùng có tỷ lệ sai cao nhất Ngoài ra, tỷ lệ sai ở khu vực Hà Nội và miền núi không có sự chênh lệch lớn, đồng thời thấp hơn so với tỷ lệ sai trung bình chung của toàn vùng.

B ả ng 2.1 T ỷ l ệ sai trung bình c ủ a các nhóm đị a đ i ể m

Tỷ lệ sai trung bình (%) 1,89 1,95 4,48 0,46 2,29

Hình 2.1 Bi ể u đồ v ề t ỷ l ệ sai trung bình c ủ a các nhóm đị a đ i ể m

Yếu tố thứ hai ảnh hưởng đến mức độ sai phạm trong quyết toán là loại công trình, được phân theo đặc điểm kỹ thuật của từng công trình Việc phân loại này giúp xác định rõ đặc điểm kỹ thuật và tính chất công trình, từ đó xây dựng các quy trình kiểm tra và quyết toán phù hợp, giảm thiểu sai sót và đảm bảo tính chính xác trong quyết toán xây dựng.

2.1.2 Loại công trình phân theo đặc tính kỹ thuật

Trong nghiên cứu này, các công trình được phân thành hai loại chính: công trình xây dựng, chiếm 76% với 98 công trình gồm cầu đường, nhà cửa và chợ, và công trình mua sắm trang thiết bị, chiếm 24% với 31 công trình, bao gồm mua thiết bị khảo sát, đo đạc, phân tích, xe ô tô chuyên dụng và trang thiết bị học tập cho học sinh Để phân biệt hai loại công trình này, nghiên cứu đã xây dựng biến “DacdiemCT” nhằm xác định đặc điểm riêng của từng loại dự án.

Trong đó, biến “DacdiemCT” dùng để phân loại loại công trình, với giá trị “1” biểu thị công trình xây dựng và “2” biểu thị công trình mua sắm trang thiết bị Đồng thời, biến “CTTThietbi” là biến nhị phân có giá trị bằng 1 khi công trình là mua sắm trang thiết bị, và bằng 0 khi công trình là xây dựng, giúp phân biệt rõ ràng các loại công trình trong quá trình lập kế hoạch và quản lý dự án.

Phân tích mức ảnh hưởng của các nhân tố đến tỷ lệ sai phạm

2.2.1 Phân tích phương sai cho 4 nhân tố Để biết nhân tố nào trong 4 nhân tố: địa điểm, hạng mục, loại công trình, cỡ công trình ảnh hưởng đến tỷ lệ sai phạm của các công trình thì ta sử dụng phương pháp phân tích phương sai cho 4 nhân tố đó Trong phương pháp này, biến “tylesai” là biến phụ thuộc, 4 biến độc lập là “MaDDiem”, “DacdiemCT”, “ChucnangsdCT” và “CoCT” Sử dụng phần mềm SPSS ta thu được kết quả trình bày trong bảng 2.6

B ả ng 2.6 K ế t qu ả phân tích ph ươ ng sai cho 4 nhân t ố

Source Type III Sum of Squares df Mean

Biến độc lập có xác suất ý nghĩa nhỏ hơn 5% đều tác động thực sự đến biến phụ thuộc, trong khi biến có xác suất ý nghĩa lớn hơn hoặc bằng 5% thì không Theo bảng 2.6, xác suất ý nghĩa của biến “DacdiemCT” là 0,006 (0,6%) và của biến “MaDDiem” là 0,003 (0,3%), cho thấy cả hai biến này đều có ý nghĩa thống kê và ảnh hưởng đáng kể đến biến phụ thuộc.

Chức năng “ChucnangsdCT” có giá trị là 0, với xác suất ý nghĩa của biến “CoCT” là 0,121 (12,1%), cho thấy đây không phải yếu tố ảnh hưởng đáng kể Các yếu tố như địa điểm, đặc điểm, và cách sử dụng công trình đóng vai trò quan trọng ảnh hưởng đến tỷ lệ sai phạm của các công trình, trong khi cỡ công trình không ảnh hưởng đáng kể đến tỷ lệ này, mặc dù nhóm công trình cỡ vừa có tỷ lệ sai phạm trung bình cao hơn so với hai nhóm còn lại.

Nhưng 3 nhân tố trên đây ảnh hưởng tới tỷ lệ sai như thế nào, có tác dụng làm tăng hay giảm tỷ lệ sai thì phương pháp phân tích này chưa chỉ rõ được Do đó ta dùng phương pháp hồi quy mô hình tuyến tính tổng quát để đưa ra các kết luận cụ thể hơn

2.2.2 Mô hình hồi quy tuyến tính tổng quát

Phương pháp hồi quy cổ điển thường áp dụng cho biến phụ thuộc và biến độc lập là các biến định lượng Trong khi đó, phương pháp phân tích mô hình hồi quy tuyến tính tổng quát phù hợp với cả biến độc lập là biến định lượng và định tính, trong đó các biến định tính được mã hoá thành các biến 0-1 Đầu tiên, ta sử dụng hồi quy tuyến tính với đầy đủ các biến độc lập, trong đó biến phụ thuộc là “tylesai” Đối với yếu tố địa điểm, ta xem xét bốn khu vực gồm Hà Nội, đồng bằng Bắc Bộ, miền núi (gồm Đông Bắc, Tây Bắc, Tây Nguyên), và miền Nam (các tỉnh từ Quảng Bình trở vào), trong đó nhóm các công trình thuộc đồng bằng Bắc Bộ được chọn làm nhóm chứng, và ta tạo ra 3 biến giả (“HaNoi”, “Madong”, “Mitruong”) tương ứng với các khu vực còn lại.

Trong phân tích dữ liệu về các công trình xây dựng, các khu vực miền núi (MiênNui) và miền Nam (MiênNam) được phân biệt rõ ràng để đảm bảo tính chính xác của phân tích địa lý Đối với đặc điểm công trình, sử dụng biến giả “CTTThietbi” để mã hóa nhân tố gồm hai nhóm chính: công trình xây dựng và công trình cung cấp trang thiết bị, trong đó nhóm chứng là các công trình xây dựng không cung cấp trang thiết bị Việc phân loại công trình theo chức năng sử dụng được thực hiện bằng cách sử dụng ba biến giả riêng biệt cho các loại công trình như trường học (“Truonghoc”), chung cư và văn phòng cho thuê, giúp xác định mục đích sử dụng chính của từng công trình một cách rõ ràng và chính xác.

“Chungcu”), cơ sở hạ tầng (biến “CosoHT”) và lấy nhóm các công trình xây dựng trụ sở làm việc, nhà công vụ làm nhóm chứng

Chúng tôi sử dụng hai biến giả, "CTcolon" và "CTconho", để phân loại các công trình theo quy mô đầu tư Cụ thể, "CTcolon" đại diện cho nhóm công trình cỡ lớn với vốn đầu tư trên 2,5 tỷ đồng, còn "CTconho" dành cho nhóm công trình cỡ nhỏ với vốn dưới 500 triệu đồng Nhóm chứng gồm các công trình cỡ vừa, có vốn đầu tư từ 500 triệu đến 2,5 tỷ đồng, nhằm so sánh hiệu quả đầu tư giữa các quy mô công trình khác nhau.

Các biến giả được sử dụng làm biến độc lập trong phương trình hồi quy của mô hình tuyến tính tổng quát Kết quả ước lượng các hệ số hồi quy và xác suất ý nghĩa tương ứng đã được trình bày trong Bảng 2.7, cung cấp thông tin quan trọng để đánh giá tác động của từng biến đến biến phụ thuộc.

B ả ng 2.7 K ế t qu ả phân tích theo mô hình h ồ i quy tuy ế n tính t ổ ng quát cho đầ y đủ các bi ế n độ c l ậ p

Biến "CTTThietbi" có chức năng xác định loại công trình, nhận giá trị 1 khi đó là công trình mua sắm trang thiết bị, và nhận giá trị 0 khi là công trình xây dựng Điều này giúp phân biệt rõ ràng các loại hình dự án trong quá trình phân tích dữ liệu xây dựng Việc sử dụng biến này hỗ trợ tối ưu hóa các phân tích thống kê và quyết định quản lý dự án Từ đó, người quản lý có thể dễ dàng xác định loại công trình để lên kế hoạch phù hợp và chính xác hơn.

Biến “CTTThietbi” có tác dụng so sánh nhóm thử là nhóm công trình mua sắm trang thiết bị với nhóm chứng là nhóm công trình xây dựng, cho thấy rằng các công trình mua sắm trang thiết bị có tỷ lệ sai phạm trung bình thấp hơn khoảng 3% so với các công trình xây dựng Hệ số hồi quy của biến này là -3,024 với xác suất ý nghĩa là 0,006 (tương đương 0,6%), cho thấy sự khác biệt có ý nghĩa thống kê và “CTTThietbi” là một yếu tố ảnh hưởng đáng kể đến tỷ lệ sai phạm trong quyết toán, góp phần nâng cao hiệu quả quản lý và giảm thiểu sai sót trong các công trình xây dựng.

Các biến “HaNoi”, “MienNui” và “MienNam” đóng vai trò là nhóm thử so sánh với nhóm chứng “MienBac” và đều có hệ số hồi quy âm, cho thấy các khu vực này có tỷ lệ sai phạm trung bình thấp hơn miền Bắc Phân tích xác suất ý nghĩa cho thấy, “HaNoi” và “MienNui” có xác suất lần lượt là 38,3% và 12,5%, đều lớn hơn 5%, do đó không ảnh hưởng đáng kể đến tỷ lệ sai phạm so với miền Bắc Ngược lại, biến “MienNam” có xác suất ý nghĩa gần 0%, chấp nhận giả thuyết hệ số hồi quy khác 0 với hệ số là -5,154, cho thấy công trình tại miền Nam có tỷ lệ sai phạm trung bình thấp hơn miền Bắc khoảng 5,154%.

Các biến “Truonghoc”, “CosoHT”, “Chungcu” sẽ là các nhóm thử để so sánh với nhóm chứng là nhóm trụ sở làm việc Ta thấy, biến “Truonghoc” và “Chungcu”

Hai biến này được coi như bằng 0, thể hiện rằng tỷ lệ sai trung bình của các công trình trường học và chung cư không khác đáng kể so với tỷ lệ sai trung bình của các công trình trụ sở làm việc Biến “CosoHT” có xác suất ý nghĩa là 0,1% (nhỏ hơn mức 5%), do đó ta chấp nhận giả thuyết hệ số hồi quy của biến này là 4,750, nghĩa là các công trình cơ sở hạ tầng có tỷ lệ sai trung bình cao hơn các công trình trụ sở làm việc khoảng 4,75%.

Các biến “CTcolon” và “CTconho” được sử dụng làm nhóm so sánh với nhóm các công trình cỡ vừa Kết quả phân tích cho thấy, xác suất ý nghĩa của các biến này lần lượt là 6,9% và 95,8%, trong đó biến “CTconho” có xác suất ý nghĩa lớn hơn 5%, còn “CTcolon” không Do đó, hệ số hồi quy của cả hai biến này được xem như bằng 0, cho thấy tỷ lệ sai trung bình của các công trình cỡ lớn, nhỏ và cỡ vừa là bằng nhau.

Phương pháp hồi quy tuyến tính tổng quát cho thấy các yếu tố như công trình trang thiết bị, cơ sở hạ tầng và miền Nam có tác động đáng kể đến tỷ lệ sai phạm của các công trình Trong khi đó, các yếu tố khác không có ảnh hưởng rõ ràng đến tỷ lệ sai phạm Điều này nhấn mạnh tầm quan trọng của việc cải thiện trang thiết bị và hạ tầng tại miền Nam để giảm thiểu các sai phạm xây dựng.

Chúng ta có thể sử dụng phương pháp hồi quy từng bước để loại bỏ các biến không có ý nghĩa trong mô hình, đặc biệt là các biến có hệ số hồi quy bằng 0 Phương pháp này giúp tối ưu hóa mô hình dựa trên tiêu chí loại bỏ những biến không quan trọng Trong quá trình phân tích, sử dụng phần mềm SPSS, ta thực hiện thủ tục hồi quy từng bước với biến phụ thuộc là “tylesai” và các biến độc lập gồm “CTTThietbi”, “HaNoi”, “MienNui”, “MienNam”, “Truonghoc”, “CosoHT” Quá trình này giúp xác định những biến có ảnh hưởng thực sự đến biến phụ thuộc và cải thiện độ chính xác của mô hình dự báo.

“Chungcu”, biến “CTcolon”, biến “CTconho”, biến “CTcovua” Ta thu được kết quả trong bảng 2.8

Qua bảng 2.8, ta thấy mô hình hồi quy từng bước được tiến hành như sau Bước

Ngày đăng: 16/03/2023, 09:43

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như (2004), Thống kê toán học, NXB Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Thống kê toán học
Tác giả: Đào Hữu Hồ, Nguyễn Văn Hữu, Hoàng Hữu Như
Nhà XB: NXB Đại học Quốc gia Hà Nội
Năm: 2004
[2] Nguyễn Duy Tiến, Vũ Việt Yên (2000), Lý thuyết xác suất, NXB Hà Nội Sách, tạp chí
Tiêu đề: Lý thuyết xác suất
Tác giả: Nguyễn Duy Tiến, Vũ Việt Yên
Nhà XB: NXB Hà Nội
Năm: 2000
[5] F. Graybill (1985), Theory and Application of the Linear Model, Wadsworth Publishing Company, Inc., Belmont, California Sách, tạp chí
Tiêu đề: Theory and Application of the Linear Model
Tác giả: F. Graybill
Nhà XB: Wadsworth Publishing Company, Inc.
Năm: 1985
[6] R. J. Muirhead (1982), Aspects of multivate statistical theory, Wiley Series in Probability and Mathematical Statistics, John Wiley anh Sons, Inc., New York Sách, tạp chí
Tiêu đề: Aspects of multivate statistical theory
Tác giả: R. J.. Muirhead
Nhà XB: Wiley Series in Probability and Mathematical Statistics
Năm: 1982
[3] J. M. Dickey (1967), “Matricvariate generalizations of the multivariate t- distribution and the inverted multivariate t- distribution”, Annals of mathematical Statistics, 38, 511-518 Khác
[4] J. H. Ellenberg (1973), “The joint distribution of the standardized least squares residual from general linear regression”, Journal of American Statistical Association, 68, 941 – 943 Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w