1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)

83 507 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 83
Dung lượng 1,58 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2 PHẠM THỊ PHƯƠNG NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP HỒI QUY DỮ LIỆU VÀ ỨNG DỤNG VÀO BÀI TOÁN TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ

Trang 1

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

PHẠM THỊ PHƯƠNG

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP HỒI QUY

DỮ LIỆU VÀ ỨNG DỤNG VÀO BÀI TOÁN TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ

THANH TRA THUẾ

LUẬN VĂN THẠC SĨ MÁY TÍNH

HÀ NỘI - 2016

Trang 2

BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC SƯ PHẠM HÀ NỘI 2

PHẠM THỊ PHƯƠNG

NGHIÊN CỨU MỘT SỐ PHƯƠNG PHÁP HỒI QUY

DỮ LIỆU VÀ ỨNG DỤNG VÀO BÀI TOÁN TÍNH ĐIỂM RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ

THANH TRA THUẾ

Chuyên ngành: Khoa học máy tính

Mã số: 60 48 01 01

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học: TS Nguyễn Long Giang

HÀ NỘI - 2016

Trang 3

LỜI CẢM ƠN

Lời đầu tiên em xin gửi lời cảm ơn chân thành đến các thầy cô giáo, Khoa công nghệ thông tin, Phòng sau đại học Trường Đại học Sư phạm Hà Nội 2 đã tận tình giảng dạy, truyền đạt những kiến thức, kinh nghiệm quý báu trong suốt thời gian em theo học tại trường Các kiến thức, kinh nghiệm quý báu của các thầy cô giáo không chỉ giúp cá nhân em hoàn thiện hệ thống kiến thức trong học tập mà còn giúp em ứng dụng các kiến thức đó trong công tác hiện tại tại đơn vị

Đặc biệt, em xin chân thành cảm ơn thầy hướng dẫn khoa học TS Nguyễn Long Giang, Viện Công nghệ thông tin - Viện Hàn lâm Khoa học và Công

nghệ Việt Nam đã nhiệt tình, tâm huyết trong việc định hướng và giúp đỡ em hoàn thành luận văn này

Em cũng xin được bày tỏ tình cảm với gia đình, đồng nghiệp, bạn bè đã tạo điều kiện để cá nhân em có thể dành thời gian cho khóa học Xin chân thành cảm ơn tập thể lớp cao học K18- KHMT, trong 2 năm qua đã luôn luôn động viên, khích lệ và hỗ trợ em trong quá trình học tập

Trong quá trình thực hiện Luận văn mặc dù đã cố gắng hết mình, song chắc chắn luận văn của em vẫn còn thiếu sót Em rất mong nhận được sự chỉ bảo vào đóng góp tận tình của các thầy cô để luận văn của em được hoàn thiện hơn

Hà Nội, ngày 10 tháng 07 năm 2016

Học viên

Phạm Thị Phương

Trang 4

LỜI CAM ĐOAN

Tôi xin cam đoan: Đề tài: Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế” này là công trình nghiên cứu thực sự của cá nhân Học viên, được thực hiện dưới sự hướng dẫn khoa học của TS Nguyễn Long Giang

Các kết quả, phân tích, kết luận trong Luận văn thạc sĩ này (ngoài các phần được trích dẫn) đều là kết quả làm việc của cá nhân tác giả và chưa từng được công bố dưới bất kỳ hình thức nào

Nếu sai tôi xin chịu hoàn toàn trách nhiệm

Hà Nội, ngày 10 tháng 07 năm 2016

Học viên

Phạm Thị Phương

Trang 5

MỤC LỤC

MỞ ĐẦU 1

NỘI DUNG 4

CHƯƠNG 1 TỔNG QUAN 5

1.1 Tổng quan tình hình nghiên cứu trong và ngoài nước 5

1.2 Sự cần thiết phải triển khai vấn đề nghiên cứu 7

1.2.1 Hiện trạng hệ thống phân tích rủi ro người nộp thuế 7

1.2.2 Phân tích hạn chế của hệ thống TPR 10

1.2.3 Sự cần thiết phải xây dựng hệ thống tính điểm rủi ro của doanh nghiệp 10

Kết luận chương 1 11

CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP HỒI QUY TUYẾN TÍNH 12

2.1 Phương pháp hồi quy đơn biến 12

2.1.1 Vấn đề mô hình hồi quy 12

2.1.2 Ước lượng hệ số hồi quy 14

2.1.3 Tính chất của ước lượng của hệ số hồi quy 15

2.1.4 Kiểm định giả thiết 16

2.1.5 Khoảng tin cậy 19

2.1.6 Tính phù hợp của mô hình 23

2.2 Phương pháp hồi quy đa biến 28

2.2.1 Phương trình hồi quy 28

2.2.2 Ước lượng hệ số hồi quy và tính chất của ước lượng 30

2.2.3 Kiểm định giả thuyết 31

2.2.4 Ước lượng và dự đoán 33

2.2.5 Phân tích phần dư 34

2.2.6 Sử dụng phần mềm 34

Kết luận chương 2 38

Trang 6

CHƯƠNG 3 XÂY DỰNG VÀ THỬ NGHIỆM CHƯƠNG TRÌNH TÍNH ĐIỂM

RỦI RO CỦA DOANH NGHIỆP PHỤC VỤ THANH TRA THUẾ 39

3.1 Tính cấp thiết của bài toán tính điểm rủi ro của doanh nghiệp 39

3.2 Bài toán toán tính điểm rủi ro của doanh nghiệp 40

3.3 Các bước xây dựng mô hình giải quyết bài toán 43

3.3.1 Xây dựng mô hình hồi quy tuyến tính đa biến 43

3.3.2 Thực thi mô hình để tính điểm rủi ro cho doanh nghiệp 46

3.4 Thử nghiệm và đánh giá kết quả 47

3.4.1 Mục tiêu thử nghiệm 47

3.4.2 Công cụ thử nghiệm và môi trường thử nghiệm 47

3.4.3 Quy trình thử nghiệm và đánh giá kết quả 47

Kết luận chương 3 53

KẾT LUẬN 54

DANH MỤC CÁC TÀI LIỆU THAM KHẢO 55

PHỤ LỤC 56

Trang 7

DANH MỤC CÁC THUẬT NGỮ, TỪ VIẾT TẮT

TPR Hệ thống phần mềm phân tích thông tin phục vụ

công tác thanh tra thuế các cấp

TPH Hệ thống tập trung dữ liệu và khai thác thông tin

người nộp thuế

Trang 8

DANH MỤC CÁC HÌNH

Hình 2 1 Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy 13

Hình 2 2 Độ lệch và các đường hồi quy lý thuyết, thực nghiệm 14

Hình 2 3 Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2 đường hyperbol ngoài) cho mức tiêu thụ nhiên liệu 21

Hình 2 4 Dáng điệu phần dư 24

Hình 2 5 Đồ thị phần dư chuẩn hóa cho số liệu độ kéo 27

Hình 2 6 Miền biến thiên của các biến hồi quy 34

Hình 2 7 Đồ thị xác suất chuẩn và phần dư chuẩn hóa của số liệu lực kéo 37

Hình 3 1 Tập dữ liệu huấn luyện 48

Hình 3 2 Mô tả tập dữ liệu huấn luyện 49

Hình 3 3 Kết quả xây dựng mô hình 50

Hình 3 4 Kết quả tính điểm rủi ro của các doanh nghiệp trên tập dữ liệu kiểm tra 51

Trang 9

DANH MỤC CÁC BẢNG

Bảng 2 1 Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon 12

Bảng 2 2 Phân tích phương sai để kiểm định tính hiệu quả của hồi quy 18

Bảng 2 3 Phân tích hệ số và phân tích phương sai cho Ví dụ 1.2 27

Bảng 2 4 Số liệu cho mô hình hồi quy bội 28

Bảng 2 5 Kết quả xử lý với số liệu lực kéo dây dẫn 35

Bảng 2 6 Tóm tắt, phân tích phương sai và phân tích hệ số 36

Bảng 3 2 Bảng dữ liệu đầu vào của hệ thống 43

Trang 10

và hồi quy (regresstion) là các phương pháp quan trọng và có ứng dụng rộng rãi và hiệu quả trong các bài toán phân tích dữ liệu và dự báo trong lĩnh vực kinh tế, tài chính

Hồi quy dữ liệu là việc xác định một hàm ánh xạ từ một mẫu dữ liệu vào một biến dự đoán có giá trị thực Các phương pháp hồi quy được chia thành các nhóm chính: hồi quy tương quan để xác định mối liên hệ giữa nhiều biến ngẫu nhiên với nhau; hồi quy tuyến tính đơn biến để xác định mối liên hệ giữa một biến độc lập vào một biến phụ thuộc; hồi quy tuyến tính đa biến xác định mối liên hệ giữa nhiều biến độc lập vào một biến phụ thuộc…

Trong lĩnh vực thuế, vấn đề gian lận và trốn thuế đang diễn biến ngày càng trầm trọng và ngày càng phổ biến trên thế giới và tại Việt Nam [9] Nhiều quốc gia trên thế giới đã xây dựng các phần mềm máy tính nhằm dự báo các doanh nghiệp có khả năng gian lận, trốn thuế dựa trên các kỹ thuật khai phá dữ liệu và học máy [5, 6, 7, 8] Tại Việt Nam, Tổng cục thuế đã xây dựng được kho dữ liệu tập trung về tình hình thu nộp thuế và thanh tra thuế cùa các doanh nghiệp Bài toán đặt ra là từ số liệu về kết quả thu nộp thuế,

Trang 11

2

làm sao để dự báo được các doanh nghiệp có khả năng gian lận thuế để tiến hành thanh tra nhằm truy thu thuế, đảm bảo chống thất thu ngân sách Do đó, việc xây dựng phần mềm máy tính nhằm tính điểm rủi ro của doanh nghiệp dựa vào số liệu thu nộp thuế nhằm hỗ trợ công tác lập kế hoạch thanh tra thuế

là yêu cầu cấp thiết Doanh nghiệp có điểm rủi ro càng cao thì khả năng gian lận thuế càng cao và khả năng đưa vào thanh tra càng cao

Từ ý nghĩa khoa học và thực tiễn nêu trên, học viên chọn đề tài:

“Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán

tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế”

2 Mục đích nghiên cứu

Nghiên cứu một số phương pháp hồi quy dữ liệu, tập trung vào các phương pháp hồi quy tuyến tính (đơn biến, đa biến) Ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế

3 Nhiệm vụ nghiên cứu

Tìm hiểu các phương pháp hồi quy dữ liệu, tập trung vào phương pháp hồi quy tuyến tính đơn biến, đa biến Tìm hiểu bài toán tính điểm rủi ro của doanh nghiệp dựa trên bộ tiêu chí phân tích rủi ro do Tổng cục thuế ban hành Cài đặt chương trình thử nghiệm tính điểm rủi ro của một số doanh nghiệp tại Cục thuế Hà Nội trên bộ dữ liệu thử nghiệm, đánh giá độ chính xác của mô hình hồi quy

4 Đối tượng và phạm vi nghiên cứu

Đối tượng nghiên cứu là các phương pháp hồi quy dữ liệu Phương pháp nghiên cứu là phương pháp hồi quy tuyến tính đa biến và thử nghiệm với bài toán tính điểm rủi ro cho các doanh nghiệp phục vụ thanh tra thuế

5 Phương pháp nghiên cứu

Phương pháp nghiên cứu của luận văn là nghiên cứu lý thuyết và nghiên cứu thực nghiệm

Trang 12

Về nghiên cứu thực nghiệm, Tìm hiểu bài toán tính điểm rủi ro của doanh nghiệp phục vụ công tác thanh tra thuế Cài đặt chương trình tính điểm rủi ro và thử nghiệm chương trình trên dữ liệu thử nghiệm của một số doanh nghiệp thuộc Cục thuế Hà Nội

Trang 13

4

NỘI DUNG

Luận văn gồm: Phần mở đầu, ba chương chính, phần kết luận, danh

mục tài liệu tham khảo và phụ lục Bố cục như sau:

Phần mở đầu: Nêu lý do chọn đề tài và bố cục luận văn

Chương 1 Tổng quan, giới thiệu tình hình trong và ngoài nước về vấn

đề liên quan đến ứng dụng công nghệ thông tin vào lĩnh vực thuế, vấn đề gian lận và trốn thuế đang diễn biến ngày càng trầm trọng và ngày càng phổ biến ở hầu hết tất cả các nước trên thế giới Và trình bày hiện trạng hệ thống phân tích rủi ro của người nộp thuế Cho thấy sự cần thiết phải xây dựng hệ thống

tính điểm của doanh nghiệp phục vụ thanh tra thuế

Chương 2 Một số phương pháp hồi quy tuyến tính Nội dung chính của

chương là trình bày hai phương pháp hồi quy tuyến tính: Phương pháp hồi quy đơn biến và phương pháp hồi quy đa biến

Chương 3 Xây dựng và thử nghiệm chương trình tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế Chương này tập trung trình bày bài toán

tính điểm rủi ro của doanh nghiệp, xây dựng mô hình hồi quy tuyến tính giải quyết bàu toán và các bước thực hiện, lập trình, cài đặt, thử nghiệm và đánh giá độ chính xác mô hình trên dữ liệu lịch sử năm 2014 của một số doanh nghiệp thuộc Cục thuế Hà Nội quản lý được kết xuất từ hệ thống tập trung dữ

liệu người nộp thuế tại Tổng cục thuế (TPH)

Phần kết luận: Tóm tắt các kết quả đạt được, hướng phát triển tiếp theo Tài liệu tham khảo

Phụ lục

Trang 14

5

CHƯƠNG 1 TỔNG QUAN 1.1 Tổng quan tình hình nghiên cứu trong và ngoài nước

Sự phát triển nhanh chóng các ứng dụng công nghệ thông tin và Internet vào nhiều lĩnh vực khác nhau của đời sống xã hội trong mấy năm gần đây đã tạo ra nhiều cơ sở dữ liệu khổng lồ Để khai thác hiệu quả nguồn thông tin trên các cơ sở dữ liệu khổng lồ đó nhằm mục đích dự báo, hỗ trợ ra quyết định, bên cạnh các phương pháp khai thác thông tin truyền thống, các nhà nghiên cứu đã sử dụng công cụ máy tính điện tử để phát triển các phương pháp, kỹ thuật mới hỗ trợ tiến trình khám phá, phân tích, tổng hợp thông tin Lĩnh vực này được gọi là khai phá dữ liệu và khám phá tri thức (Data Mining and Knowledge Discovery) Trong khai phá dữ liệu, phân lớp (classification)

và hồi quy (regresstion) là các phương pháp quan trọng và có ứng dụng rộng rãi và hiệu quả trong các bài toán phân tích dữ liệu và dự báo trong lĩnh vực kinh tế, tài chính

Hồi quy dữ liệu là việc xác định một hàm ánh xạ từ một mẫu dữ liệu vào một biến dự đoán có giá trị thực Các phương pháp hồi quy được chia thành các nhóm chính: hồi quy tương quan để xác định mối liên hệ giữa nhiều biến ngẫu nhiên với nhau; hồi quy tuyến tính đơn biến để xác định mối liên hệ giữa một biến độc lập vào một biến phụ thuộc; hồi quy tuyến tính đa biến xác định mối liên hệ giữa nhiều biến độc lập vào một biến phụ thuộc…

Trong lĩnh vực thuế, vấn đề gian lận và trốn thuế đang diễn biến ngày càng trầm trọng và ngày càng phổ biến trên thế giới và tại Việt Nam [5]

Trên thế giới, phân tích rủi ro của các doanh nghiệp để phát hiện các gian lận trong lĩnh vực thuế là chiến lược cải thiện nguồn thu ngân sách của hầu hết các chính phủ trên thế giới, đặc biệt là các nước đang phát triển Theo báo cáo thống kê của tổ chức hợp tác kinh tế phát triển phúc lợi kinh tế xã hội trên toàn thế giới (OECD) [6], số tiền ước tính gian lận từ thuế và tài chính từ

Trang 15

6

các quốc gia là rất lớn.Tại Úc, ước tính gian lận thuế khoảng từ 1- 4 tỷ $AUD hàng năm và số tiền gian lận thuế được xác minh thông qua hồ sơ kê khai thuế của người nộp thuế, hồ sơ tài chính của cá nhân và doanh nghiệp Tại Canada, ước tính gian gian lận thuế, tài chính khoảng 2,5 tỷ $CAN mỗi năm

Cơ quan thuế của Canada xác minh tiền gian lận thuế trong dữ liệu đăng ký thuế trong dựa trên quan hệ các yếu tố của doanh nghiệp như thời gian hoạt động kinh doanh, giao dịch tín dụng, lợi nhuận từ hoạt động kinh doanh qua

kê khai thuế Tại Ireland, ước tính thiệt hại về thuế từ các hộ gia đình và các dịch vụ an sinh xã hội khoảng 25 - 50 tỷ USD Tại Bồ Đào Nha ước tính hàng triệu Euro mỗi năm Tại vương quốc Anh ước tính có khoảng 1,7 tỷ bảng Anh gian lận thuế mỗi năm Xác định tình trạng gian lận thuế thông qua điều tra một nhóm nhỏ và các yếu tố tuân thủ nộp thuế và dữ liệu lợi nhuận được xác định qua đơn vị thứ ba Tại Mỹ ước tính khoảng 9,3 triệu đối tượng gian lận thuế (cá nhân và doanh nghiệp) có khoảng 5,2 tỷ USD thất thu từ gian lận thuế Các số liệu nêu trên cho thấy, gian lận thuế là vấn nạn quốc gia và nó gây ra thất thu ngân sách vô cùng lớn và ảnh hưởng nghiêm trọng tới sự phát triển kinh tế, xã hội của quốc gia đó Nhận thức được vấn đề nghiêm trọng đó, các quốc gia trên thế giới đã và đang xây dựng các phần mềm máy tính để phân tích các rủi ro của các doanh nghiệp nộp thuế dựa trên các kỹ thuật phân tích dữ liệu nhằm phát hiện các doanh nghiệp gian lận, trốn thuế Nhóm tác giả Bruno Chiarini và các cộng sự đã xây dựng phần mềm phân tích gian lận thuế giá trị gia tăng (GTGT) và thu nhập doanh nghiệp (TNDN) bằng phương pháp phân tích chuỗi thời gian (time series analysis) [7] Nhóm tác giả Stefano Pisani và các cộng sự [8] đã xây dựng phần mềm phân tích rủi ro thuế dựa trên dữ liệu thu nhập phát sinh qua thẻ tín dụng sử dụng phương pháp cây quyết định CART Nhóm tác giả Shebo Nalishebo và các cộng sự [9] thực hiện phân tích rủi ro thuế thông qua khảo sát định lượng phỏng vấn một nhóm

Trang 16

7

người theo từng loại hình doanh nghiệp và ngành nghề kinh doanh sử dụng phương pháp phân tích phương sai ANOVA và mô hình hồi quy tuyến tính đa biến Nhóm tác giả Francisco Roberto Pinto và các cộng sự [10] xây dựng công cụ phân tích rủi ro qua khảo sát các doanh nghiệp dựa trên bốn giả thuyết: sự khác biệt giữa các doanh nghiệp; loại hình doanh nghiệp; khác biệt quan điểm kinh doanh; dữ liệu kê khai và nộp thuế sử dụng mô hình hồi quy tuyến tính đa biến

Tại Việt Nam, theo thống kê của Bộ Tài chính cho biết năm 2013 đã thực hiện thanh tra, kiểm tra đối với 64.119 doanh nghiệp (tăng 8% so với năm 2012) xử lý truy thu, phạt và truy hoàn số tiền là 13.657,08 tỷ đồng Năm 2014

đã thực hiện thanh tra, kiểm tra đối với 67.053 doanh nghiệp với tổng số thuế tăng thu qua thanh tra, kiểm tra là 12.224,85 tỷ đồng Nhiều vụ gian luận thuế được phát hiện trong thời gian gần đây tại Việt Nam cho thấy vấn đề gian luận thuế đã và đang xảy ra với một mức độ nghiêm trọng Hai vụ gian lận thuế điển

hình trong thời gian vừa qua là công ty Metro và công ty Coca Cola: “Hoạt

động 12 năm tại Việt Nam nhưng chỉ duy nhất vào năm 2010 Metro báo lãi còn lại đều liên tục báo lỗ, tính đến năm 2012 Metro lỗ lũy kế lên đến 598 tỷ đồng

1.2 Sự cần thiết phải triển khai vấn đề nghiên cứu

Như đã trình bày ở trên, vấn đề gian lận, trốn thuế đang diễn biến ngày càng trầm trọng cả ở trên thế giới và tại Việt Nam và là nguyên nhân quan trọng dẫn đến thất thu ngân sách Nhận thức được vấn đề này, Tổng cục thuế

đã nghiên cứu xây dựng dự án phần mềm ứng dụng “Phân tích thông tin phục

vụ công tác thanh tra thuế các cấp” năm 2009 nhằm tính điểm rủi ro của doanh nghiệp phục vụ công tác lập kế hoạch thanh tra, kiểm tra thuế

1.2.1 Hiện trạng hệ thống phân tích rủi ro người nộp thuế

Trang 17

8

Mục tiêu của hệ thống phần mềm phân tích thông tin phục vụ công tác thanh tra thuế các cấp (viết tắt là TPR) là tính điểm rủi ro của doanh nghiệp dựa trên các số liệu thu, nộp thuế trong cơ sở dữ liệu ngành Thuế hiện có Điểm rủi ro của doanh nghiệp là cơ sở để xếp loại rủi ro doanh nghiệp phục

vụ công tác lập kế hoạch thanh tra thuế Doanh nghiệp có điểm rủi ro càng cao thì có nguy cơ gian lận thuế càng cao và khả năng đưa vào thanh tra càng cao Hệ thống bao gồm hai phân hệ chính như sau:

1) Phân hệ xây dựng và thử nghiệm bộ tiêu chí phân tích rủi ro

Quy trình xây dựng và thử nghiệm bộ tiêu chí phân tích rủi ro được thực hiện như sau:

- Bước 1 Thiết lập bộ tiêu chí đánh giá rủi ro

Bộ phận Thanh tra thuế là đơn vị chịu trách nhiệm xây dựng bộ tiêu chí đánh giá rủi ro của doanh nghiệp, bao gồm các tiêu chí tĩnh do Tổng cục thuế ban hành và các tiêu chí động do Cục thuế tự xây dựng bổ sung phù hợp với tình hình cụ thể tại địa phương (Xem phụ lục về bộ tiêu chí phân tích rủi ro)

- Bước 2 Thử nghiệm bộ tiêu chí đánh giá rủi ro

Nguồn số liệu để thử nghiệm bao gồm: Dữ liệu đăng ký thuế, kê khai thuế, thu nộp thuế lấy từ hệ thống tập trung dữ liệu và khai thác thông tin người nộp thuế (TPH); Dữ liệu bảng cân đối kế toán, báo cáo kết quả hoạt động sản xuất kinh doanh lấy từ hệ thống báo cáo tài chính cấp Tổng cục (BCTC); Dữ liệu kết quả thanh tra thuế lấy từ hệ thống thanh tra, kiểm tra thuế cấp Tổng cục (TTR)

Việc thử nghiệm bộ tiêu chí được thực hiện với các bước như sau:

a) Xác định các tiêu chí đưa vào thử nghiệm: Sau khi xác định được

các tiêu chí có thể sử dụng để đánh giá rủi ro, cán bộ thanh tra lựa chọn các

Trang 18

9

tiêu chí để đưa vào thử nghiệm dựa vào kinh nghiệm của mình, bao gồm các tiêu chí tĩnh và một số tiêu chí động

b) Xác định điểm cho từng tiêu chí: Gán điểm cho từng tiêu chí dựa vào

công thức đã thiết lập của từng tiêu chí Mỗi tiêu chí được phân thành 4 mức

độ rủi ro là rủi ro cao, rủi ro trung bình, rủi ro thấp và rủi ro rất thấp và tương ứng với các mức độ rủi ro là các điểm rủi ro 4, 3, 2 và 1

c) Đánh trọng số cho từng tiêu chí: Cán bộ thanh tra gán trọng số cho

từng tiêu chí dựa vào kinh nghiệm của mình và dựa vào độ quan trọng của từng tiêu chí thay đổi qua các năm Ví dụ: các tiêu chí ảnh hưởng đến tình hình nộp thuế của doanh nghiệp thường được đánh trọng số cao

d) Tính điểm rủi ro cho doanh nghiệp: Sau khi xác định được bộ tiêu

chí, cho điểm từng tiêu chí và đánh trọng số cho từng tiêu chí, dựa vào số liệu lịch sử thu nộp thuế từ cơ sở dữ liệu ngành thuế, cán bộ thanh tra tính tổng điểm rủi ro của từng người nộp thuế bằng cách tính tổng điểm của từng tiêu chí nhân với trọng số của từng tiêu chí theo công thức sau:

Với i là trọng số của tiêu chí i, TCi là điểm rủi ro của tiêu chí i

Nếu điểm rủi ro được tính sai khác so với kết quả thanh tra, cán bộ thanh tra thay đổi việc lựa chọn các tiêu chí rủi ro và thay đổi các trọng số gán cho từng tiêu chí Quá trình này được lặp đi lặp lại cho đến khi điểm rủi ro được tính phù hợp với kết quả thanh tra Khi đó, các tiêu chí phân tích rủi ro

và trọng số tương ứng được chọn để chuyển sang bước phê duyệt

- Bước 3 Phê duyệt bộ tiêu chí đánh giá rủi ro

Lãnh đạo đơn vị có trách nhiệm phê duyệt bộ tiêu chí phân tích rủi ro, bao gồm: phê duyệt bộ tiêu chí, phê duyệt trọng số Bộ tiêu chí phê duyệt được sử dụng trong năm

Trang 19

10

2) Phân hệ phân tích rủi ro

Phân hệ phân tích rủi ro bản chất là tính điểm rủi ro cho doanh nghiệp dựa vào bộ tiêu chí phân tích rủi ro và trọng số được phê duyệt nhằm phục vụ công tác lập kế hoạch thanh tra thuế

- Bước 1 Tính điểm rủi ro cho doanh nghiệp dựa vào bộ tiêu chí phân

tích rủi ro đã phê duyệt và số liệu thu nộp thuế trong cơ sở dữ liệu ngành thuế

- Bước 2 Lập kế hoạch thanh tra thuế Bộ phận thanh tra tổng hợp danh

sách người nộp thuế theo điểm rủi ro từ cao xuống thấp và cân đối với nguồn nhân lực của bộ phận thanh tra để xác định số lượng người nộp thuế đưa vào

kế hoạch thanh tra

1.2.2 Phân tích hạn chế của hệ thống TPR

Qua phần trình bày tóm tắt về hiện trạng hệ thống thanh tra rủi ro ở phần trên, ta có thể thấy rằng bản chất hệ thống thanh tra rủi ro chỉ là phần mềm quản lý thông tin rủi ro,chưa phải là hệ thống phân tích rủi ro Điều này thể hiện ở các khía cạnh sau:

- Các tiêu chí phân tích rủi ro được chọn hoàn toàn dựa vào kinh nghiệm của cán bộ thanh tra và thay đổi theo thời gian, chưa được học từ dữ liệu lịch sử về thu nộp thuế và kết quả thanh tra

- Trọng số của các tiêu chí phân tích rủi ro được gán hoàn toàn dựa vào kinh nghiệm của cán bộ thanh tra và thay đổi theo năm, chưa được học từ dữ liệu lịch sử về thu nộp thuế và kết quả thanh tra

- Việc tính điểm rủi ro cho doanh nghiệp hoàn toàn dựa vào công thức

do chuyên gia nghiệp vụ xây dựng (cán bộ thanh tra) mà không được tính từ

mô hình phân tích Do đó, kết quả điểm rủi ro được tính phụ thuộc vào ý thức chủ quan của con người và có độ chính xác không cao

1.2.3 Sự cần thiết phải xây dựng hệ thống tính điểm rủi ro của doanh nghiệp

Trang 20

11

Qua phân tích các hạn chế của hệ thống TPR, luận văn đề xuất xây dựng hệ thống tính điểm rủi ro của doanh nghiệp phục vụ công tác thanh tra thuế Bản chất hệ thống là mô hình phân tích dữ liệu với các tính năng cơ bản

như sau:

- Trọng số của các tiêu chí phân tích rủi ro được học tự động từ dữ liệu lịch sử thu nộp thuế và thanh tra thuế trong kho dữ liệu ngành thuế trong quá trình xây dựng mô hình, sử dụng mô hình hồi quy đa biến

- Việc tính điểm rủi ro cho doanh nghiệp được thực hiện từ mô hình phân tích Vì mô hình phân tích được xây dựng từ dữ liệu lịch sử nên độ chính xác cao và không phụ thuộc vào ý thức chủ quan của con người

Kết luận chương 1

Trong chương 1, luận văn đã trình bày tình hình trong và ngoài nước về vấn đề liên quan đến ứng dụng công nghệ thông tin vào lĩnh vực thuế, vấn đề gian lận và trốn thuế đang diễn biến ngày càng trầm trọng và ngày càng phổ biến ở hầu hết tất cả các nước trên thế giới Và trình bày hiện trạng hệ thống phân tích rủi ro của người nộp thuế Cho thấy sự cần thiết phải xây dựng hệ

thống tính điểm của doanh nghiệp phục vụ thanh tra thuế

Trang 21

12

CHƯƠNG 2 MỘT SỐ PHƯƠNG PHÁP HỒI QUY TUYẾN TÍNH

2.1 Phương pháp hồi quy đơn biến

2.1.1 Vấn đề mô hình hồi quy

Nhiều bài toán trong khoa học kỹ thuật đòi hỏi khảo sát quan hệ giữa hai hoặc nhiều biến Lấy làm ví dụ, chúng ta xét số liệu ở Bảng 2.1, ở đó y chỉ thị độ sạch của oxy sinh ra trong quá trình chưng cất hóa học, còn x là nồng

độ phần trăm của hydrocarbon có mặt ở bình ngưng bộ phận chưng cất

Bảng 2 1 Độ sạch của oxy ứng với tỷ lệ phần trăm hydrocarbon

TT x(%) y(%) TT x(%) y(%) TT x(%) y(%)

E(Y | x) = f (x) (2.1.1)

Để tổng quát hóa, chúng ta nên dùng mô hình xác suất bằng cách coi Y

là BNN mà ứng với giá trị x của biến X thì

Y = f(x) +  (2.1.2) với  là sai số ngẫu nhiên

Trang 22

13 Trước hết chúng ta xét trường hợp đơn giản nhất, cũng rất hay xảy ra trong thực tế, khi f (x) = ax+b Khi đó (2.1.2) trở thành

Y= ax+b+  (2.1.3)

Hình 2 1 Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy

Mô hình (2.1.3) được gọi là mô hình hồi quy tuyến tính đơn; x được gọi

là biến hồi quy (hay biến độc lập, biến giải thích), Y được gọi là biến phản hồi (hay biến phụ thuộc, biến được giải thích); a, b được gọi là các tham số hồi quy, a: hệ số chặn, b: hệ số góc; đường thẳng y = ax +b được gọi là đường hồi quy

Mô hình được gọi là tuyến tính vì nó tuyến tính với các tham số a, b (a,

b có lũy thừa 1); được gọi là đơn vì có một biến hồi quy

Giả sử ở quan sát thứ i biến X nhận giá trị xi , biến Y nhận giá trị yi và sai lầm ngẫu nhiên là i Như vậy, dưới dạng quan sát, mô hình (2.1.3) trở thành

{

(2.1.4) Lưu ý rằng yi là các biến ngẫu nhiên

Để khảo sát mô hình chúng ta phải tiến hành các thí nghiệm, các phép

đo đạc hay các phép quan sát, gọi chung là quan sát, để có bộ số liệu {(xi, yi)} Thông qua bộ số liệu này, người ta đưa ra các xấp xỉ (ước lượng) tốt cho các tham số Mô hình với các hệ số đã ước lượng được gọi là mô hình thực nghiệm (empirical model) hay mô hình lọc (filted model) Dùng mô hình thực

1.6 1.4 1.2

1.0 8

100

95

90

85

Trang 23

14 nghiệm chúng ta có thể tiến hành một số dự đoán, tính các giá trị cực trị cũng như các khía cạnh của vấn đề điều khiển

2.1.2 Ước lượng hệ số hồi quy

Bây giờ giả sử các biến y1, , yn nhận các giá trị cụ thể nào đó, vẫn ký hiệu là y1, , yn Khi đó

i = yi - (axi +b) (2.1.5) thể hiện độ lệch của quan sát thứ i so với đường hồi quy lý thuyết (xem Hình 2.2) Tổng bình phương các độ lệch

∑ ∑

thể hiện “chất lượng” của việc xấp xỉ số liệu bởi đường hồi quy lý thuyết Ta không thể biết đường hồi quy lý thuyết, việc ta có thể làm là tìm các hệ số a, b để

∑ ( ) (2.16)

Vì (a,b) là đa thức bậc 2 của 2 ẩn a, b; điều kiện cần để nó đạt cực tiểu là

(2.1.7)

Hình 2 2 Độ lệch và các đường hồi quy lý thuyết, thực nghiệm

Thực ra chứng minh được đây cũng là điều kiện đủ Đây là hệ 2 phương trình tuyến tính bậc nhất của a, b không khó khăn gì ta tính được nghiệm của

Trang 24

15 { ̂

̅̅̅̅ ̅ ̅

̂ ̅ ̂ ̅ (2.1.8)

trong đó

̅ ∑ ; ̅ ∑ ; ̅̅̅ ∑ ;

∑ ̅ (2.1.9) Với các ước lượng này ta được phương trình hồi quy thực nghiệm

̂ ̂ (2.1.10) Phương pháp tìm các ước lượng của hệ số như trên gọi là phương pháp bình phương cực tiểu

Các phương trình (2.1.5) - (2.1.10) áp dụng với mọi giá trị cụ thể của các biến ngẫu nhiên y1, , yn nên chúng cũng đúng cho các BNN này

Dưới đây, khi áp dụng các phương trình này và khi không sợ nhầm lẫn,

ta không phân biệt các BNN y1, , yn với các giá trị cụ thể của chúng

2.1.3 Tính chất của ước lượng của hệ số hồi quy

Từ (2.1.8) ta có ngay ̅ ̂ ̂ ̅ Như vậy, đường hồi quy đi qua điểm “trung tâm” (x, y) của số liệu

Lưu ý rằng, ước lượng hệ số (2.1.8) hoàn toàn không cần các giả thiết

về các thành phần ngẫu nhiên i Để có các tính chất tốt của ước lượng, cần có những giả thiết đặt lên các thành phần ngẫu nhiên này Giả thiết dễ chấp nhận

là chúng có kỳ vọng không, cùng phương sai 2, độc lập; giả thiết tiếp sau là chúng có phân bố chuẩn:

1, , n độc lập, cùng phân bố chuẩnN(0; 2

) (2.1.11) Khi đó ước lượng hệ số có những tính chất thống kê tốt thể hiện ở định

lý sau

Định lý 1.1 Khi điều kiện (2.1.11) thỏa mãn thì:

i) ̂ và ̂ lần lượt là ước lượng không chệch của tham số a và b:

E[ ̂ = a; E[ ̂ = b (2.1.12) ii) Phương sai của các ước lượng ̂ và ̂ được tính như sau

Trang 25

của mô hình cho bởi

̂ ∑

Vì 2

trong công thức (1.1.13) chưa biết, ta phải dùng xấp xỉ của nó là ̂ Chúng ta đưa ra định nghĩa

Định nghĩa Đối với mô hình hồi quy tuyến tính đơn, sai số chuẩn hóa

(thực nghiệm) của hệ số góc và hệ số chặn lần lượt được xác định bởi

( ̂) √ ̂

̂ √ ̂ * ̅

+ (2.1.15) trong đó, ̂ được tính theo (2.1.14)

2.1.4 Kiểm định giả thiết

Một khâu quan trọng để kiểm tra tính phù hợp của mô hình hồi quy là kiểm định giả thuyết Các hệ số ̂, ̂,và ̂ là những biến ngẫu nhiên nên có thể làm một số kiểm định về chúng Ta luôn nhớ rằng điều kiện (2.1.11) phải được thỏa mãn Các đối thuyết đưa ra dưới đây đều là 2 phía Độc giả có thể đưa ra đối thuyết 1 phía với điều chỉnh thích hợp các ngưỡng phê phán

a) Sử dụng kiểm định T

Hệ số góc là tham số quan trọng nhất của mô hình hồi quy tuyến tính đơn Xét bài toán kiểm định giả thuyết hai phía:

(2.1.16)

Trang 26

17

Ở đây, b0 là giá trị cho trước Từ giả thiết (2.1.11), yi là các biến ngẫu nhiên độc lập và ̂ là tổ hợp tuyến tính của các BNN yinên nó cũng có phân bố chuẩn

Theo Định lý 1.1, ̂ có phân bố chuẩn N(b;2

/SXX) Ngoài ra, như trong chứng minh của Định lý trên, (n - 2)̂  có phân bố khi bình phương với n -

2 bậc tự do và độc lập với ̂

̂

√  ̂

(2.1.17) Như vậy, chúng ta sẽ bác bỏ H0 (ở mức ý nghĩa ) nếu

√  ̂

 (2.1.18)

Trường hợp đặc biệt quan trọng là khi b0 = 0 :

H0 : b = 0 / H1 : b  0 (2.1.19) Điều này liên quan đến ý nghĩa (hay tác dụng) của hồi quy (significance

of regression): Nếu không bác bỏ H0 (coi b = 0) thì có nghĩa rằng không có một quan hệ tuyến tính nào giữa X và Y (có thể là quan hệ thực sự của X và Y

là quan hệ phi tuyến), sự thay đổi của biến X không kéo theo sự thay đổi dự đoán biến Y, X không có (hoặc rất ít) tác dụng để dự đoán Y; dự đoán cho Y tốt nhất nên dùng Y

Tương tự, giả thuyết liên quan đến hệ số chặn là

H0 : a = a0 / H1 : a  a0 (2.1.20) Bởi vì

̂

+ (2.1.21) Nên giả thuyết bị bác bỏ ở mức  nếu

√  ̂ [ ̅ ]

 (2.1.22)

b) Phân tích phương sai

Phương pháp phân tích phương sai được dùng để kiểm định tính hiệu quả của việc lập mô hình

Trang 27

18 Trước hết, từ chỗ ̅ ̂ ̅ ̂ , bình phương hai vế rồi lấy tổng ta được:

∑ ̅ ∑ ̂ ̅ ∑ ̂ (2.1.23) Chúng ta xác định các đại lượng sau đây:

Tổng bình phương đầy đủ: ∑ ̅

Tổng bình phương hồi quy: ∑ ̂ ̅ ,

Tổng bình phương các phần dư (các sai số):

∑ ̂ (2.1.24) Biểu thức (2.1.23) được viết lại dưới dạng:

SST = SSR + SSE (2.1.23’)

Có thể chứng minh rằng, SSR/[2

+ b2Sxx] và SSE/2

là những biến ngẫu nhiên độc lập, có phân bố khi bình phương với 1 và n - 2 bậc tự do tương ứng

Như vậy, nếu giả thuyết H0 : b = 0 là đúng thì

(2.1.25)

có phân bố F(1, n-2)

Các đại lượng MSR, MSE gọi chung là bình phương trung bình

Nói chung, bình phương trung bình được tính bằng cách lấy tổng bình phương chia cho bậc tự do của nó

F0

P- giá trị Hồi quy

MSR

MSE

P

Trang 28

19 Nếu P - giá trị lớn hơn mức ý nghĩa chọn trước, chúng ta phải chấp nhận giả thuyết b = 0, tức là việc xây dựng mô hình không có tác dụng Cần phải tìm mô hình khác, lấy thêm số liệu…

Lưu ý Chứng minh được, thủ tục phân tích phương sai và thủ tục kiểm

định T cho bài toán kiểm định giả thuyết 2 phía (2.1.16) là tương đương theo nghĩa chấp nhận giả thuyết hay bác bỏ giả thuyết là đồng thời với 2 thủ tục này Tuy nhiên, kiểm định T linh động hơn, có thể xét kiểm định 1 phía, trong khi phân tích phương sai chỉ có thể xét 1 phía

2.1.5 Khoảng tin cậy

a Khoảng tin cậy của tham số

Bởi vì các thống kê Ta, Tb ở (2.1.22), (2.1.17) có phân bố T(n – 2) nên

dễ dàng xây dựng khoảng tin cậy cho chúng

Với giả thiết chuẩn (2.1.11), khoảng tin cậy 100(1 - )% cho hệ số chặn a và

hệ số góc b lần lượt là ( ̂ ⁄ √̂ * ̅

+),

( ̂ ⁄ √̂

) (2.1.26)

b Khoảng tin cậy cho đáp ứng trung bình

Vì y0= E[Y|x0] = a +bx0 nên một ước lượng điểm cho giá trị này là ̂ ̂ ̂ Đây là ước lượng không chệch của a và b Phương sai của ̂ ̂ là  * ̅

+ Tuy nhiên, vì nói chung chúng ta không biết 2

mà phải dùng ước lượng ̂ của nó Dễ thấy rằng ̂

Trang 29

20

c Dự đoán quan sát tương lai

Một ứng dụng quan trọng của phân tích hồi quy là dự đoán quan sát (cá biệt) của biến Y trong tương lai tại mức x0 cho trước của biến hồi quy, ký hiệu

là Y | x0 hay đơn giản là Y 0

Ước lượng điểm cho giá trị quan sát tương lai của biến ngẫu nhiên là giá trị trung bình của nó, ở đây là y0 = a +bx0 Các tham số a, b lại chưa biết,

ta phải dùng ước lượng của chúng Vậy, ước lượng điểm cho Y0 là

̂ ̂ ̂ (2.1.28) Chú ý rằng biến ngẫu nhiênY0 là quan sát tương lai, nó độc lập với các quan sát quá khứ y1, ,yn Cùng với các giả thiết độc lập, cùng phân bố chuẩn của các sai số, sai số dự đoán ̂ có phân bố chuẩn quy tâm, phương sai

rộng dần khi x0 đi ra xa x Mặt khác, với cùng mức ý nghĩa, cùng xét tại điểm

x0, khoảng dự đoán luôn luôn rộng hơn khoảng tin cậy Chúng ta sẽ thấy rõ hơn hiện tượng này ở ví dụ sau

Ví dụ 1.1 Thông thường, người ta vẫn nghĩ mức tiêu thụ nhiên liệu

không phụ thuộc vào việc lái xe nhanh hay chậm Để kiểm tra người ta cho chạy thử một chiếc xe con ở nhiều vận tốc khác nhau từ 45 đến 70 dặm/giờ Kết quả ghi thành bảng

Vận tốc 45 50 55 60 65 70 75 Mức tiêu thụ

(ml/gal) 24,2 25,0 23,3 22,0 21,5 20,6 19,8

Trang 30

21 Liệu có thể thay đổi cách nghĩ rằng mức tiêu thụ nhiên liệu không phụ thuộc vào vận tốc xe? Tìm các khoảng tin cậy 95% cho giá trị trung bình và của quan sát tương lai của mức tiêu thụ nhiên liệu khi xe ở vận tốc 50 ml/h

Giải Chúng ta xét mô hình hồi quy tuyến tính đơn Y = a + bx + , trong đó Y là mức tiêu thụ nhiên liệu, x là vận tốc xe Cần phải xét xem hệ số

b có bằng không hay không Muốn thế ta xét bài toán kiểm định:

H0 : b = 0/H1 : b  0 Tính toán các thống kê liên quan ta được:

̅ ̅

̂ = 32,543; ̂ = -0.17; SSR = 1.527

Mô hình thực nghiệm: y = 32,54 - 0,17x

Tra bảng ta thấy t0.025(5) = 2,571 Theo (2.1.26), khoảng tin cậy 95% của b

là (-0,170  2.571√ ) = (-0,224; -0,116) Khoảng này không chứa điểm 0, vậy ta bác bỏ giả thuyết b = 0 với mức ý nghĩa 5%; coi b  0, tức là mức tiêu thụ nhiên liệu phụ thuộc vào vận tốc xe Cũng có thể tính trực tiếp để bác bỏ b = 0:

Hình 2 3 Khoảng tin cậy (2 đường Hyperbol giữa) và khoảng dự đoán (2

đường hyperbol ngoài) cho mức tiêu thụ nhiên liệu

Trang 31

22 Dùng (2.1.27) và (2.1.29), khoảng tin cậy và khoảng dự đoán 95% tại vận tốc 50ml/h là

Khi x0 thay đổi, mút trên và mút dưới của khoảng tin cậy tạo thành 2 đường hyperbol giữa, của khoảng dự báo tạo thành 2 đường hyperbol ngoài ở Hình 2.3 Một lần nữa ta thấy khoảng tin cậy cho giá trị trung bình của quan

sát là hẹp hơn

d Lưu ý sử dụng mô hình hồi quy

- Trường hợp nội suy Nói chung, sau những kiểm định cần thiết, chúng

ta có thể sử dụng mô hình hổi quy thực nghiệm (2.1.10) để làm một số dự đoán “nội suy” Cụ thể là, khi X nhận giá trị x0 nằm trong dải biến thiên [a;b] của số liệu, giá trị dự đoán của trung bình, cũng như giá trị quan sát tương lai của biến đầu ra sẽ là ̂ ̂ … Sự chính xác của các công thức này đã chỉ ra

ở phần b) và c)

- Trường hợp ngoại suy Sử dụng phương trình hồi quy để dự đoán giá trị

của biến Y ứng với những giá trị của biến đầu vào X nằm ngoài dải biến thiên của số liệu gọi là dự đoán ngoại suy Tuy nhiên, ở ngoài dải biến thiên của số liệu, các giả thiết về mô hình, thậm chí là quan hệ E[Y|X = x] = ax +b có thể

không còn đúng Vì thế, dự đoán với sai lầm đáng kể có thể gây ra từ ngoại suy

Trang 32

23 Một cách khắc phục là lấy thêm quan sát (làm thêm thí nghiệm) để dải biến thiên rộng ra, chứa điểm ta quan tâm Tuy nhiên trong kỹ thuật, nhiều khi ngoại suy là cách duy nhất mà ta có thể tiệm cận vấn đề Cần lưu ý rằng ta nên

áp dụng nó một cách mềm mỏng, với x0 không xa dải biến thiên [a; b], ta vẫn

có thể có kết quả khả dĩ Tóm lại, ta chỉ áp dụng ngoại suy một cách hãn hữu khi rất cần thiết, chưa thể có đủ số liệu và không còn cách nào khác

2.1.6 Tính phù hợp của mô hình

a Phân tích phần dư

Bước khởi đầu của phân tích hồi quy là dựng đồ thị rải điểm của quan sát Nếu dáng điệu đồ thị tập trung quanh 1 đường thẳng nào đó, chúng ta sẽ đi tìm các hệ số a, b Tuy nhiên, việc lập mô hình phải dựa vào các giả thiết chuẩn (2.1.11) Vì các phần dư ei = yi - ̂i đại diện tốt cho các sai sối , người ta thường dùng phân tích phần dư để kiểm tra xem mô hình có phù hợp hay không

Các phần dư phải tuân theo phân bố chuẩn Một phương pháp kiểm tra xấp xỉ tính chuẩn là lập tổ chức đồ khi số quan sát n lớn, hoặc lập đồ thị P - P chuẩn khi n nhỏ

Người ta cũng hay dùng các phần dư chuẩn hóa ⁄√̂ , i = 1, n Nếu các sai số có phân bố chuẩn, có khoảng 95% các phần dư chuẩn hóa rơi vào khoảng (-2; 2) (nếu Z  N(0; 1) thì P{-2 < Z < 2}= 0,95) Hơn nữa, đồ thị

di phải có dạng bình thường, tập trung “đều đặn” trong dải (-2; 2) quanh trục hoành như dạng (a) ở Hình 2.5 Vi phạm điều đó, chẳng hạn nếu nó có dạng (b), (c), (d) thì phải sửa chữa mô hình, hay tìm mô hình khác và phân tích lại

Bởi vì {i, i = 1, , n} là dãy các biến ngẫu nhiên độc lập thì khi sắp xếp chúng theo thứ tự bất kỳ vẫn được dãy các biến ngẫu nhiên độc lập Chúng ta vừa nói đến dãy phần dư di theo chiều tăng của chỉ số thời gian i Người ta cũng lập dãy phần dư theo chiều tăng của xi hay của ̂

Nếu một trong các đồ thị đó có dạng (b) thì phương sai của sai số tăng lên theo thời gian (theo chiều tăng của xi hay của ̂ ), xảy ra (c) thì phương sai

Trang 33

24 của sai số thay đổi, xảy ra (d) thì cần thêm một số hạng bậc cao hơn vào mô hình đa thức hay phải tìm mô hình khác

Đại thể, ta thường coi R2

như là độ biến động trong biến đầu ra được giải thích bởi các giá trị đầu vào khác nhau Khi R2

lớn, gần bằng 1, thì có nghĩa rằng hầu như độ biến động của các biến đầu ra được giải thích bởi sự khác biệt của các biến đầu vào Chẳng hạn, với số liệu mức tiêu thụ xăng, vì

R2 = 0,9298 nên ta nói mô hình chứa đựng 92,98 % độ biến động trong số liệu

Gọi rXY là hệ số tương quan mẫu của các cặp điểm (xi, yi) thì ta có thể thấy

R 2 = rXY

2

(2.1.30’) Như vậy, nếu coi X là biến ngẫu nhiên thì hệ số xác định R2

chính bằng bình phương của hệ số tương quan mẫu giữa X và Y Tuy nhiên chúng ta vẫn viết hệ số xác định là R2

Trang 34

25 thận trọng, ngưỡng nào cho một mô hình cụ thể lại là điều ta chưa biết, ít ra là đến thời điểm này

 (2.1.31) với  ∑ ̅

Ví dụ 1.2 Trong nhà máy sản xuất các linh kiện bán dẫn, linh kiện hoàn

chỉnh là dây được bó xếp lại thành một cái khung Người ta quan tâm đến 3 biến: lực kéo (số đo của lực làm cho khung bị hỏng), độ dài của dây, và chiều cao của khuôn đúc Số liệu có 25 quan sát thể hiện ở 4 cột đầu Bảng 2.5

Trước hết ta quan tâm đến mối quan hệ giữa lực kéo y và độ dài x1 của dây, ở đây để tiện ta vẫn ký hiệu là x Thể hiện số liệu lên đồ thị, dường như đây là quan hệ tuyến tính Chúng ta dùng mô hình Y = ax +b +  để lọc số liệu Ta tính được:

Từ đó ước lượng của các hệ số là

Ta thu được phương trình:

(2.1.32) Ước lượng của 2

có thể tính theo ̂ ∑ ̂ Tuy nhiên trước hết ta tìm hệ số xác định:

Trang 35

26

Đây là giá trị khá lớn Ta nói có 96,4% số liệu được giải thích bởi mô hình Theo (2.1.31) thì

Bây giờ ta kiểm định hệ số b = 0 Theo (2.1.15),

P – giá trị của phân bố Student 23 bậc tự do ứng với giá trị 24,80 là 0,000 Vậy ta chấp nhận giả thuyết b  0

Bây giờ ta xét phân tích phương sai

P - giá trị của phân bố F(1,23) ứng với giá trị 615,08 bằng 0,000 nên ta cũng kết luận b  0

Các kết quả tính toán trên được cô đọng lại vào trong bảng phân tích hệ

số và phân tích phương sai Thông thường các phần mềm thống kê đều đưa ra các bảng này (xem Bảng 2.3)

Trang 36

27

Bảng 2 3 Phân tích hệ số và phân tích phương sai cho Ví dụ 1.2

R R Square Adjusted R Square Std Error of the Estimate

Sum of Squares

Unstandardized Coefficients t Sig

95% Confidence Interval for

B

Constant 5.115 1.146 4.464 .000 2.744 7.485 X1 2.903 .117 24.801 .000 2.661 3.145

Ta lập đồ thị rải điểm của các phần dư chuẩn hóa di = ei /̂ theo ̂ như Hình 2.6 Nhìn vào đồ thị ta thấy có 1 số liệu nằm ngoài dải [-2; 2] Phần dư chuẩn hóa phân bố khá đều đặn trong dải [-2; 2], duy chỉ có 1 giá trị nằm ngoài dải này (tỷ lệ vi phạm là 1/25, nhỏ hơn 5% nên chấp nhận được)

Tóm lại, chúng ta chấp nhận mô hình (2.1.32)

Hình 2 5 Đồ thị phần dư chuẩn hóa cho số liệu độ kéo

-3 -2 -1

Trang 37

28 Bây giờ một dây có độ dài 8 sẽ có sức kéo trung bình là

̂ = 5,115+2,9027.8 = 28,336

Theo (2.1.27), khoảng tin cậy 90% của ước lượng này là (28,336 

1.062) = (27,274; 29,398) Theo (2.1.29), khoảng tin cậy 90% cho quan sát

tương lai khi dây có độ dài 8 là (28,336  5,407) = (22.929; 33.743)

2.2 Phương pháp hồi quy đa biến

2.2.1 Phương trình hồi quy

a Dạng quan sát và dạng ma trận

Giả sử mối quan hệ giữa biến phụ thuộc (biến phản hồi) Y và k biến

độc lập (biến hồi quy) x1, , xk cho bởi mô hình

 (2.2.1) trong đó 0, 1, , k là các tham số chưa biết, gọi là các hệ số hồi quy,

0 gọi là hệ số chặn, 1, , k là các hệ số góc;  là sai số ngẫu nhiên có kỳ

vọng 0 và phương sai 2

Khi không sợ nhầm lẫn, ta viết ngắn gọn (2.2.1) dưới dạng

E[Y | x1, , xk ] = 0 + 1x1 + + kxk (2.2.2) hay đơn giản hơn nữa

E[Y] = 0 + 1x 1 + + kxk (2.2.3)

Để tìm hiểu mô hình (2.2.1) chúng ta tiến hành n quan sát và ghi lại kết

quả dưới dạng bảng như Bảng 2.4

Bảng 2 4 Số liệu cho mô hình hồi quy bội

x1k

xnk

Như vậy, dưới dạng quan sát, mô hình (2.2.1) viết lại dưới dạng:

{ (2.2.4)

Trang 38

= k + 1) - còn gọi là ma trận kế hoạch β là p - véc tơ các hệ số hồi quy, ε là n

- véc tơ sai số ngẫu nhiên

b Tuyến tính hóa một số mô hình

Mô hình (2.2.3) là tuyến tính vì nó tuyến tính với các tham số i

Trong ứng dụng chúng ta thường gặp mô hình dạng:

[ (2.2.6) trong đó g1, , gp là các hàm nào đó của các biến hồi quy x1, ,

là mô hình tuyến tính với các tham số i , phi tuyến với các biến x1, , Xét phép đổi biến

Ta có thể đưa (2.2.5) về dạng thông thường

Trang 39

30 E[Y] = a + cx + cx2,

b3 Dùng phép biến đổi loga với biến phản hồi

Giả sử biến phản hồi Y biểu diễn dưới dạng hồi quy mũ:

trong đó A, 1, , k là các tham số, là sai số ngẫu nhiên dạng nhân

Logarit hóa ta được

là mô hình tuyến tính thông thường

Người ta cũng dùng phép biến đổi loga với các biến hồi quy, hoặc với

cả biến phản hồi lẫn các biến hồi quy để được các mô hình tuyến tính hóa (xem [1], [9],…)

b4 Hồi quy có chứa sin, cos

Giả sử biến phụ thuộc có dạng

Y(t) = a + bt + csint +dcost + 

Bằng cách đặt x1 = t; x2 = sint; x3 = cost, ta đưa mô hình về dạng tuyến tính thông thường

2.2.2 Ước lượng hệ số hồi quy và tính chất của ước lượng

Giả thiết đầu tiên cần có là ma trận X có số hàng ít nhất bằng số cột, p =

Trang 40

31 gọi là ƯL bình phương cực tiểu, ký biệu là ̂, cho bởi:

̂ (2.2.9) Giống như (1.1.14), ƯL cho sai số chung của mô hình là

̂ ∑

∑ ̂ (2.2.10) với ̂ ̂ ̂ ̂ : dự báo của quan sát thứ i

ei = yi - ̂ : phần dư thứ i

Nhận thấy vế phải của (2.2.10) có chứa mẫu số n - p Vậy, khi số biến hồi quy p tăng lên, (chẳng hạn với hồi quy đa thức, khi số bậc của đa thức tăng) có thể sai số mô hình tăng lên Ta sẽ có mô hình cực tồi nếu p  n

Để nghiên cứu các tính chất của ƯL tham số, giống với trường hợp có 1 biến hồi quy, cần có giả thiết:

1, , n độc lập, cùng phân bố chuẩn N(0; 2

) (2.2.11)

Định lý 2.2 Với các giả thiết (2.2.8), (2.2.11) thì:

i) ̂ là ƯL không chệch củavéc tơ tham số : E[ ̂ˆ] =

ii) Ma trận covarian của ̂ cho bởi: Cov( ̂) = (XT

X)-12

2.2.3 Kiểm định giả thuyết

a Kiểm định ý nghĩa của hồi quy:

Đó là kiểm tra xem có một quan hệ tuyến tính nào đó giữa biến phản hồi Y với một tập con nào đó của các biến hồi quy x1, , xk hay không Cụ thể

là xét bài toán kiểm định:

H0 : 1 = 2 = = n = 0 / H1 : j  0 với ít nhất một j{1, , k}

Nếu H0 bị bác bỏ thì có nghĩa là ít ra một trong các biến hồi quy x1, ,xk

có ý nghĩa đối với mô hình

Dưới giả thuyết H0 có thể chứng minh tổng bình phương hồi quy và tổng bình phương các sai số theo (2.1.24) là những BNN độc lập và có bậc tự

do tương ứng là k và n - p Thế thì (xem Định lý 3.23)

(2.2.12)

Ngày đăng: 06/09/2016, 16:06

HÌNH ẢNH LIÊN QUAN

Hình 2. 1. Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Hình 2. 1. Đồ thị rải điểm, đường hồi quy cho số liệu độ sạch của oxy (Trang 22)
Hình 2. 2. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Hình 2. 2. Độ lệch và các đường hồi quy lý thuyết, thực nghiệm (Trang 23)
Bảng 2. 2. Phân tích phương sai để kiểm định tính hiệu quả của hồi quy - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Bảng 2. 2. Phân tích phương sai để kiểm định tính hiệu quả của hồi quy (Trang 27)
Bảng 2. 3. Phân tích hệ số và phân tích phương sai cho Ví dụ 1.2 - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Bảng 2. 3. Phân tích hệ số và phân tích phương sai cho Ví dụ 1.2 (Trang 36)
Hình 2. 5. Đồ thị phần dư chuẩn hóa cho số liệu độ kéo - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Hình 2. 5. Đồ thị phần dư chuẩn hóa cho số liệu độ kéo (Trang 36)
Bảng 2. 4. Số liệu cho mô hình hồi quy bội - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Bảng 2. 4. Số liệu cho mô hình hồi quy bội (Trang 37)
Hình 2. 6. Miền biến thiên của các biến hồi quy  2.2.5. Phân tích phần dư - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Hình 2. 6. Miền biến thiên của các biến hồi quy 2.2.5. Phân tích phần dư (Trang 43)
Bảng 2. 5.  Kết quả xử lý với số liệu lực kéo dây dẫn - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Bảng 2. 5. Kết quả xử lý với số liệu lực kéo dây dẫn (Trang 44)
Hình kinh tế. - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Hình kinh tế (Trang 50)
Bảng 3. 1. Bảng dữ liệu đầu vào của hệ thống - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Bảng 3. 1. Bảng dữ liệu đầu vào của hệ thống (Trang 52)
Hình 3. 1. Tập dữ liệu huấn luyện - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Hình 3. 1. Tập dữ liệu huấn luyện (Trang 57)
Hình 3. 2. Mô tả tập dữ liệu huấn luyện - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Hình 3. 2. Mô tả tập dữ liệu huấn luyện (Trang 58)
Hình 3. 3. Kết quả xây dựng mô hình - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Hình 3. 3. Kết quả xây dựng mô hình (Trang 59)
Hình 3. 4. Kết quả tính điểm rủi ro của các doanh nghiệp trên tập dữ liệu - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
Hình 3. 4. Kết quả tính điểm rủi ro của các doanh nghiệp trên tập dữ liệu (Trang 60)
Hình  thức  sở  hữu  phản  ánh  mức  độ  rủi  ro  về  thuế  của  doanh  nghiệp  là  cao, trung bình hay thấp - Nghiên cứu một số phương pháp hồi quy dữ liệu và ứng dụng vào bài toán tính điểm rủi ro của doanh nghiệp phục vụ thanh tra thuế (LV01913)
nh thức sở hữu phản ánh mức độ rủi ro về thuế của doanh nghiệp là cao, trung bình hay thấp (Trang 68)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w