1. Trang chủ
  2. » Luận Văn - Báo Cáo

Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện

86 517 1

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 86
Dung lượng 5,93 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

NGUYỄN HÙNG CƯỜNG ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH Thái Nguyên

Trang 1

NGUYỄN HÙNG CƯỜNG

ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Thái Nguyên – 5/2016

Trang 2

NGUYỄN HÙNG CƯỜNG

ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN

Chuyên ngành : Khoa học máy tính

LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH

Người hướng dẫn khoa học

Tiến sĩ: Nguyễn Việt Anh

Thái Nguyên – 5/2016

Trang 3

Các số liệu, trong luận văn được sử dụng từ nguồn số liệu được điều tra trong nghiên cứu khảo sát mẫu tại các hộ gia đình thực hiện năm 2014 Kết

quả nghiên cứu này chưa được sử dụng trong bất kể nghiên cứu nào khác

Thái Nguyên, tháng 5 năm 2016

TÁC GIẢ

Nguyễn Hùng Cường

Trang 4

MỤC LỤC

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT iii

DANH MỤC CÁC BẢNG iv

DANH MỤC CÁC HÌNH VẼ v

LỜI NÓI ĐẦU vi

CHƯƠNG 1 TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO GIAO THÔNG 1

1.1 Tìm hiểu về khai phá dữ liệu 1

1.1.1 Khái niệm về khai phá dữ liệu 1

1.1.2 Một số kỹ thuật khai phá dữ liệu 3

1.1.3 Một số phương pháp khai phá dữ liệu 3

1.1.4 Một số công cụ hỗ trợ khai khá dữ liệu 5

1.2 Ứng dụng khai phá dữ liệu trong dự báo giao thông 5

1.2.1 Khái niệm dự báo 5

1.2.2 Ứng dụng khai phá dữ liệu trong dự báo giao thông 7

1.2.3 Mô hình dự báo giao thông phục vụ quy hoạch 7

1.2.4 Mô hình dự báo giao thông 4 bước: 8

CHƯƠNG 2 XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN ĐỐI VỚI HÀ NỘI 16

2.1 Xây dựng mô hình dự báo 16

2.1.1 Dữ liệu xây dựng mô hình 16

2.1.2 Lý thuyết về mô hình hồi quy tuyến tính 16

2.2 Thông tin dữ liệu cần thu thập xây dựng mô hình 17

2.2.1 Thông tin số liệu thống kê 17

2.2.2 Thông tin dữ liệu từ điều tra hộ gia đình 19

2.3 Trích chọn thông tin và xây dựng mô hình dự báo 23

2.3.1 Xây dựng mô hình phát sinh, thu hút chuyến đi 23

2.3.1.1 Xây dựng mô hình phát sinh chuyến đi 25

2.3.1.2 Xây dựng mô hình thu hút chuyến đi 28

2.3.2 Xây dựng mô hình phân bổ chuyến đi 30

2.3.3 Xây dựng mô hình phân chia phương tiện 34

Trang 5

CHƯƠNG 3 KIỂM ĐỊNH TRÊN SỐ LIỆU HIỆN TRẠNG VÀ DỰ BÁO 40

3.1 Kiểm định trên số liệu hiện trạng 40

3.1.1 Kiểm định mô hình phát sinh chuyến đi 40

3.1.2 Kiểm định mô hình thu hút chuyến đi 40

3.1.3 Kiểm định mô hình phân bổ chuyến đi 42

3.1.4 Kiểm định mô hình phân chia phương tiện 43

3.2 Sử dụng mô hình cho dự báo tương lai 45

3.2.1 Dự báo phát sinh, thu hút chuyến đi năm 2020 46

3.2.2 Dự báo phân bổ chuyến đi năm 2020 47

3.2.3 Dự báo lưu lượng phương tiện năm 2020 47

KẾT LUẬN 48

KIẾN NGHỊ 49

TÀI LIỆU THAM KHẢO 50

PHỤ LỤC 52

Phụ lục 1: Code chương trình trên ngôn ngữ R 52

Phụ lục 2: Mẫu điều tra hộ gia đình 60

Phụ lục 3: Kết quả dự báo phân bổ chuyến đi năm 2020 72

Phụ lục 4: Kết quả dự báo lưu lượng giao thông phân theo phương tiện năm 2020 73

Trang 6

DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT

Trang 7

DANH MỤC CÁC BẢNG

Bảng 2 1: Thống kế số lượng các chỉ tiêu theo phường 18

Bảng 2 2: Chỉ tiêu về số chuyến đi bình quân trong ngày 19

Bảng 2 3: chỉ tiêu về số km bình quân phương tiện và chi phí 19

Bảng 2 4: Chỉ tiêu về thu nhập và sở hữu phương tiện 19

Bảng 2 5: Số chuyến đi phân theo mục đích chuyến đi 20

Bảng 2 6: Số chuyến đi phân theo loại hình phương tiện 22

Bảng 3 1: Kết quả kiểm định mô hình phát sinh, thu hút 41

Bảng 3 2: Kết quả kiểm định mô hình phân bổ chuyến đi 42

Bảng 3 3: Kết quả kiểm định mô hình phân chia phương tiện 43

Bảng 3 4: Dân số, số lao động và học sinh, sinh viên năm 2020 45

Bảng 3 5: Kết quả dự báo số chuyến đi phát sinh và thu hút năm 2020 46

Bảng 3 6: Kết quả phân bổ chuyến đi năm 2020 47

Bảng 3 7 Tổng hợp dự báo lưu lượng theo loại hình phương tiện năm 2020 47

Trang 8

DANH MỤC CÁC HÌNH VẼ

Hình 1 1: Tiến trình phát hiện tri thức 1

Hình 1 2: Phát sinh và thu hút chuyến đi 9

Hình 1 3: Phân bổ chuyến đi 9

Hình 1 4: Phân chia phương tiện 10

Hình 1 5: Mô phỏng chi phí tăng lên khi khối lượng được phân bổ 11

Hình 1 6: Vận tốc giảm dần khi khối lượng tăng dần 11

Hình 1 7: Mô hình dự báo 4 bước 12

Hình 2 1 Mô hình hồi quy tuyến tính 17

Hình 2 2: Đánh giá độ tương quan của các chỉ tiêu đầu vào 24

Hình 2 3: Thông số đánh kết quả phân tích mô hình phát sinh 26

Hình 2 4: Thông số đánh giá kết quả phân tích mô hình phát sinh khi thêm HSDC 27

Hình 2 5: So sánh mối tương quan của mô hình phát sinh trước và sau khi thêm HSDC 27

Hình 2 6: Thông số đánh giá kết quả phân tích mô hình thu hút 28

Hình 2 7: Thông số đánh giá kết quả phân tích mô hình thu hút khi thêm HSDC 29

Hình 2 8: So sánh mối tương quan của mô hình thu hút trước và sau khi thêm HSDC 30

Hình 2 9: Mối tương quan số chuyến đi và cự ly vận chuyển 31

Hình 2 10: Thông số đánh giá, phân tích mô hình phân bổ chuyến đi 32

Hình 2 11: Thông số đánh giá, phân tích mô hình phân bổ chuyến đi khi có biến giả 33

Hình 2 12: Số liệu thực tế với số liệu lý thuyết khi có và không có biến giả 34

Hình 2 13: Thông số đánh giá kết quả về độ thỏa dụng đối với xe đạp 36

Hình 2 14: Thông số đánh giá kết quả về độ thỏa dụng đối với xe máy 37

Hình 2 15: Thông số đánh giá kết quả về độ thỏa dụng đối với xe con 37

Hình 2 16: Thông số đánh giá kết quả về độ thỏa dụng đối với xe bus 38

Trang 9

LỜI NÓI ĐẦU

Quy hoạch mạng lưới giao thông có vai trò hết sức quan trọng trong quy hoạch thành phố Dự báo lưu lượng giao thông là cơ sở cho việc quy hoạch mạng lưới giao thông, nhằm đáp ứng tốt nhất nhu cầu đi lại trong hiện tại và trong tương lai

Hiện nay để dự báo giao thông người ta thường tiến hành điều tra, khảo sát bằng các biện pháp như phỏng vấn, đếm xe để xây dựng ma trận nhu cầu

đi lại trong hiện tại rồi dùng một số kỹ thuật dự báo như hệ số đàn hồi, tốc độ tăng trưởng để dự báo nhu cầu đi lại trong tương lai

Việc sử dụng hệ số đàn hồi hoặc tốc độ tăng trưởng thường mang tính

xu thế chung, có thể không phản ánh chính xác được nhu cầu đi lại cho một vùng cũng như loại hình phương tiện đi lại của vùng đó đặc biệt là khi cơ cấu chuyến đi thay đổi và hành vi, thói quen sử dụng phương tiện thay đổi

Nhằm hạn chế bớt sai số trong việc dự báo nhu cầu giao thông, luận văn đề xuất ứng dụng một số kỹ thuật Khai phá dữ liệu trong việc xây dựng

mô hình dự báo lưu lượng giao thông theo loại hình phương tiện dựa trên dữ liệu khảo sát thực tế Dữ liệu khảo sát bao gồm các thông tin về nơi đi, nơi đến; chi phí, thời gian, cự ly, mục đích chuyến đi; đặc điểm nghề nghiệp, tuổi, giới tính của người có chuyến đi v.v

Nghiên cứu này nhằm xây dựng mô hình dự báo theo hướng tiếp cận hiện đại mà các nước phát triển cũng như các nước đang phát triển hiện đang

sử dụng là phương pháp dự báo 4 bước

Dự báo sẽ là cơ sở hỗ trợ cho việc hoạch định của các nhà quản lý về chính sách đầu tư phát triển cơ sở hạ tầng phù hợp nhu cầu của người dân

Trang 10

Với ý nghĩa và tầm quan trọng đó, em lựa chọn đề tài “ Ứng dụng một

số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện” với mục đích tìm hiểu và ứng dụng được

một số kỹ thuật khai phá dữ liệu vào bài toán trên từ nguồn số liệu điều tra hộ gia đình được thực hiện năm 2014 tại thành phố Hà Nội, Việt Nam

Luận văn gồm 3 chương với các nội dung cơ bản sau

Chương 1: Trình bầy khái quát về dự báo và ứng dụng khai phá dữ liệu

trong xây dựng mô hình dự báo giao thông

Chương 2: Trình bầy các kỹ thuật khai phá dữ liệu trong xây dựng mô

hình dự báo lưu lượng giao thông từ bước 1 đến bước 3 trong bài toán dự báo

4 bước để xác định loại hình phương tiện đối với thủ đô Hà Nội

Chương 3: Thử nghiệm trên bộ dữ liệu thực nghiệm năm 2014 và đưa

ra kết quả dự báo cho năm 2020

Qua luận văn này, em xin chân thành cảm ơn TS Nguyễn Việt Anh – Viện Công nghệ thông tin đã tận tình giúp đỡ, hướng dẫn em nghiên cứu và hoàn thành luận văn này Em cũng xin cảm ơn các thầy cô đã giảng dạy em trong hai năm học vừa qua Xin cảm ơn các đồng nghiệp đã giúp đỡ cung cấp

dữ liệu, tài liệu trong quá trình nghiên cứu luận văn

Mặc dù đã hết sức cố gắng, song do thời gian và kinh nghiệm nghiên cứu còn hạn chế nên không thể tránh khỏi những thiếu sót, em mong nhận được sự góp ý của các thầy cô và bạn bè đồng nghiệp để nghiên cứu được hoàn thiện hơn

Trang 11

CHƯƠNG 1 TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG XÂY

DỰNG MÔ HÌNH DỰ BÁO GIAO THÔNG

1.1 Tìm hiểu về khai phá dữ liệu

1.1.1 Khái niệm về khai phá dữ liệu

Khai phá dữ liệu là một bước trong quá trình phát hiện tri thức tiềm ẩn trong cơ sở dữ liệu bằng các thuật toán khai thác dữ liệu theo các phương pháp cụ thể để tìm ra các mẫu hoặc các mô hình trong dữ liệu nhằm trợ giúp nhanh cho người ra quyết định hoặc dự báo

Phát hiện tri thức trong cơ sở dữ liệu (KKD-Knowleadge Discovery in Database) [2], [5] được thực hiện qua tiến trình gồm các bước:

Nghiên cứu và đặt bài toán

Tạo và thu nhập dữ liệu đầu vào

Tiền xử lý dữ liệu: làm sạch, mã hóa

Trích chọn, chuyển đổi dữ liệu

Khai phá dữ liệu: tìm kiếm tri thức

Kiểm định, đánh giá

Sử dụng tri thức Hình 1 1: Tiến trình phát hiện tri thức

Trang 12

Bước 1: Nhằm tìm hiểu lĩnh vực ứng dụng từ đó hình thành nên bài

toán cần giải, xác định các nhiệm vụ cần phải hoàn thành Tạo tiền đề cho việc hình thành nên dữ liệu cần thu thập

Bước 2: Mục tiêu là tìm kiếm thu thập dữ liệu sẵn có hoặc tạo mới

theo yêu cầu của bài toán đã đặt ra nhằm có được nguồn dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu

Bước 3: Là thu thập và xử lý thô, (tiền xử lý dữ liệu) nhằm loại bỏ

nhiễu, xử lý việc dữ liệu bị thiếu, bị thừa hoặc không có thông tin

Bước 4: Là quá trình lựa chọn các thuộc tính cần thiết phù hợp cho

việc phân tích lấy từ CSDL để sử dụng xây dựng mô hình, thuật toán Sau đó

dữ liệu được chuyển đổi hoặc hợp nhất thành một thể thích hợp phù hợp cho việc khai phá Bước này thường chiếm nhiều thời gian nhất

Bước 5: Đây là bước quan trọng nhất nhằm rút ra các tri thức Quá

trình này thực hiện bằng các thuật toán để xây dựng mô hình đủ độ tin cậy theo yêu cầu, mục đích đã đặt ra

Bước 6: Bước này nhằm đánh giá lại kết quả tìm kiếm tri thức dựa

trên một số tiêu chí, chỉ tiêu đánh giá

Bước 7: Hiểu tri thức đã tìm được, làm sáng tỏ các mô tả và dự đoán

Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện

Như vậy khai phá dữ liệu là một bước quan trọng nhất trong qui trình phát hiện tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu Nói một cách khác, mục đích của phát hiện tri thức

và khai phá dữ liệu chính là tìm ra các mẫu và/hoặc các mô hình đang tồn tại trong các cơ sở dữ liệu

Trang 13

Để khai khá dữ liệu người ta cần sử dụng đến kỹ thuật, phương pháp

và công cụ trong khai phá dữ liệu

1.1.2 Một số kỹ thuật khai phá dữ liệu

Theo nguyên lý chúng, khi sử dụng phương thức KPDL để giải quyết một vấn đề cụ thể, cần phải hình dung ra loại vấn đề là gì Có thể tổng kết thành hai loại chính liên quan đến các đối tượng của KPDL:

+ Kỹ thuật khai phá dữ liệu mô tả: Nhằm mô tả các tính chất hoặc các đặc trưng của CSDL hiện có Kỹ thuật này bao gồm các phương pháp như Phân Cụm, phân tích luật kết hợp

+ Kỹ thuật khai phá dữ liệu dự đoán: Nhằm đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời Kỹ thuật này bao gồm các phương pháp như Phân lớp, phân nhóm, hồi quy

1.1.3 Một số phương pháp khai phá dữ liệu

+ Phương pháp phân lớp (classification & prediction):

Là quá trình xây dựng một mô hình mô tả dữ liệu được phân chia như thế nào, nói cách khác là quá trình xây dựng mô hình mô phỏng bằng cách gán các đối tượng dữ liệu vào các lớp đã xác định Mục tiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp Như thế quá trình phân lớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới

Phân lớp dữ liệu dựa trên 4 thành phần cơ bản là: Lớp, dự đoán, tập dữ liệu được huấn luyện, tập dữ liệu kiểm thử

Đặc trưng của tiến trình phân lớp gồm những điểm sau:

Đầu vào: Dữ liệu đào tạo chứa những đối tượng với thuộc tính của nó, với một số thuộc tính đã được gán nhãn

Đầu ra: Mô hình được gán bởi những nhãn cụ thể cho mỗi đối tượng dựa trên những thuộc tính khác

Trang 14

Mô hình sử dụng để dự đoán những lớp mới, những đối tượng chưa biết thì tập dữ liệu kiểm thử cũng dùng để xác định độ chính xác của mô hình

Khi một mô hình phân loại được xây dựng nó sẽ phải so sánh với những

mô hình khác để lựa chọn mô hình tốt nhất Liên quan đến việc so sánh giữa các

mô hình phân loại sẽ có một số thành phần cần được tính đến như: Khả năng dự đoán, tốc độ, độ mạnh mẽ, độ mềm dẻo, tính diễn giải, độ đơn giản

+ Phương pháp phân cụm (Clustering):

Là việc mô tả chung để chia một tập dữ liệu thành các cụm (nhóm), loại mô tả dữ liệu Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau Có nghĩa là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác nhưng phải đảm bảo các đối tượng thuộc 1 cụm là tương tự nhau, đối tượng ở cụm này sẽ ít tương tự với đối tượng ở cụm khác

+ Phương pháp hồi quy (Regression) :

Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực Phân tích hồi quy sẽ xác định được định lượng quan hệ giữa các biến và biến phụ thuộc vào giá trị của những biến khác

Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau chính

là ở chỗ thuộc tính để dự báo là liên tục còn phân lớp dữ liệu là dự đoán các giá trị rời rạc

+ Phương pháp phân tích luật kết hợp(Association Rule)

Là tiến trình xác định những luật phụ thuộc giữa những nhóm khác nhau, là việc phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong

cơ sở dữ liệu Là công việc khám phá các luật kết hợp từ những mẫu thường xuyên hoặc dựa trên ràng buộc

Mục đích của luật kết hợp là tìm ra sự kết hợp hay tương quan giữa

các items Những luật kết hợp này có dạng XY

+ Phương pháp mẫu tuần tự (Sequential Pattern mining)

Trang 15

Là việc xác định những mẫu mà sự xuất hiện của chúng trong CSDL thỏa mãn ngưỡng tối thiểu Luật tuần tự được sinh ra từ mẫu tuần tự, biểu diễn mối quan hệ giữa hai loại sự kiện này sẽ xảy ra sau loạt sự kiện kia 1.1.4 Một số công cụ hỗ trợ khai khá dữ liệu

+ Regretion trong Excel+ R (www.r-project.org) + Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/) + Weka (www.cs.waikato.ac.nz/ml/weka) + YALE (rapid-i.com)

+ KNIME (www.knime.org) + Orange (www.ailab.si/orange)

1.2 Ứng dụng khai phá dữ liệu trong dự báo giao thông

1.2.1 Khái niệm dự báo

Dự báo là một môn khoa học nghiên cứu và tiên đoán những sự việc

sẽ xảy ra trong tương lai trên cơ sở phân tích khoa học về các dữ liệu thu thập được Khi tiến hành dự báo cần căn cứ vào việc thu thập và xử lý số liệu trong quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong tương lai nhờ vào một số mô hình toán học

Căn cứ vào độ dài và thời gian dự báo người ta có thể phân thành 3 loại là dự báo ngắn hạn, trung hạn và dài hạn

+ Dự báo ngắn hạn: là những dự báo có thời gian dự báo < 3 năm, thường dùng để lập các kế hoạch ở tầm vi mô, trong khoảng thời gian ngắn phục vụ cho công tác chỉ đạo, điều hành kịp thời

+ Dự báo trung hạn: là những dự báo có thời gian dự báo từ 3 đến 5 năm, thường dùng để lập kế hoạch trung hạn ở tầm vi mô và vĩ mô

Trang 16

+ Dự báo dài hạn: là những dự báo có thời gian dự báo trên 5 năm, phục vụ cho những dự báo cho những mục tiêu, chiến lược trong thời gian dài

ở tầm vĩ mô

Dự báo nói chung thường tuân theo 5 quy trình sau:

Xác định mục tiêu dự báo; Xác định loại dự báo; Lựa chọn mô hình

dự báo; Thu thập số liệu, tiến hành dự báo; Ứng dụng kết quả dự báo; Theo dõi kết quả dự báo

Để tiến hành dự báo nói chung, hiện nay trên thế giới và tại Việt Nam người ta chia thành 2 nhóm dự báo là dự báo định tính và dự báo định lượng

+ Dự báo định tính: Dự báo thuộc nhóm này là những dự đoán chủ quan hoặc trực giác về tương lai bằng cách dựa vào suy đoán, cảm nhận

+ Dự báo định lượng: Dựa vào các số liệu thống kê và thông qua các công thức toán học được thiết lập để dự báo nhu cầu cho tương lai Khi dự báo nhu cầu tương lai, nếu không xét đến các nhân tố ảnh hưởng khác có thể dùng các phương pháp dự báo theo dãy số thời gian Nếu cần ảnh hưởng của các nhân tố khác đến nhu cầu có thể dùng các mô hình hồi quy tương quan

Tuy nhiên trong thực tế trong một số trường hợp cụ thể người ta sẽ sử dụng kết hợp cả hai phương pháp nói trên bằng phương pháp tổng hợp

Bảng 1 1: Một số phương pháp dự báo

Phương pháp dự báo định tính Phương pháp dự báo định lượng

 Tiên đoán (Genius forcasting)  Hệ số đàn hồi

 Chuyên gia (Consensus methods)  Nội suy xu hướng (Trens interpolation)

 Kịch bản (Scenario)  Ngoại suy xu hướng (Trens extrapolation)

 Mô phỏng, mô hình hóa (Stimulation)

 Cây quyết định (Decisison trees)

 Ma trận tác động qua lại (Cross-impact matrix method)

 Tổng hợp (Combining methods)

Trang 17

Trong các phương pháp dự báo nói trên thì các phương pháp dự báo như: Ngoại suy xu hướng, Mô phỏng, mô hình hóa, Cây quyết định là kết quả của việc ứng dụng kỹ thuật khai phá dữ liệu

1.2.2 Ứng dụng khai phá dữ liệu trong dự báo giao thông

Trong dự báo giao thông, người ta thường sử dụng phương pháp dự báo theo tốc độ tăng trưởng, hệ số đàn hồi Phương pháp này dựa vào chuỗi

số liệu thống kê về số lượng phương tiện qua các năm hoặc chuỗi số liệu đếm

xe trên một số tuyến đường qua các năm để làm căn cứ dự báo cho tương lai

Hiện nay có rất nhiều nghiên cứu cũng như ứng dụng khai phá dữ liệu đối với dự báo giao thông trên hệ thống cơ sở dữ liệu giao thông thông minh (ITS) bằng kỹ thuật khai phá dữ liệu như mạng Nơ ron (Neural Network), logic mờ, sử dụng cây quyết định hoặc hồi quy phi tuyến

Tuy nhiên phương pháp sử dụng được khai thức từ dữ liệu ITS mới chỉ đáp ứng được một phần yêu cầu của các nhà quy hoạch, phương pháp này không trả lời được một cách đầy đủ và chính xác đối với mục tiêu quy hoạch giao thông là trong tương lai khi mở thêm một tuyến đường mới hay một phương thức vận tải mới thì có đáp ứng đủ nhu cầu hay không Do vậy người

ta đã tiến hành thêm phương pháp dự báo dựa trên số liệu phỏng vấn hộ gia đình về dữ liệu hành trình các chuyến đi hàng ngày của các thành viên trong gia đình trên cơ sở mẫu điều tra và sử dụng một số công cụ khai phá dữ liệu

để tiến hành xây dựng mô hình dự báo giao thông gọi là dự báo giao thông 4 bước để phục vụ cho mục tiêu quy hoạch

1.2.3 Mô hình dự báo giao thông phục vụ quy hoạch

Quy hoạch mạng lưới giao thông là quy hoạch mạng giao thông đường

bộ trên phạm vi một vùng lãnh thổ địa lý của một quốc gia, một thành phố hoặc một vùng, đối với mạng lưới giao thông nhằm mục tiêu chuẩn bị các

Trang 18

phương tiện và cung cấp dịch vụ cho nhu cầu giao thông để đảm bảo nhu cầu

đi lại được nhanh chóng, tiện lợi và an toàn

Trong khuôn khổ nghiên cứu của luận văn em đi vào nghiên cứu xây dựng mô hình dự báo giao thông phục vụ cho mục tiêu Quy hoạch mạng lưới đường bộ trong thành phố Hà Nội

1.2.4 Mô hình dự báo giao thông 4 bước:

Mô hình dự báo giao thông 4 bước đã được nghiên cứu và thử nghiệm

ở các nước Châu âu từ đầu những năm 1990, đến nay mô hình đã và đang được nhiều nước tiên tiến trải qua nhiều thử nghiệm và ứng dụng thành công với phương pháp xây dựng hoàn chỉnh gọi là mô hình 4 bước trong đó mỗi bước được thực hiện dự báo bằng một mô hình riêng, đầu ra của bước dự báo trước sẽ là đầu vào của bước dự báo tiếp theo

Cơ sở của việc áp dụng mô hình là sự lựa chọn rời rạc các yếu tố về hành vi thực hiện chuyến đi của các cá nhân trên cơ sở điều tra mẫu trong vùng nghiên cứu với các thông tin về chuyến đi trong ngày như phương tiện

sử dụng, mục đích, thời gian, chi phí chuyến đi sẽ được kết hợp cùng các yếu

tố tự nhiên và xã hội như dân số, số lao động, số học sinh, sinh viên

Dưới đây em xin trình bầy các công thức để xây dựng mô hình dự báo

4 bước trong giao thông vận tải đang áp dụng trong các nghiên cứu, tính toán

để dự báo lưu lượng giao thông

Bước 1: Mô hình phát sinh, thu thút chuyến đi

Mô hình này nhằm trả lời câu hỏi có bao nhiêu chuyến đi xuất phát từ

vùng i và có bao nhiêu chuyến đi sẽ đến vùng j

Gi = a1x1+a2x2+a3x3+ +aixi+c (CT1)

Trong đó: G i là tổng số chuyến đi bắt đầu từ vùng i

c,a 1 ,a 2 ,a 3 ,a i : là các hệ số cần xác định

Trang 19

x 1 ,x 2 ,x 3 ,x i: là các thuộc tính lựa chọn như dân số, số lao

động, số học sinh, sinh viên của vùng i

Aj = a1x1+a2x2+a3x3+ +ajxj+c (CT2)

Trong đó: A j là tổng số chuyến đi từ các vùng khác đến vùng j

c,a 1 ,a 2 ,a 3 ,a i : là các hệ số cần xác định

x 1 ,x 2 ,x 3 ,x j: là các thuộc tính lựa chọn như dân số, số lao

động, số học sinh, sinh viên của vùng j

Hình 1 2: Phát sinh và thu hút chuyến đi Bước 2: Mô hình phân bổ chuyến đi

Mô hình này nhằm xác định và trả lời cho câu hỏi có bao nhiêu chuyến

đi xuất phát từ vùng i để đi đến vùng j

ij

j i ij

D

A G

Trong đó: T ij là tổng số chuyến đi từ i đến j

D ij là trở kháng từ trung tâm vùng i đến trung tâm vùng j (Trở kháng có thể là thời gian hoặc khoảng cách từ vùng i đến vùng j)

Hình 1 3: Phân bổ chuyến đi

Trang 20

Bước 3: Mô hình phân chia phương tiện sử dụng

Mô hình này nhằm trả lời câu hỏi với tổng số chuyến đi từ vùng i đến vùng j người ta sử dụng phương tiện nào: Xe đạp, xe máy, xe con, xe bus

k

k k

P

P P

Trong đó: P k là xác suất sử dụng phương tiện k

1 - P k là xác suất không sử dụng phương tiện k

Hình 1 4: Phân chia phương tiện

Trong hình 1.3, tổng khối lượng của vùng i cần phát là 100 chuyến đi, trong đó vùng j tiếp nhận 35 chuyến đi, vùng j +1 tiếp nhận 25 chuyến đi và vùng j +2 tiếp nhận 40 chuyến đi

Trong hình 1.4 khi phân chia phương tiện đảm nhận xác định cho vùng i đến vùng j thì phương xe máy đảm nhận 20 chuyến, xe con 10 chuyến và xe

đạp 5 chuyến

Bước 4: Phân bổ trên mạng lưới vận tải

Đây là quá trình nhằm xác định chuyến đi từ vùng i đến vùng j của phương tiện k đi trên đường (cung) nào

Bước này là bài toán cơ bản trong CNTT bằng thuật toán tìm kiếm trên

đồ thị bằng kỹ thuật tìm kiếm đường đi có chi phí thấp nhất kết hợp với tri

Xe con: 10

Xe đạp: 5

Xe máy:20

Trang 21

thức bổ sung Tri thức bổ sung ở đây là sau mỗi lần cung r đã có giá trị sử

dụng, thì chi phí trên cung sẽ tăng lên so với những cung chưa được sử dụng Mỗi cung trên đồ thị được mô phỏng tương ứng với một doạn đường trong thực tế (xác định bởi 2 nút giao) Năng lực của một cung được tính toán trên cơ sở các thông số đầu vào của mạng lưới đường bộ trong thực tế như: chiều rộng, chiều dài, vận tốc theo đơn vị quy đổi gọi là PCU (Passenger - Car - Unit)

Hình 1 5: Mô phỏng chi phí tăng lên khi khối lượng được phân bổ

Nguyên tắc xác định chi phí của một cung phụ thuộc vào năng lực của mỗi cung đã được sử dụng bao nhiêu, khi giá trị một cung (khối lượng) càng tiến đến gần năng lực thì vận tốc giảm đi, dẫn đến chi phí tăng lên Mối quan

hệ này được gọi là đường cong QV (Quantity- Velocity)

Hình 1 6: Vận tốc giảm dần khi khối lượng tăng dần

Ví dụ trong hình 1.5 (bên trái), sau khi đã có khối lượng phân bổ chuyến

đi từ vùng số 1 đến vùng số 2 thì chi phí trên cung (1,2) tăng lên, khi phân bổ khối lượng từ vùng số 1 đến vùng số 3 sẽ không lựa chọn cung (1,2) để đi mà lựa chọn cung (1,5) và (5,3) với chi phí thấp hơn Cứ như vậy, quá trình phân

Trang 22

bổ sẽ lựa chọn những cung có chi phí thấp nhất để phân bổ khối lượng từ vùng 1 đến vùng 10 Hình 1.5 (bên trái) mô phỏng chi phí trong lần phân bổ của vùng 1 cho tất cả các vùng khác, và bên phải mô phỏng chi phí trong lần phân bổ của vùng số 2 đến các vùng khác

Trong khuôn khổ nghiên cứu của luận văn này em sử dụng số liệu từ ma trận đi lại của Hà nội năm 2014, ma trận này đã được nhân mẫu từ số liệu điều tra của 18.000 hộ gia đình cũng như các bước xử lý khác

Kết quả nghiên cứu của luận văn đi sâu vào việc ứng dụng một số kỹ thuật khai phá dữ liệu trong quá trình xây dựng mô hình dự báo giao thông từ bước 1 đến bước 3 bằng việc sử dụng một số kỹ thuật khai phá dữ liệu để tìm một số luật suy diễn, lựa chọn các thuộc tính bên ngoài và thuộc tính sẵn có trong dữ liệu kết hợp với kỹ thuật sử dụng biến giả nhằm xây dựng mô hình đạt được kết quả tốt nhất bằng ngôn ngữ R kết hợp với Excel trong quá trình tổng hợp các bảng kết quả và các hình vẽ minh họa

Mô hình 4 bước được khái quát theo sơ đồ sau:

chuyến đi

Phân bổ chuyến đi

Mạng lưới

Hình 1 7: Mô hình dự báo 4 bước

Trang 23

Hiện nay có nhiều đơn vị như Trường Đại học và Viện Nghiên cứu ngoài việc ứng dụng họ đã xây dựng một số các Modul phần mềm để mô phỏng, dự báo giao thông nhằm hỗ trợ cho công việc tính toán như:

+ Cube là phần mềm mô phỏng và dự báo giao thông do Công ty Citilabs của Hoa Kỳ nghiên cứu, phát triển và đang được sử dụng phổ biến tại các nước Châu Âu, Châu Mỹ, Châu Úc, Châu Á, trong đó có Việt Nam

+ Visum, Visim là phần mềm mô phỏng, dự báo giao thông vĩ mô và

vi mô do công ty PTV của CHLB Đức nghiên cứu,phát triển và cũng đang được sử dụng phổ biến tại các nước Châu Âu, Châu Á, trong đó có Việt Nam

+ Strada là phần mềm mô phỏng, dự báo giông thông do Công ty Jica của Nhật Bản nghiên cứu, phát triển, hiện được sử dụng nhiều tại các nước Châu Á, trong đó có Việt Nam

Đối với Việt Nam, việc triển khai áp dụng theo mô hình dự báo này

đã và đang được các tổ chức, đơn vị tư vấn nước ngoài và trong nước nghiên cứu áp dụng đối với dự báo giao thông phục vụ mục tiêu quy hoạch giao thông mang tính chất trên phạm vi lớn của toàn quốc gia hay một vùng hoặc một tuyến đường cụ thể

Việc sử dụng phần mềm đã được xây dựng sẵn hiện nay chủ yếu được các chuyên gia nước ngoài sử dụng và phân tích trong quá trình nghiên cứu một dự án cụ thể Tại Việt nam cũng đã có một số chương trình hợp tác đào tạo, chuyển giao để ứng dụng, tuy nhiên việc khó khăn đối với người sử dụng

là hoàn toàn không chủ động được được trong việc lựa chọn các thông tin khi xây dựng mô hình, một phần do chưa hiểu được bản chất các thuộc tính và quy luật của dữ liệu nên khi sử dụng các phần mềm có sẵn thường gặp khó khăn trong việc xử lý thuộc tính dữ liệu đầu vào để cho ra một kết quả hợp lý

và tốt nhất

Trang 24

Trong quá trình tìm hiểu trước khi làm luận văn với đề tài này, em đã tham khảo một số bài viết về mô hình tính toán dự báo trong giao thông vận tải và nhận thấy rằng, đây thực chất là quá trình tìm kiếm và khai phá dữ liệu

để tìm ra những quy luật chung nhất về số lượng chuyến đi và lựa chọn loại phương tiện để thực hiện chuyến đi của một nhóm đối tượng được gom nhóm theo vùng địa lý và vùng nghiên cứu

Việc sử dụng kết quả từ mô hình này sẽ được sử dụng để nhà quản lý quyết định các chính sách để giảm ùn tắc giao thông, điều chính giá cước, phí lưu thông như trong báo cáo năm 2015 của Tiến sĩ Vũ Anh Tuấn [6], tài liệu giới thiệu về phương pháp tính trên cơ sở mô hình dự báo 4 bước trong giao thông và đưa ra khả năng lựa chọn phương tiện trong tương lai nhằm mục đích đánh giá tác động chính sách quản lý

Việc ứng dụng mô hình dự báo 4 bước còn được sử dụng để tính toán tác động khí thải của các phương tiện giao thông phác thải ra môi trường [16], trong nội dung tài liệu này cũng nói đến việc sử dụng mô hình 4 bước để tính toán thị phần phương tiện, trên cơ sở đó xác định được khí thải của các loại phương tiện gây ô nhiễm.Tài liệu cũng đề cập đến môi trường của giao thông liên tỉnh (giữa các thành phố trong cả nước) và môi trường giao thông nội đô của 2 thành phố lớn là Hà Nội và TP Hồ Chí Minh

Mô hình 4 bươc cũng được sử dụng ở một số các nước khác như: Nghiên cứu mô hình giao thông 4 bước trong giao thông vận tải thành phố Dhaka, Bangladesh [10], nội dung tài liệu đã nêu chi tiết từng bước tiến hành xây dựng mô hình để tính toán mật độ của các tuyến đường trong thành phố với 76 phường được phân thành 10 vùng nghiên cứu để phân tích, và xây dựng mô hình dự báo cũng như các kết quả tính toán cụ thể

Báo cáo về tình hình giao thông vận tải ở Jakarta [7], nội dung báo cáo nhằm nghiên cứu nâng cao hiệu quả năng lượng trong giao thông vận tải

Trang 25

Báo cáo của Hiệp hội vận tải Châu âu tại Hà Lan [9] đã đưa ra một số thuộc tính lựa chọn thông tin trong mô hình hồi quy để dự báo lựa chọn phương tiện cho thành phố Lyon, Pháp Nội dung bài báo cáo tại hội nghị về giao thông Châu Âu tổ chức tại Stransbourg, Pháp [11] cũng nghiên cứu và đưa ra mô hình phân chia phương tiện là bước thứ 3 trong mô hình 4 bước

Bài giới thiệu về mô hình nhu cầu vận tải của tổ chức Kittenson & Associate, INC [12] Bài viết giới thiệu về mô hình nhu cầu vận tải của Viện nghiên cứu Công nghệ Massachusetts [14] đã giới thiệu về cơ sở dữ liệu từ điều tra hộ gia đình, được phân tích theo mục đích chuyến đi và hành vi chuyến đi để sử dụng làm cơ sở tính toán trong mô hình 4 bước

Ngoài việc tìm hiểu từ những bài nghiên cứu, em đã tìm hiểu những bài giảng về giao thông vận tải đặc biệt là những mô hình dự báo trong giao thông vận tải như chương 9 trong giáo trình giới thiệu về giao thông vận tải trong khóa học trực tuyến của tổ chức NPTEL tại Ấn độ [15] Phương pháp

mô hình hóa vận tải của trường đại học Imperial, Anh [8]

Bài giảng giới thiệu về mô hình 4 bước với phần chương 3 của Sở Xây dựng và Kỹ thuật môi trường kết hợp cùng Viện Giao thông Vận tải nghiên cứu Đại học California [13] đã giới thiệu về khái niệm và các công thức tính toán của từng bước cùng kết quả tính toán từ bước 1 đến bước 4

Giáo trình về quy hoạch mạng lưới đường sử dụng trong trường đại học bách khoa thành phố Hồ Chí Minh [3] của TS Chu Công Minh đã giới thiệu tổng quát về các mô hình tính toán dự báo trong giao thông vận tải và giới thiệu khá sâu vào mô hình tính toán dự báo theo mô hình 4 bước

Bài báo giới thiệu về quy trình dự báo nhu cầu đi lại phục vụ cho công tác quy hoạch giao thông được áp dụng rộng rãi ở các nước phát triển [1] của PGS.TS Bùi Xuân Cậy

Trang 26

CHƯƠNG 2 XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN ĐỐI VỚI HÀ NỘI

2.1 Xây dựng mô hình dự báo

2.1.1 Dữ liệu xây dựng mô hình

2.1.2 Lý thuyết về mô hình hồi quy tuyến tính

Mô hình hồi quy là phương pháp toán học nhằm tìm ra dạng hàm biểu diễn mối quan hệ giữa biến phụ thuộc và các biến độc lập như thế nào, việc xây dựng thuật toán nhằm giúp con người sử dụng đã được lập trình cho nhiều phần mềm máy tính và khá thông dụng như Excel, SPSS, R, Weka.v.v

Hàm hồi quy được biểu diễn dưới dạng: Y = Ax 1 + Bx 2 + Cx 3 +D

Trong đó: Y là giá trị của biến phụ thuộc

x 1, x2, x3 là các giá trị biến độc lập

A, B, C, D là các giá trị xác định được khi sử dụng hàm

Khi biểu diễn các cặp giá trị của các biến độc lập và các biến phụ thuộc trên một hệ trục tọa độ thì ta được một tập hợp các điểm rời rạc như hình 2.1

và thể hiện được sự tương quan giữa các biến đó

Nếu mật độ các điểm dầy và khoảng cách đến đường hồi quy nhỏ thì mối tương quan tốt

Trang 27

Hình 2 1 Mô hình hồi quy tuyến tính

Trong mô hình trên, trục x là trục biểu diễn các giá trị rời rạc, trục y là trục biểu diễn giá trị phụ thuộc, các điểm mô tả mối quan

hệ giữa trục x và trục y, đường thẳng được gọi là đường hồi quy tuyến

tính lý thuyết

Để sử dụng linh hoạt các hàm hồi quy tuyến tính, người ta cũng sử dụng một số các phép biến đổi loga đối với biến hồi quy hoặc dùng phép nghịch đảo biến hồi quy như sau:

Hồi quy mũ y = a × eb.x  ln(y) = ln (a) + b ln(x)

Hồi quy lũy thừa y = a × xb  ln(y) = ln (a) + b ln(x)

Hồi quy nghịch đảo y = a + b × (1/ x)

2.2 Thông tin dữ liệu cần thu thập xây dựng mô hình

2.2.1 Thông tin số liệu thống kê

+ Số lượng phường xã của Hà Nội: Dùng để phân vùng nghiên cứu, tính toán tổng số chuyến đi phát sinh và thu hút của vùng

+ Dân số, số lao động đến phường làm việc, số học sinh và sinh viên đang theo học phân theo phường Các thuộc tính này là các yếu tố ảnh hưởng đến số lượng chuyến đi của vùng

Trang 28

Bảng 2 1: Thống kế số lượng các chỉ tiêu theo phường

Số sinh viên, học sinh đến học

Trang 29

2.2.2 Thông tin dữ liệu từ điều tra hộ gia đình

Từ nguồn dữ liệu điều tra hộ gia đình ta tiến hành xác định được một

số chỉ tiêu phục vụ cho việc xây dựng mô hình dự báo

+ Số chuyến đi bình quân của một người/ ngày

+ Số km bình quân mỗi chuyến đi theo loại phương tiện/ ngày

+ Chi phí bình quân / một phương tiện/ ngày

Bảng 2 2: Chỉ tiêu về số chuyến đi bình quân trong ngày

Phân loại theo

mục đích chuyến đi

Số chuyến đi BQ/ ngày

Phân loại theo đối tượng

Số chuyến đi BQ/ ngày

Nguồn: Thống kê từ điều tra hộ gia đình năm 2014 (không kể chuyến đi bộ)

Bảng 2 3: chỉ tiêu về số km bình quân phương tiện và chi phí

Loại

phương tiện

Số km đi bình quân/ ngày

Chi phí vận hành phương tiện bình quân/VNĐ/tháng

Chi phí vận hành/ 1 km bình quân

Nguồn: Thống kê từ điều tra hộ gia đình năm 2014

Bảng 2 4: Chỉ tiêu về thu nhập và sở hữu phương tiện

Tên quận, huyện

Số hộ gia đình được điều tra

Số xe đạp/

hộ

Số xe máy/

hộ

Số xe con/hộ

Thu nhập BQ của

1 hộ gia đình (triệu đồng/tháng)

Trang 30

Tên quận, huyện

Số hộ gia đình được điều tra

Số xe đạp/

hộ

Số xe máy/

hộ

Số xe con/hộ

Thu nhập BQ của

1 hộ gia đình (triệu đồng/tháng)

Nguồn: Thống kê từ điều tra hộ gia đình năm 2014

Bảng 2 5: Số chuyến đi phân theo mục đích chuyến đi

Đơn vị:chuyến/ ngày

Tên quận, huyện Mục đích

Trang 31

Tên quận, huyện Mục đích

Trang 32

Bảng 2 6: Số chuyến đi phân theo loại hình phương tiện

Đơn vị:chuyến/ ngày

Tên quận, huyện Xe đạp Xe máy Xe con Xe bus Tổng cộng

Trang 33

2.3 Trích chọn thông tin và xây dựng mô hình dự báo

Quá trình trích chọn thông tin sẽ được trình bầy cụ thể trong khi xây dựng từng mô hình tính toán bằng việc thử nghiệm và lựa chọn kết quả tốt nhất cũng như sử dụng kỹ thuật biến giả như một thuộc tính để xây dựng được mô hình có độ chính xác gần nhất với thực tế

Dữ liệu được sử dụng để trong nghiên cứu này gồm dữ liệu trong CSDL điều tra của các hộ gia đình với những thông tin như vùng xuất phát

chuyến đi (i), vùng kết thúc chuyến đi (j), hành trình thực hiện chuyến đi, mục

đích chuyến đi, phương tiện sử dụng, khoảng cách, thời gian, chi phí thực hiện chuyến đi Dữ liệu ngoài là các yếu tố về kinh tế xã hội như: Dân số của vùng, số lao động đến vùng làm việc, số học sinh và sinh viên

2.3.1 Xây dựng mô hình phát sinh, thu hút chuyến đi

Đầu vào: Số chuyến đi của 320 phân vùng trong thành phố Hà Nội, tập thuộc tính về dân số của vùng, số lao động đến vùng làm việc, số học sinh, sinh viên đến vùng học tập

Đầu ra: Xây dựng mô hình xác định các yếu tố ảnh hưởng đến số chuyến đi của vùng phụ thuộc vào những chỉ tiêu nào

Theo những nghiên cứu trước đây, số chuyến đi của một vùng tỷ lệ thuận với dân số của vùng, số người đến vùng để làm việc, kinh doanh buôn bán, học tâp, chữa bệnh.v.v

Để tìm luật suy diễn số chuyến đi của vùng i hay số chuyến đi thu hút của vùng j và các thuộc tính đưa vào kiểm định như diện tích, thu nhập bình

quân, dân số, số lao động đến làm việc, số học sinh sinh viên thực chất là tìm mối tương quan giữa tổng số chuyến đi và các thuộc tính được lựa chọn để xây dựng mô hình

Trong số những thuộc tính đó thì thuộc tính dân số, số học sinh, sinh viên và số lao động là có mối tương quan tốt hơn cả

Trang 34

Dưới đây là hình vẽ mô tả độ tương quan của các thuộc tính đã được lựa chọn, hình được biểu diễn với trục hoành là tổng số chuyến đi phát sinh từ

vùng i hoặc tổng chuyến đi thu hút đến vùng j, trục tung là các biến về dân số,

người đến làm việc, số học sinh và sinh viên

Hình 2 2: Đánh giá độ tương quan của các chỉ tiêu đầu vào

Sau khi kiểm định ta thấy đa số các trường hợp đều có mối tương quan tốt, chỉ một số ít trường hợp rơi ra ngoài mối tương quan đó

Trong ba mối tương quan được lựa chọn, thì mối tương quan của số chuyến đi và dân số và số người đến làm việc là tốt nhất, trường hợp học sinh,

Trang 35

sinh viên không tốt bằng là vì địa điểm các trường đại học chỉ tập chung vào một số vùng chứ không rải rác khắp tất cả các vùng

Việc xây dựng mô hình Phát sinh và thu hút chuyến đi sẽ dựa trên bộ thuộc tính gồm dân số, số lao động đến làm việc và số học sinh, sinh viên đến học tập

Mô hình đề suất xây dựng dưới dạng hàm tuyến tính:

Y = Ax 1 + Bx 2 + Cx 3 +D (CT5)

Trong đó: Y là tổng số chuyến đi phát sinh, hoặc thu hút của vùng

x 1 , x 2 , x 3 là các thuộc tính dân số của vùng, số lao động, số học sinh và sinh viên đến vùng làm việc và học tập

A, B, C, D là các hệ số cần xác định

2.3.1.1 Xây dựng mô hình phát sinh chuyến đi

Đầu vào: Tên file G_MODEL.csv

Tập thuộc tính G i : Số chuyến đi phát sinh của vùng i

Pop i : Dân số của vùng i

Work: Số lao động đến vùng i ST: Số học sinh và sinh viên đến vùng i

Đầu ra: Kết quả xây dựng mô hình

Sau khi xây dựng mô hình với hàm tuyến tính thu được kết quả phân tích đánh giá các thông số của mô hình Phát sinh như sau:

Trang 36

Hình 2 3: Thông số đánh kết quả phân tích mô hình phát sinh

Phân tích, đánh giá thông số của mô hình phát sinh:

Hệ số tương quan bội R bằng 0,66 cho thấy mối liên hệ khá chặt chẽ Mức độ ảnh hưởng của biến phụ thuộc là 43% kết quả này là có khả năng chấp nhận được Tuy nhiên mức độ phụ thuộc của dân số mang hệ số -0,3 điều này có nghĩa là mặc dù dân số cao, nhưng không hẳn sẽ đi lại nhiều

Từ đó ta có thể kết luận nguyên nhân là do ở một số vùng ở khu vực trung tâm và khu vực xa trung tâm sẽ có số chuyến đi rất khác nhau mặc dù dân số có thể tương đồng

Trên cơ sở tôn trọng thực tế, em bổ sung thêm một thuộc tính bằng kỹ thuật sử dụng biến giả gọi là hệ số điều chỉnh khu vực (HSDC_KV) Hệ số này sẽ xác định thêm một hệ số để điều chỉnh tổng số chuyến đi của vùng sẽ tăng lên hoặc giảm đi

Hệ số điều chỉnh bằng -1 nếu tỷ lệ (thực tế/ lý thuyết) <0,7 và bằng 1 nếu tỷ lệ (thực tế/ lý thuyết) > 1,4 lần và nếu nằm trong khoảng từ 0,7 đến 1,4 thì hệ số điều chỉnh bằng 0

Trang 37

Sau khi đã thêm hệ số điều chỉnh , ta chạy lại hàm hồi quy với kết quả phân tích đánh giá các thông số mô hình phát sinh như sau:

Hình 2 4: Thông số đánh giá kết quả phân tích mô hình phát sinh khi thêm HSDC Nhận thấy rằng, kết quả khi thêm hệ số điều chỉnh tốt hơn so với trước

Hệ số tương quan bội R tăng từ 0,66 lên 0,92

Mức độ ảnh hưởng của biến phụ thuộc tăng lên từ 43,5% lên 84%

Kiểm tra lại kết quả mô hình với thực tế thì kết quả chênh lệch so với thực tế nhỏ hơn so với khi không có hệ số điều chỉnh Như vậy độ tin cậy của

mô hình tốt và gần thực tế hơn

Hình 2 5: So sánh mối tương quan của mô hình phát sinh trước và sau khi thêm HSDC Nhìn vào kết quả so sánh của lý thuyết và thực tế, rõ ràng khi thêm biến giả thì sai số được giảm đi, kết quả mô hình tốt hơn trước

Trang 38

Kết quả mô hình phát sinh chuyến đi là:

Gi = -0,153 x (POPi) + 2,0 x (EMPi) + 0,85 x (STD&PPi)

Trong đó: POPi là dân số tại vùng i

EMPi là số lao động đến vùng i làm việc

STD&PPi là số sinh viên và học sinh đến học tại vùng i

2.3.1.2 Xây dựng mô hình thu hút chuyến đi

Đầu vào: Tên file A_MODEL.csv

Tập thuộc tính A j: Số chuyến đi phát sinh của vùng j

Pop j : Dân số của vùng j

Work: Số lao động đến vùng j

ST: Số học sinh và sinh viên đến vùng j

Đầu ra: Kết quả xây dựng mô hình

Sau khi xây dựng mô hình với hàm tuyến tính thu được kết quả phân tích đánh giá các thông số của mô hình Thu hút như sau:

Hình 2 6: Thông số đánh giá kết quả phân tích mô hình thu hút

Trang 39

Phân tích, đánh giá thông số của mô hình Thu hút:

Hệ số tương quan bội R bằng 0,65 cho thấy mối liên hệ khá chặt chẽ Mức độ ảnh hưởng của biến phụ thuộc là 42,2%, có thể chấp nhận được

Mức độ phụ thuộc của dân số mang hệ số -0,3 gần giống với hàm phát sinh, điều này có nghĩa là mặc dù dân số cao, nhưng không hẳn đã đi lại nhiều

Tương tự như hàm Phát sinh, ta cũng thêm một biến giả để điều chỉnh tổng số chuyến đi của vùng sẽ tăng lên hoặc giảm đi

Cũng với kỹ thuật sử dụng biến giả giống với mô hình Phát sinh chuyến đi, kết quả đánh giá khi có hệ số điều chỉnh khu vực đối với mô hình hàm thu hút như sau:

Hình 2 7: Thông số đánh giá kết quả phân tích mô hình thu hút khi thêm HSDC Nhận thấy rằng, kết quả khi thêm hệ số điều chỉnh tốt hơn so với trước

Hệ số tương quan bội R tăng từ 0,65 lên 0,91

Mức độ ảnh hưởng của biến phụ thuộc tăng lên từ 42% lên 83%

Kiểm tra lại kết quả mô hình với thực tế thì kết quả chênh lệch so với thực tế nhỏ hơn so với khi không có hệ số điều chỉnh Như vậy độ tin cậy của

mô hình tốt và gần thực tế hơn

Trang 40

Hình 2 8: So sánh mối tương quan của mô hình thu hút trước và sau khi thêm HSDC Nhìn vào kết quả so sánh của lý thuyết và thực tế, rõ ràng khi thêm biến giả thì sai số được giảm đi, kết quả mô hình tốt hơn trước

Như vậy, sau khi thêm hệ số điều chỉnh kết quả xây dựng được mô hình thu hút chuyến đi là:

Aj = -0,198 x (POPj) + 1,98 x (EMPj) + 0, 925 x (STD&PUPj)

Trong đó: POPj là dân số tại vùng j

EMPj là số lao động đến vùng j làm việc

STD&PUPj là số sinh viên và học sinh đến học tại vùng j

HSDC_KV: là hệ số điều chỉnh của vùng j

Kết quả mô hình phát sinh và thu hút chuyến đi này cùng các hệ số điều chỉnh sẽ được sử dụng để dự báo tổng số chuyến đi trong tương lai cho bước

1 và cũng là đầu vào cho bước 2 trong phần dự báo

2.3.2 Xây dựng mô hình phân bổ chuyến đi

Đầu vào: Số chuyến đi của 320 phân vùng trong thành phố Hà Nội, khoảng cách giữa hai vùng được tính theo khoảng từ trung tâm vùng

Tên File: Trip_MODEL.CSV

Tập thuộc tính T ij : Số chuyến đi từ vùng i đến vùng j

D ij : Khoảng cách từ vùng i đến vùng j

G i : Số chuyến đi phát sinh của vùng i

A j: Số chuyến đi thu hút của vùng j

Ngày đăng: 09/12/2016, 01:24

HÌNH ẢNH LIÊN QUAN

Hình 1. 3: Phân bổ chuyến đi - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Hình 1. 3: Phân bổ chuyến đi (Trang 19)
Hình 1. 5: Mô phỏng chi phí tăng lên khi khối lượng được phân bổ - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Hình 1. 5: Mô phỏng chi phí tăng lên khi khối lượng được phân bổ (Trang 21)
Hình 1. 7: Mô hình dự báo 4 bước - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Hình 1. 7: Mô hình dự báo 4 bước (Trang 22)
Hình 2. 1. Mô hình hồi quy tuyến tính - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Hình 2. 1. Mô hình hồi quy tuyến tính (Trang 27)
Bảng 2. 1: Thống kế số lượng các chỉ tiêu theo phường - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Bảng 2. 1: Thống kế số lượng các chỉ tiêu theo phường (Trang 28)
Bảng 2. 6: Số chuyến đi phân theo loại hình phương tiện - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Bảng 2. 6: Số chuyến đi phân theo loại hình phương tiện (Trang 32)
Hình 2. 2: Đánh giá độ tương quan của các chỉ tiêu đầu vào - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Hình 2. 2: Đánh giá độ tương quan của các chỉ tiêu đầu vào (Trang 34)
Hình 2. 5: So sánh mối tương quan của mô hình phát sinh trước và sau khi thêm HSDC  Nhìn vào kết quả so sánh của lý thuyết và thực tế, rõ ràng khi thêm biến  giả thì sai số được giảm đi, kết quả mô hình tốt hơn trước - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Hình 2. 5: So sánh mối tương quan của mô hình phát sinh trước và sau khi thêm HSDC Nhìn vào kết quả so sánh của lý thuyết và thực tế, rõ ràng khi thêm biến giả thì sai số được giảm đi, kết quả mô hình tốt hơn trước (Trang 37)
Hình 2. 9: Mối tương quan số chuyến đi và cự ly vận chuyển - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Hình 2. 9: Mối tương quan số chuyến đi và cự ly vận chuyển (Trang 41)
Hình 2. 12: Số liệu thực tế với số liệu lý thuyết khi có và không có biến giả  2.3.3. Xây dựng mô hình phân chia phương tiện - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Hình 2. 12: Số liệu thực tế với số liệu lý thuyết khi có và không có biến giả 2.3.3. Xây dựng mô hình phân chia phương tiện (Trang 44)
Bảng 3. 1: Kết quả kiểm định mô hình phát sinh, thu hút - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Bảng 3. 1: Kết quả kiểm định mô hình phát sinh, thu hút (Trang 51)
Bảng 3. 2: Kết quả kiểm định mô hình phân bổ chuyến đi - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Bảng 3. 2: Kết quả kiểm định mô hình phân bổ chuyến đi (Trang 52)
Bảng 3. 5: Kết quả dự báo số chuyến đi phát sinh và thu hút năm 2020 - Ứng dụng một số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện
Bảng 3. 5: Kết quả dự báo số chuyến đi phát sinh và thu hút năm 2020 (Trang 56)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm