Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn NGUYỄN HÙNG CƯỜNG ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO THÔNG THEO LOẠI
Trang 1Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
NGUYỄN HÙNG CƯỜNG
ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN
LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Thái Nguyên – 5/2016
Trang 2Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
NGUYỄN HÙNG CƯỜNG
ỨNG DỤNG MỘT SỐ KỸ THUẬT KHAI PHÁ DỮ LIỆU TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN
Chuyên ngành : Khoa học máy tính
Mã số : 60 48 01 01 LUẬN VĂN THẠC SĨ KHOA HỌC MÁY TÍNH
Người hướng dẫn khoa học
Tiến sĩ: Nguyễn Việt Anh
Thái Nguyên – 5/2016
Trang 3LỜI CAM ĐOAN
Em xin cam đoan đây là công trình nghiên cứu của riêng em
Các số liệu, trong luận văn được sử dụng từ nguồn số liệu được điều tra
trong nghiên cứu khảo sát mẫu tại các hộ gia đình thực hiện năm 2014 Kết
quả nghiên cứu này chưa được sử dụng trong bất kể nghiên cứu nào khác
Thái Nguyên, tháng 5 năm 2016
TÁC GIẢ
Nguyễn Hùng Cường
Trang 4Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
MỤC LỤC
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT iii
DANH MỤC CÁC BẢNG iv
DANH MỤC CÁC HÌNH VẼ v
LỜI NÓI ĐẦU vi
CHƯƠNG 1 TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG XÂY DỰNG MÔ HÌNH DỰ BÁO GIAO THÔNG 1
1.1 Tìm hiểu về khai phá dữ liệu 1
1.1.1 Khái niệm về khai phá dữ liệu 1
1.1.2 Một số kỹ thuật khai phá dữ liệu 3
1.1.3 Một số phương pháp khai phá dữ liệu 3
1.1.4 Một số công cụ hỗ trợ khai khá dữ liệu 5
1.2 Ứng dụng khai phá dữ liệu trong dự báo giao thông 5
1.2.1 Khái niệm dự báo 5
1.2.2 Ứng dụng khai phá dữ liệu trong dự báo giao thông 7
1.2.3 Mô hình dự báo giao thông phục vụ quy hoạch 8
1.2.4 Mô hình dự báo giao thông 4 bước: 8
CHƯƠNG 2 XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN ĐỐI VỚI HÀ NỘI 16
2.1 Xây dựng mô hình dự báo 16
2.1.1 Dữ liệu xây dựng mô hình 16
2.1.2 Lý thuyết về mô hình hồi quy tuyến tính 17
2.2 Thông tin dữ liệu cần thu thập xây dựng mô hình 18
2.2.1 Thông tin số liệu thống kê 18
2.2.2 Thông tin dữ liệu từ điều tra hộ gia đình 19
2.3 Trích chọn thông tin và xây dựng mô hình dự báo 24
2.3.1 Xây dựng mô hình phát sinh, thu hút chuyến đi 24
2.3.1.1 Xây dựng mô hình phát sinh chuyến đi 26
2.3.1.2 Xây dựng mô hình thu hút chuyến đi 29
Trang 5Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
2.3.2 Xây dựng mô hình phân bổ chuyến đi 32
2.3.3 Xây dựng mô hình phân chia phương tiện 36
CHƯƠNG 3 KIỂM ĐỊNH TRÊN SỐ LIỆU HIỆN TRẠNG VÀ DỰ BÁO 43
3.1 Kiểm định trên số liệu hiện trạng 43
3.1.1 Kiểm định mô hình phát sinh chuyến đi 43
3.1.2 Kiểm định mô hình thu hút chuyến đi 43
3.1.3 Kiểm định mô hình phân bổ chuyến đi 45
3.1.4 Kiểm định mô hình phân chia phương tiện 46
3.2 Sử dụng mô hình cho dự báo tương lai 48
3.2.1 Dự báo phát sinh, thu hút chuyến đi năm 2020 49
3.2.2 Dự báo phân bổ chuyến đi năm 2020 50
3.2.3 Dự báo lưu lượng phương tiện năm 2020 51
KẾT LUẬN 52
KIẾN NGHỊ 53
TÀI LIỆU THAM KHẢO 54
PHỤ LỤC 56
Phụ lục 1: Code chương trình trên ngôn ngữ R 56
Phụ lục 2: Mẫu điều tra hộ gia đình 64
Phụ lục 3: Kết quả dự báo phân bổ chuyến đi năm 2020 77
Phụ lục 4: Kết quả dự báo lưu lượng giao thông phân theo phương tiện năm 2020 79
Trang 6Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH MỤC CÁC KÝ HIỆU, CHỮ VIẾT TẮT
KPDL Knowledge Discoversy
and Data Mining Khai phá đữ liệu
PCU Passenger Car Unit Đơn vị quy đổi về xe con
VOC Value Of Cost Chi phí cho sử dụng phương tiện VOT Value Of Time Chi phí thời gian người sử dụng
Trang 7Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH MỤC CÁC BẢNG
Bảng 2 1: Thống kế số lượng các chỉ tiêu theo phường 18
Bảng 2 2: Chỉ tiêu về số chuyến đi bình quân trong ngày 20
Bảng 2 3: chỉ tiêu về số km bình quân phương tiện và chi phí 20
Bảng 2 4: Chỉ tiêu về thu nhập và sở hữu phương tiện 20
Bảng 2 5: Số chuyến đi phân theo mục đích chuyến đi 21
Bảng 2 6: Số chuyến đi phân theo loại hình phương tiện 23
Bảng 3 1: Kết quả kiểm định mô hình phát sinh, thu hút 44
Bảng 3 2: Kết quả kiểm định mô hình phân bổ chuyến đi 45
Bảng 3 3: Kết quả kiểm định mô hình phân chia phương tiện 47
Bảng 3 4: Dân số, số lao động và học sinh, sinh viên năm 2020 48
Bảng 3 5: Kết quả dự báo số chuyến đi phát sinh và thu hút năm 2020 49
Bảng 3 6: Kết quả phân bổ chuyến đi năm 2020 50
Bảng 3 7 Tổng hợp dự báo lưu lượng theo loại hình phương tiện năm 2020 51
Trang 8Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
DANH MỤC CÁC HÌNH VẼ
Hình 1 1: Tiến trình phát hiện tri thức 1
Hình 1 2: Phát sinh và thu hút chuyến đi 9
Hình 1 3: Phân bổ chuyến đi 10
Hình 1 4: Phân chia phương tiện 10
Hình 1 5: Mô phỏng chi phí tăng lên khi khối lượng được phân bổ 11
Hình 1 6: Vận tốc giảm dần khi khối lượng tăng dần 12
Hình 1 7: Mô hình dự báo 4 bước 13
Hình 2 1 Mô hình hồi quy tuyến tính 17
Hình 2 2: Đánh giá độ tương quan của các chỉ tiêu đầu vào 26
Hình 2 3: Thông số đánh kết quả phân tích mô hình phát sinh 27
Hình 2 4: Thông số đánh giá kết quả phân tích mô hình phát sinh khi thêm HSDC 28
Hình 2 5: So sánh mối tương quan của mô hình phát sinh trước và sau khi thêm HSDC 29
Hình 2 6: Thông số đánh giá kết quả phân tích mô hình thu hút 30
Hình 2 7: Thông số đánh giá kết quả phân tích mô hình thu hút khi thêm HSDC 31
Hình 2 8: So sánh mối tương quan của mô hình thu hút trước và sau khi thêm HSDC 31
Hình 2 9: Mối tương quan số chuyến đi và cự ly vận chuyển 33
Hình 2 10: Thông số đánh giá, phân tích mô hình phân bổ chuyến đi 34
Trang 9Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 2 11: Thông số đánh giá, phân tích mô hình phân bổ chuyến đi khi có
biến giả 35
Hình 2 12: Số liệu thực tế với số liệu lý thuyết khi có và không có biến giả 36
Hình 2 13: Thông số đánh giá kết quả về độ thỏa dụng đối với xe đạp 38
Hình 2 14: Thông số đánh giá kết quả về độ thỏa dụng đối với xe máy 39
Hình 2 15: Thông số đánh giá kết quả về độ thỏa dụng đối với xe con 40
Hình 2 16: Thông số đánh giá kết quả về độ thỏa dụng đối với xe bus 40
LỜI NÓI ĐẦU
Quy hoạch mạng lưới giao thông có vai trò hết sức quan trọng trong quy hoạch thành phố Dự báo lưu lượng giao thông là cơ sở cho việc quy hoạch mạng lưới giao thông, nhằm đáp ứng tốt nhất nhu cầu đi lại trong hiện tại và trong tương lai
Hiện nay để dự báo giao thông người ta thường tiến hành điều tra, khảo sát bằng các biện pháp như phỏng vấn, đếm xe để xây dựng ma trận nhu cầu
đi lại trong hiện tại rồi dùng một số kỹ thuật dự báo như hệ số đàn hồi, tốc độ tăng trưởng để dự báo nhu cầu đi lại trong tương lai
Việc sử dụng hệ số đàn hồi hoặc tốc độ tăng trưởng thường mang tính
xu thế chung, có thể không phản ánh chính xác được nhu cầu đi lại cho một
Trang 10Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
vùng cũng như loại hình phương tiện đi lại của vùng đó đặc biệt là khi cơ cấu chuyến đi thay đổi và hành vi, thói quen sử dụng phương tiện thay đổi
Nhằm hạn chế bớt sai số trong việc dự báo nhu cầu giao thông, luận văn đề xuất ứng dụng một số kỹ thuật Khai phá dữ liệu trong việc xây dựng
mô hình dự báo lưu lượng giao thông theo loại hình phương tiện dựa trên dữ liệu khảo sát thực tế Dữ liệu khảo sát bao gồm các thông tin về nơi đi, nơi đến; chi phí, thời gian, cự ly, mục đích chuyến đi; đặc điểm nghề nghiệp, tuổi, giới tính của người có chuyến đi v.v
Nghiên cứu này nhằm xây dựng mô hình dự báo theo hướng tiếp cận hiện đại mà các nước phát triển cũng như các nước đang phát triển hiện đang
sử dụng là phương pháp dự báo 4 bước
Dự báo sẽ là cơ sở hỗ trợ cho việc hoạch định của các nhà quản lý về chính sách đầu tư phát triển cơ sở hạ tầng phù hợp nhu cầu của người dân
Với ý nghĩa và tầm quan trọng đó, em lựa chọn đề tài “ Ứng dụng một
số kỹ thuật khai phá dữ liệu trong xây dựng mô hình dự báo lưu lượng giao thông theo loại hình phương tiện” với mục đích tìm hiểu và ứng dụng được
một số kỹ thuật khai phá dữ liệu vào bài toán trên từ nguồn số liệu điều tra hộ gia đình được thực hiện năm 2014 tại thành phố Hà Nội, Việt Nam
Luận văn gồm 3 chương với các nội dung cơ bản sau
Chương 1: Trình bầy khái quát về dự báo và ứng dụng khai phá dữ liệu
trong xây dựng mô hình dự báo giao thông
Chương 2: Trình bầy các kỹ thuật khai phá dữ liệu trong xây dựng mô
hình dự báo lưu lượng giao thông từ bước 1 đến bước 3 trong bài toán dự báo
4 bước để xác định loại hình phương tiện đối với thủ đô Hà Nội
Trang 11Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Chương 3: Thử nghiệm trên bộ dữ liệu thực nghiệm năm 2014 và đưa
ra kết quả dự báo cho năm 2020
Qua luận văn này, em xin chân thành cảm ơn TS Nguyễn Việt Anh – Viện Công nghệ thông tin đã tận tình giúp đỡ, hướng dẫn em nghiên cứu và hoàn thành luận văn này Em cũng xin cảm ơn các thầy cô đã giảng dạy em trong hai năm học vừa qua Xin cảm ơn các đồng nghiệp đã giúp đỡ cung cấp
dữ liệu, tài liệu trong quá trình nghiên cứu luận văn
Mặc dù đã hết sức cố gắng, song do thời gian và kinh nghiệm nghiên cứu còn hạn chế nên không thể tránh khỏi những thiếu sót, em mong nhận được sự góp ý của các thầy cô và bạn bè đồng nghiệp để nghiên cứu được hoàn thiện hơn
Trang 12Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
CHƯƠNG 1 TÌM HIỂU VỀ KHAI PHÁ DỮ LIỆU VÀ ỨNG DỤNG TRONG XÂY
DỰNG MÔ HÌNH DỰ BÁO GIAO THÔNG
1.1 Tìm hiểu về khai phá dữ liệu
1.1.1 Khái niệm về khai phá dữ liệu
Khai phá dữ liệu là một bước trong quá trình phát hiện tri thức tiềm ẩn trong cơ sở dữ liệu bằng các thuật toán khai thác dữ liệu theo các phương pháp cụ thể để tìm ra các mẫu hoặc các mô hình trong dữ liệu nhằm trợ giúp nhanh cho người ra quyết định hoặc dự báo
Phát hiện tri thức trong cơ sở dữ liệu (KKD-Knowleadge Discovery in Database) [2], [5] được thực hiện qua tiến trình gồm các bước:
Nghiên cứu và đặt bài toán
Tạo và thu nhập dữ liệu đầu vào
Tiền xử lý dữ liệu: làm sạch, mã hóa
Trích chọn, chuyển đổi dữ liệu
Khai phá dữ liệu: tìm kiếm tri thức
Kiểm định, đánh giá
Sử dụng tri thức Hình 1 1: Tiến trình phát hiện tri thức
Trang 13Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Bước 1: Nhằm tìm hiểu lĩnh vực ứng dụng từ đó hình thành nên bài
toán cần giải, xác định các nhiệm vụ cần phải hoàn thành Tạo tiền đề cho việc hình thành nên dữ liệu cần thu thập
Bước 2: Mục tiêu là tìm kiếm thu thập dữ liệu sẵn có hoặc tạo mới
theo yêu cầu của bài toán đã đặt ra nhằm có được nguồn dữ liệu thích hợp với mục đích ứng dụng và bản chất của dữ liệu
Bước 3: Là thu thập và xử lý thô, (tiền xử lý dữ liệu) nhằm loại bỏ
nhiễu, xử lý việc dữ liệu bị thiếu, bị thừa hoặc không có thông tin
Bước 4: Là quá trình lựa chọn các thuộc tính cần thiết phù hợp cho
việc phân tích lấy từ CSDL để sử dụng xây dựng mô hình, thuật toán Sau đó
dữ liệu được chuyển đổi hoặc hợp nhất thành một thể thích hợp phù hợp cho việc khai phá Bước này thường chiếm nhiều thời gian nhất
Bước 5: Đây là bước quan trọng nhất nhằm rút ra các tri thức Quá
trình này thực hiện bằng các thuật toán để xây dựng mô hình đủ độ tin cậy theo yêu cầu, mục đích đã đặt ra
Bước 6: Bước này nhằm đánh giá lại kết quả tìm kiếm tri thức dựa
trên một số tiêu chí, chỉ tiêu đánh giá
Bước 7: Hiểu tri thức đã tìm được, làm sáng tỏ các mô tả và dự đoán
Các bước trên có thể lặp đi lặp lại một số lần, kết quả thu được có thể được lấy trung bình trên tất cả các lần thực hiện
Như vậy khai phá dữ liệu là một bước quan trọng nhất trong qui trình phát hiện tri thức gồm có các thuật toán khai thác dữ liệu chuyên dùng dưới một số qui định về hiệu quả tính toán chấp nhận được để tìm ra các mẫu hoặc các mô hình trong dữ liệu Nói một cách khác, mục đích của phát hiện tri thức
và khai phá dữ liệu chính là tìm ra các mẫu và/hoặc các mô hình đang tồn tại trong các cơ sở dữ liệu
Trang 14Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Để khai khá dữ liệu người ta cần sử dụng đến kỹ thuật, phương pháp
và công cụ trong khai phá dữ liệu
1.1.2 Một số kỹ thuật khai phá dữ liệu
Theo nguyên lý chúng, khi sử dụng phương thức KPDL để giải quyết một vấn đề cụ thể, cần phải hình dung ra loại vấn đề là gì Có thể tổng kết thành hai loại chính liên quan đến các đối tượng của KPDL:
+ Kỹ thuật khai phá dữ liệu mô tả: Nhằm mô tả các tính chất hoặc các đặc trưng của CSDL hiện có Kỹ thuật này bao gồm các phương pháp như Phân Cụm, phân tích luật kết hợp
+ Kỹ thuật khai phá dữ liệu dự đoán: Nhằm đưa ra các dự đoán dựa vào các suy diễn trên dữ liệu hiện thời Kỹ thuật này bao gồm các phương pháp như Phân lớp, phân nhóm, hồi quy
1.1.3 Một số phương pháp khai phá dữ liệu
+ Phương pháp phân lớp (classification & prediction):
Là quá trình xây dựng một mô hình mô tả dữ liệu được phân chia như thế nào, nói cách khác là quá trình xây dựng mô hình mô phỏng bằng cách gán các đối tượng dữ liệu vào các lớp đã xác định Mục tiêu của thuật toán phân lớp là tìm ra mối quan hệ nào đó giữa thuộc tính dự báo và thuộc tính phân lớp Như thế quá trình phân lớp có thể sử dụng mối quan hệ này để dự báo cho các mục mới
Phân lớp dữ liệu dựa trên 4 thành phần cơ bản là: Lớp, dự đoán, tập dữ liệu được huấn luyện, tập dữ liệu kiểm thử
Đặc trưng của tiến trình phân lớp gồm những điểm sau:
Đầu vào: Dữ liệu đào tạo chứa những đối tượng với thuộc tính của nó, với một số thuộc tính đã được gán nhãn
Trang 15Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Đầu ra: Mô hình được gán bởi những nhãn cụ thể cho mỗi đối tượng dựa trên những thuộc tính khác
Mô hình sử dụng để dự đoán những lớp mới, những đối tượng chưa biết thì tập dữ liệu kiểm thử cũng dùng để xác định độ chính xác của mô hình
Khi một mô hình phân loại được xây dựng nó sẽ phải so sánh với những
mô hình khác để lựa chọn mô hình tốt nhất Liên quan đến việc so sánh giữa các
mô hình phân loại sẽ có một số thành phần cần được tính đến như: Khả năng dự đoán, tốc độ, độ mạnh mẽ, độ mềm dẻo, tính diễn giải, độ đơn giản
+ Phương pháp phân cụm (Clustering):
Là việc mô tả chung để chia một tập dữ liệu thành các cụm (nhóm), loại mô tả dữ liệu Các nhóm có thể tách nhau hoặc phân cấp hay gối lên nhau Có nghĩa là dữ liệu có thể vừa thuộc nhóm này lại vừa thuộc nhóm khác nhưng phải đảm bảo các đối tượng thuộc 1 cụm là tương tự nhau, đối tượng ở cụm này sẽ ít tương tự với đối tượng ở cụm khác
+ Phương pháp hồi quy (Regression) :
Là việc học một hàm ánh xạ từ một mẫu dữ liệu thành một biến dự đoán có giá trị thực Phân tích hồi quy sẽ xác định được định lượng quan hệ giữa các biến và biến phụ thuộc vào giá trị của những biến khác
Nhiệm vụ của hồi quy tương tự như phân lớp, điểm khác nhau chính
là ở chỗ thuộc tính để dự báo là liên tục còn phân lớp dữ liệu là dự đoán các giá trị rời rạc
+ Phương pháp phân tích luật kết hợp(Association Rule)
Là tiến trình xác định những luật phụ thuộc giữa những nhóm khác nhau, là việc phát hiện và đưa ra các mối liên hệ giữa các giá trị dữ liệu trong
cơ sở dữ liệu Là công việc khám phá các luật kết hợp từ những mẫu thường xuyên hoặc dựa trên ràng buộc
Trang 16Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Mục đích của luật kết hợp là tìm ra sự kết hợp hay tương quan giữa
các items Những luật kết hợp này có dạng XY
+ Phương pháp mẫu tuần tự (Sequential Pattern mining)
Là việc xác định những mẫu mà sự xuất hiện của chúng trong CSDL thỏa mãn ngưỡng tối thiểu Luật tuần tự được sinh ra từ mẫu tuần tự, biểu diễn mối quan hệ giữa hai loại sự kiện này sẽ xảy ra sau loạt sự kiện kia
1.1.4 Một số công cụ hỗ trợ khai khá dữ liệu
+ Regretion trong Excel + R (www.r-project.org) + Tanagra (eric.univ-lyon2.fr/~ricco/tanagra/) + Weka (www.cs.waikato.ac.nz/ml/weka) + YALE (rapid-i.com)
+ KNIME (www.knime.org) + Orange (www.ailab.si/orange)
1.2 Ứng dụng khai phá dữ liệu trong dự báo giao thông
1.2.1 Khái niệm dự báo
Dự báo là một môn khoa học nghiên cứu và tiên đoán những sự việc
sẽ xảy ra trong tương lai trên cơ sở phân tích khoa học về các dữ liệu thu thập được Khi tiến hành dự báo cần căn cứ vào việc thu thập và xử lý số liệu trong quá khứ và hiện tại để xác định xu hướng vận động của các hiện tượng trong tương lai nhờ vào một số mô hình toán học
Căn cứ vào độ dài và thời gian dự báo người ta có thể phân thành 3 loại là dự báo ngắn hạn, trung hạn và dài hạn
Trang 17Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
+ Dự báo ngắn hạn: là những dự báo có thời gian dự báo < 3 năm, thường dùng để lập các kế hoạch ở tầm vi mô, trong khoảng thời gian ngắn phục vụ cho công tác chỉ đạo, điều hành kịp thời
+ Dự báo trung hạn: là những dự báo có thời gian dự báo từ 3 đến 5 năm, thường dùng để lập kế hoạch trung hạn ở tầm vi mô và vĩ mô
+ Dự báo dài hạn: là những dự báo có thời gian dự báo trên 5 năm, phục vụ cho những dự báo cho những mục tiêu, chiến lược trong thời gian dài
ở tầm vĩ mô
Dự báo nói chung thường tuân theo 5 quy trình sau:
Xác định mục tiêu dự báo; Xác định loại dự báo; Lựa chọn mô hình
dự báo; Thu thập số liệu, tiến hành dự báo; Ứng dụng kết quả dự báo; Theo dõi kết quả dự báo
Để tiến hành dự báo nói chung, hiện nay trên thế giới và tại Việt Nam người ta chia thành 2 nhóm dự báo là dự báo định tính và dự báo định lượng
+ Dự báo định tính: Dự báo thuộc nhóm này là những dự đoán chủ quan hoặc trực giác về tương lai bằng cách dựa vào suy đoán, cảm nhận
+ Dự báo định lượng: Dựa vào các số liệu thống kê và thông qua các công thức toán học được thiết lập để dự báo nhu cầu cho tương lai Khi dự báo nhu cầu tương lai, nếu không xét đến các nhân tố ảnh hưởng khác có thể dùng các phương pháp dự báo theo dãy số thời gian Nếu cần ảnh hưởng của các nhân tố khác đến nhu cầu có thể dùng các mô hình hồi quy tương quan
Tuy nhiên trong thực tế trong một số trường hợp cụ thể người ta sẽ sử dụng kết hợp cả hai phương pháp nói trên bằng phương pháp tổng hợp
Bảng 1 1: Một số phương pháp dự báo
Phương pháp dự báo định tính Phương pháp dự báo định lượng
Trang 18Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tiên đoán (Genius forcasting) Hệ số đàn hồi
Chuyên gia (Consensus methods) Nội suy xu hướng (Trens interpolation)
Kịch bản (Scenario) Ngoại suy xu hướng (Trens extrapolation)
Mô phỏng, mô hình hóa (Stimulation)
Cây quyết định (Decisison trees)
Ma trận tác động qua lại (Cross-impact matrix method)
Tổng hợp (Combining methods)
Trong các phương pháp dự báo nói trên thì các phương pháp dự báo như: Ngoại suy xu hướng, Mô phỏng, mô hình hóa, Cây quyết định là kết quả của việc ứng dụng kỹ thuật khai phá dữ liệu
1.2.2 Ứng dụng khai phá dữ liệu trong dự báo giao thông
Trong dự báo giao thông, người ta thường sử dụng phương pháp dự báo theo tốc độ tăng trưởng, hệ số đàn hồi Phương pháp này dựa vào chuỗi
số liệu thống kê về số lượng phương tiện qua các năm hoặc chuỗi số liệu đếm
xe trên một số tuyến đường qua các năm để làm căn cứ dự báo cho tương lai
Hiện nay có rất nhiều nghiên cứu cũng như ứng dụng khai phá dữ liệu đối với dự báo giao thông trên hệ thống cơ sở dữ liệu giao thông thông minh (ITS) bằng kỹ thuật khai phá dữ liệu như mạng Nơ ron (Neural Network), logic mờ, sử dụng cây quyết định hoặc hồi quy phi tuyến
Tuy nhiên phương pháp sử dụng được khai thức từ dữ liệu ITS mới chỉ đáp ứng được một phần yêu cầu của các nhà quy hoạch, phương pháp này không trả lời được một cách đầy đủ và chính xác đối với mục tiêu quy hoạch giao thông là trong tương lai khi mở thêm một tuyến đường mới hay một phương thức vận tải mới thì có đáp ứng đủ nhu cầu hay không Do vậy người
ta đã tiến hành thêm phương pháp dự báo dựa trên số liệu phỏng vấn hộ gia
Trang 19Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đình về dữ liệu hành trình các chuyến đi hàng ngày của các thành viên trong gia đình trên cơ sở mẫu điều tra và sử dụng một số công cụ khai phá dữ liệu
để tiến hành xây dựng mô hình dự báo giao thông gọi là dự báo giao thông 4 bước để phục vụ cho mục tiêu quy hoạch
1.2.3 Mô hình dự báo giao thông phục vụ quy hoạch
Quy hoạch mạng lưới giao thông là quy hoạch mạng giao thông đường
bộ trên phạm vi một vùng lãnh thổ địa lý của một quốc gia, một thành phố hoặc một vùng, đối với mạng lưới giao thông nhằm mục tiêu chuẩn bị các phương tiện và cung cấp dịch vụ cho nhu cầu giao thông để đảm bảo nhu cầu
đi lại được nhanh chóng, tiện lợi và an toàn
Trong khuôn khổ nghiên cứu của luận văn em đi vào nghiên cứu xây dựng mô hình dự báo giao thông phục vụ cho mục tiêu Quy hoạch mạng lưới đường bộ trong thành phố Hà Nội
1.2.4 Mô hình dự báo giao thông 4 bước:
Mô hình dự báo giao thông 4 bước đã được nghiên cứu và thử nghiệm
ở các nước Châu âu từ đầu những năm 1990, đến nay mô hình đã và đang được nhiều nước tiên tiến trải qua nhiều thử nghiệm và ứng dụng thành công với phương pháp xây dựng hoàn chỉnh gọi là mô hình 4 bước trong đó mỗi bước được thực hiện dự báo bằng một mô hình riêng, đầu ra của bước dự báo trước sẽ là đầu vào của bước dự báo tiếp theo
Cơ sở của việc áp dụng mô hình là sự lựa chọn rời rạc các yếu tố về hành vi thực hiện chuyến đi của các cá nhân trên cơ sở điều tra mẫu trong vùng nghiên cứu với các thông tin về chuyến đi trong ngày như phương tiện
sử dụng, mục đích, thời gian, chi phí chuyến đi sẽ được kết hợp cùng các yếu
tố tự nhiên và xã hội như dân số, số lao động, số học sinh, sinh viên
Trang 20Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Dưới đây em xin trình bầy các công thức để xây dựng mô hình dự báo
4 bước trong giao thông vận tải đang áp dụng trong các nghiên cứu, tính toán
để dự báo lưu lượng giao thông
Bước 1: Mô hình phát sinh, thu thút chuyến đi
Mô hình này nhằm trả lời câu hỏi có bao nhiêu chuyến đi xuất phát từ
vùng i và có bao nhiêu chuyến đi sẽ đến vùng j
Gi = a1x1+a2x2+a3x3+ +aixi+c (CT1)
Trong đó: G i là tổng số chuyến đi bắt đầu từ vùng i
c,a 1 ,a 2 ,a 3 ,a i : là các hệ số cần xác định
x 1 ,x 2 ,x 3 ,x i: là các thuộc tính lựa chọn như dân số, số lao
động, số học sinh, sinh viên của vùng i
Aj = a1x1+a2x2+a3x3+ +ajxj+c (CT2) Trong đó: A j là tổng số chuyến đi từ các vùng khác đến vùng j
c,a 1 ,a 2 ,a 3 ,a i : là các hệ số cần xác định
x 1 ,x 2 ,x 3 ,x j: là các thuộc tính lựa chọn như dân số, số lao
động, số học sinh, sinh viên của vùng j
Hình 1 2: Phát sinh và thu hút chuyến đi Bước 2: Mô hình phân bổ chuyến đi
Mô hình này nhằm xác định và trả lời cho câu hỏi có bao nhiêu chuyến
đi xuất phát từ vùng i để đi đến vùng j
ij
j i ij
D
A G
Trang 21Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Trong đó: T ij là tổng số chuyến đi từ i đến j
D ij là trở kháng từ trung tâm vùng i đến trung tâm vùng j (Trở kháng có thể là thời gian hoặc khoảng cách từ vùng i đến vùng j)
Hình 1 3: Phân bổ chuyến đi Bước 3: Mô hình phân chia phương tiện sử dụng
Mô hình này nhằm trả lời câu hỏi với tổng số chuyến đi từ vùng i đến vùng j người ta sử dụng phương tiện nào: Xe đạp, xe máy, xe con, xe bus
k
k k
P
P P
Trong đó: P k là xác suất sử dụng phương tiện k
1 - P k là xác suất không sử dụng phương tiện k
Hình 1 4: Phân chia phương tiện
Xe máy: 20
Xe con: 10
Xe đạp: 5
Xe máy:20
Trang 22Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Trong hình 1.3, tổng khối lượng của vùng i cần phát là 100 chuyến đi, trong đó vùng j tiếp nhận 35 chuyến đi, vùng j +1 tiếp nhận 25 chuyến đi và vùng j +2 tiếp nhận 40 chuyến đi
Trong hình 1.4 khi phân chia phương tiện đảm nhận xác định cho vùng i đến vùng j thì phương xe máy đảm nhận 20 chuyến, xe con 10 chuyến và xe
đạp 5 chuyến
Bước 4: Phân bổ trên mạng lưới vận tải
Đây là quá trình nhằm xác định chuyến đi từ vùng i đến vùng j của phương tiện k đi trên đường (cung) nào
Bước này là bài toán cơ bản trong CNTT bằng thuật toán tìm kiếm trên
đồ thị bằng kỹ thuật tìm kiếm đường đi có chi phí thấp nhất kết hợp với tri
thức bổ sung Tri thức bổ sung ở đây là sau mỗi lần cung r đã có giá trị sử
dụng, thì chi phí trên cung sẽ tăng lên so với những cung chưa được sử dụng Mỗi cung trên đồ thị được mô phỏng tương ứng với một doạn đường trong thực tế (xác định bởi 2 nút giao) Năng lực của một cung được tính toán trên cơ sở các thông số đầu vào của mạng lưới đường bộ trong thực tế như: chiều rộng, chiều dài, vận tốc theo đơn vị quy đổi gọi là PCU (Passenger - Car - Unit)
Hình 1 5: Mô phỏng chi phí tăng lên khi khối lượng được phân bổ
Trang 23Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Nguyên tắc xác định chi phí của một cung phụ thuộc vào năng lực của mỗi cung đã được sử dụng bao nhiêu, khi giá trị một cung (khối lượng) càng tiến đến gần năng lực thì vận tốc giảm đi, dẫn đến chi phí tăng lên Mối quan
hệ này được gọi là đường cong QV (Quantity- Velocity)
Hình 1 6: Vận tốc giảm dần khi khối lượng tăng dần
Ví dụ trong hình 1.5 (bên trái), sau khi đã có khối lượng phân bổ chuyến
đi từ vùng số 1 đến vùng số 2 thì chi phí trên cung (1,2) tăng lên, khi phân bổ khối lượng từ vùng số 1 đến vùng số 3 sẽ không lựa chọn cung (1,2) để đi mà lựa chọn cung (1,5) và (5,3) với chi phí thấp hơn Cứ như vậy, quá trình phân
bổ sẽ lựa chọn những cung có chi phí thấp nhất để phân bổ khối lượng từ vùng 1 đến vùng 10 Hình 1.5 (bên trái) mô phỏng chi phí trong lần phân bổ của vùng 1 cho tất cả các vùng khác, và bên phải mô phỏng chi phí trong lần phân bổ của vùng số 2 đến các vùng khác
Trong khuôn khổ nghiên cứu của luận văn này em sử dụng số liệu từ ma trận đi lại của Hà nội năm 2014, ma trận này đã được nhân mẫu từ số liệu điều tra của 18.000 hộ gia đình cũng như các bước xử lý khác
Kết quả nghiên cứu của luận văn đi sâu vào việc ứng dụng một số kỹ thuật khai phá dữ liệu trong quá trình xây dựng mô hình dự báo giao thông từ bước 1 đến bước 3 bằng việc sử dụng một số kỹ thuật khai phá dữ liệu để tìm một số luật suy diễn, lựa chọn các thuộc tính bên ngoài và thuộc tính sẵn có trong dữ liệu kết hợp với kỹ thuật sử dụng biến giả nhằm xây dựng mô hình
Trang 24Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
đạt được kết quả tốt nhất bằng ngôn ngữ R kết hợp với Excel trong quá trình tổng hợp các bảng kết quả và các hình vẽ minh họa
Mô hình 4 bước được khái quát theo sơ đồ sau:
Yếu tố KTXH Phát sinh/Thu hút chuyến đi
Phân bổ chuyến đi Trở kháng cự ly Phân chia phương tiện
Mạng lưới
Hình 1 7: Mô hình dự báo 4 bước
Hiện nay có nhiều đơn vị như Trường Đại học và Viện Nghiên cứu ngoài việc ứng dụng họ đã xây dựng một số các Modul phần mềm để mô phỏng, dự báo giao thông nhằm hỗ trợ cho công việc tính toán như:
+ Cube là phần mềm mô phỏng và dự báo giao thông do Công ty Citilabs của Hoa Kỳ nghiên cứu, phát triển và đang được sử dụng phổ biến tại các nước Châu Âu, Châu Mỹ, Châu Úc, Châu Á, trong đó có Việt Nam
+ Visum, Visim là phần mềm mô phỏng, dự báo giao thông vĩ mô và
vi mô do công ty PTV của CHLB Đức nghiên cứu,phát triển và cũng đang được sử dụng phổ biến tại các nước Châu Âu, Châu Á, trong đó có Việt Nam
+ Strada là phần mềm mô phỏng, dự báo giông thông do Công ty Jica của Nhật Bản nghiên cứu, phát triển, hiện được sử dụng nhiều tại các nước Châu Á, trong đó có Việt Nam
Trang 25Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Đối với Việt Nam, việc triển khai áp dụng theo mô hình dự báo này
đã và đang được các tổ chức, đơn vị tư vấn nước ngoài và trong nước nghiên cứu áp dụng đối với dự báo giao thông phục vụ mục tiêu quy hoạch giao thông mang tính chất trên phạm vi lớn của toàn quốc gia hay một vùng hoặc một tuyến đường cụ thể
Việc sử dụng phần mềm đã được xây dựng sẵn hiện nay chủ yếu được các chuyên gia nước ngoài sử dụng và phân tích trong quá trình nghiên cứu một dự án cụ thể Tại Việt nam cũng đã có một số chương trình hợp tác đào tạo, chuyển giao để ứng dụng, tuy nhiên việc khó khăn đối với người sử dụng
là hoàn toàn không chủ động được được trong việc lựa chọn các thông tin khi xây dựng mô hình, một phần do chưa hiểu được bản chất các thuộc tính và quy luật của dữ liệu nên khi sử dụng các phần mềm có sẵn thường gặp khó khăn trong việc xử lý thuộc tính dữ liệu đầu vào để cho ra một kết quả hợp lý
và tốt nhất
Trong quá trình tìm hiểu trước khi làm luận văn với đề tài này, em đã tham khảo một số bài viết về mô hình tính toán dự báo trong giao thông vận tải và nhận thấy rằng, đây thực chất là quá trình tìm kiếm và khai phá dữ liệu
để tìm ra những quy luật chung nhất về số lượng chuyến đi và lựa chọn loại phương tiện để thực hiện chuyến đi của một nhóm đối tượng được gom nhóm theo vùng địa lý và vùng nghiên cứu
Việc sử dụng kết quả từ mô hình này sẽ được sử dụng để nhà quản lý quyết định các chính sách để giảm ùn tắc giao thông, điều chính giá cước, phí lưu thông như trong báo cáo năm 2015 của Tiến sĩ Vũ Anh Tuấn [6], tài liệu giới thiệu về phương pháp tính trên cơ sở mô hình dự báo 4 bước trong giao thông và đưa ra khả năng lựa chọn phương tiện trong tương lai nhằm mục đích đánh giá tác động chính sách quản lý
Trang 26Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Việc ứng dụng mô hình dự báo 4 bước còn được sử dụng để tính toán tác động khí thải của các phương tiện giao thông phác thải ra môi trường [16], trong nội dung tài liệu này cũng nói đến việc sử dụng mô hình 4 bước để tính toán thị phần phương tiện, trên cơ sở đó xác định được khí thải của các loại phương tiện gây ô nhiễm.Tài liệu cũng đề cập đến môi trường của giao thông liên tỉnh (giữa các thành phố trong cả nước) và môi trường giao thông nội đô của 2 thành phố lớn là Hà Nội và TP Hồ Chí Minh
Mô hình 4 bươc cũng được sử dụng ở một số các nước khác như: Nghiên cứu mô hình giao thông 4 bước trong giao thông vận tải thành phố Dhaka, Bangladesh [10], nội dung tài liệu đã nêu chi tiết từng bước tiến hành xây dựng mô hình để tính toán mật độ của các tuyến đường trong thành phố với 76 phường được phân thành 10 vùng nghiên cứu để phân tích, và xây dựng mô hình dự báo cũng như các kết quả tính toán cụ thể
Báo cáo về tình hình giao thông vận tải ở Jakarta [7], nội dung báo cáo nhằm nghiên cứu nâng cao hiệu quả năng lượng trong giao thông vận tải
Báo cáo của Hiệp hội vận tải Châu âu tại Hà Lan [9] đã đưa ra một số thuộc tính lựa chọn thông tin trong mô hình hồi quy để dự báo lựa chọn phương tiện cho thành phố Lyon, Pháp Nội dung bài báo cáo tại hội nghị về giao thông Châu Âu tổ chức tại Stransbourg, Pháp [11] cũng nghiên cứu và đưa ra mô hình phân chia phương tiện là bước thứ 3 trong mô hình 4 bước
Bài giới thiệu về mô hình nhu cầu vận tải của tổ chức Kittenson & Associate, INC [12] Bài viết giới thiệu về mô hình nhu cầu vận tải của Viện nghiên cứu Công nghệ Massachusetts [14] đã giới thiệu về cơ sở dữ liệu từ điều tra hộ gia đình, được phân tích theo mục đích chuyến đi và hành vi chuyến đi để sử dụng làm cơ sở tính toán trong mô hình 4 bước
Trang 27Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Ngoài việc tìm hiểu từ những bài nghiên cứu, em đã tìm hiểu những bài giảng về giao thông vận tải đặc biệt là những mô hình dự báo trong giao thông vận tải như chương 9 trong giáo trình giới thiệu về giao thông vận tải trong khóa học trực tuyến của tổ chức NPTEL tại Ấn độ [15] Phương pháp
mô hình hóa vận tải của trường đại học Imperial, Anh [8]
Bài giảng giới thiệu về mô hình 4 bước với phần chương 3 của Sở Xây dựng và Kỹ thuật môi trường kết hợp cùng Viện Giao thông Vận tải nghiên cứu Đại học California [13] đã giới thiệu về khái niệm và các công thức tính toán của từng bước cùng kết quả tính toán từ bước 1 đến bước 4
Giáo trình về quy hoạch mạng lưới đường sử dụng trong trường đại học bách khoa thành phố Hồ Chí Minh [3] của TS Chu Công Minh đã giới thiệu tổng quát về các mô hình tính toán dự báo trong giao thông vận tải và giới thiệu khá sâu vào mô hình tính toán dự báo theo mô hình 4 bước
Bài báo giới thiệu về quy trình dự báo nhu cầu đi lại phục vụ cho công tác quy hoạch giao thông được áp dụng rộng rãi ở các nước phát triển [1] của PGS.TS Bùi Xuân Cậy
CHƯƠNG 2 XÂY DỰNG MÔ HÌNH DỰ BÁO LƯU LƯỢNG GIAO THÔNG THEO LOẠI HÌNH PHƯƠNG TIỆN ĐỐI VỚI HÀ NỘI
2.1 Xây dựng mô hình dự báo
2.1.1 Dữ liệu xây dựng mô hình
Đầu vào:
Dữ liệu điều tra về các chuyến đi của các vùng của các phường, xã trong thành phố Hà Nội (mẫu điều tra thông tin trong phụ lục 2)
Trang 28Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Dữ liệu thống kê về các chỉ tiêu kinh tế xã hội của thành phố Hà Nội Đầu ra:
Xây dựng các mô hình tính toán để dự báo khối lượng phương tiện theo từng loại của các chuyến đi giữa các vùng trong thành phố Hà Nội
2.1.2 Lý thuyết về mô hình hồi quy tuyến tính
Mô hình hồi quy là phương pháp toán học nhằm tìm ra dạng hàm biểu diễn mối quan hệ giữa biến phụ thuộc và các biến độc lập như thế nào, việc xây dựng thuật toán nhằm giúp con người sử dụng đã được lập trình cho nhiều phần mềm máy tính và khá thông dụng như Excel, SPSS, R, Weka.v.v
Hàm hồi quy được biểu diễn dưới dạng: Y = Ax 1 + Bx 2 + Cx 3 +D
Trong đó: Y là giá trị của biến phụ thuộc
x 1 , x 2 , x 3 là các giá trị biến độc lập
A, B, C, D là các giá trị xác định được khi sử dụng hàm
Khi biểu diễn các cặp giá trị của các biến độc lập và các biến phụ thuộc trên một hệ trục tọa độ thì ta được một tập hợp các điểm rời rạc như hình 2.1
và thể hiện được sự tương quan giữa các biến đó
Nếu mật độ các điểm dầy và khoảng cách đến đường hồi quy nhỏ thì mối tương quan tốt
Hình 2 1 Mô hình hồi quy tuyến tính
Trang 29Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Trong mô hình trên, trục x là trục biểu diễn các giá trị rời rạc, trục y là trục biểu diễn giá trị phụ thuộc, các điểm mô tả mối quan
hệ giữa trục x và trục y, đường thẳng được gọi là đường hồi quy tuyến
tính lý thuyết
Để sử dụng linh hoạt các hàm hồi quy tuyến tính, người ta cũng sử dụng một số các phép biến đổi loga đối với biến hồi quy hoặc dùng phép nghịch đảo biến hồi quy như sau:
Hồi quy Logarit y = a + b × ln(x)
Hồi quy mũ y = a × e b.x ln(y) = ln (a) + b ln(x)
Hồi quy lũy thừa y = a × xb ln(y) = ln (a) + b ln(x)
Hồi quy nghịch đảo y = a + b × (1/ x)
Hồi quy tam thức y = a + bx + cx 2
2.2 Thông tin dữ liệu cần thu thập xây dựng mô hình
2.2.1 Thông tin số liệu thống kê
+ Số lượng phường xã của Hà Nội: Dùng để phân vùng nghiên cứu, tính toán tổng số chuyến đi phát sinh và thu hút của vùng
+ Dân số, số lao động đến phường làm việc, số học sinh và sinh viên đang theo học phân theo phường Các thuộc tính này là các yếu tố ảnh hưởng đến số lượng chuyến đi của vùng
Bảng 2 1: Thống kế số lượng các chỉ tiêu theo phường
Số sinh viên, học sinh đến học
Quâ ̣n Ba Đình 14 243.214 194.504 57.318 Quâ ̣n Hoàn Kiếm 18 156.801 292.585 40.292 Quâ ̣n Tây Hồ 8 154.700 69.261 30.114 Quâ ̣n Long Biên 14 271.699 151.121 58.961
Trang 30Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tên quận phường Số Dân số
2014
Số lao động đến làm việc
Số sinh viên, học sinh đến học
Quâ ̣n Cầu Giấy 8 254.000 228.809 55.642 Quâ ̣n Đống Đa 21 404.700 352.501 75.410 Quâ ̣n Hai Bà Trưng 20 314.100 190.458 55.685 Quâ ̣n Hoàng Mai 14 363.979 147.693 71.385 Quâ ̣n Thanh Xuân 11 268.574 197.403 49.841 Huyê ̣n Sóc Sơn 26 319.900 72.322 70.671 Huyê ̣n Đông Anh 24 376.977 161.100 79.174 Huyê ̣n Gia Lâm 22 255.800 55.915 55.987 Huyê ̣n Từ Liêm 16 529.264 216.102 88.845 Huyê ̣n Thanh Trì 16 226.700 61.182 44.657 Huyê ̣n Mê Linh 18 212.712 63.294 45.655 Quâ ̣n Hà Đông 17 288.600 126.613 63.054 Thi ̣ xã Sơn Tây 15 137.700 33.673 32.593 Huyê ̣n Ba Vì 31 269.296 32.766 59.517 Huyê ̣n Phúc Tho ̣ 23 173.900 31.917 38.475 Huyê ̣n Đan Phươ ̣ng 16 154.600 31.572 34.577 Huyê ̣n Hoài Đức 20 213.902 43.183 46.489 Huyê ̣n Quốc Oai 21 175.800 36.273 43.706 Huyê ̣n Tha ̣ch Thất 23 195.802 44.255 48.514 Huyê ̣n Chương Mỹ 32 312.601 73.002 64.839 Huyê ̣n Thanh Oai 21 186.701 57.489 38.989 Huyê ̣n Thường Tín 29 238.001 61.924 52.023 Huyê ̣n Phú Xuyên 28 187.602 43.115 44.472 Huyê ̣n Ứng Hòa 29 192.898 34.945 39.972 Huyê ̣n Mỹ Đức 22 185.107 33.596 39.770
Toàn thành phố 577 7.265.630 3.138.573 1.526.627
Nguồn: Tổng cục Thống Kê
2.2.2 Thông tin dữ liệu từ điều tra hộ gia đình
Từ nguồn dữ liệu điều tra hộ gia đình ta tiến hành xác định được một
số chỉ tiêu phục vụ cho việc xây dựng mô hình dự báo
Trang 31Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
+ Số chuyến đi bình quân của một người/ ngày
+ Số km bình quân mỗi chuyến đi theo loại phương tiện/ ngày
+ Chi phí bình quân / một phương tiện/ ngày
Bảng 2 2: Chỉ tiêu về số chuyến đi bình quân trong ngày
Phân loại theo
mục đích chuyến đi
Số chuyến đi BQ/ ngày
Phân loại theo đối tượng
Số chuyến đi BQ/ ngày
Đi làm 3,20 Cán bộ, công nhân viên 2,96
Đi học 3,00 Sinh viên và học sinh 2,78
Đi công việc riêng 2,84 Công việc khác 2,85
Nguồn: Thống kê từ điều tra hộ gia đình năm 2014 (không kể chuyến đi bộ)
Bảng 2 3: chỉ tiêu về số km bình quân phương tiện và chi phí
Loại
phương tiện
Số km đi bình quân/ ngày
Chi phí vận hành phương tiện bình quân/VNĐ/tháng
Chi phí vận hành/ 1 km bình quân
Nguồn: Thống kê từ điều tra hộ gia đình năm 2014
Bảng 2 4: Chỉ tiêu về thu nhập và sở hữu phương tiện
Tên quận, huyện
Số hộ gia đình được điều tra
Số xe đạp/
hộ
Số xe máy/
hộ
Số xe con/hộ
Thu nhập BQ của
1 hộ gia đình (triệu đồng/tháng)
Quâ ̣n Ba Đình 1272 0,54 1,98 0,05 9,26 Quâ ̣n Hoàn Kiếm 819 0,50 2,04 0,05 11,02 Quâ ̣n Tây Hồ 730 0,58 1,93 0,05 11,57 Quâ ̣n Long Biên 1281 0,94 1,92 0,07 8,62 Quâ ̣n Cầu Giấy 1283 0,69 1,80 0,09 10,19 Quâ ̣n Đống Đa 2082 0,60 1,96 0,06 10,30 Quâ ̣n Hai Bà Trưng 1652 0,61 1,87 0,06 10,23
Trang 32Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tên quận, huyện
Số hộ gia đình được điều tra
Số xe đạp/
hộ
Số xe máy/
hộ
Số xe con/hộ
Thu nhập BQ của
1 hộ gia đình (triệu đồng/tháng)
Quâ ̣n Hoàng Mai 1891 0,64 1,90 0,08 9,52 Quâ ̣n Thanh Xuân 1259 0,61 1,85 0,08 10,75 Huyê ̣n Sóc Sơn 234 1,07 1,82 0,07 6,01 Huyê ̣n Đông Anh 395 1,00 2,17 0,11 7,14 Huyê ̣n Gia Lâm 353 1,13 1,79 0,06 6,90 Huyê ̣n Từ Liêm 514 0,96 1,92 0,05 8,12 Huyê ̣n Thanh Trì 243 0,88 1,92 0,02 6,80 Huyê ̣n Mê Linh 260 1,27 1,82 0,03 7,09 Quâ ̣n Hà Đông 836 0,75 1,81 0,05 9,31 Thi ̣ xã Sơn Tây 425 1,32 1,60 0,04 5,49 Huyê ̣n Ba Vì 251 1,36 1,58 0,02 4,35 Huyê ̣n Phúc Tho ̣ 170 1,36 1,63 0,05 5,53 Huyê ̣n Đan Phươ ̣ng 154 1,14 1,76 0,01 6,17 Huyê ̣n Hoài Đức 182 1,26 1,70 0,03 6,02 Huyê ̣n Quốc Oai 184 1,20 1,66 0,09 6,06 Huyê ̣n Tha ̣ch Thất 164 1,20 1,64 0,02 6,19 Huyê ̣n Chương Mỹ 395 1,01 1,66 0,07 6,51 Huyê ̣n Thanh Oai 170 1,08 1,62 0,03 4,16 Huyê ̣n Thường Tín 210 1,04 1,64 0,07 7,62 Huyê ̣n Phú Xuyên 236 1,07 1,47 0,03 5,21 Huyê ̣n Ứng Hòa 218 1,04 1,46 0,03 6,66 Huyê ̣n Mỹ Đức 167 1,28 1,43 0,02 5,31
Toàn thành phố 18030 0,78 1,86 0,06 9,00
Nguồn: Thống kê từ điều tra hộ gia đình năm 2014
Bảng 2 5: Số chuyến đi phân theo mục đích chuyến đi
Đơn vị:chuyến/ ngày
Tên quận, huyện Mục đích
Quâ ̣n Ba Đình 337.678 201.116 704.950 234.129 1.477.874 Quâ ̣n Hoàn Kiếm 291.063 163.077 594.190 197.344 1.245.674 Quâ ̣n Tây Hồ 159.044 95.750 333.369 110.719 698.882
Trang 33Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tên quận, huyện Mục đích đi làm Mục đích đi học Mục đích đi về nhà Mục đích
khác Tổng cộng
Quâ ̣n Long Biên 199.990 128.013 429.153 142.531 899.687 Quâ ̣n Cầu Giấy 357.584 204.605 735.559 244.295 1.542.042 Quâ ̣n Đống Đa 517.218 301.347 1.070.998 355.702 2.245.266 Quâ ̣n Hai Bà Trưng 437.265 258.116 909.825 302.173 1.907.379 Quâ ̣n Hoàng Mai 302.089 186.887 639.769 212.482 1.341.228 Quâ ̣n Thanh Xuân 286.390 166.816 592.968 196.938 1.243.111 Huyê ̣n Sóc Sơn 72.073 52.263 162.680 54.030 341.046 Huyê ̣n Đông Anh 211.790 156.974 482.484 160.244 1.011.491 Huyê ̣n Gia Lâm 157.577 114.022 355.356 118.022 744.976 Huyê ̣n Từ Liêm 356.176 228.755 765.314 254.178 1.604.422 Huyê ̣n Thanh Trì 154.644 97.441 329.825 109.542 691.453 Huyê ̣n Mê Linh 65.128 48.678 148.903 49.454 312.163 Quâ ̣n Hà Đông 257.637 161.382 548.238 182.082 1.149.339 Thi ̣ xã Sơn Tây 71.083 55.495 165.613 55.004 347.194 Huyê ̣n Ba Vì 23.585 24.201 62.523 20.765 131.074 Huyê ̣n Phúc Tho ̣ 28.660 23.414 68.132 22.628 142.834 Huyê ̣n Đan Phươ ̣ng 31.269 24.354 72.776 24.171 152.569 Huyê ̣n Hoài Đức 62.858 42.873 138.336 45.945 290.012 Huyê ̣n Quốc Oai 27.665 21.537 64.375 21.380 134.956 Huyê ̣n Tha ̣ch Thất 37.220 30.720 88.891 29.523 186.353 Huyê ̣n Chương Mỹ 38.265 29.256 88.343 29.341 185.204 Huyê ̣n Thanh Oai 43.493 32.271 99.128 32.923 207.814 Huyê ̣n Thường Tín 48.474 34.430 108.470 36.025 227.400 Huyê ̣n Phú Xuyên 31.032 27.257 76.265 25.329 159.883 Huyê ̣n Ứng Hòa 35.257 29.533 84.771 28.154 177.717 Huyê ̣n Mỹ Đức 24.311 21.614 60.089 19.957 125.971
Toàn thành phố 4.666.519 2.962.197 9.981.291 3.315.008 20.925.014
Nguồn: Thống kê từ điều tra hộ gia đình năm 2014
Trang 34Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Bảng 2 6: Số chuyến đi phân theo loại hình phương tiện
Đơn vị:chuyến/ ngày
Tên quận, huyện Xe đạp Xe máy Xe con Xe bus Tổng cộng
Quâ ̣n Ba Đình 238.681 1.076.727 55.796 100.648 1.471.851 Quâ ̣n Hoàn Kiếm 191.126 912.604 50.909 94.562 1.249.201 Quâ ̣n Tây Hồ 100.792 508.949 29.772 52.151 691.664 Quâ ̣n Long Biên 129.780 658.759 40.919 73.220 902.677 Quâ ̣n Cầu Giấy 219.000 1.114.134 65.300 120.893 1.519.327 Quâ ̣n Đống Đa 348.323 1.652.694 88.878 161.052 2.250.948 Quâ ̣n Hai Bà Trưng 303.290 1.400.220 75.891 138.305 1.917.706 Quâ ̣n Hoàng Mai 185.865 986.927 60.056 104.239 1.337.087 Quâ ̣n Thanh Xuân 184.335 919.868 51.850 91.682 1.247.735 Huyê ̣n Sóc Sơn 41.580 233.103 18.764 46.716 340.162 Huyê ̣n Đông Anh 146.204 708.100 46.155 112.209 1.012.668 Huyê ̣n Gia Lâm 102.078 527.618 37.925 78.712 746.333 Huyê ̣n Từ Liêm 219.456 1.177.470 76.202 142.861 1.615.988 Huyê ̣n Thanh Trì 82.819 502.716 36.594 67.971 690.100 Huyê ̣n Mê Linh 40.763 212.356 16.213 41.221 310.553 Quâ ̣n Hà Đông 156.614 838.972 54.533 100.222 1.150.342 Thi ̣ xã Sơn Tây 57.481 238.937 15.922 35.215 347.556 Huyê ̣n Ba Vì 24.879 84.723 5.552 14.699 129.853 Huyê ̣n Phúc Tho ̣ 21.794 98.580 6.606 15.786 142.767 Huyê ̣n Đan Phươ ̣ng 21.814 106.240 7.102 17.360 152.516 Huyê ̣n Hoài Đức 34.157 211.032 15.107 33.190 293.485 Huyê ̣n Quốc Oai 17.270 90.518 7.458 20.511 135.757 Huyê ̣n Tha ̣ch Thất 28.542 125.451 8.326 21.298 183.618 Huyê ̣n Chương Mỹ 23.612 125.647 10.051 26.039 185.349 Huyê ̣n Thanh Oai 27.201 146.983 10.213 23.422 207.820 Huyê ̣n Thường Tín 28.157 159.027 11.691 29.372 228.248
Trang 35Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Tên quận, huyện Xe đạp Xe máy Xe con Xe bus Tổng cộng
Huyê ̣n Phú Xuyên 26.160 108.412 7.456 18.510 160.539 Huyê ̣n Ứng Hòa 25.828 118.965 9.158 23.206 177.157 Huyê ̣n Mỹ Đức 19.204 81.301 6.789 18.716 126.009
Toàn thành phố 3.046.805 15.127.033 927.188 1.823.988 20.925.014
Nguồn: Thống kê từ điều tra hộ gia đình năm 2014
2.3 Trích chọn thông tin và xây dựng mô hình dự báo
Quá trình trích chọn thông tin sẽ được trình bầy cụ thể trong khi xây dựng từng mô hình tính toán bằng việc thử nghiệm và lựa chọn kết quả tốt nhất cũng như sử dụng kỹ thuật biến giả như một thuộc tính để xây dựng được mô hình có độ chính xác gần nhất với thực tế
Dữ liệu được sử dụng để trong nghiên cứu này gồm dữ liệu trong CSDL điều tra của các hộ gia đình với những thông tin như vùng xuất phát
chuyến đi (i), vùng kết thúc chuyến đi (j), hành trình thực hiện chuyến đi, mục
đích chuyến đi, phương tiện sử dụng, khoảng cách, thời gian, chi phí thực hiện chuyến đi Dữ liệu ngoài là các yếu tố về kinh tế xã hội như: Dân số của vùng, số lao động đến vùng làm việc, số học sinh và sinh viên
2.3.1 Xây dựng mô hình phát sinh, thu hút chuyến đi
Đầu vào: Số chuyến đi của 320 phân vùng trong thành phố Hà Nội, tập thuộc tính về dân số của vùng, số lao động đến vùng làm việc, số học sinh, sinh viên đến vùng học tập
Đầu ra: Xây dựng mô hình xác định các yếu tố ảnh hưởng đến số chuyến đi của vùng phụ thuộc vào những chỉ tiêu nào
Theo những nghiên cứu trước đây, số chuyến đi của một vùng tỷ lệ thuận với dân số của vùng, số người đến vùng để làm việc, kinh doanh buôn bán, học tâp, chữa bệnh.v.v
Trang 36Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Để tìm luật suy diễn số chuyến đi của vùng i hay số chuyến đi thu hút của vùng j và các thuộc tính đưa vào kiểm định như diện tích, thu nhập bình
quân, dân số, số lao động đến làm việc, số học sinh sinh viên thực chất là tìm mối tương quan giữa tổng số chuyến đi và các thuộc tính được lựa chọn để xây dựng mô hình
Trong số những thuộc tính đó thì thuộc tính dân số, số học sinh, sinh viên và số lao động là có mối tương quan tốt hơn cả
Dưới đây là hình vẽ mô tả độ tương quan của các thuộc tính đã được lựa chọn, hình được biểu diễn với trục hoành là tổng số chuyến đi phát sinh từ
vùng i hoặc tổng chuyến đi thu hút đến vùng j, trục tung là các biến về dân số,
người đến làm việc, số học sinh và sinh viên
Trang 37Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Hình 2 2: Đánh giá độ tương quan của các chỉ tiêu đầu vào
Sau khi kiểm định ta thấy đa số các trường hợp đều có mối tương quan tốt, chỉ một số ít trường hợp rơi ra ngoài mối tương quan đó
Trong ba mối tương quan được lựa chọn, thì mối tương quan của số chuyến đi và dân số và số người đến làm việc là tốt nhất, trường hợp học sinh, sinh viên không tốt bằng là vì địa điểm các trường đại học chỉ tập chung vào một số vùng chứ không rải rác khắp tất cả các vùng
Việc xây dựng mô hình Phát sinh và thu hút chuyến đi sẽ dựa trên bộ thuộc tính gồm dân số, số lao động đến làm việc và số học sinh, sinh viên đến học tập
Mô hình đề suất xây dựng dưới dạng hàm tuyến tính:
Trong đó: Y là tổng số chuyến đi phát sinh, hoặc thu hút của vùng
x 1 , x 2 , x 3 là các thuộc tính dân số của vùng, số lao động, số học sinh và sinh viên đến vùng làm việc và học tập
A, B, C, D là các hệ số cần xác định
2.3.1.1 Xây dựng mô hình phát sinh chuyến đi
Đầu vào: Tên file G_MODEL.csv
Tập thuộc tính G i : Số chuyến đi phát sinh của vùng i
Trang 38Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Pop i : Dân số của vùng i
Work: Số lao động đến vùng i ST: Số học sinh và sinh viên đến vùng i
Đầu ra: Kết quả xây dựng mô hình
Sau khi xây dựng mô hình với hàm tuyến tính thu được kết quả phân tích đánh giá các thông số của mô hình Phát sinh như sau:
Hình 2 3: Thông số đánh kết quả phân tích mô hình phát sinh
Phân tích, đánh giá thông số của mô hình phát sinh:
Hệ số tương quan bội R bằng 0,66 cho thấy mối liên hệ khá chặt chẽ Mức độ ảnh hưởng của biến phụ thuộc là 43% kết quả này là có khả năng chấp nhận được Tuy nhiên mức độ phụ thuộc của dân số mang hệ số -0,3 điều này có nghĩa là mặc dù dân số cao, nhưng không hẳn sẽ đi lại nhiều
Từ đó ta có thể kết luận nguyên nhân là do ở một số vùng ở khu vực trung tâm và khu vực xa trung tâm sẽ có số chuyến đi rất khác nhau mặc dù dân số có thể tương đồng
Trang 39Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Trên cơ sở tôn trọng thực tế, em bổ sung thêm một thuộc tính bằng kỹ thuật sử dụng biến giả gọi là hệ số điều chỉnh khu vực (HSDC_KV) Hệ số này sẽ xác định thêm một hệ số để điều chỉnh tổng số chuyến đi của vùng sẽ tăng lên hoặc giảm đi
Hệ số điều chỉnh bằng -1 nếu tỷ lệ (thực tế/ lý thuyết) <0,7 và bằng 1 nếu tỷ lệ (thực tế/ lý thuyết) > 1,4 lần và nếu nằm trong khoảng từ 0,7 đến 1,4 thì hệ số điều chỉnh bằng 0
Sau khi đã thêm hệ số điều chỉnh , ta chạy lại hàm hồi quy với kết quả phân tích đánh giá các thông số mô hình phát sinh như sau:
Hình 2 4: Thông số đánh giá kết quả phân tích mô hình phát sinh khi thêm HSDC Nhận thấy rằng, kết quả khi thêm hệ số điều chỉnh tốt hơn so với trước
Hệ số tương quan bội R tăng từ 0,66 lên 0,92
Mức độ ảnh hưởng của biến phụ thuộc tăng lên từ 43,5% lên 84%
Trang 40Số hóa bởi Trung tâm Học liệu – ĐHTN http://www.lrc.tnu.edu.vn
Kiểm tra lại kết quả mô hình với thực tế thì kết quả chênh lệch so với thực tế nhỏ hơn so với khi không có hệ số điều chỉnh Như vậy độ tin cậy của
mô hình tốt và gần thực tế hơn
Hình 2 5: So sánh mối tương quan của mô hình phát sinh trước và sau khi thêm HSDC Nhìn vào kết quả so sánh của lý thuyết và thực tế, rõ ràng khi thêm biến giả thì sai số được giảm đi, kết quả mô hình tốt hơn trước
Kết quả mô hình phát sinh chuyến đi là:
Gi = -0,153 x (POPi) + 2,0 x (EMPi) + 0,85 x (STD&PPi)
Trong đó: POPi là dân số tại vùng i
STD&PPi là số sinh viên và học sinh đến học tại vùng i
2.3.1.2 Xây dựng mô hình thu hút chuyến đi
Đầu vào: Tên file A_MODEL.csv
Tập thuộc tính A j : Số chuyến đi phát sinh của vùng j
Pop j : Dân số của vùng j
Work: Số lao động đến vùng j
Đầu ra: Kết quả xây dựng mô hình
Sau khi xây dựng mô hình với hàm tuyến tính thu được kết quả phân tích đánh giá các thông số của mô hình Thu hút như sau: