1. Trang chủ
  2. » Luận Văn - Báo Cáo

Khai phá dữ liệu cho dự báo di chuyển trong mạng không dây (TT)

27 363 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 27
Dung lượng 433,12 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tuy nhiên, những công trình trước đây còn tồn tại hai vấn đề chính như sau:  Trong các công trình trước đây, thuộc tính thời gian trong dữ liệu di chuyển hoặc là bị loại bỏ sau khi được

Trang 1

A MỞ ĐẦU

Sự ra đời của mạng nội bộ không dây (Wireless Local Area Network –

WLAN) đã tạo điều kiện thuận lợi cho người sử dụng thiết bị di động có thể truy cập các ứng dụng mạng Internet mọi lúc mọi nơi và duy trì kết nối Internet ngay cả khi họ đang di chuyển trong vùng phủ sóng Trước đây, WLAN thường được triển khai ở các phạm vi địa lý hẹp như quán cà phê, nhà hàng, khách sạn, trung tâm thương mại,… Tuy nhiên, với sự phát triển nhanh chóng của thiết bị di động như điện thoại Internet (VoIP phone hay IP phone, iPhone ), điện thoại thông minh (smart phones), máy tính bảng (iPad), máy nghe nhạc (iPod),… và sự phát triển của công nghệ mạng không dây đã tạo điều kiện thuận lợi cho việc mở rộng phạm vi

vùng phủ sóng và được gọi là mạng nội bộ không dây phạm vi rộng (Wide Wireless Local Area Networks - WWLANs) hay mạng nội bộ không dây công cộng (Public

Wireless Local Area Networks – PWLANs) WWLANs thường được quan tâm xây dựng ở các thành phố lớn, như New York, London, Paris, St Cloud, …và các trường đại học, như trường đại học Dartmouth, Học viện kỹ thuật Massachusetts (Massachusetts Institute of Technology – MIT), đại học Florida, … Tại Việt Nam, các thành phố du lịch như Hội An, Đà Nẵng, Huế, Hải Phòng, … đã được phủ sóng Wi-fi miễn phí nhằm đáp ứng nhu cầu truy cập Internet cùng lúc cho hàng ngàn người dân thành phố và khách du lịch Riêng thành phố Hồ Chí Minh đã thí điểm lắp đặt WWLAN trên các tuyến xe buýt nhằm thu hút người dân thành phố sử dụng loại phương tiện công cộng này [nguồn: http://vnreview.vn] Bên cạnh đó, một số trường đại học cũng đã triển khai WWLAN phục vụ cho hàng ngàn cán bộ, giảng viên và sinh viên như: ĐH Công nghiệp TPHCM, ĐH Quốc gia TPHCM, ĐH Việt Đức, ĐH Kiểm sát Hà Nội, ĐH Tài chính kế toán Quảng Ngãi, …

Một mạng nội bộ không dây công cộng như vậy thường bao gồm hàng trăm

điểm truy nhập mạng (Access Point – AP) và phục vụ cho hàng ngàn người sử dụng

thiết bị di động tại mỗi thời điểm Trong hệ thống mạng WWLAN, mỗi AP có vùng phủ sóng từ vài chục mét (indoor AP) đến vài trăm mét (outdoor AP) Do bán kính phủ sóng của các AP nhỏ nên mỗi khi nút di động (Mobile Node – MN) di chuyển,

Trang 2

nó thường đi qua nhiều vùng phủ sóng của nhiều AP khác nhau Vì WWLAN phải phục vụ nhiều thiết bị di động và chúng thường xuyên thay đổi điểm kết nối mạng

như vậy nên trong hệ thống mạng thường phát sinh những vấn đề về Quản lý vị trí

và Cấp phát tài nguyên mạng cho thiết bị di động

Dự báo sự di chuyển của nút di động trong mạng không dây là xác định điểm truy nhập mạng nào mà nút di động có thể kết nối trong quá trình nó di chuyển xung quanh vùng phủ sóng. Theo đó, dự báo di chuyển có thể cung cấp cho hệ

thống mạng tri thức về sự di chuyển kế tiếp của các MN cũng như tri thức về nhu

cầu sử dụng tài nguyên mạng trong tương lai tại mỗi AP Với những tri thức như

vậy, dự báo di chuyển có thể hỗ trợ giải quyết các vấn đề về quản lý vị trí và cấp phát tài nguyên mạng

Trong hơn một thập niên qua, bài toán dự báo sự di chuyển của thiết bị di động trong mạng không dây thu hút được nhiều sự quan tâm của cộng đồng nghiên cứu Cho đến nay, đã có nhiều công trình khảo sát về các phương pháp kỹ thuật được sử dụng trong dự báo di chuyển Kết quả khảo sát cho thấy rằng phần lớn cơ

chế dự báo được đề xuất trong những năm gần đây đều dựa trên khai phá dữ liệu

(data mining) Do đặc trưng dữ liệu di chuyển của người dùng di động có nhiều

nhiễu, không đầy đủ và biến đổi liên tục, nên kỹ thuật khai phá mẫu tuần tự

(sequential pattern mining) được cho là thích hợp và thu hút nhiều quan tâm nghiên cứu Tuy nhiên, những công trình trước đây còn tồn tại hai vấn đề chính như sau:

 Trong các công trình trước đây, thuộc tính thời gian trong dữ liệu di chuyển hoặc là bị loại bỏ sau khi được sử dụng để tạo các mẫu di chuyển hợp lệ hoặc là không được sử dụng trong quá trình khai phá mẫu di chuyển phổ biến Do đó, các cơ chế dự báo di chuyển này chưa khai thác được giá trị của thời điểm di chuyển trong quá trình thực hiện dự báo Trong khi đó, hành vi di chuyển của con người thường có mối quan hệ mạnh với thời gian biểu của họ Nghĩa là, vào một số thời điểm cố định trong ngày, con người thường xuất hiện ở một số nơi cố định

 Hạn chế thứ hai của những công trình trước đây là sử dụng hành vi di

Trang 3

chuyển trong quá khứ của cá nhân người dùng di động để dự báo sự di chuyển tương lai của họ Trong những trường hợp người sử dụng mới gia nhập vào hệ thống mạng hoặc thay đổi hành vi di chuyển, dữ liệu di chuyển của cá nhân họ sẽ không nhiều Do đó, các cơ chế này có thể không dự báo thành công trong những trường hợp như vậy.

Mục tiêu và phạm vi của luận án

Mục tiêu của luận án là nghiên cứu các giải pháp khai thác những tri thức ẩn chứa trong dữ liệu di chuyển để nâng cao độ chính xác của cơ chế dự báo di chuyển trong mạng không dây Luận án tập trung vào hai chủ đề chính sau đây:

 Nghiên cứu cách khai thác đồng thời cả hai đặc trưng không gian và thời gian của dữ liệu di chuyển nhằm nâng cao độ chính xác dự báo Để đạt được mục tiêu này, luận án đề xuất một cách biểu diễn mẫu di chuyển theo hai thuộc tính không gian và thời gian Cách biểu diễn này sau đó được áp dụng để đề xuất một cơ chế dự báo di chuyển dựa trên khai phá mẫu không

gian – thời gian

 Nghiên cứu cách khai thác đặc trưng di chuyển theo nhóm của người dùng

di động và đề xuất giải pháp dự báo cho những di chuyển thiếu thông tin

Để đạt mục tiêu này, trước hết luận án định nghĩa một độ đo tương tự nhằm xác định mức độ giống nhau về hành vi di chuyển của người dùng di động

Độ đo tương tự mới này sau đó được áp dụng để phát triển một giải pháp phân nhóm dữ liệu di chuyển của người dùng di động Dựa trên giải pháp phân nhóm, luận án đề xuất một cơ chế dự báo di chuyển nhằm khắc phục tình trạng thiếu thông tin của dữ liệu di chuyển cá nhân

Trang 4

Hội nghị quốc tế International Conference in Mathematics and

Applications – ICMA, Thailand, 2011

 Cơ chế dự báo di chuyển dựa trên khai phá mẫu tuần tự không gian – thời gian Cơ chế dự báo này khai thác giá trị của thuộc tính thời gian trong cả bốn giai đoạn của quá trình dự báo di chuyển Kết quả nghiên cứu đã được công bố trên kỷ yếu của Hội nghị quốc gia lần 5 về nghiên cứu Cơ bản và

Ứng dụng (FAIR’05), 2011, trên Tạp chí Journal of Communication and

Computer (JCC), 2012 và trên Tạp chí International Journal of Computer Science and Telecommunications (IJCST), 2012

 Độ đo tương tự giữa các mẫu di chuyển nhằm khai thác đặc trưng di chuyển theo nhóm trong dữ liệu di chuyển Độ đo tương tự này là một sự kết hợp

có trọng số theo hai thuộc tính không gian và thời gian của mẫu di chuyển Luận án đã lập luận chứng minh tính đúng đắn của độ đo tương tự và kiểm định bằng thực nghiệm Độ đo này đã được công bố trên Tạp chí

International Journal of Computer Networks & Communications (IJCNC),

2012 (DBLB) và trên Tạp chí Khoa học và Công Nghệ của Viện Khoa học

và Công nghệ Việt Nam, 2013

 Thuật toán gom nhóm hành vi di chuyển của người dùng di động trong mạng không dây dựa trên độ đo tương tự được đề xuất bởi luận án Hiệu quả của thuật toán gom nhóm được đánh giá bằng thực nghiệm trên nhiều tham số khác nhau và thông qua nhiều phương pháp đo chất lượng gom nhóm chuẩn Kết quả nghiên cứu này đã được công bố trên kỷ yếu của Hội

nghị quốc gia lần 6 về nghiên cứu Cơ bản và Ứng dụng (FAIR’06), 2013 và trên Tạp chí International Journal of Innovative Computing, Information

and Control (IJICIC), 2013, (Scopus| SJR impact factor = 0.812)

 Cơ chế dự báo di chuyển dựa trên nhóm hành vi di chuyển tương tự Cơ chế này khai thác sự giống nhau về hành vi di chuyển của người dùng di động nhằm khắc phục sự thiếu thông tin của dữ liệu di chuyển cá nhân Kết quả nghiên cứu này đã được công bố trên kỷ yếu của Hội nghị quốc tế

Trang 5

International Conference on Context-Aware Systems and Applications –

ICCASA, 2013, Lecture Notes of ICST (Springer) và trên kỷ yếu của Hội

nghị quốc tế Science and Information Conference – SAI, London, 2015

(IEEE Xplore) và trên Tạp chí Journal of Communications and Networks

(JCN), 2015 (ISI, impact factor = 1.007)

Bố cục của luận án

Về cấu trúc, luận án được trình bày trong 3 chương, có phần mở đầu, phần kết luận, phần các công trình đã công bố liên quan đến luận án, tài liệu tham khảo và phần phụ lục Chương 1 trình bày tổng quan về những vấn đề liên quan đến dự báo

di chuyển trong mạng không dây và những cơ sở lý thuyết cho các giải pháp được

đề xuất trong các chương còn lại của luận án Chương 2 tập trung nghiên cứu và đề xuất một cách biểu diễn mẫu di chuyển theo hai thuộc tính không gian và thời gian của dữ liệu di chuyển Với cách biểu diễn mẫu di chuyển như vậy, chương này đề xuất một cơ chế dự báo di chuyển dựa trên khai phá mẫu không gian – thời gian Phần còn lại của chương là xây dựng dữ liệu kiểm thử, phương pháp đánh giá thực nghiệm và các kịch bản thực nghiệm, cài đặt thực nghiệm trên các tập dữ liệu mô phỏng để phân tích và đánh giá hiệu quả của việc sử dụng đồng thời cả hai thuộc tính không gian và thời gian vào dự báo di chuyển Hiệu quả của cơ chế dự báo đề xuất cũng được đánh giá so sánh với các công trình liên quan bằng thực nghiệm Trong chương 3, luận án đề xuất một độ đo tương tự cho mẫu di chuyển nhằm xác định mức độ giống nhau giữa chúng Độ đo tương tự này sau đó được áp dụng để đề xuất một giải pháp gom nhóm mẫu di chuyển Dựa trên giải pháp gom nhóm, luận

án đề xuất một cơ chế dự báo di chuyển với mục tiêu khai thác đặc trưng di chuyển theo nhóm của người sử dụng thiết bị di động nhằm khắc phục sự thiếu thông tin của dữ liệu di chuyển cá nhân Hiệu quả của các giải pháp được đề xuất trong chương này đều được đánh giá bằng thực nghiệm và so sánh với các công trình liên quan Do đó, phần còn lại của chương trình bày về tập dữ liệu kiểm thử, phương pháp đánh giá thực nghiệm và các kịch bản thực nghiệm, kết quả thực nghiệm

Trang 6

B NỘI DUNG

Chương 1 – Tổng quan về dự báo di chuyển trong mạng không dây

1.1 Tổng quan về các cơ chế dự báo di chuyển

Loại tri thức và kỹ thuật

Tôpô giao thông,

tôpô đường đi, …

- Dựa vào tôpô hay bản

đồ khái niệm không gian

để tính xác suất di chuyển

từ một vị trí đến các vị trí

có thể

- Thích hợp cho các hệ thống mạng ổn định và có qui mô nhỏ

- Không dự báo tốt khi ngữ cảnh mạng hay tôpô thay đổi

- Yêu cầu tập hợp và xử lý một lượng thông tin cực kỳ lớn

MN và những AP lân cận

- Độ mạnh tín hiệu nhận được càng lớn nghĩa là

MN ở càng gần AP, do đó

có khả năng MN đang di chuyển đến AP

- Làm tăng lưu lượng mạng vì các AP liên tục gửi tín hiệu chứa thông tin về khoảng cách

- Số vị trí dự báo thường nhiều hơn một vì dự báo không theo hướng di chuyển

- Dựa vào ma trận xác suất chuyển trạng thái để

- Sử dụng tài nguyên tính toán lớn

- Cần huấn luyện lại mô hình định kỳ

- Không khai thác được thông tin di chuyển theo nhóm

Trang 7

dự báo sự chuyển trạng thái kế tiếp của MN

- Khó mở rộng thêm đặc điểm ngữ cảnh

Phân tích thống kê - Phân tích dữ liệu di

chuyển để rút trích tri thức về hành vi di chuyển

- Không thích nghi với dữ liệu không đầy đủ hoặc biến đổi liên tục

- Kết quả phân tích thường rất lớn và trừu tượng

Phải huấn luyện lại mô hình khi thêm dữ liệu mới hay loại bỏ

dữ liệu cũ

Gom nhóm Sử dụng đặc điểm di

chuyển theo nhóm của người dùng di động để tiên đoán di chuyển tương lai

Kết quả dự báo sẽ không tốt nếu dữ liệu di chuyển có tỷ lệ

di chuyển ngẫu nhiên cao

- Chưa khai thác thuộc tính thời gian trong mẫu di chuyển

- Không dự báo tốt khi dữ liệu

di chuyển cá nhân không đầy

đủ

Đề xuất giải pháp đáp ứng thời gian thực khi sử dụng khai phá mẫu tuần tự

- Chỉ khai thác thuộc tính thời gian ở một giai đoạn của quá trình dự báo di chuyển

- Không dự báo tốt khi dữ liệu

di chuyển cá nhân không đầy

đủ

Sử dụng ràng buộc thời gian để sinh tập chuỗi di chuyển có nghĩa

Trang 8

1.2 Độ đo tương tự cho dữ liệu di chuyển

1.2.1 Các khái niệm về độ đo tương tự

Cho S là một tập hợp khác rỗng, một hàm số d: SSR được gọi là một

mêtric (metric) trên S nếu d thỏa các tính chất sau:

Tiên đề 1 (tính phản xạ - self-identity): với mọi x thuộc S, d(x, x) = 0

Tiên đề 2 (tính luôn dương – positivity): với mọi x, y thuộc S, x ≠ y, d(x, y) > 0 Tiên đề 3 (tính đối xứng – symmetry): với mọi x, y thuộc S, d(x, y) = d(y, x)

Tiên đề 4 (tính bất đẳng thức tam giác - triangle inequality): với mọi x, y, z thuộc S,

d(y, z) ≤ d(y, x) + d(x, z)

Độ đo tương tự (similarity measure) của hai đối tượng dữ liệu là độ sai khác

(dissimilarity) của đối tượng dữ liệu này với đối tượng dữ liệu còn lại Độ sai khác

này được tính dựa trên một hàm số d Nếu hàm số d chỉ thỏa các tính chất phản xạ, luôn dương và đối xứng (các tiên đề 1, 2, 3) thì độ đo tương tự là một nửa mêtric hay bán mêtric (semi-metric) Nếu hàm số d chỉ thỏa các tính chất phản xạ, đối xứng và bất đẳng thức tam giác (các tiên đề 1, 2, 4) thì độ đo tương tự là một giả

mêtric hay gần mêtric (pseudo-metric) Nếu hàm số d chỉ thỏa các tính chất phản xạ

và đối xứng (các tiên đề 1, 3) thì độ đo tương tự là nửa giả mêtric hay nửa gần

mêtric (semipseudo-metric)

1.2.2 Tổng quan về các độ đo tương tự

Việc xác định mức độ tương tự giữa các mẫu đường đi đóng vai trò quan trọng trong việc khai thác sự di chuyển giống nhau của các đối tượng di chuyển Mặc dù

đã có nhiều độ đo được đề xuất để tính độ tương tự giữa các mẫu đường đi nhưng phần lớn được tính dựa trên khoảng cách Ơ-clit (Euclidean distance) Tuy nhiên, cũng có một số độ đo được đề xuất cho không gian mạng thay cho không gian Ơ-clit nhưng chưa quan tâm thuộc tính thời gian của dữ liệu đường đi Một số ít độ đo

sử dụng khoảng cách mạng (network distance) và tính toán dựa trên đồng thời thuộc tính không gian và thời gian Tuy nhiên, yếu tố thời gian được phản ảnh thông qua khía cạnh thời khoảng giữa hai vị trí liên tiếp tương ứng trong hai mẫu hoặc thứ tự

Trang 9

giữa các vị trí tương ứng trong hai mẫu, chưa quan tâm đến thời điểm của hai vị trí tương ứng trong hai mẫu

1.3 Mở rộng thuật toán gom nhóm k-means

Với ưu điểm đơn giản và độ phức tạp tính toán thấp, thuật toán gom nhóm

k-means ngày càng trở nên phổ biến Độ phức tạp của thuật toán k-k-means là O(n.k.l)

với k là số lượng nhóm được sinh ra, n là số phần tử của tập dữ liệu cần phân hoạch

và l là số lần lặp của vòng lặp while trong thuật toán Với độ phức tạp tính toán đa

thức, thuật toán k-means thường được đề xuất sử dụng cho các tập dữ liệu lớn

Tuy nhiên, thuật toán k-means kinh điển tập trung vào dữ liệu định lượng

(numerical data, còn gọi là dữ liệu số) và do đó sử dụng khoảng cách Ơ-clit để đo

độ tương tự giữa các đối tượng dữ liệu Nhiều công trình nghiên cứu đã chứng minh

sự không hiệu quả khi sử dụng khoảng cách Ơ-clit để đo độ tương tự giữa các đối

tượng dữ liệu định tính (categorical data, còn gọi là dữ liệu phân loại) Hơn nữa,

thuật toán k-means kinh điển được đề xuất cho miền giá trị định lượng nên rất khó

áp dụng trực tiếp cho miền giá trị định tính như trong hầu hết các ứng dụng khai phá

dữ liệu

Để khắc phục hạn chế này, nhiều nhóm nghiên cứu đã đề xuất các giải pháp để

áp dụng k-means cho miền giá trị định tính Trong đó, một số công trình đề xuất chuyển miền giá trị định tính sang miền giá trị định lượng Cách tiếp cận này khá đơn giản tuy nhiên sẽ có thể dẫn đến mất ngữ nghĩa trong các khái niệm định tính Một cách tiếp cận khác là xây dựng các độ đo tương tự cho dữ liệu định tính và sử

dụng độ đo tương tự để phân nhóm đối tượng dữ liệu, điển hình là modes và

k-representatives Tuy nhiên, những giải pháp gom nhóm này có thể tạo ra các phân

hoạch không ổn định do mỗi nhóm có nhiều hơn một trung vị như k-modes hoặc do khởi tạo đại diện nhóm ngẫu nhiên như k-representatives

1.4 Tập dữ liệu kiểm thử

Mặc dù các hệ thống mạng WWLAN phổ biến nhưng phần lớn chúng đều được phát triển dần dần theo sự phát triển của thành phố / trường đại học Do đó, sơ

Trang 10

đồ bố trí tổng thể các điểm truy nhập mạng APs của một hệ thống mạng WWLAN thường thay đổi theo thời gian Hơn nữa, vì lý do bảo mật hệ thống mạng nên các nhà quản trị hệ thống phải có trách nhiệm bảo mật sơ đồ bố trí tổng thể các điểm truy nhập mạng Vì không thể tiếp cận được sơ đồ bố trí tổng thể các điểm truy nhập mạng của một hệ thống mạng trong thực tế nên phần lớn các nhóm nghiên cứu đều tự xây dựng tập dữ liệu kiểm thử từ các hệ thống mạng mô phỏng

Mặt khác, nhằm khảo sát mức độ ảnh hưởng của tỷ lệ di chuyển ngẫu nhiên trong dữ liệu di chuyển đối với độ chính xác dự báo của cơ chế đề xuất, luận án cần

xây dựng các tập dữ liệu kiểm thử theo các tỷ số ngẫu nhiên khác nhau Tỷ số ngẫu

nhiên là tỷ lệ số đường đi ngẫu nhiên trên tổng số đường đi trong tập Với tập dữ liệu thực (real dataset), số đường đi ngẫu nhiên trong tập là cố định và khó nhận diện nên việc điều chỉnh tỷ số ngẫu nhiên cho tập dữ liệu kiểm thử thực là khó thực hiện được

Từ những lý do trên, luận án thực hiện đánh giá các đề xuất bằng thực nghiệm trên các tập dữ liệu kiểm thử mô phỏng Tập dữ liệu kiểm thử là tập những đường đi của thiết bị di động xung quanh vùng phủ sóng của một hệ thống mạng Do đó, để xây dựng tập dữ liệu kiểm thử, trước hết luận án mô phỏng một hệ thống mạng có vùng phủ sóng (coverage region) bao gồm một số lượng điểm truy nhập mạng (APs) cụ thể và sơ đồ bố trí các điểm truy nhập cụ thể Hệ thống mạng này được biểu diễn bởi một đồ thị di chuyển có số nút và cấu trúc mạng lưới các nút tương ứng với số điểm truy cập mạng và sơ đồ bố trí các điểm truy cập mạng trong hệ thống Dựa trên đồ thị di chuyển, luận án xây dựng một bộ sinh dữ liệu để sinh ra tập đường đi mô tả sự đi qua các nút trên đồ thị nhằm mô phỏng sự di chuyển xung quanh vùng phủ sóng của hệ thống mạng mô phỏng Cách xây dựng tập dữ liệu kiểm thử này cũng đã được nhiều công trình nghiên cứu trước đây thực hiện

1.5 Phương pháp đánh giá thực nghiệm

Để đảm bảo tính chính xác, ngẫu nhiên và khách quan, luận án tính toán các tiêu chí đánh giá thông qua phương pháp kiểm thử chéo (n-folds cross-validation)

Trang 11

trên các tập dữ liệu kiểm thử được sinh ra Theo phương pháp này, tập dữ liệu kiểm

thử được phân chia ngẫu nhiên thành n tập dữ liệu con có số lượng phần tử bằng nhau Lần lượt từng tập dữ liệu con trong n tập dữ liệu con được chọn làm tập kiểm tra và (n-1) tập dữ liệu con còn lại được sử dụng làm tập huấn luyện Tiến trình đánh giá chéo được thực hiện lặp lại n lần tương ứng với n bộ tập huấn luyện/tập

kiểm tra Kết quả thực nghiệm trên mỗi lần huấn luyện/kiểm tra được ghi lại và sau

đó tính kết quả trung bình Giá trị trung bình của n kết quả được sử dụng để đánh

giá tổng thể kết quả thực nghiệm

Luận án sử dụng các độ đo đánh giá chuẩn để thực nghiệm trên nhiều tham số khác nhau và từ đó đánh giá hiệu quả của các cơ chế dự báo di chuyển và gom nhóm hành vi di chuyển Cụ thể về các độ đo đánh giá được trình bày trong phần

tiếp theo

Độ đo đánh giá độ chính xác dự báo

Tương tự các công trình nghiên cứu trước đây, luận án đánh giá độ chính xác

dự báo dựa trên hai độ đo chuẩn sau:

báo Như vậy, độ đo đầy đủ xem trường hợp “không dự báo được prediction)” như một lần dự báo sai

báo được thực hiện thành công Nghĩa là độ đo chính xác bỏ qua trường hợp “không dự báo được”

Vì độ đo chính xác (precision measure) không xét trường hợp “không dự báo được” nên độ đo này thích hợp cho việc đánh giá độ chính xác dự báo trong trường hợp dữ liệu di chuyển không đầy đủ Ngược lại, khi dữ liệu di chuyển hoàn thiện thì

“không dự báo được” phải được xem là một lần dự báo sai, vì lúc này cơ chế dự báo

đã không tìm được vị trí kết nối kế tiếp Do đó, độ đo đầy đủ nên được sử dụng trong trường hợp này Độ đo đầy đủ có giá trị càng lớn thì độ chính xác dự báo của

cơ chế càng lớn

Trang 12

Độ đo đánh giá chất lượng gom nhóm

Kết quả gom nhóm được xem là tốt nếu khoảng cách giữa các đối tượng dữ

liệu trong cùng nhóm là thấp, trong khi đó khoảng cách giữa các đối tượng dữ liệu trong các nhóm khác nhau là cao Cho đến nay, có ba phương pháp thường được sử dụng để đánh giá chất lượng của kết quả gom nhóm:

nhóm được đánh giá bởi độ đo nội (internal measure) và độ đo ngoại (external measure) Độ đo nội phản ánh khoảng cách trung bình giữa các đối tượng dữ liệu trong cùng nhóm Ngược lại, độ đo ngoại phản ánh khoảng cách trung bình giữa các nhóm với nhau

hiệu C*

= C1*  C2*  …Ck* là phân hoạch đúng của tập dữ liệu kiểm thử

và C = C1  C2  …Ck là phân hoạch được sinh ra bởi thuật toán gom

nhóm đề xuất Giá trị của VI(C, C*) xác định sự khác nhau giữa hai phân

hoạch C và C* Giá trị của VI(C, C*) càng nhỏ thì phân hoạch C càng giống phân hoạch đúng C* nên chất lượng gom nhóm càng tốt Giá trị của VI(C, C*)

bằng 0 khi phân hoạch C giống hoàn toàn phân hoạch đúng C*

Đánh giá dựa vào mức độ tương ứng của các phân hoạch (r): đo mức độ

tương ứng giữa các nhóm được sinh ra bởi thuật toán gom nhóm cần đánh giá và các lớp đã được gán trước trong tập dữ liệu kiểm thử

Chương 2 – Dự báo di chuyển dựa trên khai phá mẫu không gian – thời gian 2.1 Biểu diễn di chuyển trong mạng không dây

2.1.1 Biểu diễn vùng phủ sóng

Tương tự như các công trình trước đây, luận án biểu diễn vùng phủ sóng của một hệ thống mạng không dây tế bào dưới dạng một mạng hình lục giác như trong Hình 2.1 Mỗi lục giác là một tế bào được phục vụ bởi một AP Để mô hình sự di

chuyển của MNs xung quanh vùng phủ sóng, luận án sử dụng một đồ thị có hướng

không trọng số (unweighted directed graph) G = (V, E) Trong đó, tập đỉnh V là tập

Trang 13

định danh của tất cả tế bào trong vùng phủ sóng và tập cạnh E biểu diễn sự lân cận

của hai tế bào tương ứng

Hình 2.1 Vùng phủ sóng (a) và đồ thị di chuyển tương ứng (b)

2.1.2 Định nghĩa mẫu di chuyển và luật di chuyển

Vì mục tiêu của luận án là phân tích hành vi di chuyển hàng ngày của người dùng di động nên luận án đề xuất chia chu kỳ thời gian một ngày (24 giờ) ra thành n khoảng thời gian [ai, bi] bằng nhau, mỗi thời khoảng [ai, bi] được gán một nhãn thời

gian ti duy nhất Khi đó, mỗi ngày đều có cùng một tập nhãn thời gian T = { t1, t2, …

ti, … tn} với tính chất ti < tj khi và chỉ khi i < j, 1 ≤ i, j ≤ n

Ký hiệu c là định danh của tế bào trong vùng phủ sóng mà MN kết nối vào tại thời điểm t, luận án định nghĩa một điểm (point) như sau:

Định nghĩa 2.1 Ký hiệu C và T tuần tự là tập định danh của tế bào và tập nhãn

thời gian Cặp có thứ tự p = (c, t), trong đó c C và t T, được gọi là một điểm

Ký hiệu P là tập tất cả điểm, P = C × T = {(c, t) | c C và t T}

Hai điểm pi = (ci, ti) và pj = (cj, tj) được gọi là bằng nhau nếu và chỉ nếu ci = cj

và ti = tj Điểm pi = (ci, ti) được gọi là điểm trước của điểm pj = (cj, tj) nếu và chỉ nếu

ti < tj, và ký hiệu là (ci, ti) < (cj, tj) hoặc pi < pj

Ví dụ: điểm (8, t5) là điểm trước của điểm (2, t7) vì t5 < t7

Định nghĩa 2.2 Một đường đi (trajectory) của thiết bị di động được định nghĩa là

một chuỗi có thứ tự hữu hạn các điểm <p 1 , p 2 ,…, p k > trong không gian C × T, với

p j = (c j , t j ) sao cho 1 ≤ j ≤ k và hai tế bào của hai điểm liền kề là lân cận nhau trong vùng phủ sóng Một đường đi gồm k điểm được gọi là một mẫu di chuyển tuần

tự (sequential mobility pattern) chiều dài k và được ký hiệu là k-pattern

Ngày đăng: 01/12/2015, 11:29

HÌNH ẢNH LIÊN QUAN

Hình 2.1. Vùng phủ sóng (a) và đồ thị di chuyển tương ứng (b) - Khai phá dữ liệu cho dự báo di chuyển trong mạng không dây (TT)
Hình 2.1. Vùng phủ sóng (a) và đồ thị di chuyển tương ứng (b) (Trang 13)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w