Bài báo này đề xuất một thuật toán phân lớp không có giám sát để nhận dạng đối tượng (MT) có liên quan đến yêu cầu chuyển vùng nhằm làm cơ sở ra quyết định lựa chọn hệ thống tối ưu quản lý MT. Mời các bạn cùng tham khảo!
Trang 1Giải Bài Toán Phân Lớp Không Có Giám Sát
Liên Quan Tới Điều Khiển Chuyển Vùng
Nguyễn Hồng Thủy 1,2 , Hồ Văn Canh 1 , Lê Danh Cường 1 , Lê Nhật Thăng 2
1 Bộ Công an
2 Học viện Công nghệ Bưu chính Viễn thông Email: thaisontsc@gmail.com , hovancanh@gmail.com , lenhatthang@gmail.com
Abstract— Hiện nay thế giới đang bắt đầu
ứng dụng những thành quả của cuộc Cách
mạng Công nghiệp 4.0 Đặc tính “di động”
(moving) đã và đang trở thành đặc trưng cơ
bản của các mạng truyền thông hiện tại và
tương lai Đã có nhiều hình thức truyền
thông mới ra đời và phát triển mạnh mẽ, như
mạng xã hội, điện toán đám mây di động
(moving cloud computing); hay là IoTs
(Internet of Things) đã làm đa dạng hóa các
loại hình dịch vụ và do đó làm tăng độ phức
tạp và phạm vi hoạt động của mạng truyền
thống Vì vậy khi định vị một đối tượng, ví
dụ như một thiết bị đầu cuối di động - MT
(Mobile Terminal) nào đó, chúng ta cần tính
đến tính chất “di động” của đối tượng đó
Vấn đề đặt ra là cần xây dựng một phương
án lựa chọn hệ thống chuyển vùng tối ưu
nhằm đạt yêu cầu đặt ra Bài báo này đề xuất
một thuật toán phân lớp không có giám sát
để nhận dạng đối tượng (MT) có liên quan
đến yêu cầu chuyển vùng nhằm làm cơ sở ra
quyết định lựa chọn hệ thống tối ưu quản lý
MT
Keywords- Phân lớp, Nhận dạng, Không có giám
sát.
I GIỚITHIỆUCHUNG
Ngày nay các thiết bị ứng dụng di động phát
triển nhanh chóng, theo đó nhu cầu sử dụng dịch
vụ di động tăng lên không ngừng Các đối tượng
đã tận dụng vào mục đích thông tin liên lạc di
động nhằm tránh sự phát hiện và định vị của các
cơ quan an ninh Nhiều ứng dụng như mạng xã hội, điện toán đám mây (cloud computing), IoTs (Internet of Things) đã mở ra mô hình kiến trúc
hạ tầng mới, các đối tượng mới bao gồm đầu cuối, dịch vụ, mạng, nội dung, tính toán, bảo mật và tất cả đều di động Các đối tượng của
an ninh Quốc gia đã ứng dụng tính di động này trong trao đổi thông tin nhằm tránh khả năng
“định vị” của các cơ quan an ninh Quốc gia Trong nhiều năm qua, các kỹ thuật xử lý chuyển vùng liên mạng (ISHO) phức tạp đã được nghiên cứu và triển khai để quản lý việc đăng ký, xác thực, di chuyển v.v của mỗi thiết
bị đầu cuối di động - MT (Mobile Terminal) Tuy nhiên, các kỹ thuật này mới chỉ được áp dụng trong các mạng có công nghệ tương tự Do
đó, việc đáp ứng được các viễn cảnh nêu trên là một vấn đề còn cần được nghiên cứu và giải quyết [10] với các lý do dưới đây:
- Hiện nay còn nhiều ứng dụng và các mô hình truyền tin đã được ứng dụng làm cho hạ tầng mạng thêm đa dạng và phức tạp Nhiều giải pháp quản lý di động hiện có đều ứng dụng cho các mạng cụ thể mà chưa đáp ứng được các yêu cầu dự phòng và khả năng xử lý các mạng hỗn hợp, phức tạp
- Đang tồn tại nhiều mạng truy cập vô tuyến
có công nghệ khác nhau
- Nhiều kỹ thuật xử lý chuyển vùng liên mạng (ISHO) đã và đang được triển khai
Bài báo đề xuất một giải pháp phân lớp không có giám sát (un-supervision) liên quan đến điều khiển chuyển vùng và để ứng dụng vào
Trang 2việc nhận biết các đối tượng tương ứng với mỗi
thiết bị đầu cuối di động - MT
Ví dụ: Giả sử có một đối tượng MT Mỗi
vùng có một số Cell Khi đó quá trình phân lớp
tương đương với việc lựa chọn Cell nào đó có
khả năng cung cấp dịch vụ tốt nhất cho MT đó
Có một số thuật toán phân lớp quy định các
vùng trong không gian đặc trưng không chồng
lấn lên nhau [2]
Theo đó, mỗi một MT chỉ thuộc một lớp
(Cell) Việc phân lớp này không phù hợp với hệ
thống thông tin di động, bởi vì việc chồng lấn
làm tăng vùng phủ sóng và do đó làm cho quá
trình chuyển vùng phức tạp hơn Mặt khác,
trong thực tế chúng ta phải giải quyết bài toán
phân lớp không có giám sát (un-supervision) tức
là không cho trước các thông tin về đối tượng
phân lớp
Bài toán này phức tạp hơn so với bài toán
phân lớp có giám sát (supervision) đã được trình
bày trong bài báo [12]
II MÔHÌNHHỆTHỐNG
2.1 Khái quát
Thực tế cho thấy trong nhiều trường hợp, việc
xác định chính xác vị trí của thuê bao là rất khó
Vì vậy, thông qua kỹ thuật nhận biết, phân tích
giá trị của cường độ tín hiệu thu được, góp phần
làm giảm thiểu những quyết định chuyển vùng
không chính xác
Mỗi một MT (thuê bao thứ i) được đặc ( )i
trưng bởi véc tơ (gọi là véc tơ đặc trưng –
characteristic vector) V( )i = [V1( )i ,V2( )i ,…,V n( )i ]
trong không gian véc tơ n chiều Trong đó V j( )i
biểu diễn cường độ tín hiệu thu được từ trạm
phát BTS thứ j của thuê bao thứ i, n biểu diễn số
trạm phát BTS có thể cung cấp dịch vụ cho MT
Quá trình chuyển vùng tương đương với
( )i
việc xác định vị trí của véc tơ đặc trưng trong
miền (vùng) định trước Điều này được thực
hiện thông qua véc tơ thành phần V j( )i gán cho
MT MT được quyết định bởi trạm phát thứ ( )i ( )i
j (j = 1, 2, …, n) nếu:
= { } (1)
( )i j
V
1 max
l n
( )i l
V
2.2 Đề xuất giải pháp giải bài toán phân lớp dựa trên học không có giám sát
Thuật toán phân lớp mờ (Fuzzy), thuật toán phân lớp trên khoảng cách, phân lớp theo véc tơ đồng dạng đã được trình bày trong [14] Các thuật toán đó đã cho kết quả thực nghiệm khá tốt Song các thuật toán đó không tính đến sai số trong quá trình phân lớp Mục tiêu của bài báo này là nghiên cứu và đề xuất giải pháp giải bài toán phân lớp không có giám sát dựa trên khoảng cách Hamming
2.2.1 Đặt bài toán
Bài toán tổng quát đặt ra như sau:
Cho một tập hợp hữu hạn các đối tượng tùy
ý được gọi là tập tổng quát (Universe) và đươc
ký hiệu là , mỗi phần tử của được gọi là một đối tượng (object) Mỗi một phần tử thuộc
đều tương ứng 1-1 với một phần tử x G
R (không gian thực n chiều) Như vậy việc n
phân lớp trên không gian tương đương với
việc phân lớp trên tập hữu hạn G Mỗi x G
được coi như một véc tơ n chiều Để đơn giản
nhưng không mất tính tổng quát, chúng ta giả
thiết rằng G = {0,1} Như vậy mỗi x G là n
một véc tơ nhị phân n thành phần và được ký
hiệu là:
x = (x , x , …, x ) với x1 2 n i {0, 1}, i = 1, 2, 3,
…, n.
Từ đó bài toán phân lớp được đặt ra như sau:
Hãy phân hoạch (partition) tập G thành k tập con khác rỗng G ,G ,…, G (k 2) sao cho 1 2 k thỏa mãn các yêu cầu sau đây:
i/ G iG = , với mọi cặp (i, j), i j, i, j = j
1, 2,…, k.
1
k
i i iii/ Sai số trung bình trong quá trình phân hoạch là bé nhất có thể
Trang 32.2.2 Một số khái niệm cơ bản
Việc xây dựng thuật toán phân lớp thỏa mãn
2 yêu cầu (i) và (ii) là rất dễ dàng Tuy nhiên
việc phân lớp thỏa mãn yêu cầu (iii) là một khó
khăn Hơn nữa đây lại là bài toán phân lớp
không có giám sát, tức là chưa cho trước các
thông tin tiên nghiệm (prior information) mà G
chỉ là tập hữu hạn các dữ liệu (dạng véc tơ) Do
đó, để giải bài toán này, ta cần đưa ra các khái
niệm: thế nào là khoảng cách giữa 2 véc tơ (nhị
phân), thế nào là sự gần gũi giữa 2 tập hợp (tức
độ đo sự khác nhau (giống nhau) giữa 2 tập
hợp? Ta có các định nghĩa sau:
Định nghĩa 1: Cho X là một tập hợp khác
rỗng tùy ý, khi đó khoảng cách giữa hai phần tử
x, y X là một ánh xạ:
d: X X R=(,)
thỏa mãn 3 tiên đề sau đây:
Tiên đề 1: d(x,y) 0, đối với mọi x, y X
Tiên đề 2: d(x,y) = d(y,x)
Tiên đề 3: d(x,y) d(x,z) + d(z,y), đối với
mọi x, y, z X.
Có một số độ đo khoảng cách đã được định
nghĩa [4] Trong báo cáo này, tác giả đưa ra một
độ đo khoảng cách được gọi là khoảng cách
Hamming [5] như sau:
Lấy X = G và xác định: d(x,y)=
(2), trong đó x = (x , x , …, x ), 1
1 n ( )
i i
i x y
y = (y , y , …, y ), với x , y1 2 n i i {0, 1}, i = 1,
2, 3, …, n.
Định nghĩa khoảng cách như vậy rõ ràng
thỏa mãn 2 tiên đề 1 và 2 Ta chỉ cần chứng
minh nó cũng thỏa mãn với cả tiên đề 3
Thật vậy, giả sử cho x, y, z G, ta có theo
định nghĩa:
d(x,y)=
1
1
n
i i
i x y
=
1
n
=
1
n
1
a không âm) Từ đó ta có:
1
1 n
i i
i x z
1
1 n
i i
i z y
1 (
1 n
i i
i x z
+ )=d(x,z) + d(z,y)
1 (
1 n
i i
i z y
Định nghĩa 2: Cho trước k tập hợp con hữu hạn, khác rỗng G , G ,…, G (k 2) Ta định 1 2 k
nghĩa khoảng cách giữa 2 tập hợp G , G là: i j
(G ,G )= (3), được gọi là
x G y G
i j
d x y
n n khoảng cách trung bình giữa 2 tập khác nhau Trong đó n i G i là số phần tử trong tập
hợp G , với i = 1, 2,…, k Nếu i j thì (G ,G i i
) được gọi là giá trị ngoài của 2 tập hợp G , G
Trường hợp i = j, thì ta định nghĩa: (G ,G
)= (4) và được gọi là giá
2
( , )
1 x G y G i i
i i
d x y
n n
trị trong của tập hợp G (tức là (G , G ) là i i i
khoảng cách trung bình giữa các điểm của tập
hợp G , với i = 1, 2,…, k i
Ví dụ:
Cho trước 2 tập hợp con hữu hạn, khác rỗng
G , G gồm các véc tơ nhị phân như sau:1 2
G ={x , x }, x1 (1) (2) ( )i {0,1} , i = 1, 2 n
G ={y , y , y }, y2 (1) (2) (3) ( )i {0,1} , i = 1, 2,3 n
Trong đó, giả sử khoảng cách Hamming giữa các véc tơ là:
d(x ,x ) = 1, d(x ,y ) = 1, d(x ,y ) = 3, (1) (2) (1) (1) (1) (2) d(x ,y ) = 2; d(x ,y ) = 2, d(x ,y ) = 4, (1) (3) (2) (1) (2) (2) d(x ,y ) = 2; d(y ,y ) = 2, d(y ,y ) = 1, (2) (3) (1) (2) (1) (3) d(y , y ) = 2.(2) (3)
Ta sẽ tính toán giá trị ngoài của 2 tập hợp G
và G (tức là (G ,G )) và giá trị trong của
tập hợp đó ( (G ,G )) và (G ,G )) 1 1 2 2
Trang 4Hình 1: Khoảng cách Hamming giữa các véc tơ
nhị phân x , x , y , y , y(1) (2) (1) (2) (3)
Ta có
1 2
2.3x G y G d x y
= 2,333
(1 2 2 2 3 4)
1
6
2.(2 1)
2 2 2 .(1 2 2) 10 1, 666
3.(3 1) 6
III THUẬTTOÁNĐƯỢCĐỀXUẤT
Chúng tôi đề xuất thuật toán giải bài toán
phân lớp không có giám sát như sau:
Cho trước G = {x , x , …, x(1) (2) ( )m } {0,1}
Hãy phân hoạch (partition) tập G thành k tập
n
con sao cho sai số về trung bình là nhỏ nhất
Thuật toán
Bước 1 Đặt G ={x }, G ={x }, …, G1 (1)
={x }
m ( )m
Bước 2 Tính 1min (G ,G ) = (G ,G
i j m
0
i
)
0
j
Bước 3 Cho i = 1, 2,…, k Đặt G = {G ,G i
0
i
}
0
j
Bước 4 i:= i+1 và tính (G ,G )
0 0
, min( , )
l m i j l m
= (G ,G ) = G
0
l m0 i
Bước 5: Nếu i k thì thuật toán dừng.
Bước 6: Đi đến bước 4
Như vậy từ tập G, ta đã tách ra làm k tập con rời nhau, mà ta ký hiệu là G , G ,…,G 1 2 k
Thuật toán này thỏa mãn bổ đề sau đây
Bổ đề: Điều kiện đủ để thuật toán trên phân
lớp tối ưu là:
(G ,G ) (G ,G ) (5) 1
max
i k
1min
i j k
Điều này có nghĩa là:
1
max
i k
2
( , )
1 x G y G i i
i i
d x y
n n
(6)
1min
i j k
x G y G
i j
d x y
n n Chứng minh
Thật vậy, giả sử ta có một tập hợp G hữu hạn khác rỗng bất kỳ gồm m phần tử đã được phân hoạch thành k lớp G , G ,…,G bởi 1 2 k
thuật toán đã được đề xuất Ở đây, k là một số
cố định cho trước (1 < k < m) Ta sẽ chứng
minh rằng:
(G ,G ) (G ,G )
1
max
i k
1min
i j k
với mọi cặp (i, j), i j, i, j = 1, 2,…, k Trong
đó, (G ,G ) và (G ,G ) được cho trong (3) i i i j
và (4) Giả sử bất đẳng thức (5) không đúng, tức là:
(G ,G ) > (G ,G ) (7)
1
max
i k
1min
i j k
Điều đó có nghĩa là có tồn tại một cặp ( ,i0 j0
), với ≠ sao cho i0 j0
(G , G ) = (G ,G ) và một
0
i
0
j 1min
i j k
sao cho (G ,G ) = (G ,G ) (8)
1
i
1
i 1max
i k
Để đơn giản mà vẫn không mất tính tổng quát, ta giả sử rằng = 1, i0 j0 = 2 và = 3 Từ i1
(7) và (8), ta suy ra rằng:
ρ(G , G ) ≤ (G ,G ) và ρ(G , G ) < ρ(G1 2 i j 1 2
, G ) (9) đối với mọi i, j Từ (9), theo thuật
toán phân lớp đã được đề xuất, ta lại ghép hai tập con G1 và G2 thành một lớp và như vậy bây
giờ chỉ còn k -1 tập con Cứ tiếp tục quá trình
đó cho đến khi k = 1 và do đó k tập con G , i = i
1, 2,…, k lại được gộp lại thành tập hợp G ban
x(1)
x(2)
y(1)
y(3)
y(2) 1
1 3 2
2
4
2
2
Trang 5đầu Điều này vô lý vì trái với thuật toán phân
lớp như đã được đề xuất Bổ đề được chứng
minh
IV PHÂNTÍCHKẾTQUẢ
4.1 Kết quả thực nghiệm
Cho số liệu:
x = 01000 00110 00001 11100 00011 (1)
01001 10100 00110 00011 11111
x = 10100 01011 10100 00110 00001 (2)
10000 01011 10100 00001 10100
x = 01100 01011 11010 01111 10100 (3)
00100 10101 11011 01000 10101
x = 11100 01011 11100 01110 00011 (4)
10101 10001 01110 00011 11110
x = 00110 11000 00000 11111 10001 (5)
01110 10101 11000 10001 01110
x =10000 01110 10001 01110 00011 (6)
11000 01010 00001 10101 01010
x =10111 01010 00001 01011 10000 (7)
01111 01010 00001 10100 01010
1/ Đặt G ={x }, G ={x }, G ={x }, …, 1 (1)
G ={x7 (7)}
Ta có:
(G ,G ) = 0,54; (G ,G ) = 0,58; (G ,G
) = 0,4; (G ,G ) = 0,48; (G ,G ) = 0,4;
(G ,G ) = 0,6.
(G ,G ) = 0,46; (G ,G ) = 0,3; (G ,G ) 2 3 2 4 2 5
= 0,5; (G ,G ) = 0,36; (G ,G ) = 0,54 2 6 2 7
(G ,G ) = 0,4; (G ,G ) = 0,4; (G ,G ) = 3 4 3 5 3 6
0,66; (G ,G ) = 0,6 3 7
(G ,G ) = 0,48; (G ,G ) = 0,46; (G ,G4 5 4 6 4 7
) = 0,6
(G ,G ) = 0,48; (G ,G ) = 0,4.
(G ,G ) = 0,32.
Từ đó, (G ,G ) = (G ,G ) = 0,3
1min7
i j
Do đó:
2/ Đặt G ={x , x }, G ={x }, G ={x }, 1 (2) (4)
Với G , G ,…, G ta tiếp tục thực hiện như 1 2 6
ở mục 1/ Ta nhận được: G ={x , x }, G1 (2) (4)
2
={x , x }, G ={x }, G ={x }, G ={x(6) (7)
}
Ta có ,1min5 (G ,G ) = (G ,G ) = {x
i j
, x } Từ đó ta có:
(3) (5)
3/ G ={x , x }, G ={x , x }, G ={x , 1 (2) (4)
x } và G ={x }.(5)
Tính toán tương tự, ta nhận được:
G ={x , x , x , x }; G ={x , x }, G1 (2) (3) (4) (5)
={x }.(1) Đây là kết quả cuối cùng của phân lớp
Vậy tập hợp G ={x , x , x , …, x(1) (2) (3) (7)} đã được phân hoạch thành 3 lớp:
G ={x , x , x , x }; G ={x , x }, G1 (2) (3) (4) (5)
={x }.(1)
4.2 Đánh giá kết quả Việc đánh giá kết quả của phân lớp được thực
hiện thông qua kiểm tra điều kiện đủ của Bổ đề
(G ,G ) (G ,G )
1 3
max
i
1min3
i j
Áp dụng các định nghĩa ở 2.2.2, ta có:
1
1 x G y G d x y
2 4.3 + 0,3 + 0,5 + 0,4 + 0,4 + 0,48) = 0,42
Tương tự ta có: (G ,G ) = 0,32; (G ,G 2 2 3
) = 0
3 Vậy, (G , G ) = 0,42 (10)
1 3
max
i
Trong lúc đó: (G ,G )= 1 2
1 2
.
1 2
x G y G d x y
n n
= (0,36 + 0,54 + 0,66 + 0,6 + 0,46 + 0,6 1 8
+0,48 + 0,4) = 0,572
Tương tự: (G ,G ) = 0,5; (G ,G ) = 0,5 1 3 2 3
Vậy (G , G ) = 0,5 (11)
1min3
i j
So sánh (10) và (11) ta suy ra:
(G , G ) (G , G )
1 3
max
i
1min3
i j
Từ đó ta có thể khẳng định rằng: sự phân lớp trên là tối ưu
Trang 6V KẾTLUẬN Kết quả chính của bài báo là đưa ra một thuật
toán phân lớp không có giám sát sao cho sai số
của phân lớp là nhỏ nhất mà không phụ thuộc
vào việc điều khiển chuyển vùng Đồng thời
đưa ra một ví dụ bằng số nhằm làm sáng tỏ
thêm thuật toán Trên cơ sở dữ liệu đã được
phân lớp, một thuật toán định vị đối tượng liên
quan đến việc điều khiển chuyển vùng sẽ được
đề xuất ở nghiên cứu tiếp theo
TÀILIỆUTHAMKHẢO
[1] D Raychaudhuri, K Nagaraja and A
Venkataramani, “Mobility first: A Robust and
Trustworthy Mobility-centic Architecture for future
Internet”, ACM SIGMOBILE Mobile computing and
communications Reviews, Vol.16, No 3, July, 2012.
[2] G L Stuber, “Propagation modelling”,
Principles of Mobile Communication, 2012.
[3] H Li, B Ma, C H Lee, “Avector space
modelling approach to spoken Language Identification”,
IEEE Trans Audio Speech Lang Process.15 (1),
pp.271-284, 2007.
[4] Hồ Văn Canh, Nguyễn Viết Thế, “Phần 1 Nhập
môn: Phân tích thông tin có bảo mật’’, Nhà xuất bản Hà
Nội T&T, 2010.
[5] J Madaan, I Kashyap, “Vertical Hoandoff with
Predictive Received Signal Strength in next Generation
Wireless Network”, Computer Network and Information
Security, 2016.
[6] K J Bye, “Handover criteria and control in
cellular and microcellular systems”, In Proc 15 th Int
Conf Mobile, Radio and Personal communications,
U.K Dec., 1998.
[7] Phạm Anh Phương, Quách Hải Thọ, "Một
phương pháp quản lý dữ liệu tham gia phân lớp trong mô
hình học bán giám sát", Kỷ yếu Hội nghị FAIR tại Đà
Nẵng, 8/2017, DOI: 10 15625/vap, 2017, 00059.
[8] S M Sinisealchi, J Reed, T Svendsen, and C.H
lee, “Universal attribute characterization of Spoken,
Languages for automatic Spoken Language
Recognition”, Comput Speech Lang ,27(1), 2013.
[9] S Banks, “Signal Processing, Image Processing
and pattern Recognition”, Englewood Cliffs, Nj:
Prentice Hall, 1990.
[10] Shanzhichen, Yanshi, Bohee Ming Ai,
“Mobility – Driven Networks: From Evolution to Vision
of Mobility Management”, IEEE, 8/2014.
[11] Stephan B Wicken, “Error control systems for digital communication and storage”, Prentice Hall – New Jersey, 1999.
[12] Nguyễn Hồng Thủy, Hồ Văn Canh, Lê Nhật Thăng, “Một phương pháp định vị đối tượng dựa trên phân lớp có giám sát”, Tạp chí nghiên cứu Khoa học và Công nghệ Quân sự, 8/2018.
[13] Z Sanaci et.al, “Heterogengeneity in Mobile Cloud Computing: Taxonomy and Open Challenges”, IEEE Commun Survey & Tutorial, Vol 16, No.1, 2014 [14] S K Pal, D K Dutta, “Fuzzy Mathematic approach to pattern recognition”, New York, Willey 1986.
[15] Z Sanaci et.al, “Heterogengeneity in Mobile Cloud Computing: Taxonomy and Open Challenges”, IEEE Commun Survey & Tutorial, vol 16, no.1, 2014.
ABSTRACT
SOLVING PROBLEM OF UN-SUPERVISED CLASSIFICATION RELATING TO
HAND-OVER MANAGEMENT
Nowadays, The Industrial Revolution 4.0 is applied over the world: “Mobility” has been becoming a key feature of current and future Telecommunication Networks Novel forms of media and fast development such as social network, mobile cloud computing, IoTs and so on: are becoming more and more available, diversifying the types of service and then increasing the complexity and active sphere of Telecommunication Network To monitor an object (MT), we have to pay attention to
“mobility feature” of this object So, the problem is to propose a solution for optimal system selection according to some constraints This paper proposes an algorithm of un- supervised classification interested in hand-over management, marking basic to optimal decision.
un-supervision.