Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)Áp dụng một số thuật toán khai phá dữ liệu trong quản lý địa chỉ Internet (Đồ án tốt nghiệp)
Trang 2B GIÁO D T O
I H C DÂN L P H I PHÒNG -o0o -
ÁN T T NGHI P LIÊN THÔNG Ngành:Công ngh thông tin
Trang 3B GIÁO D O
I H C DÂN L P H I PHÒNG -o0o -
Trang 4Sinh viên: Nguy
Trang 6CÁN B NG D TÀI T T NGHI P
ng d n th nh t:
H và tên: Nguy n Tr ông
H c hàm, h c v : Th
: T ng i H c Dân L p H i Phòng
- Tìm hi u m t s o các lu n và các gi i thu t liên quan
- Th nghi m v i các công c g i quy t bài toán
ng d n th hai:
H và tên :
H c hàm, h c v :
:
N ng d n:
tài t t nghi
n nhi m v : T T N
Sinh viên
n nhi m v : T T N
H i Phòng,ngày tháng n
Trang 7PH N NH N XÉT TÓM T T C A CÁN B NG D N
2 ng c tài t t nghi p (so v i n i dung yêu c ra trong nhi m v tài t t nghi p)
3 m c a cán b ng d n:( i m ghi b ng s và ch )
Ngày tháng n 2016
Cán b ng d n chính
( Ký, ghi rõ h tên)
Trang 8PH N NH A CÁN B CH M PH N BI
TÀI T T NGHI P
1
.)
2 m c a cán b ph n bi n( m ghi b ng s ,ch )
Ngày tháng n
Cán b ch m ph n bi n
( ký,ghi rõ h tên)
Trang 9M C L C
M C L C HÌNH NH 7
L I C 8
GI I THI U 9
I THI U CHUNG V KHAI PHÁ D LI U 11
1 Gi i thi u 11
1.1 M u 11
1.2 Khai phá d li u 11
1.3 Ph m vi c a khai phá d li u 11
1.4 M c tiêu c a khai phá d li u 12
1.5 Các k thu t khai phá d li u 12
1.6 ng d ng c a khai phá d li u 12
li u 13
2 Chi ti c khai phá tri th c 13
2.1 L a ch n d li u (data selection) 14
2.2.Xóa b d li u không c n thi t (cleaning) 14
2.3.Làm giàu d li u (enrichment) 14
2.4 Chu n hóa và mã hóa (coding and normalzation) 14
2.5 Khám phá tri th c (datamining) 15
2.6 Báo cáo k t qu (reporting) 15
3.Chi ti t mã hóa và bi i d li u 15
3.1 Phép bi i và chu n hóa d li u 15
3.1.1 Phép chu n hóa d li u 15
3.2.Bi n i d li u 15
3.2.1 Phân tích thành ph n chính 16
Trang 10a ch Internet 16
4.1 Gi i thi a ch Internet 16
4.2 C u trúc c a ch Internet 17
4.3 H th ng tên mi n (DNS) 20
4.4.Ch h th ng tên mi n 20
4.4 T ch c qu n lý IP và H th ng tên mi n 20
T TOÁN TRONG KHAI PHÁ D LI U 23
1 Gi i thi u phân c m d li u 23
m 23
1.2 M a phân c m 24
1.3 Nh c áp d ng phân c m 25
1.4 Các yêu c u v thu t toán phân c m 25
1.5 Các ki u d li u phân c m 26
1.5.1 Ki u d li u d c mi n 28
.5.2 Ki u d li u d a trên h 28
1.5.3 và kho i v i các ki u d li u 30
p c n c a bài toán phân c m d li u 36
2.Thu t toán phân c m d li u d a vào phân ho ch 41
2.1 Thu t toán K-Means 41
2.2 Thu t toán K-Medoids(ho c PAM) 46
2.3 Thu t toán CLARA 47
2.4.Thu t toán CLARANS 48
NGHI M H TH NG 51
1 Ph n m m qu n lý d li u 51
2.Các ch 51
2.1 Thi t l p k t n d li u 51
2.2 Giao di i dùng 54
Trang 112.2.2 Giao di p 56
2.2.3.C p nh t m t b ng 56
2.2.4 Tìm ki m thông tin 57
2.2.5 Báo cáo 57
2.2.6 K-Means và K-Medoids(Ho c PAM) 58
K T LU N 62
TÀI LI U THAM KH O 63
Trang 12M C L C HÌNH NH
H 1: MÔ HÌNH KHAI PHÁ D LI U 14
H 2: TÍNH KHO NG CÁCH 32
H 3: KMEANS KH I T O 42
H 4: TÍNH L I T 44
H 5: TÍNH L I KHO NG CÁCH 45
H 6: K T N D LI U 51
H 7: GIAO DI P 54
H 8: GIAO DI P 56
H 9: C P NH T TÊN MI 56
H 10: TÌM KI M THÔNG TIN 57
H 11: BÁO CÁO 57
H 12: K-MEANS VÀ K-MEDOIDS 58
Trang 13L I C M
Em xin chân thành c y giáo Ths Nguy n Tr n tình ch b o,
ng, góp ý cho em trong su t th i gian qua em có th án t t
án này ch c còn nhi u thi u sót Em r t mong nh c nh ng l i nh n xét, góp ý t các th y, cô giáo và các b n
Sinh viên
Trang 14Khi khoa h c và công ngh phát tri n o ra nh c ti n to l n cho con
Interet M ng Internet t c gi i thi c s d ngr n m i
o ra m t cu c cách m ng n có các chu m i có thxây d ng lên h th ng c a mình mà có th i v i h th ng khác T
thành d ch v khá ph bi n trên Internet
M i qu c gia s có s có nh ng nhà cung c có th ph c v các nhu
tên mi n s ch a nh ng n i dung có th gi ng ho c khác nhau tùy theo m a
i t o m i nhà cung c p s có m t kh i d li u kh ng l Và i kh i d
li u kh ng l m n r t nhi u thông tin h u ích, ph c v cho vi
phát tri n c a xã h i Nh t là trong vi c kinh doanh, khi mà thông tin là
m t ph n c c k quan tr ng cho vi ng cho vi c kinh doanh
nh m có th khai thác d li u m t cách t Khai phá tri th c cxây d ng nh m
Trang 15Xu t phát t các lý do trên em ch n tài: NG M T S THU T TOÁN
M c tiêu c a tàiáp d ng m t s thu t toán khai phá d li u, trong qu a chInternet
:
Gi i thi u: Phát bi u bài toán
: Trình bày các khái ni m và ki n th c khai phá d
Trang 161: GI I THI U CHUNG V KHAI PHÁ D LI U
1 Gi i thi u
gi a các t ch c, công ty, cá nhân ngày càng , m i công ty, t ch c,cá nhân s có r t nhi u thông tin.Sau m t th i gian,các thông tin quá nhi u c n
DATAMINING vàWEBMINING Trong án chúng ta ch n DATA MINING
1.2.Khai phá d li u
Khai phá d li u d ng các h chuyên gia, h l p l ch,
t, d h tr cho vi c quy nh
1.3 Ph m vi c a khai phá d li u
Khai phá d li c s d ng r ng rãi nhi c khác nhau ng kê,
c thu c xây d ng s n trên máy nh m trích ch n H c máy và khai phá d li u luôn song hành v i nhau, m c tiêu tuy
i có liên quan m t thi t v i nhau
tùy theo m i th ng kê Tuy trong th ng kê ch c n nh ng
t nh ng thông tin i nh ng thông tin chi ti t t c khai
c tìm ra D li u có nhi u lo i khác nhau và m i lo i d li ng khai phá
Trang 171.4 M c tiêu c a khai phá d li u
T nh c trình bày trên chúng ta có th th y các m c a khai phá
d li u nh :
- Khai phá thông tin tìm ki m tri th c nh c d u kín trong kho thông tin
Trang 18- M nhi u cao ho c d li u b thi u (nhi u thông tin sai l ch)
- S chi u l n (nhi u d li u gi c khai thác)
- i d li u và tri th c có th làm cho các m n khôngcòn phù h p
- Quan h gi ng ph c t p d li u l n, nhi u quan h ràng
c 5: Khám phá tri th c (data mining)
c 6: Báo cáo k t qu (reporting)
c khai phá tri th c c ra vi c khai phá tri th c ch th c s
b u c th 5 mà thôi
Trang 191:Mô hình khai phá d li u
2.1 L a ch n d li u (data selection)
Trong vi c qu n lý d li d li u s c xây d ng kh p m
chúng ta c n l a ch n, m t cách t t nh t nh m ph c v cho vi ckhai phá c này c n
có s phân tích cao nh t, t b d li u hoàn ch nh
2.2.Xóa b d li u không c n thi t (cleaning)
d li c t p h p s c t p trung t i m t ch K
d li u s có các d li u không c n thi t cho vi c khai phá Chúng ta c n ph i xóa b
d li u tr lên linh ho t và thu n ti n nh t
n này có th c th c hi n nhi u l n trong quá trình khai phá D li u
th gi d li u Vi c làm giàu có th rât có ích n u chúng ta xây d
cách N c này làm sai s gây ra vi c khó l m d li c sau, c sau
n d li u
2.4 Chu n hóa và mã hóa (coding and normalzation)
các thu t toán khai phá d li u là t t nh t i lo i d li
c, mà tùy lo i d li u mà chúng ta s d ng các cách mã hóa khác nhau
li u
Mã hóa
d li u
Khám phá tri th c Dùng
các
bi u báo
Hành ng
Trang 202.5 Khám phá tri th c (datamining)
S d ng các thu t toán khai phá d li tìm ki m tri th d li u
n này chúng ta có r t nhi u các thu phù h p v i m i lo i d li u
2.6 Báo cáo k t qu (reporting)
n cu i cùng c a quá trình khai phá tri th c T ng h p d liphá tri th c thông báo k t qu t c d hi u, d ti p c n d
Chu n hóa d li u s làm cho d li u nh t cho vi c phân c m d li u
Vi c chu n hóa s bi i v trí, c u trúc d li u ho c có th b m [2] Có hai
n hóa là: Chu n hóa toàn c c và chu n hóa trong c m
Chu n hóa toàn c c: làm chu n hóa các bi n trên t t c các y u t trong các t p d
li u Trong vòng-c m tiêu chu ch tiêu chu n hóa x y ra trong các c m
bi n m i ngày M t s hình th c tiêu chu n hóa có th c s d ng trong các chu n hóa toàn c c và chu n hóa trong ph m vi r t t t Tuy nhiên trong m t s ng h p chúng ta
ch có th s d ng trong chu n hóa toàn c c
Chu n hóa trong c m: kh c ph m c a chu n hóa toàn c c là chchu n hóa khi d li c ng th và [6] xu t m t cách ti p c n l p r ng
c so sánhv i c m khác xem s chênh l ch trong c m có l n không
3.2.Bi n i d li u
Bi i d li u ng lên d li u chu n hoá, bi i d li uph c t
so v i chu n hoá d li u Chu n hoá d li u t p trung vàocác bi n, i i d
Trang 21li u t p trung vào các d li u toàn b thi t l p.Trong ph n này, trình bày m t s d
li uk thu t bi i có th c s d ng trong phân c m d li u
3.2.1 Phân tích thành ph n chính
M c a phân tích thành ph n chính là gi m chi u cao c a m t chi u cao
c a m t chi t d li u bao g m m ng l n s bi ng th i gi l i càng nhi u càng t t c a bi i hi n di n trong t p d li u Các thành ph n chính (PC)
ph n l n các bi n th hi n di n trong t t c các b n g c bi n.[3]
3.2.2 SVD (Singular Value Decomposition)
SVD(phân tách giá tr riêng) là m t k thu t m nh m trong tính toán ma tr n và
ma tr n SVD t k thu t n i ti ng chi u tuy d ng r ng rãi trong nén d li u và o
3.2.3 Phép bi i Karhunen-Loéve
Các phép bi i Karhunen-Loeve (KL) có liên quan v i các gi i thích c u trúc d
li u thông qua m t s tuy n tính k t h p c a các bi n Gi , phép bi i KL
án, tính toán sao cho sai s là nh nh t (t c là t ng kho ng
t i thi u [7]
4 a ch Internet
án t p trung khai phá d li u a ch Internet nh m tìm ra nh ng thông tin v
lo i d li i dùng t ng truy c p, s thích, thói quen ng thông tin trên, scho chúng ta bi c s quan tâm c a m i trong m t kho ng th i gian s
nào
4.1 Gi i thi a ch Internet
IPlàm t giao th ng d li c s d ng b i cácmáy ch ngu
truy n d li u trong m tliên m ng chuy n m ch gói.D li u trong m t liên m ng IP
c g i theo các kh c g i là các gói (packet ho c datagram) C th , IP không c n
thi t l ng truy c khi m t máy ch g i các gói tin cho m t máy khác mà
c ng liên l c v i nhau.[4]
Trang 224.2 C u trúc c a ch Internet
a ch IP c dùng ph bi n hi n nay là IPv4, và m t s d ng song song gi a IPv4 và IPv6
C u trúc c a IPv4
s d ng là 4.294.967.296 (232) Tuy nhiên, trong th c t d ng
nh công ngh NAT (Network Address Translation - Chuy n d a ch m ng) t o nên
hai vùng m ng riêng bi t: M ng riêng và M ng công c ng a ch m ng s d ng
m ng riêng có th dùng l i m ng công c ng mà không h b t, gi i quy c
Class A: 0 0 0 0 - 127 255 255.255Default Subnet Mask: 255 0 0 0
Class B: 128 0 0 0 - 191 255 255 255Default Subnet Mask: 255 255 0 0
Class C: 192.0 0 0 - 223.255 255 255Default Subnet Mask: 255 255 255 0
Trang 23IPv6 vi t t t ti ng Anh: "Internet Protocol version 6", là "Giao th c liên m ng th h6", m t phiên b n c a giao th c liên m ng (IP) nh m m p giao th c liên
m ng phiên b n 4 (IPv4) hi n d n cho h u h ng truy c p
Internet a ch IPv6 cho phép n 2128 a ch , m t s gia
kh ng l so v i232(kho ng 4.3 t a ch c a IPv4.[4]
Phiên b a ch Internet m c thi t k thay th cho phiên b n IPv4,
.
M c tiêu IPv6
Khôi ph c l i nguyên lý k t n u cu i- u cu i c a Internet và lo i b hoàn toàn công ngh NAT.
I dài 128bit, bi u di n d ng s Hecxa, chia thành 8 octet M i ocet có 4
s hecxa, và cách nhau b i d u :
Trang 240123: 4567: 89AB: CDEF: 0123: 4567: 89AB: CDEF
123: 4567: 89AB: CDEF: 123: 4567: 89AB: CDEF
: : 1
- :(0: 0: 0: 0: 0: 0: 0: 0)
- Unique Local:
Trang 25: FDFF:
4.3.H th ng tên mi n (DNS)
H th ng tên mi n là m t h th ng cho phép thi t l ng gi a a ch
IP và tên mi n trên Internet
H th ng tên mi n v n là m t h th ng giúp cho vi c chuy i các tên
mi n i d ghi nh (d ng kí t , ví d www example com) sang a ch IP v t
lý (d ng s , ví d 123.11.5 ng c a tên mi H th ng tên mi n giúp liên
k t v i các trang thi t b m ng cho các m nh v a ch hóa các thi t b trên Internet
c s d gi i thích cho h th ng tên mi n, nó ph c v
t "Danh b n tho i", có kh m và d ch tên mi a ch IP
Ví d , www.example.com d ch thành 208.100.188.166 Tên mi n Internet d nh
a ch IP, là 208.100.188 166 (IPv4) ho c 2001:db8:1f70: :999:de8:7648:6e8 (IPv6)
M i website có m t tên (là tên mi ng d n URL: Uniform Resource
Locator) và m a ch IP a ch IP g m 4 nhóm s cách nhau b ng d u ch m(IPv4) Khi m m t trình duy t Web và nh p tên website, trình duy t s n th ng website mà không c n ph i thông qua vi c nh a ch IP c a website Quá trình "d ch" tên mi n
a ch cho trình duy t hi u và truy c c vào website là công vi c c a
Trang 26T p s và tên mi n (Internet Corporation for Assigned Names and Numbers- ICANN) là m t t ch c phi l i nhu n t tr s t i Marina del Rey, California, United States c thành l p nh p
giám sác m t s nhi m v liên quan t i Internet mà
c th c hi n tr c ti p b i các t ch a chính ph
M IANA ICANN ch u trách nhi m trong vi c qu n lý
a ch IP(IPv4 và IPv6) và vi c phân ph i các kh a ch t i các
c nh danh IP; Qu n lý không gian tên mi n c p cao nh t(mi n DNS g c), bao g m vi u hành c a nh ng máy ph c
v tên g c Ph n l n các công vi c c a ICANN liên quan t i vi c gi i thi u c a nh ng
mi n c p cao m i (top-level domains (TLDs)) Công vi t c a ICANN gi
ch a IANA
Nh ng nguyên t u trong vi u hành c c mô t
duy trì s ho ng nh c a Inte y vi c c t
c s i di n r ng rãi c a c ng Internet toàn c u và xây d ng chính sách phù
h p v i nhi m v c a ICANN thông qua các quá trình t i lên, d a trên s nh t trí ý
ki n m t th a thu n v i B i Hoa K v vi ch qu n lý toàn di n c a h th nh
u ph i t p trung c a Internet thông qua mô hình nhi u phía cùng có l i trong vi i ý ki i di n.[4]
Vi t Nam Trung tâm Internet Vi t Nam hay tên vi t t t là VNNIC là m
v tr c thu cB Thông tin và Truy n thông cC ng hòa Xã h i Ch t Nam c thành l p chính th
Internet Vi t Nam ch u trách nhi m qu n lý v tên mi n Internettrong lãnh th Vi t Nam ng kê v tình hình s d ngInternet t i Vi t Nam
Trang 27M t s nhi m v c a VNNIC Theo quy nh s -BTTTT do B
ng B Thông tin và Truy n thông, Lê Doãn H p ban hành ngày 05/03/2008, quy
Trang 28: CÁC THU T TOÁN TRONG KHAI PHÁ D LI U
1 Gi i thi u phân c m d li u
d li u thành cácc m sao cho nh m d li u trong cùng m t c ng
l n và nh m không cùng m t c m có s ng là r t nh M t c i
ng d li u có th t nhóm trong nhi u ng d ng
ng Không gi p (clasification), phân c m không c n nh ng thông tin
c Nói cách khác, phân c c t quan sát (learning from obversation) hay còn g i là h c không th y (unsupervised learning or automatic classfication) trong trí tu nhân t o Phân c m c bi t hi u qu khi không bi t v thông tin các c m, ho c khi ta quan tâm t i các thu c tính c a c t ho c bi t r t ít v
ã có r t nhi u thu th c phát tri n cho bài toán phân c m
phân c m là do s khác nhau c a nh ng ng d ng th c t n t i nh ng yêu c u v
d li i nh ng thu t toán phân c m khác nhau
M t trong nh ng câu h i l t ra trong bài toán phân c
ng không gian gi ng d li u (spatial similarity) Trong d li u không gian
quan h v v trí không gian gi ng
Trang 29Bài toán phân c m là quá trình nhóm m t d li u thành nh ng nhóm i
ng d li u ph c v cho m th c a t ng ng d ng th c t Không có m t thu t toán phân c m nào là t t nh t và thích h p cho t t c m i ng d ng mà v i m i ng
d i s d ng ph i l a ch n ra m t thu t toán phân c m c th thích
c không có th unsupervised learning) Không gi ng
m u d li u hu n luy n Vì th , có th coi phân c m d li u là m t cách h c b ng
quan sát (learning by observation), trong khi phân l p d li u là h c b ng ví d
Trang 301.3.Nh c áp d ng phân c m
- Word Wide Web: Phân lo i tài li u Phân lo i dung web
- Tài chính, b o hi m: Phân nhóm khách hàng s d ng các d ch v b o hi m, tài chính Phát hi , các gian l n trong tài chính, b o hi m
- n: Theo dõi, c gi , sách, d u c c gi ,
- Giáo d c: Theo dõi sinh viên, h c sinh Tìm ra vi c h c t p và d y h c sao cho t t nh t
1.4.Các yêu c u v thu t toán phân c m
quát nào có th gi i quy t tr n v n cho t t c các d ng c u trúc c d li u a,
ph ct p g m c d li u không gian, phi không gian, d li u s , phi s , ki u
nh phân, d li nh danh, h ng m c, thích nghi v i ki u d li u h n h p
k bao g m c nh ng c m có hình d ng l ng nhau, c m có hình d ng lõm, hìnhc
Trang 31T i thi ng tri th c c nh các tham s u vào Do các giá
Thu t toán ph i th c hi n v i m i th t u vào d li u Nói cách khác
lý cho thu t toán phân c m d li u v i các th t vào c a
hay còn g i là thu c tính (khái ni u d li u thu c tính
Phân lo i các ki u thu c tính khác nhau là v c n gi i quy i v i h u h t các t p
d li u nh m cung c n thu n l nh n d ng s khác nhau c a các
ph n t d li u Các thu t toán phân c ng s d ng m t trong hai c u trúc d li u sau:
Trang 32Ma tr n d li u (Data matrix, object-by-variable structure): là b ng n hàng, p
ng thu c D:
x=(x 1 ,x 2 k );y=(y 1 ,y 2 k );z=(z 1 ,z 2 k )
ng x, y, z; y s có các ki u d li u sau:
Trang 331.5.1 Ki u d li u d c mi n
Thu c tính liên t c: N u mi n giá tr c a nó là vô h
gi a hai giá tr t n t i vô s giá tr khác (ví d , các thu c tính m u,nhi ho ng
)
Thu c tính r i r c: N u mi n giá tr c a nó là t p h u h c (ví d : các thu c tính s ng h c bi t c a thu c tính r i r c là thu c tínhnh phân mà mi n giá tr ch có hai phân t (ví d : Yes/No, True/False,On/Off )
.5.2.Ki u d li u d a trên h
Thu nh danh: Là d ng thu c tính khái quát hoá c a thu c tính nh phân,
n giá tr là r i r c không phân bi t th t và có nhi n t N u
ng thu c tính thì ch có th nh là x y ho c x =y
ng N u x và y là hai thu c tính th t thìcó th nh là x
y ho c x = y ho c x > y ho c x< y
Thu c tính kho ng: theo x p x tuy n tính, v i thu c tínhkho ng
có th nh m t thu c ho ng sau thu ctính khác v i m t
kho ng là bao nhiêu N u xi > y ithì có th nói x cách ym t kho ng xi y i ng v i
thu c tính th i
thu c vào vi c l a ch li u c c chu n hóa Vi c chu n hóa s gán cho t t c các thu c tính m t tr ng s b ng nhau Tuy nhiên,trong nhi ng h p
i s d ng có th i tr ng s cho các thu
chu t cách làm ph bi n là bi i các thu c tính v d ng
Gi s i v i các thu c tính f, ta th c hi :
- l ch trung bình:
Trang 34x 1f ,x nflà giá tr thu c tính f c a n ph n t d li u, và mflà giá tr
c chu n hóa:
Thu c tính nh phân: là thu c tính có hai giá tr là 0 và 1
Thu c tính tính t l : là thu c tính kho nh m
i so v m m c
Trong các thu c tính trình bày trên, thu nh danh và thu c tính cóth t
g i chung là thu c tính h ng m c, còn thu c tính kho ng cách và thu c tínht l c g i
là thu c tính s
c bi t, còn có d li u không gian là lo i d li u có thu c tính s khái quáttrong
không gian nhi u chi u, d li u không gian mô t nkhông gian
ch ng (ví d : thông tin v hình h c, quan h metric,quan h ng,
li u không gian có th là d li u liên t c ho c r i r c
- D li u không gian liên t c: Bao ch a m t vùng không gian
- D li u không gian r i r c: Có th là m m trong không gian
li u trong không gian