Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)
Trang 1I H C QU C GIA HÀ N I
I H C CÔNG NGH
N LU T GIAO THÔNG
Ngành: Công ngh thông tin
2015
Trang 2I H C QU C GIA HÀ N I
I H C CÔNG NGH
N LU T GIAO THÔNG
Ngành: Công ngh thông tin
Cán b ng d n: PGS TS Nguy n Vi t Hà
- 2015
Trang 3VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY
Nguyen Ha Thanh
RESEARCH AND PROPOSE VIETNAMESE TRAFIC LAW PROCESSING METHOD
A THESIS PRESENTED FOR THE DEGREE BACHELOR
Major: Information Technology
Supervisor: Assoc Prof Nguyen Viet Ha
HA NOI - 2015
Trang 4TÓM T T
Tóm t t: M c dù nhu c u pháp lý c a xã h i ngày m t cao, h th ng pháp lu t c a Vi t Nam v n
và th c thi pháp lu t Ngày nay v i s phát tri n nhanh chóng c a các k thu t h c máy c bi t
là k thu t s d ng m ng nhân t o, nhi u ng d ng thông min i và giúp ích r t nhi u cho cu c s i Trong gi i h n c a m t khóa lu n t t nghi p c a sinh viên tài
giao thông có hình thái khác nhau u hi ng nhau ng ti p c
gi i quy t v là s d ng k thu o trong h c máy Cách th c ti n hành th c
qu u khá ng, m ra tri n v ng cho các ng d ng ch ng cao trong x lý các
v pháp lý
T khóa: M , x lý ti ng vi t, lu t giao thông
Trang 5Sumary: Nowadays, the demands for legal services in our society are rising sharply However,
the legal system in Vietnam is still greatly overlapping and constantly changing, which creates considerable difficulties for people in accessing, applying and using the law for legitimate reasons Today, with the rapid development of machine learning, especially the technical uses of artificial neural network, many smart applications were born and became very helpful for human life Within the scope of a graduation paper for the bachelor degree, this research aims at studying related knowledge and building a program having the capacity to detect the traffic law sentences which are in different morphology but express similar meaning The main approach to achieve these aims is to use techniques in machine learning artificial neurons Experimental methods proposed in this research are suitable for proving the method Initial results are rather impressive, opening up prospects for high quality applications in handling legal issues
Keyword: Artificial neural network, Vietnamese processing, traffic law
Trang 6trung th c, t t c các tài li u tham kh o, công trình nghiên c u c i c s d ng
danh m c các tài li u tham kh o c a khóa lu n
nh th c nghi m t thi t k không có s sao chép công trình c i khác N
Hà N i, ngày 30/4/2015
Sinh viên
Nguy n Hà Thanh
Trang 7L I C
c tiên, em mu n g i l i c c nh n th y Nguy n Vi t Hà, th y Nguy n
g i ý cho em m ng nghiên c u r t thú v và t ng d n ng l i khuyên và kinh nghi m quý báu cho em trong trong quá trình th c hi n khóa lu n
l i c n các th y là tác gi tài "Nghiên c u phát tri n m t s s n ph m thi t y u v x lí ti n ti ng Vi t" (VLSP), nh
t o n n móng quan tr ng cho vi c ti p c n x lý ngôn ng ti ng Vi t
E c g i l i c i các tác gi c a các bài báo, nghiên c u có liên quan Trong khoa h c nói chung và trong khoa h
th c nào là tuy i t s nghiên c u nghiên túc và t n tâm c a các tác gi , các
Trang 8M C L C
M T V 1
1.1 B I C NH NGHIÊN C U 1
1.2 NHI M V C A KHÓA LU N 2
1.3 CÁC N I DUNG C A KHÓA LU N 3
LÝ THUY T 5
2.1 T NG QUAN V M O 5
2.2 S D NG VÀ HU N LUY N M O 7
2.3 8
2.4 M C A NGÔN NG TI NG VI T 10
XU T M 12
3.1 BÀI TOÁN 12
3.2 CÁC NGHIÊN C C K TH A 13
3.3 XÂY D NG KHÔNG GIAN VECTOR T 14
3.3.1 T ng quan cách ti p c n 14
3.3.2 Thu th p và ti n x lý d li u 15
3.3.3 Xây d ng m 15
3.3.4 Hu n luy n m ng và hi u ch nh vector t 17
3.4 M 18
3.4.1 Phân tách cú pháp b ng cây ph thu c 18
3.4.2 Xây d ng m thu c 19
3.4.3 Hu n luy n m m 21
3.5 M M NH, H N CH 21
3.5.1 m m nh c 21
3.5.2 H n ch c 22
TH C NGHI M, K T QU 23
Trang 94.1 CÔNG C NG TH C NGHI M 23
4.1.1 Win web crawler - y n i dung c a các trang web 23
4.1.2 vnTokenizer - công c tách t ti ng Vi t 23
4.1.3 vndp - công c khai tri n cây ph thu c ti ng Vi t 24
4.1.4 c nghi m t thi t k và tri n khai 25
4.1.5 ng th c nghi m 27
4.2 D LI U DÙNG CHO TH C NGHI M 27
4.3 CÁCH TH C T CH C TH C NGHI M 28
4.4 K T QU TH C NGHI M 29
4.5 T QU TH C NGHI M 30
K T LU N 32
TÀI LI U THAM KH O 34
Trang 11V i nh ng thành t u r c a ng nghiên c u Trí tu nhân t
H c máy, X lý ngôn ng t nhiên trong nh c áp d ng Công ngh
x n Lu t h a h n s t c m t cu c cách m ng v
m ph c v cho vi c so n th o, s d ng, áp d ng và th c thi pháp
lu t Các h th ng thông minh còn có th giúp phát hi n ra nh m mâu thu n, ch ng
v pháp lu t
1.2 NHI M V C A KHÓA LU N
Trong gi i h n c a m t khóa lu n t t nghi p c a sinh viên, n i dung nghiên c u
t p trung gi i quy t m t bài toán nh n x n lu t Trong m t h
th n pháp lu t ch ng chéo (ví d th ng các quy ph m v thu trong ph n
tính ch y s c a r t nhi u các ng d ng x lý pháp lu t sau này Nhi m
v c tài là khái quát c s lý thuy t, k th a các nghiên c u ã có, xu t gi i pháp
v y trong m t ng c c gi i h n là các quy ph m pháp lu nh v giao thông
Vi t Nam tài có th c s d ng cho các ng d ng góp ph
trong bài báo Grounded Compositional Semantics for Finding and Describing Images
with Sentences c a công trình là xu c m c
ti n và xây d c m t h th ng ho ng m i hi u qu v i d li u là
ti ng Vi t d a trên nh ng công c , nghiên c à m t s c i ti n v kthu t
Trang 121.3 CÁC N I DUNG C A KHÓA LU N
u nói v trí c tài trong b i c nh chung xét trên
ng phát tri n c a xã h ng phát tri n c a các k
khóa lu n nh m giúp cho các th y cô, các b n và các em d theo dõi, ti n cho vi
thu t Gradient descent và c i ti n k thu t c a nó (Stochastic gradient descent) Cu i
n trình bày m t s m c a ngôn ng ti ng Vi t trong
th c nghi m c th là s d ng m phát hi n các câu lu t mang cùng
này, bài toán th c nghi c phát bi u m t cách rõ ràng, chính xác b ng ngôn ng t nhiên, ngôn ng ký hi u và có ví d minh h a Ti ng
Trang 13th c ch ng c xu t trong công trình Thông qua so
ng k t l i toàn b nh c làm rõ trong khóa lu n m t cách
ng và súc tích nh t, ph c v cho vi ng quan c tài và h tr vi c tra
Trang 14n ba thành ph n chính là Soma, Dendrite và Axon Soma là nhân
c u trách nhi m chính cho vi c tính toán và phát ra nh ng xung th n kinh Dendrite và Axon là các dây dài và m nh, làm nhi m v d n truy n xung th
Dendrite truy n cho nhân Soma x lý còn Axon truy n t
Hình 2.1 M sinh h c
Trang 15Hi u m ng b ng cách l y t n nó
n truy n gi a các thông qua các kh p có tính truy n khác nhau Các kh p m nh có kh n thông tin r t d dàng trong khi các kh p y u làm c n tr thông tin truy n qua
c l y c m h ng t m ng sinh h c, m ng nhân t u t o
Hình 2.2 M o
M i thành ph n tính toán ( ) trong m ng nhân t a ngõ
nh n thông tin gi ng Dendrite và Axon T c truy n gi a các này là các
s th c, trên m i m i n i có m t tr ng s mô ph ng tính truy n c a m ng
sinh h c T i m i , các tín hi c công d n và truy n qua hàm kích ho t, hàm kích ho o ra m ng tín hi u cho nhân t o Khi
Trang 16hàm kích ho c s d ng, Hàm tuy n tính t n và các hàm Hyperbolic Trong công trình s d ng hàm tanh (thu c h hàm Hyperbolic) Công th c
bi t c i vào nh ng khía c nh h u ích trong ho ng th c ti n2 c x
lý thông tin trên máy tính có th quy v
bi t và m u ra là nh ng thông tin có th suy lu c và phù h p v i nhu c u s
d ng c i Trong t p h p t t c các bài toán x lý d li u, t n t i nh ng bài toán
hay bài toán chuy i ti n t T n t i song song v i nó là nh
tìm ra m t hàm tính toán chính xác v i m u vào quá l n so v c hi n t i c a
i, ví d nh n di n ch vi t tay, nh n di n khuôn
hàm tính toán x p x t t so v i hàm tính toán chính xác, các hàm này g i là hàm githi t (hypothesis)
Trang 17n các bài toán M o ho ng d a trên 3 hành vi chính là tính toán th nh sai s và tái c u trúc m ng V i m t t p d li u h c
, v i và u ra c a ví d th trong t p d li u h c
trúc b ng cách c p nh t l i các tr ng s liên k t b c (back propagation) v i m c tiêu t i thi u hóa sai s v i k t qu u ra c a m ng, công
nh t tr ng s liên k nh giá tr sai s c a Có r t nhi
th c hi n lan truy c sai s n hình v
giá n khi giá tr c a sai s h i t , thu t toán s l p l i công th c sau:
là t p các tr ng s c a m ng , là h s h c (learning rate) c a m ng , là vi phân c a hàm giá theo tr ng s
Trang 18V i vi c l p l i s c p nh t này, hàm giá s h i t và sai s c a hàm gi thi t s t giá
Trang 19V i Stochastic Gradient Descent, t h i t di u l n so v i
ng t nhiên cho ngôn ng c a chúng ta là b t kh thi
Trang 20ng ph bi n trong m i ngôn ng M c dù v y, vi c x lý ngôn ng ti ng
Th ba, ch vi t c a ti ng Vi t là ch ghi âm, lo i ch không bi u hi
c a t mà tái hi n chu i âm thanh ti p n i c a t Ng a m t câu ti ng Vi
khi ph thu c vào cách ng t ngh u tr m b ng c i nói vì th t n t i nh ng câu mà ngay c m i th o ti ng Vi hi u n u không c nghe tác
Trang 21v i ph m vi khóa lu n t t nghi p c a sinh viên.
ti n cho vi c trình bày các k t qu nghiên c u, bài toán th c nghi m c mô
Trang 223.2 CÁC NGHIÊN C U C K TH A
cách ti p c n này có s tham kh o, h c t p t nh ng nghiên c u v X lý ngôn ng t nhiên, H c máy v i m t s ng l n các công vi c liên quan khác ng chính c a gi i pháp này là s d bi u th ng
c a m t t và s k t h p c a chúng trong câu lu t giao thông
m c m t h th ng hi u qu làm vi c v i d li u ti ng Vi t, c n s d
ch giúp gi m thi u s nh p nh ng trong ti ng Vi t gây ra b a các tkhác nhau Theo cu n p môn ngôn ng h c a tác gi c Cân c nh, nói m n, là tình hu ng, b i c nh ngôn ng
xu t hi n v i m th c a nó Thông qua ng c nh, ta có th c
nh ng y u t h n ch ph m a t c s d ng n 3
n y u t ng c nh khi làm vi c v i các t ti ng Vi t, trong công trình nghiên
c u, không gian vector mô t ng a t c xây d ng d ng c a Eric
H Huang, Richard Socher, Christopher D Manning và Andrew Y Ng trong bài báo
c c b và ng c nh toàn c c
xu t trong bài báo
c a Richard Socher, Andrej Karpathy, Quoc V Le, Christopher D Manning, Andrew Y Ng (2013) 5 M t tên là M ng
n ron h i quy d a trên cây ph thu c (DT-RNN) s d ng m t m ng h i quy(Recursive Neural Network) c tri n khai trên n n c a cây ph thu c (Dependency tree) khi khai tri n các câu Cây ph thu c là m t trong nh ng nghiên c u l n c a
x lý ngôn ng t nhiên, công trình này s d ng k t qu nghiên c u c a Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen và Minh Le Nguyen
Trang 24Cho m t chu i t s n d ch a chu c tiêu là phân bi c chính
ti ng Vi t, mu n xây d c m t b vector bi u th trong các câu
mô t lu t giao thông Vi t Nam, c n ti n hành tách t cho d li u vào.Công c tách
t ti ng Vi t s d tài là vnTokenizer 8c a tác gi Lê H
M ng m cho m t chu i t (có th hi u là m t câu) thông qua hai
c là tính trên ng c nh c c b và ng c nh toàn c m s cu i cùng cho
Trang 25m i chu i t là t ng m c c tính toán trên m ng v i ng c nh c c b s
d ng chu i t c c b s Chu i s c mô t i d ng m c s p x p g m các vector x = (x1, x2, , xm) v i xi là vector bi u th t th i trong chu i T t c các vector
N u ng c nh c c b c tính d a trên s ghép n i c a m t trong m t chu i thì
ng c nh toàn c c tính d a trên s ghép n i c a giá tr tr ng s trung bình c
b n và t cu i cùng c a chu i Giá tr tr ng s trung bình c c tính theo công th c:
là các vector t trong d là b t k m ng s
gi ph c t p tính toán, công trình s d ng s idf
i m u th c là s n ch a t t N u t t hi n b t
c n nào trong t p thì m u s s b ng 0 d n t i phép chia cho không không h p l ,
Trang 26nhi u mà l th trong công vi c này, nó ch
trò bi u th m i quan h xác su t gi a t và ng c nh toàn c c trong câu
c giá tr tr ng s trung bình c n, ta ti n hành m chu i s trong ng c nh toàn c m toàn c c c th hi n b i công
th c:
là giá tr hàm kích ho t c a vector l p n, là s ghép n i gi a
vector giá tr tr ng s trung bình và vector t cu i cùng trong c u t o ra m t
ng Do v y vi c tính giá tr c p nh t c a thu c tính
Cho m t chu i t s n d ch a chu c tiêu là phân bi c chính
xác t cu i cùng trong s i v i các t ng u nhiên khác Khi m ng có th c
y, các vector t s c hi u ch nh trong m i quan h c a ng c nh toàn c c và
ng c nh c c b g(s,d) và g(s w ,d) c tính toán, v i s w là chu i s c thay t
Trang 27cu i b ng t w, g(.,.) m mà m ng s d hu n luy n m ng, chúng ta s d ng hàm giá theo d ng mô hình máy vector h tr (SVM), t o ra m t siêu
ph c nh ng câu th c t t n t i trong ng pháp ti ng Vi t trong ng c nh
ch y m c Stochastic gradient descent t n các tham s bao g m các thông
s c a m ng và các vector t trong ví d Các vector t c hu n luy n trong
ph n này u vào c a m ng phân bi t ng c trình bày ph n ti p theo c a khóa lu n
3.4 M
3.4.1 Phân tách cú pháp b ng cây ph thu c
Cây ph thu c là m t trong nh ng nghiên c u l n c a x lý ngôn ng
t nhiên, nó c xây d ng d a trên m i quan h ph thu c c a các t trong m t câu Các t trong cây ph thu c n i b ng liên k ng t là trung tâm v m t c u trúc c a câu, t t c các thành ph n còn l c n i tr c ti p ho c gián
ti p t ng t , c u trúc này t u ki n thu n l xây d ng m t m ng có các
tr ng s c c p nh phân lo a câu X lý ngôn ng t nhiên ti ng
Vi t m xu t b i Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham,
Trang 28Phuong-Thai Nguyen và Minh Le Nguyen v tài xây d ng cây Ph thu c cho
ti ng Vi t t Treebank ti ng Vi t10.
Hình 3.2 Ví d câu ph thu c c a Dat Quoc Nguyen và các ng tác gi
Công trình này s d ng k t qu nghiên c u c a Dat Quoc Nguyen và các ng tác
gi trong vi c ti n x lý các phát bi u lu t giao thông t p hu n luy n ( ) và t p
ki m th ( ) chuy n sang d ng cây ph thu c c tách t
ng này d a trên bài báo c a Richard Socher và các ng tác gi (2013) Khi
u vào s d ng cây ph thu c, ta có th bi u di n m i d ng
Trang 29Hình 3.3 M ng m d a trên cây ph thu c
Ví d trên giúp hi ng c a m ng này, v i câu H c_sinh 1 p 2
xe 3 trên 4 ng 5, ta có cây ph thu Hình 3.3 M ng m d a trên cây ph thu c Cây ph thu c có th c th hi n b ng các c
Mô hình m quy trên cây ph thu c s tính toán vector c a nút cha t i m i t thông qua vector bi u di n t c
c lên trên và cu c vector bi u th câu
Ví d trên có th c t ng quát hóa b ng công th c:
là hàm k t h p (tính t ng) c tham s hóa b ng các tr ng s c a
m ng , c s d ng là hàm kích ho t c a m ng tài s d ng hàm ), là ma tr n tr ng s i v i các vector t , các ma tr n , là các ma tr n tr ng s i v i vector l p n c a các nút con tr c ti p c a nút hi n t i Vi c
nh ma tr n nào s s d tr ng s hóa vector l p n nào ph thu c vào v trí
i c a nút cha và nút con
Khi t t c c vector hóa (vector t i l p n c a nút g c c a cây ph
nhau
Trang 30Stochastic gradient descent bi n m ng c a chúng ta có d ng m t siêu ph ng có kh
Trang 313.5.2 H n ch c
nhân t có th ho ng chính xác, m ng nhân t o c n nhi u tài
luy n hu n luy n, chi phí v m t th i gian, tính toán và b nhcho ho ng hu n luy n