1. Trang chủ
  2. » Công Nghệ Thông Tin

Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)

44 172 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 44
Dung lượng 7,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)Nghiên cứu xây dựng ứng dụng xử lý văn bản luật giao thông (Đồ án tốt nghiệp)

Trang 1

I H C QU C GIA HÀ N I

I H C CÔNG NGH

N LU T GIAO THÔNG

Ngành: Công ngh thông tin

2015

Trang 2

I H C QU C GIA HÀ N I

I H C CÔNG NGH

N LU T GIAO THÔNG

Ngành: Công ngh thông tin

Cán b ng d n: PGS TS Nguy n Vi t Hà

- 2015

Trang 3

VIETNAM NATIONAL UNIVERSITY, HANOI UNIVERSITY OF ENGINEERING AND TECHNOLOGY

Nguyen Ha Thanh

RESEARCH AND PROPOSE VIETNAMESE TRAFIC LAW PROCESSING METHOD

A THESIS PRESENTED FOR THE DEGREE BACHELOR

Major: Information Technology

Supervisor: Assoc Prof Nguyen Viet Ha

HA NOI - 2015

Trang 4

TÓM T T

Tóm t t: M c dù nhu c u pháp lý c a xã h i ngày m t cao, h th ng pháp lu t c a Vi t Nam v n

và th c thi pháp lu t Ngày nay v i s phát tri n nhanh chóng c a các k thu t h c máy c bi t

là k thu t s d ng m ng nhân t o, nhi u ng d ng thông min i và giúp ích r t nhi u cho cu c s i Trong gi i h n c a m t khóa lu n t t nghi p c a sinh viên tài

giao thông có hình thái khác nhau u hi ng nhau ng ti p c

gi i quy t v là s d ng k thu o trong h c máy Cách th c ti n hành th c

qu u khá ng, m ra tri n v ng cho các ng d ng ch ng cao trong x lý các

v pháp lý

T khóa: M , x lý ti ng vi t, lu t giao thông

Trang 5

Sumary: Nowadays, the demands for legal services in our society are rising sharply However,

the legal system in Vietnam is still greatly overlapping and constantly changing, which creates considerable difficulties for people in accessing, applying and using the law for legitimate reasons Today, with the rapid development of machine learning, especially the technical uses of artificial neural network, many smart applications were born and became very helpful for human life Within the scope of a graduation paper for the bachelor degree, this research aims at studying related knowledge and building a program having the capacity to detect the traffic law sentences which are in different morphology but express similar meaning The main approach to achieve these aims is to use techniques in machine learning artificial neurons Experimental methods proposed in this research are suitable for proving the method Initial results are rather impressive, opening up prospects for high quality applications in handling legal issues

Keyword: Artificial neural network, Vietnamese processing, traffic law

Trang 6

trung th c, t t c các tài li u tham kh o, công trình nghiên c u c i c s d ng

danh m c các tài li u tham kh o c a khóa lu n

nh th c nghi m t thi t k không có s sao chép công trình c i khác N

Hà N i, ngày 30/4/2015

Sinh viên

Nguy n Hà Thanh

Trang 7

L I C

c tiên, em mu n g i l i c c nh n th y Nguy n Vi t Hà, th y Nguy n

g i ý cho em m ng nghiên c u r t thú v và t ng d n ng l i khuyên và kinh nghi m quý báu cho em trong trong quá trình th c hi n khóa lu n

l i c n các th y là tác gi tài "Nghiên c u phát tri n m t s s n ph m thi t y u v x lí ti n ti ng Vi t" (VLSP), nh

t o n n móng quan tr ng cho vi c ti p c n x lý ngôn ng ti ng Vi t

E c g i l i c i các tác gi c a các bài báo, nghiên c u có liên quan Trong khoa h c nói chung và trong khoa h

th c nào là tuy i t s nghiên c u nghiên túc và t n tâm c a các tác gi , các

Trang 8

M C L C

M T V 1

1.1 B I C NH NGHIÊN C U 1

1.2 NHI M V C A KHÓA LU N 2

1.3 CÁC N I DUNG C A KHÓA LU N 3

LÝ THUY T 5

2.1 T NG QUAN V M O 5

2.2 S D NG VÀ HU N LUY N M O 7

2.3 8

2.4 M C A NGÔN NG TI NG VI T 10

XU T M 12

3.1 BÀI TOÁN 12

3.2 CÁC NGHIÊN C C K TH A 13

3.3 XÂY D NG KHÔNG GIAN VECTOR T 14

3.3.1 T ng quan cách ti p c n 14

3.3.2 Thu th p và ti n x lý d li u 15

3.3.3 Xây d ng m 15

3.3.4 Hu n luy n m ng và hi u ch nh vector t 17

3.4 M 18

3.4.1 Phân tách cú pháp b ng cây ph thu c 18

3.4.2 Xây d ng m thu c 19

3.4.3 Hu n luy n m m 21

3.5 M M NH, H N CH 21

3.5.1 m m nh c 21

3.5.2 H n ch c 22

TH C NGHI M, K T QU 23

Trang 9

4.1 CÔNG C NG TH C NGHI M 23

4.1.1 Win web crawler - y n i dung c a các trang web 23

4.1.2 vnTokenizer - công c tách t ti ng Vi t 23

4.1.3 vndp - công c khai tri n cây ph thu c ti ng Vi t 24

4.1.4 c nghi m t thi t k và tri n khai 25

4.1.5 ng th c nghi m 27

4.2 D LI U DÙNG CHO TH C NGHI M 27

4.3 CÁCH TH C T CH C TH C NGHI M 28

4.4 K T QU TH C NGHI M 29

4.5 T QU TH C NGHI M 30

K T LU N 32

TÀI LI U THAM KH O 34

Trang 11

V i nh ng thành t u r c a ng nghiên c u Trí tu nhân t

H c máy, X lý ngôn ng t nhiên trong nh c áp d ng Công ngh

x n Lu t h a h n s t c m t cu c cách m ng v

m ph c v cho vi c so n th o, s d ng, áp d ng và th c thi pháp

lu t Các h th ng thông minh còn có th giúp phát hi n ra nh m mâu thu n, ch ng

v pháp lu t

1.2 NHI M V C A KHÓA LU N

Trong gi i h n c a m t khóa lu n t t nghi p c a sinh viên, n i dung nghiên c u

t p trung gi i quy t m t bài toán nh n x n lu t Trong m t h

th n pháp lu t ch ng chéo (ví d th ng các quy ph m v thu trong ph n

tính ch y s c a r t nhi u các ng d ng x lý pháp lu t sau này Nhi m

v c tài là khái quát c s lý thuy t, k th a các nghiên c u ã có, xu t gi i pháp

v y trong m t ng c c gi i h n là các quy ph m pháp lu nh v giao thông

Vi t Nam tài có th c s d ng cho các ng d ng góp ph

trong bài báo Grounded Compositional Semantics for Finding and Describing Images

with Sentences c a công trình là xu c m c

ti n và xây d c m t h th ng ho ng m i hi u qu v i d li u là

ti ng Vi t d a trên nh ng công c , nghiên c à m t s c i ti n v kthu t

Trang 12

1.3 CÁC N I DUNG C A KHÓA LU N

u nói v trí c tài trong b i c nh chung xét trên

ng phát tri n c a xã h ng phát tri n c a các k

khóa lu n nh m giúp cho các th y cô, các b n và các em d theo dõi, ti n cho vi

thu t Gradient descent và c i ti n k thu t c a nó (Stochastic gradient descent) Cu i

n trình bày m t s m c a ngôn ng ti ng Vi t trong

th c nghi m c th là s d ng m phát hi n các câu lu t mang cùng

này, bài toán th c nghi c phát bi u m t cách rõ ràng, chính xác b ng ngôn ng t nhiên, ngôn ng ký hi u và có ví d minh h a Ti ng

Trang 13

th c ch ng c xu t trong công trình Thông qua so

ng k t l i toàn b nh c làm rõ trong khóa lu n m t cách

ng và súc tích nh t, ph c v cho vi ng quan c tài và h tr vi c tra

Trang 14

n ba thành ph n chính là Soma, Dendrite và Axon Soma là nhân

c u trách nhi m chính cho vi c tính toán và phát ra nh ng xung th n kinh Dendrite và Axon là các dây dài và m nh, làm nhi m v d n truy n xung th

Dendrite truy n cho nhân Soma x lý còn Axon truy n t

Hình 2.1 M sinh h c

Trang 15

Hi u m ng b ng cách l y t n nó

n truy n gi a các thông qua các kh p có tính truy n khác nhau Các kh p m nh có kh n thông tin r t d dàng trong khi các kh p y u làm c n tr thông tin truy n qua

c l y c m h ng t m ng sinh h c, m ng nhân t u t o

Hình 2.2 M o

M i thành ph n tính toán ( ) trong m ng nhân t a ngõ

nh n thông tin gi ng Dendrite và Axon T c truy n gi a các này là các

s th c, trên m i m i n i có m t tr ng s mô ph ng tính truy n c a m ng

sinh h c T i m i , các tín hi c công d n và truy n qua hàm kích ho t, hàm kích ho o ra m ng tín hi u cho nhân t o Khi

Trang 16

hàm kích ho c s d ng, Hàm tuy n tính t n và các hàm Hyperbolic Trong công trình s d ng hàm tanh (thu c h hàm Hyperbolic) Công th c

bi t c i vào nh ng khía c nh h u ích trong ho ng th c ti n2 c x

lý thông tin trên máy tính có th quy v

bi t và m u ra là nh ng thông tin có th suy lu c và phù h p v i nhu c u s

d ng c i Trong t p h p t t c các bài toán x lý d li u, t n t i nh ng bài toán

hay bài toán chuy i ti n t T n t i song song v i nó là nh

tìm ra m t hàm tính toán chính xác v i m u vào quá l n so v c hi n t i c a

i, ví d nh n di n ch vi t tay, nh n di n khuôn

hàm tính toán x p x t t so v i hàm tính toán chính xác, các hàm này g i là hàm githi t (hypothesis)

Trang 17

n các bài toán M o ho ng d a trên 3 hành vi chính là tính toán th nh sai s và tái c u trúc m ng V i m t t p d li u h c

, v i và u ra c a ví d th trong t p d li u h c

trúc b ng cách c p nh t l i các tr ng s liên k t b c (back propagation) v i m c tiêu t i thi u hóa sai s v i k t qu u ra c a m ng, công

nh t tr ng s liên k nh giá tr sai s c a Có r t nhi

th c hi n lan truy c sai s n hình v

giá n khi giá tr c a sai s h i t , thu t toán s l p l i công th c sau:

là t p các tr ng s c a m ng , là h s h c (learning rate) c a m ng , là vi phân c a hàm giá theo tr ng s

Trang 18

V i vi c l p l i s c p nh t này, hàm giá s h i t và sai s c a hàm gi thi t s t giá

Trang 19

V i Stochastic Gradient Descent, t h i t di u l n so v i

ng t nhiên cho ngôn ng c a chúng ta là b t kh thi

Trang 20

ng ph bi n trong m i ngôn ng M c dù v y, vi c x lý ngôn ng ti ng

Th ba, ch vi t c a ti ng Vi t là ch ghi âm, lo i ch không bi u hi

c a t mà tái hi n chu i âm thanh ti p n i c a t Ng a m t câu ti ng Vi

khi ph thu c vào cách ng t ngh u tr m b ng c i nói vì th t n t i nh ng câu mà ngay c m i th o ti ng Vi hi u n u không c nghe tác

Trang 21

v i ph m vi khóa lu n t t nghi p c a sinh viên.

ti n cho vi c trình bày các k t qu nghiên c u, bài toán th c nghi m c mô

Trang 22

3.2 CÁC NGHIÊN C U C K TH A

cách ti p c n này có s tham kh o, h c t p t nh ng nghiên c u v X lý ngôn ng t nhiên, H c máy v i m t s ng l n các công vi c liên quan khác ng chính c a gi i pháp này là s d bi u th ng

c a m t t và s k t h p c a chúng trong câu lu t giao thông

m c m t h th ng hi u qu làm vi c v i d li u ti ng Vi t, c n s d

ch giúp gi m thi u s nh p nh ng trong ti ng Vi t gây ra b a các tkhác nhau Theo cu n p môn ngôn ng h c a tác gi c Cân c nh, nói m n, là tình hu ng, b i c nh ngôn ng

xu t hi n v i m th c a nó Thông qua ng c nh, ta có th c

nh ng y u t h n ch ph m a t c s d ng n 3

n y u t ng c nh khi làm vi c v i các t ti ng Vi t, trong công trình nghiên

c u, không gian vector mô t ng a t c xây d ng d ng c a Eric

H Huang, Richard Socher, Christopher D Manning và Andrew Y Ng trong bài báo

c c b và ng c nh toàn c c

xu t trong bài báo

c a Richard Socher, Andrej Karpathy, Quoc V Le, Christopher D Manning, Andrew Y Ng (2013) 5 M t tên là M ng

n ron h i quy d a trên cây ph thu c (DT-RNN) s d ng m t m ng h i quy(Recursive Neural Network) c tri n khai trên n n c a cây ph thu c (Dependency tree) khi khai tri n các câu Cây ph thu c là m t trong nh ng nghiên c u l n c a

x lý ngôn ng t nhiên, công trình này s d ng k t qu nghiên c u c a Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham, Phuong-Thai Nguyen và Minh Le Nguyen

Trang 24

Cho m t chu i t s n d ch a chu c tiêu là phân bi c chính

ti ng Vi t, mu n xây d c m t b vector bi u th trong các câu

mô t lu t giao thông Vi t Nam, c n ti n hành tách t cho d li u vào.Công c tách

t ti ng Vi t s d tài là vnTokenizer 8c a tác gi Lê H

M ng m cho m t chu i t (có th hi u là m t câu) thông qua hai

c là tính trên ng c nh c c b và ng c nh toàn c m s cu i cùng cho

Trang 25

m i chu i t là t ng m c c tính toán trên m ng v i ng c nh c c b s

d ng chu i t c c b s Chu i s c mô t i d ng m c s p x p g m các vector x = (x1, x2, , xm) v i xi là vector bi u th t th i trong chu i T t c các vector

N u ng c nh c c b c tính d a trên s ghép n i c a m t trong m t chu i thì

ng c nh toàn c c tính d a trên s ghép n i c a giá tr tr ng s trung bình c

b n và t cu i cùng c a chu i Giá tr tr ng s trung bình c c tính theo công th c:

là các vector t trong d là b t k m ng s

gi ph c t p tính toán, công trình s d ng s idf

i m u th c là s n ch a t t N u t t hi n b t

c n nào trong t p thì m u s s b ng 0 d n t i phép chia cho không không h p l ,

Trang 26

nhi u mà l th trong công vi c này, nó ch

trò bi u th m i quan h xác su t gi a t và ng c nh toàn c c trong câu

c giá tr tr ng s trung bình c n, ta ti n hành m chu i s trong ng c nh toàn c m toàn c c c th hi n b i công

th c:

là giá tr hàm kích ho t c a vector l p n, là s ghép n i gi a

vector giá tr tr ng s trung bình và vector t cu i cùng trong c u t o ra m t

ng Do v y vi c tính giá tr c p nh t c a thu c tính

Cho m t chu i t s n d ch a chu c tiêu là phân bi c chính

xác t cu i cùng trong s i v i các t ng u nhiên khác Khi m ng có th c

y, các vector t s c hi u ch nh trong m i quan h c a ng c nh toàn c c và

ng c nh c c b g(s,d) và g(s w ,d) c tính toán, v i s w là chu i s c thay t

Trang 27

cu i b ng t w, g(.,.) m mà m ng s d hu n luy n m ng, chúng ta s d ng hàm giá theo d ng mô hình máy vector h tr (SVM), t o ra m t siêu

ph c nh ng câu th c t t n t i trong ng pháp ti ng Vi t trong ng c nh

ch y m c Stochastic gradient descent t n các tham s bao g m các thông

s c a m ng và các vector t trong ví d Các vector t c hu n luy n trong

ph n này u vào c a m ng phân bi t ng c trình bày ph n ti p theo c a khóa lu n

3.4 M

3.4.1 Phân tách cú pháp b ng cây ph thu c

Cây ph thu c là m t trong nh ng nghiên c u l n c a x lý ngôn ng

t nhiên, nó c xây d ng d a trên m i quan h ph thu c c a các t trong m t câu Các t trong cây ph thu c n i b ng liên k ng t là trung tâm v m t c u trúc c a câu, t t c các thành ph n còn l c n i tr c ti p ho c gián

ti p t ng t , c u trúc này t u ki n thu n l xây d ng m t m ng có các

tr ng s c c p nh phân lo a câu X lý ngôn ng t nhiên ti ng

Vi t m xu t b i Dat Quoc Nguyen, Dai Quoc Nguyen, Son Bao Pham,

Trang 28

Phuong-Thai Nguyen và Minh Le Nguyen v tài xây d ng cây Ph thu c cho

ti ng Vi t t Treebank ti ng Vi t10.

Hình 3.2 Ví d câu ph thu c c a Dat Quoc Nguyen và các ng tác gi

Công trình này s d ng k t qu nghiên c u c a Dat Quoc Nguyen và các ng tác

gi trong vi c ti n x lý các phát bi u lu t giao thông t p hu n luy n ( ) và t p

ki m th ( ) chuy n sang d ng cây ph thu c c tách t

ng này d a trên bài báo c a Richard Socher và các ng tác gi (2013) Khi

u vào s d ng cây ph thu c, ta có th bi u di n m i d ng

Trang 29

Hình 3.3 M ng m d a trên cây ph thu c

Ví d trên giúp hi ng c a m ng này, v i câu H c_sinh 1 p 2

xe 3 trên 4 ng 5, ta có cây ph thu Hình 3.3 M ng m d a trên cây ph thu c Cây ph thu c có th c th hi n b ng các c

Mô hình m quy trên cây ph thu c s tính toán vector c a nút cha t i m i t thông qua vector bi u di n t c

c lên trên và cu c vector bi u th câu

Ví d trên có th c t ng quát hóa b ng công th c:

là hàm k t h p (tính t ng) c tham s hóa b ng các tr ng s c a

m ng , c s d ng là hàm kích ho t c a m ng tài s d ng hàm ), là ma tr n tr ng s i v i các vector t , các ma tr n , là các ma tr n tr ng s i v i vector l p n c a các nút con tr c ti p c a nút hi n t i Vi c

nh ma tr n nào s s d tr ng s hóa vector l p n nào ph thu c vào v trí

i c a nút cha và nút con

Khi t t c c vector hóa (vector t i l p n c a nút g c c a cây ph

nhau

Trang 30

Stochastic gradient descent bi n m ng c a chúng ta có d ng m t siêu ph ng có kh

Trang 31

3.5.2 H n ch c

nhân t có th ho ng chính xác, m ng nhân t o c n nhi u tài

luy n hu n luy n, chi phí v m t th i gian, tính toán và b nhcho ho ng hu n luy n

Ngày đăng: 18/03/2018, 22:55

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w