ng For years, Microsoft CorporationCEOBill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "canc
Trang 1Trang 1
- 2010B -
trong
!
Trang 2
Trang 2
Trang 3
Trang 3
1
2
3
6
7
8
Ư 1 11
1.1 11
1.2 Ki n trúc c a h th ng trích rút thông tin 15
1.2.1 Trích rút th c th - Named Entity Recognition (NER) 16
1.2.2 Gi i quy ng tham chi u 17
1.2.3 Xây d ng m u ph n t - Template Element Construction (TE) 18
1.2.4 Xây d ng m u quan h 19
1.2.5 u k ch b n 19
1.3 Bài toán trích rút th c th 20
1.4 23
1.4.1 Trích rút thông tin t n 23
1.4.2 23
1.4.3 H tr h th ng tr l i câu hỏi t ng 24
1.4.4 C i thi n k t qu c a h th ng tìm ki m 24
Ư 2 Ư
TRÍCH RÚT THÔNG TIN 25 2.1 (hand-written regular expressions) 25
2.2 idden Markov Model - HMM) 26
2.3 Mô hình Markov c i hóa Entropy (MEMM) 28
2.4 T ng k 32
Ư 3 MÔ Ư 33
3.1 ng ng u ki n - CRFs 33
Trang 4Trang 4
3.2 35
3.2.1 35
3.2.2 35
3.2.3 36
3.3 38
3.4 39
3.5 41
3.6 ch nhãn 43
3.7 44
Ư 4 45
4.1 45
4.2 Ứng d t 50
4.2.1 d ng CRF 50
4.2.2 50
4.2.3 54
4.3 d n: 55
4.3.1 ng: 56
4.3.2 ng câu 56
4.3.3 ng câu 57
4.3.4 ng câu 57
4.4 60
Ư 5 Ư
61
5.1 t 61
5.2 Thi t k 61
5.2.1 Bi lu ng d li u các m c 61
5.2.2 Bi phân c p ch 63
5.2.3 Các bi lu ng th hi n ch th ng 64
Trang 5Trang 5
5.2.4 Thi t k d li u 67
5.3 Xây d 68
5.3.1 L a ch n ngôn ng và công c l p trình 68
5.3.2 Các l 69
5.4 Thi t k giao di n và s d 72
5.5 75
5.5.1 75
5.5.2 76
5.5.3 76
78
78
79
80
Trang 6Trang 6
1-1: Ki n trúc c a h th ng trích rút thông tin 16
1-2: Ki n trúc c a h th ng trích rút th c th .20
1-3: H th ng tìm ki m 24
- .27
- .29
2-3: V sai l ch nhãn 30
- .34
- .36
- n 42
- ch nhãn 43
- .47
- .48
- .49
- .50
- .51
- .52
- .53
- .55
5-1: Bi lu ng d li u m c khung c nh 62
5-2: Bi lu ng d li u m nh 62
- .63
- .64
- .66
- .67
- .69
- .70
- .71
- .71
- .72
- .72
- .73
- .74
- .74
Trang 7Trang 7
- .15
- .17
- .18
- .19
- .19
- .22
- .31
4-1 53
- affection, jealous and gossip) 58
- affection, jealous and gossip) 59
- .68
- .75
- .76
- .77
Trang 8Trang 8
(2-1) 27
(2-2) 27
(2-3) 29
(2-4) 29
(2-5) 30
(2-6) 30
(2-7) 31
(3-1) 34
(3-2) 34
(3-3) 35
(3-4) 35
(3-5) 35
(3-6) 36
(3-7) 36
(3-8) 36
(3-9) 37
(3-10) 37
(3-11) 38
(3-12) 38
(3-13) 38
(3-14) 38
(3-15) 39
(3-16) 39
(3-17) 39
(3-18) 40
(3-19) 40
(3-20) 41
(3-21) 41
(3-22) 41
(3-23) 41
(3-24) 42
(4-1) 58
(4-2) 58
(5-1) 76
(5-2) 76
(5-3) 76
Trang 9Trang 9
I
I
“ ”
I f – I )
ễ
ỹ
trong bài toán trích rút
ò
ẽ ò
ỹ mô – CRF), mô hình – )
(Maximum Entropy Markov Model- MEMM)…
1
ẽ
Trang 10
Trang 10
2
3
ẽ
4
5
Trang 11
Trang 11
Ư 1
1.1 c
c quan tr ng trong khai phá d li n, h th ng c hi n vi c trích rút các thông tin t các d li u phi c u trúc ho c bán c u trúc chuy n thành d li u có c u trúc Nói cách khác, m t h th c v các th c th và m i quan h gi a các th c th t m i d ng ngôn ng t nhiên n nh ng thông tin này vào m n ghi d li u có c u trúc ho c m t d ng m u m trích ch n thông tin t n nh các th c th ) nh quan h gi a các th c th ) nh và theo dõi các s ki n và các k ch b n (Event and ) ng tham chi u (Co-reference ) c s d ng trong trích ch n thông tin g m có: phân n, phân l p, k t h p và phân c m [1] )
ng
For years, Microsoft CorporationCEOBill Gates railed against the economic philosophy of open-source software with Orwellian fervor, denouncing its communal licensing as a "cancer" that stifled technological innovation Today, Microsoft claims to "love" the open-source concept, by which software code is made public to encourage improvement and development by outside programmers Gates himself says Microsoft will gladly disclose its crown jewels the coveted code behind the Windows operating system to select customers "We can be open source We love the concept of shared source," said Bill Veghte, a MicrosoftVP "That's a super-important shift for us in terms of e a ess.“ Richard Stallman, founder of the Free Software Foundation, e e sa …
Microsoft Corporation CEO
Bill Gates Microsoft Gates Microsoft Bill Veghte Microsoft
VP Richard Stallman founder
Free Software Foundation
Trang 12Trang 12
railed against the economic philosophy of
open-source software with Orwellian fervor, denouncing
its communal licensing as a "cancer" that stifled
technological innovation
Today, Microsoft claims to "love" the open-source
concept, by which software code is made public to
encourage improvement and development by
will gladly disclose its crown jewels the coveted
code behind the Windows operating system to
select customers
"We can be open source We love the concept of
shared source," said Bill Veghte , a Microsoft VP
"That's a super-important shift for us in terms of
Trang 13Trang 13
ng d ng trích ch n thông tin trên Internet, h tr ng d ng web ng th ng tr l i t ng, h th ng h tr tìm ki m chính xác Các ng d ng th c t , th i gian t … T
tin cò c ng d ng vào vi c tìm ki m và trích ch n ra các thông tin c a ch , email, s n tho i r i d li u hay tham gia vào h th ng qu n lý thông tin cá nhân G
c bi c chú tr c y h u bài báo nghiên c u và ng d ng c c nh n d ng các th c th trong ngành y ví d
t thông tin [5][7][18]
công
“ ”
Trang 14Trang 14
-
)
- )
Random Field - CRFs) trích rútthông tin
s
HMM ch nó có th gi i quy c v ph thu c gi a các t Ngoài ra, CRFs ch có th gi c v sai l ch nhãn CRFs
ờng Nguyễn Xiể m2 Giá 5.5 tỷ Sổ ỏ chính chủ Liên h : 090.324.7686 (Mai) V i b t trên ta ch c a ch , di n tích, n tho i liên h Do v y không nh t thi t ph i hi n, m c a bài toán trích ch n th c các thông tin a ch , di … m t kh i d li u
ờng Nguyễn_Xiể
46 <B-DT> m2 <I-DT> Giá 5.5 <B-GB> tỷ <I-GB> Sổ ỏ chính chủ Liên_h : <B-LH> 090.324.7686 <I-LH> (Mai)<I-LH>
Trang 15Trang 15
V c các nhãn cho các t t :
a LN -LN là t b u lo i nhà, I-LN là t ti p theo c a lo i nhà DC -DC là t b u c a ch và I-DC là các t ti p theo c a ch DT -DT là t b u c a di n tích và I-DT t ti p theo c a di n tích GB B-GB là t b u c a giá bán và I-GB là các t ti p theo c a giá bán LH -LH là t b u c a s ng, s c nh và I-LH là các t ti p theo c a n tho i liên l c UL
1-1
ò
)
ẽ
trong CSDL l
trong
1.2 Kiến trúc của h thống trích rút thông tin
Quá trình trích rút thông tin g b u tiên h th ng trích rút
nh ng thông tin riêng lẻ t nh ng t p ng li th ng
Trang 161-1: Ki n trúc của h th ng trích rút thông tin
1.2.1 Trích rút thực thể - Named Entity Recognition (NER)
n trong m t h th ng trích rút thông tin M n ra các tên riêng (hay các th c th ) giá kh n d ng tên riêng c a m t h th ng, MUC m i ch khoanh vùng
t s ki u th c th nh nh: PERSON, LOCATION, ORGANIZATION, TIME Tiêu chu t h th ng là: so sánh k t qu
Trang 17t t nh chính xác lên t i 96% Các danh từ riêng chi m kho ng 70% s
li u (corpus) c a MUC, ờ chi m 25%,
chi i 5% Trong các danh t riêng thì tên các tổ chức
chi m kho ng 45-50%, các ể chi m t 12-32%, và ời chi m kho ng
1.2.2 Giải quyế đồng tham chiếu
Gi i quy ng tham chi u (Coreference Resolution – CO) là vi c nh n
d ng tham chi u gi a các th c th b ng cách k t h p nh ng thông tin mô
t n m r n t i các th c th mà nó tham chi u Thao tác này mang tính ch t h tr cho các thao tác khác Nó ít b ng b i dùng, lo
b c
Ví d : Mary said she would help me
Ở “ ” “ ” u cù n m ng là Mary
“ ” t tham chi n th c th “ ”
Trang 18Trang 18
1.2.3 Xây dựng mẫu phần tử - Template Element Construction (TE)
M i Template Element (TE) là m t l c tính mô t m i
ng c th thu c l là vi c xây d ng các m u thông tin mô t t i th c th NE c xây d ng d a trên NE và CO t ẽ
t khuôn m u thông tin chung cho các th c th Th c ch t nó là s m
r ng c a bài toán NE.V d li u
Trang 19Trang 19
1.2.4 Xây dựng mẫu quan h
Xây d ng m u quan h (Template Relation Construction – TR) là vi c tìm và trích rút ra quan h gi a các th c th a m t th c th thu c tính c a nó ph thu c vào bài toán c th và b n ch t c c phân tích, nên quan h gi thu c v c c th
Trang 20Dò tìm tên th c th
Trang 21Trang 21
Tách câu
Tách câu (Sentence splitter ho ) c hi
b n thành các câu riêng bi ng sẽ d a vào s xu t hi n c a các kí t sau “ ” “?” “!” c coi là d u hi u k u này không ph i lúc xu t hi n c a “ ” trong t vi t t t, trong m ng d n URL, trong m t s n tho … Đ u vào : m n Đ u ra : danh sách các câu Tách từ Tách t (tokenizer) là m li u vào và tách nó thành các token Ví d chu " " nh kho ng tr ng là phân cách gi a các token Thì m t tokenizer sẽ tách chu
Đ u vào n Đ u ra : danh sách các t Gán nhãn từ loại Gán nhãn t lo i (Part of speech Tagger – O ) c s d ng sau khi tách t trong câu M i t sẽ c gán m t nhãn v t lo i b ng cách s d ng t n nhãn ẵn ẽ
a )
b )
c Adjective (Adj) :
d )
e )
f )
g )
h )
i j )
Đ u vào n, t n nhãn
Trang 22Trang 22
Đ u ra : danh sách các t c gán nhãn
Ví d v POSTag:
Ta có câu sau : John Smith will eat the beans
Sau khi POSTag : John /N Smith /N will /V eat /V the /N beans /N
Phân cụm
Phân c ) c hi n câu Chunking ch th c hi O ẽ n câu thành nhóm các
c m t theo ch pháp Ở d ng m t t dành cho c m t Ví d t p nhãn c a Penn Treebank
ADJP Adjective Phrase
CONJP Conjunction Phrase conjunction
Ta có câu sau : John Smith will eat the beans
Sau khi POSTag : John /N Smith /N will /V eat /V the /N beans /N
Sau khi chunking : [ NP John /N Smith /N ] [ VP will /V eat /V ] [ NP the /N
beans /N ]
Trang 23Trang 23
Dò tìm tên thực thể
Dò tìm tên th c th (Named Entity detection) là quá trình dò tìm và trích rút các th c th u k t qu Ở u, h th ng nh n các th c th nh vào tên riêng c a chúng xu t hi tri th xây d ng Tuy nhiên, vi c nh n ra th c th n d a vào tên riêng có th sai,
vì các th c th khác nhau có th có cùng tên Ví d , Sài Gòn v a là tên c a m t thành ph , v a là tên c a m t ng ti p c n c i v i bài
1.4 c ứ d của r c r
1.4.1 Trích rút thông tin từ vă bản
ba … i dùng bu c ph c hi n và ghi chú t t c các thông tin trên trong m t
b ng Công vi c s t nhi u th i gian khi ph i x lý trên
nh ng t p d li u l n H th ng trích rút m i quan h gi a các th c th sẽ t ng
c nh
1.4.2 r eb a
ont rút trích rút m i quan h gi a các
Trang 24Trang 24
1.4.3 H tr h thống trả lời câu hỏi tự động
H th ng trích rút m i quan h gi a các th c th ò ng trong h th ng hỏ ng H th ng hỏ bi t tên c a m i và
c i thi n k t qu chúng ta tích h p thêm h th ng trích rút m i quan h vào h
th ng tìm ki lo i bỏ t qu không mong mu ng h p này, thông tin v ng Ph ng Hà N i sẽ c hi n th trên k t qu tìm ki t qu tìm ki
Trang 25Trang 25
Ư 2 Ư
Trong m t s ng h n, vi c trích rút có th c th c hi n m t cách dễ dàng b ng cách s d ng các bi u th c chính quy V i nh ng ngu n
nh d ng theo m t quy t ó th gi i quy t v m t cách chính xác Ví d , n u mu n trích rút nh ng tên sách cùng tên tác gi cu n sách t trang web Amazon.com, ta có th th y r ng nh ng m c này xu t hi n theo m nh
d ng nh m, ch a màu xanh, là hyperlink, tên tác gi
c theo sau b i t khóa "by" và là hyperlinked) n thu th p thông tin t w trích rút thông tin c n
ph i d a vào chính b n thân ngôn ng - các t ng , th t c a các t , các ng , hay
ng pháp - t h p v nh d ng n u có m
Có nhi p c gi i quy t bài toán
ẽ gi i thi u m t s ng ti p c y cùng
v m c a chúng t i t a trên CRFs l c s d ng xây d ng h th ng
2.1 ư ế c ủ c (hand-written regular expressions)
w Yorkkhi tham gia MUC-6 [1]
Title Capitalized_Word => Title Person Name
o w f
o Sai ‟ )
Trang 26ò ỏ
ò
“ ” ẽ
- )
- )
- CRFs) trích rút C ẽ cùng , CRFs
2.2 c m ar v idden Markov Model - HMM)
Mô hình HMM là m t ôtômát h u h n tr ng thái v i các tham s xác su t chuy n tr ng thái và xác su t s n sinh d li u quan sát t i m i tr ng thái Ôtômát này mô hình m t dãy tu n t các ký
hi u sẽ c sinh ra khi xu t phát t tr ng thái kh i t o, ta th c hi n các d ch chuy n tr n m t tr ng thái trong mô hình HMM
ng minh, i d li u quan sát do mô hình sinh ra
T i m i tr ng thái, m t thành ph n trong chu c khi chuy n sang tr ng thái ti p theo
Trang 27Trang 27
c th -per, I-per, B-loc, I-loc v i B là b u c a nhãn, I là ti p theo
c nhãn nhãn nên nhãn
c sinh ra t chính các t Do v y, nhãn) ) xác
su t c a các chu i tr ng thái và tìm xác su t l n nh t
) ( / ) , ( )
S P S
O P S P O S
P
2
1 1
1
( ) ,
Trang 28m t ch ph thu c tr ng thái t i th y, v i các bài toán gán nhãn cho d li u d ng chu u diễ
ẻ u diễ i d ng các thu c tính (features)
có các ph thu c v thi c l p kh t khe trong chu i
d li u quan sát Xét v m t thu c tính thì HMM ch bi u diễn quan sát b ng m t thu c tính duy nh t chính là b n thân các quan sát
V th hai mà các mô hình sinh quan sát g p ph i khi áp d ng vào các bài toán gán nhãn d li u d ng chu i là chúng s d ng xác su ng th mô
u ki n.V i các bài toán này sẽ thích h u ta dùng m n có th tính toán P (S|O) tr c ti O) trong công th c (2-1)
2.3 Mô hình Markov cực đại hóa Entropy (MEMM)
Mô hình Markov c i hóa Entropy hay MEMM, là m t trong s nh
u ki n g n mô hình HMM nh t M t mô hình MEMM là m t b
ch p nh u h n tr ng thái Khác v i mô hình HMM, MEMM thay th các xác su t chuy n tr ng thái và xác su t sinh quan sát trong HMM b i m t hàm
duy nh tp(S i |S i-1 ,O i ) c tr ng thái hi n t i S i v u ki n
tr S i-1 n t i là O i Mô hình MEMM quan
ni m các quan sát c và không c n xác su t sinh ra chúng mà ch n xác su t chuy n tr ng thái
So sánh v i HMM, n t i không ch ph thu c vào tr ng thái hi n t ò ph thu c vào tr
Trang 29S P O
S P O S P
1
1 1
( )
Kí hi u PSi-1(Si|Oi)=P(Si|Si-1,Oi) Áp d i hóa Entropy ( ẽ ) nh phân ph i cho xác su t chuy n tr ng thái có d
i i
i
S O Z O
S P
),(
1)
|(
1
V i a là các tham s c c hu n luy ) Oi, Si-1) là th a
s chu t ng xác su t chuy n t tr ng thái Si-1 sang t t c các tr ng thái Si
k u b ng 1; fa (Oi, Si) là hàm thu
i hàm thu c tính fa (Oi,Si) nh n hai tham s , m
Trang 30Trang 30
n t i Oi và m t là tr ng thái hi n t i Si McCal a=<b, Si>, c tính nh phân ch ph thu n t i
mô hình MEMM t phân
ph i xác su t cho m i tr ng thái có th g p ph i v “sai l ch nhãn” ) [10][12][14] Ta hãy xem xét m t sau:
r_
b:rib
b:rob i_
Trang 31th là m t quan sát b t kì M t cách t ng quát, các tr ng thái có phân ph i chuy n
v i entropy th ) n quan sát hi n t i
L i có P (3| ) suy ra: P (0123| ) ) | ) ta 453|rob)=P (0)*P (4|0,r) N u trong t p hu n luy n, t „ ‟ t hi n „ ‟ t P(4|0,r) sẽ nhỏ | )
d 453| ) ỏ 3|rob), t c là chu i tr ng thái S=0123 sẽ c ch n dù chu „ ‟ „ ‟
Léon Bottou (1991) i pháp cho v này.Gi i pháp th nh t
là g p hai tr ng thái 1, 4 và trì hoãn vi c rẽ n khi g p m t quan sát xác
Trang 32nh m t c u trúc thích h i pháp này sẽ làm m
có th t c [2]
M t gi này là xem xét toàn b chu i tr ng
t t ng th và cho phép m t s c chuy n trong chu i tr ng thái
ò nh v i vi c ch n chu i tr
su t c a toàn b chu i tr ng thái sẽ không ph c b o t n trong quá trình chuy n
tr ng thái mà có th b i t i m c chuy n tùy thu c vào quan sát t i trên, xác su t chuy n t i 1 và 4 có th có nhi u i v i
vi c ta sẽ ch n chu i tr t chuy n tr ng thái t i 0
2.4 Tổng kế c ươ
Random Fields – CRF)
ài toán trích rút coi là trích rút các hay p cho bài toán này sát
Trang 33Trang 33
Ư 3 M Ư
Laff 14 – ) sai l ch nhãn Gi u ki n, có th tích h c các thu ng c a chu i quan sát h tr cho quá trình gán nhãn Tuy v y, khác v th vô ng
u này cho phép CRFs có th i xác su t c a toàn b chu i
tr ng thái c thay vì phân ph i trên m i
tr ng thái bi t tr n t
mô hình MEMM Chính vì cách mô hình h y, CRFs có th gi i quy c
v sai l ch nhãn ẽ t s
i )
Trang 34Trang 34
)
,
| ( ) ,
,
| ( Y X Y v P Y X Y N v
Ở ) … ) )
1, X2 … n), Y=(Y1,Y2, ,Yn)
3-1 s
- ễ -Clifford [13
A A
T ễ
7 nên
Trang 353.2.1 ộ đ r đ ề n
“
y x
,
)
|(log
*)
|(
*)(
~)
3.2.2 c r b ộc đố v ố m
(3-4)
f sau:
y x
, )
, (
~ [f] ~p( , )f( , )
E
Ở ~ p ( x , y )
x i
,y i)
) ,
Trang 36Trang 36
y x
y x x
y x
,
),(
*)
|()(
~]
] [ ] [
) , (
3-7)
ẽ
3.2.3 ê cực đạ óa r
f i, [8] ẽ P
Trang 37“ ”
p
p H p
Trang 38i f Z
exp ) (
1 )
| (
x x
i f
3.3 m ềm ă của c c m
ff [14]
k k k
i i k
Z
)(
1)
|
x x
Trang 39i i k
Z ( x ) exp ( y 1, y , x ) ( y , x ) (3-15)
) , ,
,
(1 2 1,2
ẽ
ẽ
3.4 c ư am ố c c c m
Chúng ta c nh m t b tham s mô hình “ p nh ” i t p
d li u hu n luy ng tham s ) nh tham s m t cách x p x thông qua
y x
x y
,
) , (
~
),
|()
Trang 40Trang 40
i hàm likelihood sẽ làm phân ph i trong mô hình g n nh t v i phân ph i th c nghi m trong t p hu n luy n Vì vi c tính d a theo công th c (3-17) r nên thay vì tính toán tr c ti nh làm c i logarit c a hàm likelihood -likelihood):
y x
x y y
x
,
),
|(log),(
~)
t y
~
*
*)
,(
~)
Ở (1,2, n) và (1,2, ,m)là các vector tham s c a mô hình, t
là vector các thu 1(yi-1,yi,x),t2(yi-1,yi ) …) s là vector các thu 1(yi,x),s2(yi ) …)
ng tham s cho mô hình CRF chuy n thành bài toán tìm c i cho hàm log-likelihood Hàm log-likelihood cho mô hình CRFs là
m õ không gian c a tham s B n ch t hàm lõm c a log-likelihood cho phép ta có th c giá tr c i toàn c c b ng các
d memory quasi-Newton (L- ) c c i ti n t -Newton, có hi t tr n so v c
ng tham s cho các mô hình CRF Ch ng h n, L-BFGS cho phép gi i quy t
ng tham s ch s d ng m t b nh gi i h háp BFGS có th th c hi c, ta c c a hàm log-
i thành ph n c o hàm c a hàm likelihood theo m t tham s mô hình o hàm hàm log – likelihood theo tham s
x y y y
x
1, , )(
),(
~)
i
i i k k
t p
l