HAI PH ƯƠ NG PHÁP PHÂN TÍCH CÚ... Có xét th t các node con... Inductive Dependency Parsing Text, Speech and Language Technology.. Springer-Verlag, Berlin, Heidelberg.
Trang 2PH N I Ầ
T NG QUAN PHÂN TÍCH Ổ
CÚ PHÁP NGÔN NG T NHIÊN Ữ Ự
Trang 3PD
N
Trang 42 HAI KHÁI NI M PHÂN TÍCH CÚ PHÁP Ệ 4
GRAMMAR PARSING
Cho m t văn ph m và m t xâu đ u vào Tìm m t s ộ ạ ộ ầ ộ ố
ho c t t c các phân tích đ ặ ấ ả ượ c gán cho b i ở
Bài toán well-defined abstract; không d a trên th c ự ự
nghi m ệ
TEXT PARSING
Cho m t đo n văn b n trong ngôn ng , xác đ nh phép ộ ạ ả ữ ị
phân tích đúng cho m i câu ỗ
Bài toán x p x d a trên th c nghi m; không rõ tính ấ ỉ ự ự ệ
well-defined abstract.
Trang 64 HAI PH ƯƠ NG PHÁP PHÂN TÍCH CÚ
Trang 74 HAI PH ƯƠ NG PHÁP PHÂN TÍCH CÚ
H ướ ng văn ph m ạ
H ướ ng
d li u ữ ệ Robustness
Disambiguation
Accuracy
Eficiency
H ướ ng văn ph m ạ
H ướ ng
d li u ữ ệ Robustness
Disambiguation
Accuracy
Eficiency
Trang 8PH N II Ầ
PHÂN TÍCH CÚ PHÁP PH THU C Ụ Ộ
Trang 9 M i quan h ph thu c bao g m m t ỗ ệ ụ ộ ồ ộ thành ph n trung tâm ầ
(head) và m t thành ph n ph thu c (dependent) ộ ầ ụ ộ
ROOT Economic news had little effect on financial markets .
Trang 101 VĂN PH M PH THU C Ạ 10 Ụ Ộ
M T S D NG QUAN H PH THU C Ộ Ố Ạ Ệ Ụ Ộ
Hai d ng quan h ph thu c th ạ ệ ụ ộ ườ ng đ ượ c tìm th y trong ấ
nhi u tài li u hi n nay là ề ệ ệ complement và
ROOT Economic news had little effect on financial markets .
Head-complement Head-modifier
Trang 12 M t câu ch a các t độ ứ ừ ược phân tích b ng cách gán cho nó m t ằ ộ
dãy các t lo i và m t quan h ph thu c gi a các t sao cho ừ ạ ộ ệ ụ ộ ữ ừ
6 đi u ki n xác đ nh đề ệ ị ược gi ữ
Trang 132 PHÂN TÍCH CÚ PHÁP PH THU C13 Ụ Ộ
Văn ph m ph thu c và văn ph m phi ng c nh ạ ụ ộ ạ ữ ả
B t kỳ h ph thu c nào đ u có th chuy n thành văn ph m ấ ệ ụ ộ ề ể ể ạ
dependency structure)
S tự ương đ ng c a hai lo i văn ph m cho phép s d ng cùng ồ ủ ạ ạ ử ụ
Trang 142 PHÂN TÍCH CÚ PHÁP PH THU C14 Ụ Ộ
PH ƯƠ NG PHÁP PHÂN TÍCH CÚ PHÁP PH THU C H Ụ Ộ ƯỚ NG
VĂN PH M Ạ
Mô hình bilexcical grammar c a Eisner (2000) ủ
Văn ph m bao g m hai thành ph n: ạ ồ ầ
1 M t t p các kí hi u k t thúc (t ), ch a ký hi u đ c bi t ROOT ộ ậ ệ ế ừ ứ ệ ặ ệ
2 V i m i t , m t c p automata h u h n đ n đ nh và M i automata ớ ỗ ừ ộ ặ ữ ạ ơ ị ỗ
ch p nh n m t t p con chính quy nào đ y c a ấ ậ ộ ậ ấ ủ
Ngôn ng đ ữ ượ c đ nh nghĩa nh sau: ị ư
1 M t cây ph thu c là m t cây có g c mà trong đó, m i node là m t t ộ ụ ộ ộ ố ỗ ộ ừ
t , nút g c là ROOT Có xét th t các node con ừ ố ứ ự
2 Cây ph thu c có tính văn ph m n u v i m i t , ch p nh n dãy con ụ ộ ạ ế ớ ọ ừ ấ ậ
trái c a và ch p nh n dãy con ph i c a ủ ấ ậ ả ủ
3 M t xâu đ ộ ượ c sinh b i v i phân tích n u là m t cây ph thu c có ở ớ ế ộ ụ ộ
Trang 152 PHÂN TÍCH CÚ PHÁP PH THU C15 Ụ Ộ
H ƯỚ NG D LI U Ữ Ệ
Mô hình c a Eisner (1996) ủ
Ch ra r ng mô hình xác su t sinh m u và ph ỉ ằ ấ ẫ ươ ng pháp h c có giám ọ
sát có th đ ể ượ c áp d ng đ i v i các bi u di n ph thu c đ thu ụ ố ớ ể ễ ụ ộ ể
đ ượ c tính chính xác t ươ ng đ i ố
Ch ra r ng các mô hình này có th đ ỉ ằ ể ượ c k t h p v i các kỹ thu t ế ợ ớ ậ
phân tích cú pháp hi u qu đ t n d ng các thu c tính đ c bi t c a ệ ả ể ậ ụ ộ ặ ệ ủ
c u trúc cú pháp ấ
Trang 16 Cách ti p c n c a Wang & Harper (2004) ế ậ ủ
Cách ti p c n trong tài li u này t ế ậ ệ ươ ng t cách ti p c n ự ế ậ
theo h ướ ng quy t đ nh c a Yumada & Masumoto (2003) ế ị ủ
Trang 172 PHÂN TÍCH CÚ PHÁP PH THU C17 Ụ Ộ
TI M NĂNG C A PHÂN TÍCH CÚ PHÁP PH THU C Ề Ủ Ụ Ộ
Các liên k t ph thu c sát h n v i các m i quan h ế ụ ộ ơ ớ ố ệ
ng nghĩa ữ
Cây ph thu c ch a m t nodet ụ ộ ứ ộ ừ
Ch ph i liên k t các node có s n, không ph i sinh ỉ ả ế ẵ ả
Trang 183 FRAMEWORK18
CÁC Đ NH NGHĨA C B N Ị Ơ Ả
Đ nh nghĩa 1 ị M t ộ đo n văn b n ạ ả là m t dãy các câu ộ
Đ nh nghĩa 2 ị M t ộ câu là m t dãy các tokens ộ
Đ nh nghĩa 3 ị M t ộ token là m t dãy các ký t ộ ự
V i m t câu , ta đ nh nghĩa hàm: ớ ộ ị
Trang 193 FRAMEWORK19
Đ TH PH THU C Ồ Ị Ụ Ộ
Đ nh nghĩa 4 ị Cho m t t p ộ ậ các ki u ph thu c, m t ể ụ ộ ộ đ th ồ ị
ph thu c ụ ộ ng v i m t câu là m t đ th có hứ ớ ộ ộ ồ ị ướng được gán
Trang 203. T t c các node có nhi u nh t m t head Nghĩa là, ấ ả ề ấ ộ
n u thì không t n t i m t node sao cho và ế ồ ạ ộ
4. Đ th là á chu trình Nghĩa là, n u thì không có ồ ị ế
5. Đ th có tính chi u Nghĩa là, n u thì v i m i sao ồ ị ế ế ớ ọ
cho ho c ặ
Trang 213 FRAMEWORK21
Cho m t đo n văn b n trong ngôn ng , tìm m t đ th ộ ạ ả ữ ộ ồ ị
ph thu c đúng đ i v i m i câu ụ ộ ố ớ ỗ
Trang 224 THU T TOÁN PHÂN TÍCH CÚ PHÁP Ậ 22
C U HÌNH Ấ
Đ nh nghĩa 7 ị Cho t p các ki u ph thu c và m t câu , m t ậ ể ụ ộ ộ ộ
c u hình c a b phân tích cú pháp ấ ủ ộ đ i v i là m t b b n trong ố ớ ộ ộ ố
đó:
1 là m t stack các token node ( v i ) ộ ớ
2 là m t dãy đã đ ộ ượ ắ c s p x p các token node () ế
3 là m t hàm t các token node đ n các node ộ ừ ế
4 là m t hàm t các token node đ n các ki u ph thu c ộ ừ ế ể ụ ộ
Trang 234 THU T TOÁN PHÂN TÍCH CÚ PHÁP Ậ 23
Trang 244 THU T TOÁN PHÂN TÍCH CÚ PHÁP Ậ 24
Trang 254 THU T TOÁN PHÂN TÍCH CÚ PHÁP Ậ 25
Đ nh nghĩa 15 ị M t ộ dãy các phép bi n đ i ế ổ tương ng v i m t ứ ớ ộ
xâu khi và ch khi n u , hay ().ỉ ế
Đ nh nghĩa 14 ị M t ộ dãy các phép bi n đ i d ng ế ổ ừ tương ng v i ứ ớ
m t xâu sẽ gán cho m t đ th ph thu c đ nh nghĩa b i ộ ộ ồ ị ụ ộ ị ở
Trang 264 THU T TOÁN PHÂN TÍCH CÚ PHÁP Ậ 26
THU T TOÁN QUY T Đ NH Ậ Ế Ị
Đ nh nghĩa 17 ị M t ộ guide là m t hàm th a mãn đi u ki n là ộ ỏ ề ệ
m t phép bi n đ i có th áp d ng lên (v i m i ), sao cho:ộ ế ổ ể ụ ớ ọ
Trang 274 THU T TOÁN PHÂN TÍCH CÚ PHÁP Ậ 27
THU T TOÁN QUY T Đ NH Ậ Ế Ị
Trang 28TÀI LI U THAM KH O Ệ 28 Ả
[1] Joakim Nivre 2006 Inductive Dependency Parsing (Text, Speech
and Language Technology) Springer-Verlag, Berlin, Heidelberg