điện thực thể tên là một trong những bài toán quan trọng nhất thuộc lĩnh vực này với yêu cầu đặt ra là nhận biết các chuỗi từ trong văn bản đại diện cho tên của một đối tượng.. Có nhiễu
Trang 1TRƯỜNG DẠI HỌC BÁCH KHOA HÀ NỘI
LUẬN VĂN THẠC SĨ
Ứng dụng học chuyển tiếp trong
bài toán trích xuất thong tin
từ CV xin việc
NGUYEN HONG SON
nguyenhongson kstn husttgmail.com
Ngành: Toán Tìn
Giảng viên hướng dẫn: TS Kguyễn Thị Thanh Huyền = Goa
HÀ NỘI, 03/2021
Trang 2Tom tắt nội đung luận văn
Trích chọn thông tín trong văn bản là một lĩnh vực nhỏ trong xử lý ngôn ngữ tự nhiên có tính ứng dụng cao và có nhu cầu cấp thiết trong thực tế vải đổi tượng là các văn bản chứa đựng thõng tin quan trong cần trích xuất Nhận
điện thực thể tên là một trong những bài toán quan trọng nhất thuộc lĩnh vực
này với yêu cầu đặt ra là nhận biết các chuỗi từ trong văn bản đại diện cho tên của một đối tượng Có nhiễu phương pháp giải quyết đối với bài toán này, trong
đó phương pháp học chuyển tiếp đã và đang cho thây khả năng mạnh mẽ đối với bài toán xử lý ngôn ngữ tự nhiên nói chung và bài toán nhận diện thực thể tôn nói riêng, Các kết quả của các mỏ hình học chuyển tiếp nổi bat nhu BERT, AI,BERT, XI.NET, FLECTRA cho thấy khả năng mổ hình hồn hiệu quả những đặo trưng lỗ
p quái tủa ngôn ngữ, Tuy nhiền đối với miền dữ hiếu có lính đặc thù cao, một số nhược điểm của học chuyển liếp nồi chứng và mồ hình BRRT
nói riêng được bộc lộ rõ rang
Trong nội dung của luận văn, tác giả tập trung vào bài toán trích xuất thông
tin từ CV xin việc Tác giả đề xuất một hệ thông trích xuất thông tin ứng dụng học chuyển tiếp giải quyết bài toán nhận diện thực thể tên Do dữ liệu có tính
đặc thù cao, tác giá nhận théy mé hinh BERL khong dat hiệu quả như mong
muốn Để giải quyết vấn đẻ này, tác giá đề xuất phương pháp cải thiện độ chính xác của mõ hình bằng việc tiền huấn luyện mö hình ngõn ngữ Flair trên cùng, miễn dữ liệu là ngön ngữ từ ƠV xin việc Các kết quả thử nghiệm trên bộ dữ
liệu đánh giá cho thây mặc dù mô hình Flair có kích thước nhủ, hiển trúc đơn
giản và khả năng giới hạn hơn mõ hình BERT, nhưng do được tiền huấn luyện
trên cùng miễn để liệu, mồ hình có khả năng học các đặc Lrưng của dữ liệu và đưa ra các dự đoán chính xác hơn đáng kể
Sang song với việc thực hiện các thực nghiệm cần thiết, tác giả cũng nghiên
cứu các công trình liên quan đến ưu nhược điểm của phương pháp học chuyển
tiếp nói chung cũng như đối với từng mô hình được thực nghiệm Dựa trên kết
liện, tác pid dita ra những đề xuất Liềm năng để cải liên kết quả hệ thẳng
Từ khôa: tnƒotmunlion cairueliom, Timmafer laming, HE, Phuẩy
Hà Nội, ngày 30 tháng 03 năm 2021
Xí và ghỉ r họ tên Ki vi ghi rd hạ tên
Trang 3LUAN VAN THAC éf NGUYEN HONG SƠN
cuộc đời tác giả Những đóng góp nhỏ bé của cuỗn luận văn này nhắc nhớ tác
giả rằng các nghiên cứu và kết quả này sẽ không thể được hoàn thiện nếu không
nhờ sự giúp đỡ của mọi người
Lời đầu tiên, tác giả xin gửi những lời cam dn sau sac nhất tới T8 Nguyễn
này Œõ dã dưa, ra rất nhiều lời nhận xét, giá trị, những Wei khuyến và những Trao
đi nhiều ý nghĩa Cô cũng cỗ vũ bác giả ngay từ khi ý Lưởng về đề lài này được
nhen nhóm trong tâm trí của tác giả, giúp cho tác giả quyết tâm nghiên cứu và hoàn thiện Trong suốt quá trình thực hiện luận văn, tác giả đã học được rất
nhiều kinh nghiệm chắc chắn sẽ có ích đối với sự nghiệp khoa học sau này của
tác giả
'1ác giả rất trân trọng những ý kiến nhận xét cụ thể, chỉ tiết và tận tâm của
T8 Lê Chí Ngọc và xin gửi lời cám ơn đến thầy Thầy đã nhiệt tình
tác giả trong những khoáng thời gian khó khăn Với kiến thức sãu sắc về lĩnh vực học máy và trí tuệ nhân tạo, thầy đã chỉ ra cho tác giã những điểm sai, thiểu
gối trong nghiên cửu Trên lãi, Ã, sự lặn tâm của thầy đối với ñ không chỉ riềng,
Lac giả mà còn với Lắt cả các học viên, sinh viên là điền mà, Íả ngưỡng mộ
Tôn nhất Nhiệu huyết và năng lượng gần như võ hạn cña thầy đối với khoa học
đã, đang và sẽ luôn luôn tạo động lực cho tác giả trên con đường nghiên cứu Tác giả xin cảm ơn chân thành tới 'TS Nguyễn Minh Tiển, giảng viên trường Dại học Sư Phạm Kỹ Thuật Hưng Yên, NLP team leader tại công ty 'UNHH Cinnamon Lab “L8 Nguyễn Minh 'Liễn đã giúp đổ, gốp ý cho tác giả rất nhiều không chỉ trong phạm vi của chủ đề mà tác giả nghiên cứu, mà còn trong cũng việu cũng nhĩ trong nghiên cổu khoa học nói chung, Tác giả sẽ không thể
nghiệm lần dầu tiên trình bày một, bài báo khoa học, với rất nhiều sai
gối sử: và điềm tÌ
8; những diểm yết tiển dược anh gốp ý lần lĩnh dã giúp tác
giÁ trường thành rất nhiều trong câng việc cing như trang nghiên cứu
Tie gid xin cắm ơn tật cá các thầy cô, bạn bè trong Viện Toán Ứng dụng và tin học Những kiến thức bể ích mà tác giả thu được thông qua quá trình học
tập và nghiên cứu, dưới sự hướng dẫn chỉ dạy của thầy cô, bạn bè nơi đây là nên tảng giúp tác giá hoàn thiện luận văn của mình Không những thế, đây là
Trang 4những hanh trang quan trọng sẽ đi cùng tác giả sau này Hơn nữa, những kỷ
niệm trong suốt quãng thời gian rèn luyện nơi đây là những kỷ niệm đáng nhớ
và đáng trân trọng đối với tác giả
mẽ và săn gầng đương dẫu với những thách thức mới trong khoa học
Mi l : giả xin được gửi đến các đồng nghiệp trong:
Công ty TNIIII Techainer Mặc đù thời gian đẳng hành của tác giả và công ty
không quá đài, nhưng đó là những kỷ niệm vô cùng đáng nhớ Nếu không có anh
em, bạn hè trong công ty, tác giả đã không thể hoàn thiện được bộ dữ liệu và
tất nhiên là cả, đề tài nghiên cứu này Những kinh nghiệm mà anh em, bạn bè
tác giả trần trọng và vận dựng trong cuộc sống và sự nghiệp khoa học của mình
tỉnh thần võ cũng quan trọng và lớn lao này dã giúp tác giả có tham dộng lực
để cổ gắng phần dầu, không lùi bước trước bất kỳ khó khăn thử thách nào Tác giả sẽ kháng thể nào theo đuổi sự nghiệp khoa học của mình nếu khöng có sự
giúp đã từ mọi người Từ sâu thẩm trái tìm, tác giá xin gửi lời cảm on đến bố
có ngày hém nay Tắc giả cũng xin cảm ơn chi ya em gái, luôn tạo động lực
cho tác giả trong những giai đoạn khó khăn nhất,
'lác giả trấn trọng cám ơn các thầy cõ đọc, đánh giá và đưa ra nhận xét đổi
Trang 51.2.3 Mục tiêu, bài toán|
1.2.4 Một số nghiên cứu liên quan|
1.3.3 Gác miö Wink hoc sat) wi ss ese ee we wees
b Transfer learning trong xử
2.1 BERT - Mo hinh biểu diễn hai chiều tiền huấn lu
Trang 6
[3.3 Nhan dién thực thể tên sử dụng mô hình BERT] 4
(3.4.2 Mô hình nhận diện thực thể tên Flair] 49
Trang 712 CV được trình bàu dưới dạng bảng} 18
2.1 — Äfô hình scquence-to-seguence thông thường| 24
2.5 Biéu diễn dữ liệu đầu uào của BERT] 33
BG Äfô hình ngôn ngữ tự hôi quy| .- 36
= M6 hinh gan nhan tuan tl we " " 50 3.5 Mo hinh ngôn: ngữ Plots os aah 8 Hea BR DER a 51
Trang 8Ket qua mo hinh Flair-NER cho dữ liệu thông tin cd ban} 53
3.4 Nết quả mô hành Flair-NER cho thông tin liên quan đến trình độ
3.5 Kết guả mô hình Plar-NER cho thông tin liên quan đến kỹ năng| 53
Trang 9AR Auloregressive, Tu bOi quy
BERT Bidirectional Eucoder Reprewetatious leon: Transformers,
Mö hình biểu diễn ngòn ngữ bai chiểu
oRF Cond:tiona: random field, ‘Irudng điều kiện ngẫu nhiên
ov Cmricnlun Vitae
HMM Hidden Markov model, Ma ainh Markov Ấn
TM Tanguage mndel, mô lẺnh ngôn rgữ
T.8TM Tong short term memory, Mang, bp nhé đài m
NER Nanied culily revognition, Nhaa diện thực U
ENN Recurreat seural neLwotk, Mạng neuron bồi tiếp
10
Trang 10Bài toán trích chọn thông tin trong văn bản (Document information extraetion)
đã và đang được tiếp cận và khai thác theo nhiều hướng khác nhau Trong đó
phương pháp học sâu (deep learning) dựa trên những bộ dữ liệu
lớn và đã ghi nhận những kết quả tốt với tính tổng quát cao hoặc các phương,
pháp học máy (machine learning) dựa trên việc phân tích và đánh giá
trưng của dữ liệu Tuy nhiên trong thực tế đối với lĩnh vực xử lý ngôn ngữ tự nhiên thì tập dữ liệu huấn luyện thường không sẵn có và tốn rất nhiều chi phí
phổ biến l
c đặc
đổ tạo ra Diều này đặt ra một yêu cầu rõ ràng cho những phương pháp tiếp cận
tập trung vào việc khai thác được đặc trưng ngôn ngữ từ những bố dữ liệu có
kích thước nhỏ hoặc khai thác thông tin từ các tập đữ liệu lớn và sit dung thong
tin học được áp dụng lên bài toán cụ thể Transfer learning (học chuyển tiếp)
ra đời dựa trên ý tưởng thứ hai, cho phép sử dụng thông tin tổng quan về một
lĩnh vực để áp dụng vào những bài toán cụ thể Các kết quả nghiên cứu trên
toán với nhiều tập dữ liệu đa dạng đã cho thấy khả năng vượt trội của
các phương pháp học chuyển tiếp [I] Trong khuôn khổ luận văn này, tác
đánh giá khả năng của họi
toán trích xuất thông tin từ hồ sơ xin việc (curriculum vitae - CV), từ đó đưa
ra những kết luận về sự hiệu quả cũng như những hạn chế của một số mõ hình
rất lớn Đây cũng là loại văn bản rất quan trọng đối với mọi cá nhãn trong quá
trình tìm kiếm việc làm Nói riêng về tình hình việc làm ở Việt Nam, dưới đây:
là một số thống kê trong quý IV năm 2020 E] :
e Lực lượng lao động từ 15 tnồi trở lên trong quý IV năm 2020 là 55,1 triệu
Trang 11LUAN VAN THAC éf NGUYEN HONG SƠN
“Ta có thể dễ dàng ước lượng được rằng có tới 100 nghìn lao động mới có bằng
cấp chứng chỉ trong quý IV năm 2020, như vậy số lượng hề sơ xin việc cần phải
xử lý mỗi quý lên đến hàng trăm nghìn hỗ sơ
‘Tuy nhiên dữ liệu CV cũng có những đặc điểm riêng khiến cho việc xứ lý loại văn bản này là một thách thức rất lớn Một số đặc trưng có thể nhận thấy rõ
ràng như sau:
« Định dạng không cố định (free formai): Không số bất kỹ một liêu chuẩn nào quy định đối với định dạng của CV Thông tín trong CV thường bao
gồm thông tin cơ bản, trình độ học vấn, kinh nghiệm, nhưng có thể được
trình bày theo bỗ cục bự do
« Mang dân phong cách sá nhân (highly personalixedj: Với mục dích tạn ẩn tượng đối với nhà tuyển dụng, người xìn việc thường trình bày CV của mình với những phong cách rất riêng và độc đáo
« Thông tín được bố trí phức Lạp (complex layoul): Bảng biểu, hình ảnh, thông tấu về vị trí được sử dụng rất thường xuyên trong vấn bắu loại này vì
nồ mang lại tỉnh trực quan cao Tuy nhiền điền này lại đem lại thách thiíc
1ổn đổi với các mö hình thuần về xử lý ngôn ngữ đo không thể khai thác các
thong tin về vị trí trong văn bản,
chọn đề tài "Ứng đụng học chuyển tiếp trong bài toán trích xuất thông
Đối tượng và phạm + vi nghiên cứu của để tài này bao gỗm:
« Đối Lượng nghiên cứu: Bài toáu trích xuất thỡng tản từ vấn ban sit dung học
chuyển tiếp
« lập dữ lệ
ngõn ngữ: Tiếng Anh và Tiếng Việt
‘Lap các CV xin việc (có nhãn và khong có nhãn) thuộc hai
« Phương pháp nghiên cứu: Nghiên cứu các công bỗ khoa học và, thực hiện
các thực nghiệm cần thiết
"Trong nội dung luận văn, tác giã sẽ trình bày những kết quả nghiên cứu của
minh vé bài toán trích xuất thông tỉn từ CV xin việc theo bố cục gỗm ba chương:
ø Chương thứ nhất trình bày về bài toán trích xuất thong tin từ văn bản nói chung và bài toán trích xuất thong tin từ CV xin việc nói rièng Các phương
12
Trang 12pháp tiẾp cận cơ bản được tác giả xem xét, phân tích và đánh giá, từ đĩ
đưa ra điểm mạnh yếu của từng phương pháp
« Chương thứ hai trình bày chỉ tiết về mõ bình học chuyển tiếp (Transfer learning), trong đĩ cĩ mạng biểu diễn hai chiều tiền huấn luyện cho mỏ
tình ngơn ngữ (BERT) và mơ lình biểu điễn ngơn ngữ dựa trên ngữ pảnh đành cho bài tốn đán nhãn tuần tự (Flạr) cùng các kiến khức nên Lắng Hiển
quan như dở chế chí ý (altentian), mạng neuron hồi tiếp (RNN) và mạng
bộ nhớ ngắn-dài (LSTM) BERT và Flair là những mơ hình ngơn ngữ tiễn
huấn luyện đã được kiểm chứng và đem lại kết quả ấn tượng cho nhiều tác
vụ xử lý ngơn ngữ tự nhiên khác nhau,
Ở chương thứ bá, táo giá dưa ra cách thức triển khai và áp dụng mơ lĩnh
học chuyển tiếp cho bài tốn nhận điện thực thé ten (NER)- một trong bốn
bài tốn cø bán của hệ thống trích chọn thưng tin từ CV xin việc Tác giả đánh giá kết quả của hai mơ hình khác nhan là BERT và Flaiz, từ đĩ đưa ra
những nhận xét về tác động của miền dữ liệu đến kết quả mơ hình cũng như
phương pháp xử lý phù hợp cho các loại hình dữ liệu đặc thù Lác giả cũng phân tích nhược điểm của từng phương pháp và đề xuất phương hướng cải
tiến cho hệ thống
Luận văn được hồn thành trong chương trình Thạc sĩ Khoa Hạc Tốn Tin tại học Viện tốn ting dung va Tin hoc, Dai hoc Bách Khoa Hà Nội đưới sự hướng dẫn của 'L5, Nguyễn Thị hanh Huyền
Mặc dù đã cố gắng nhưng do hạn chế về mặt thời gian vị kinh nghiệm, luận văn này khơng thể tránh khỏi những sai sĩi 'lác giả hy vọng nhận đượ
Trang 13CHƯƠNG 1 Tổng quan hài toắn
1.1 Bài toán trích chọn thông tin trong văn bản
1.1.1 Giới thiện
'I>ích chọn thông tin trong văn bản là một lĩnh vực nhỏ trong xử lý ngôn ngữ
tự nhiền Bài toán này có tính ứng đựng cao và nhu cầu cắp thiết trong thực tế,
“Trích chọn thông tin (km thập thống tìn) dược định nghĩa như gan:
Định nghĩa 1.1 {rich chon thing tin (Information oxtraction - 1B} nghién cre tác tụ trích chọn tự động thông tia có cấu lrúc từ dữ liệu mù mâu tính có thể dục dưặc Đối nói thừ liệu nữ lý là ngôn ngữ tà năn bền, bồi toận trữ thành ruột
lĩnh tực của „ử lý ngôn ngữ bự nhiên
Tựa vào đặc điểm của thờng tin cần được trích xuất mà bài toán được chia thành các bài toán con như sau:
« '1ìm kiếm trong mau (‘Lomplate filling)
Nhan dian thye thé ten (Named entity recognition - NER)
+ Phản bích mỗi liên hệ giiia ode thang tin (Relationship extraction)
« Trích chọn thông tin có cấu trúc
— Trích chọn trường thông tin trong bằng
— trích chọn câu văn, đoạn vin
1.1.2 Bài toán nhận điện thực thể tên
Nhận dạng thực thể tên (Named Entity Hecognilion - NI) còn gọi là nhận dạng thực thể định danh, xác định thực thể hoặc trích xuất thực thể là bài toán xáo định các chưổi tit trong van bản tương ứng với tên của một đối tượng nào
đó, điển hình như:
ø 'lền người (Person)
& Tên tổ chức (Organization)
1
Trang 14Tén dia diém (Location)
« Thời gian (Datetime)
Tién té (Monetary)
Trong đó, các thực thể như thời gian và tiền tệ thường không khó để nhận
dạng Các thực thể khác như tên người, tên tổ chức, tên địa điểm thường, mang
tính nhập nhằng cao, yên cầu mô hình phải phân tích dựa trên ngữ cảnh của
sinh học cần định nghĩa thêm các thực thể gen mang bệnh,
Bài toán nhận điện thực thể tên được định nghĩa như sau: cho trước chuỗi quan sát ký hiệu x = (zi.za zu) thông thường z¡ được biểu diễn dưới dang
B—T đánh dấu điểm khởi đầu của thực thể 7'
(begin type), 7 — 7 là các từ ngữ nằm trong thực thể T (inside type) Ngoài ra,
ta còn có nhãn Ø cho biết từ ngữ đó không thuộc bất kỳ thực the nao (outside)
“Ta có thể tham khảo ví dụ sau:
tà có hai nhãn 8 — 7 và I
Steve Jobs was a co-founder of Apple Inc
B-PER L-PER 0 0 0 0 B-ORG LORG
La một bài toán quan trọng và được nghiên cứu rộng, nhưng vẫn chưa có nhiều đánh giá về kết quả của bài toán trên các lĩnh vực hẹp cụ thể
1.2 Bài toán trích chọn thông tỉn trong CV xin việc
1.2.1 CV xin việc
CV xin việc (Curriculum Vitae) là văn bản chứa đựng các thông tin đại điện cho
một cá nhân, bao gồm các thông tin từ cơ bản đến đặc thù nhằm chứng minh
trình độ học thức hoặc kinh nghiệm làm việc của cá nhãn đó
CV xin việc thường chứa đựng những thông tin được mô tả ở Hình
thong tin quan trọng nhất là thông tin cá nhân, kinh nghiệm làm việc, trình độ
Các
học vấn và năng Ngoài ra, nhiều CV xin vỉ thường chứa một số thông tin
bên lề như mục tiêu nghề nghiệp
ở thích cá nhân hoặc lý do can tim công việc
Trang 15LUẬN VAN THAC Si NGUYEN HONG SON
« Thong tin eo bin (Personal information)
« Trinh do hoc vin (Education background)
« Kinh nghiệm làm việc (Experienee)
« Ky nang (Skill)
ø Chứng chỉ chuyên môn (Certification)
« Thành tích, giải thưởng (Award)
Sơn Hong Nguyen
Hane University of Scien ated Technology
Hag 10000, Vietnam hen: (180031028571
Education
Angwst 2014 DLE in Applied Mathematics and Taorrasticx (Thlent Progeam)
=May 2010 dfanot Universty of Scienex end Technology
PAS ay
August 2011 Bien Hoa High School for the Gifted
= May 2014 Specialiad in Physics
CPA: 8.1/10
Awards Scholarship Award
“The cxedicnre Scholarship fr the neademic wear 2016-2010 First prize
Scientie Risearch Content for Exell Students sear 2017 DỊ Scholarship Award
Natlonal ey program on matheuutical dovelopracat year 2016-2017
“The socond prize
‘Vietnam Natioual Physica Olympiad 2014 Gold Medal
Viettam Majoe High Schools in Norther Delta and Constal Aron Olympiad 2013 Specialized im Phyxice
Research — Npuje, MiniTien: Phat VietAnbr Le, Thal Link: Nesayen Hang Son:
Tc Dang: Hirano, Miku aad Hotta, Hajinw Jum 2019, Transfer Íearming óc Information Extraction with Lunatet Data Proator wt hs th
International Conteern of te Parte Associatia fr Computitionad Lingnistixs (PACLING 2019)
Nauyea, Afni Thom; Le, Dung: ke, ‘TH Link; Duong, Do Hoang Thai; Minh, Cong Bat:
Son, Nguyen Hong: Phong, Hal Nguyen, Wiep Hu Nguyen Ang 2028, AURORA: An information Extraction System of Domain-specsfc Business Document with Liesteal Data Accupted us CIKM 2020 Peatecs aad Den
Hình 1.1; Ví đụ vé CV ain viee
16
Trang 161.2.2 Dặc điểm dữ liệu
Dữ liệu được sử dụng ở đây là CV xin việc dưới định dạng có thể đọc trực tiếp
ác ký tự (PDF/DOC/DOCx) Những CV xin việc này được thu thập từ internet
hoặc được cung cấp bởi bên thứ ba Tác giả kết hợp cùng nhóm của mình thực hiện dán nhãn để tạo ra một bộ dữ liệu có giả trị cao, chỉ tiết bộ dữ liệu cu thể nhự sau:
« Tổng số lượng CV xin việc được thu thập: 10036
ø Các thông tin được gán nhãn và kích thước tập dữ liệu tương ứng với từng
loại như sau:
~ Thông tin cơ ban (Personal information): 1000 CV
— Trinh độ học van (Education background): 2204 CV
— Kinh nghiệm làm viée (Experience): 2204 CV
Trang 17LUẬN VAN THAC Si NGUYEN HONG SON
NGUYEN TH] THU HUONG 04/04/1991
Ngọc Động, Hoàng Đông, Duy Tiên, Hà Nam (184)356-241-252
Huong.ant.teqtkd@gmail.com
Trường Cao Đẳng tài chính quản trị kinh doanh
NGUYEN THI THU HUONG B
Hinh 1.2: CV duge trình bàu dưới dang bing
1.2.3 Muc tiéu, bai toan
Mục tiêu của đề tài là xây dựng một hệ thống có khả năng trích xuất các thông,
tin quan trọng nhất từ một V xin việc, từ đó có thể đưa ra được một bản
tóm tất có chất lượng cao chứa đựng những thông tìn có ý nghĩa nhất phục vụ cho những bước xử lý tiếp theo Thông tin được lấy ra cần được xác định có sự liên quan, ví dụ đối với khía cạnh trình độ học vấn, các thông tin được lấy ra cần được sắp xép chính xác theo từng mốc thời gian tương ứng là các cơ sở đào
tạo cũng như chuyên ngành tương ứng Do vậy, ngoài việc trích xuất các trường
thong tin thi tác giả cần phải đưa ra phương pháp phân cụm các trường thông,
tin
Tom lai, đối với một CV xin việc, mục tiêu đặt ra bao gồm:
e Trích xuất các trường thông tin quan trọng
e Kết hợp, nhóm các trường thông tin có quan hệ với nhau thành từng cụm
© Xây dựng lược đồ thời gian đối với CV đó
18
Trang 18Để đạt được mục tiêu này, tác giả đã xây dựng và giải quyết các bài toán sau:
« Bài toán 1: Phân tích cấu trúc văn bản, tuần tự hóa đữ liệu
ø Bài toán 2: Phân loại câu văn
« Bài toán 3: Nhận diện thực thể
e Bài toán 4: Phân nhóm thực thể
“Trong đó bài toán 1 được giải quyết bằng phương pháp sử dụng luật, bài toán
2 và 4 được tiếp cận bằng học máy thống kê và bài toán còn lại được giải quyết
bằng phương pháp học chuyển tiếp Trong khuôn khổ luận văn này, tác giả sẽ
tập trung trình bày về bài toán 3
1.2.4 Một số nghiên cứu liên quan
Bài toán trích xuất thông tỉn từ văn bản nói chung đã được nghiên cứu và tiếp cận bằng nhiều phương pháp khác nhau Chao H và công sự [ð] đưa ra phương pháp phân tích và trích xuất cấu trúc và nội dung của văn bản sử dụng luật Nguyen, M.T và cộng sự [Ø] xử lý bài toán trích xuất thong tin bằng cách đưa
về bài toán đọc hiểu, trả lời câu hỏi Tuy vậy, đối với bộ dữ liệu là CV xin việc,
các kết quả còn chưa nhiều Một vài kết quả nổi bật như công trình của Chen,
J và cộng, sự [5| sử dụng luật và học máy thống kê (mô hình CRF) dé phan tich
và trích xuất thông tin từ sơ yếu lý lịch Bhatia, V cùng cộng sự [7] sử dung
BERT cho việc trích xuất thông tin và xếp hạng ứng viên
1.2.5 Thách thức
Đề tài này tập trung vào dữ liệu ở mức văn bản, do vậy thách thức đầu tiên mà
tác giả gặp phải là cách thức thông tin được biểu diễn trong văn bản Với những
mẫu phức tạp thông tin thường được biểu điển đưới dạng bảng hoặc văn bản có
nhiều cột Điều này khiến cho việc tuần tự hóa (serialization) văn bản rất
nhiều khó k
Vấn đề thứ hai đó là về ngôn ngữ trong CV Dây là ngôn ngữ rất đặc thù và
khác biệt với ngôn ngữ trong văn học, văn bản hành chính hay ngôn ngữ đời
thường Diều này đặt ra một khoảng cách lớn khiến cho các mô hình tiền huấn
he
luyện dựa trên ngôn ngữ thông thường bị
vào bộ đữ liệu Kết quả
uy giảm tính hiệu quả khi áp dụng
Trang 19LUẬN VĂN THẠC SĨ NGUYEN HONG SON
1.3 Các hướng tiếp cận thông thường
Ta tập trung xem xét bài toán nhận diện thực thể tên Có nhiều cách thức tiếp
n đối với bài toán này, tùy thuộc vào đặc trưng của dữ liệu Tuy nhiên, về mặt
Hướng tiếp cận sử dụng, hệ luật được Hướng tiếp cận
này là hướng tiếp cận dễ nhất, có kết quả nhanh tuy nhiên đòi hỏi người sử dụng,
dựng bởi chuyên gi:
lến thức chuy ên môn cao về thực thể cần trích xuất từ đó đưa ra bộ luật tốt Hơn nữa tính kế thừa của phương pháp này rất yếu Hệ luật thường được tiếp cận bằng cách xem xét các khía cạnh sau như từ loại (danh từ, động từ )
ngữ cảnh (từ đứng trước, từ đứng sau), thuộc tính riêng của thực thể (độ dài,
viết hoa, ) kết hợp với bộ từ điển của thực thể để tạo luật Ví dụ bài toán nhận
"President Bush said Monday
a timetable for US forces to leave Iraq"
talk will incude discussion on security,
Trong vi du nay, tit "Bush" ditng sau tit "President" sẽ được nhận định là tên người (Person), "Iraq" đứng sau động từ "leave" sẽ được nhận định là tên địa điểm (Location)
1.3.2 Các mô hình học máy
Đối với bài toán nhận diện thực thể tên, có những mô hình học máy đem lại hiệu quả khá tốt như:
e Mô hình Marlkov ẩn (Hidden Markov Model - HMI được giới thiệu chỉ
tiết ở BJ: Thuật toán này sử dụng phương pháp tước lượng hợp lý cực đại
20
Trang 20(Maximum Likelihood Estimation) để cực đại hóa xác suất p(x y) trong,
đó x là một chuỗi bất kỳ trong dữ liệu và y là nhãn tương ứng với chuỗi đó
ø Mô hình Markov cực đại hóa Entropy (Maximum Entropy Markov Models
MEMM) cho bai toán đán nhãn tuần tự [Õ]: Mô hình này cho độ lỗi thấp hơn HMM Lúc này nhãn ¡ được ước lượng dựa vào các từ lân cận z¡ và
Mô hình trường điều kiện ngẫu nhiên (Conditional Random Fields - CRF) HỮ|: Điểm khác biệt của CRF so với MEMM ở chỗ nhãn không chỉ ước lượng thông qua nhãn trước đó mà còn dựa vào các nhãn ở tương lai (phía sau) Hơn nữa, CRF là mô hình đồ thị vô hướng còn HMM và MEMM là
mô hình đồ thị có hướng, Trong mô hình này, ta cũng cố gắng cực đại hóa
Do CRF tính toán Z(x) bang cách lấy tổng tất cá các khả năng nhãn của
c huấn luyện CRF sẽ tốn kém hon MEMM Sarawagi và Cohen đề xuất mõ hình semi-Markov CRF cho phép gán nhãn lên các cụm
từ của chuỗi đầu vào x va trích chọn đặc trưng trên cụm từ này giúp cho quá trình huấn luyện được giảm t: lä được chứng mỉnh rằng mô hình
này mang lại hiệu suất cao hơn thuật toán CRF truyền thống
chuỗi x nên vi
Trang 21
LUẬN VĂN THẠC SĨ NGUYEN HONG SON
1.3.3 Các mô hình hoc sau
Việc áp dụng mõ hình học sâu cho bài toán xử lý ngôn ngữ tự nhiên đã được áp dụng rất nhiều trong thời gian gần đây và đem lại kết quả ấn tượng Có hai lý
đó cỡ bản để các mô hình học sâu có thể đạt được những kết quả tốt là:
e Có khả năng khai thác được các đặc trưng quan trọng nhất của ngôn ngữ
© Có khả năng khai thác ngữ nghĩa dựa trên tính chất tuần tự của dữ liệu
e kết quả tốt nhất hiện tại trong lĩnh vực xử lý ngôn ngữ tự nhiên đạt được
bởi ba mô hình chính:
Mang neuron tich chap (Convolution neural network)
¢ Mang bé nhé ngan han dai (Long short term memory)
¢ Co ché Attention (Attention mechanisms)
au rat tốt, nhưng nhược điểm của các luyện rất lớn, mà hầu như là bất khả
Mặc dù kết quả của các mô hình học
mô hình này là đòi hỏi lượng dữ liệu hì
thi trong thực tế
'Ta có thể thấy rằng hai phương pháp học sâu và học máy thống kê có những
ưu và nhược điểm riêng biệt tương phản nhau Trong khi học máy thống kê có khả năng đem lại kết quả khá tốt với tập dữ liệu nhỏ thi hoc sau can tap dit lieu
rất lớn để phát huy tính hiệu quả Thay vào đó, kết quả của các mô hình học
sâu mang tính tổng quát lớn hơn nhiều
Như vậy, câu hỏi được đặt ra một cách rất tự nhiên là làm thế nào kết hợp được điểm mạ h của hai mô hình này Một phương pháp đem lại kết quả mang, tính tổng quát cao nhưng không đòi hỏi quá nhiều dữ liệu huấn luyện sẽ có tính
ứng dụng rất cao Phương pháp mà tác giả đang nói đến chính là phương pháp
22
Trang 22
Transfer learning (Hoc chuyển tiếp) là một phương pháp học tập trung vào
khai thác các kiến thức thu được trong quá trình giải quyết một
áp dụng nó vào một bài toán nhỏ hơn nhưng có liên quan Phương pháp học
chuyển tiếp có liên quan mật thiết đến vấn đề học đa tác vụ và chuyển đổi ngữ
cảnh, mặt khác học chuyển tiếp thường sử dụng các mô hình học sâu nhưng bản
thân học chuyển tiếp không phải là một lĩnh vực của học sâu
Có nhiều yếu tố để phân chia học chuyển tiếp thành các loại khác nhau Tuy
nhiên, nói riêng trong lĩnh vực xứ lý ngôn ngữ tự nhiên, học chuyển tiếp thường,
được áp dụng bằng cách sử dụng các mô hình tiền huấn lu)
mồ hình này là học đặc trưng của ngôn ngữ, mối quan hệ của từ, ngữ cảnh trong
yên Mục tiêu của các
câu văn cũng như mối quan hệ của các câu văn trong văn bản nhờ vào các tác
vụ cụ thể Khi miền đữ liệu huấn luyện đủ lớn, mô hình được kỳ vọng có khả
năng biểu diễn hiệu quả ý nghĩa của từ, ngữ cảnh và câu văn,
p trung vào hai mô hình BERT và
'Trong khuôn khổ luận văn này, tác giả
Flair Phan [2.1] va 2.9] sé trinh bay
HH là mô hình biểu diễn ngôn ngữ dựa trên ngữ cảnh được huấn luyện bằng việc mô hình hóa từ ngữ và ngữ cảnh là chuỗi tuần tự các ký tự Flair được xây dựng dựa trên kiến trúc mạng LSTM và đã đem lại các kết quả ấn tượng cho
“Transformers for Language Understanding [] là mô hình biểu diễn hai chiều cho ngôn ngữ tuân theo mô hình tự mã hóa (autoencoder) dựa trên khả năng của cơ
2.1 BERT - Mô hình biểu diễn hai chiều tiền huấn luyện
Như đã giới thiệu, BERT được xây dựng dựa trên kiến trúc Transformer với nền ảng là eơ chế chú ý (cơ chế attention - attention mechanism) Sau đây, tác giả
sẽ trình bầy tổng quan vẻ cơ chế attention cñng như mô hình transformer
Trang 23ÂN VĂN THẠC SĨ NGUYEN HONG SON
nghĩa của câu văn, một trong những vấn đề cơ bản của máy dịch Attention cho
phép mô hình tập trung hơn vào một hoặc một vài ngữ cảnh địa phương trong
câu văn, thay vì xem xét tất cả các từ ngữ trong câu có vai trò như nhau Dây cũng chính là nguồn gốc của tên gọi attention Mục tiêu của cơ chế attention là đưa ra các trọng số tương ứng với từng trạng thái đầu vào đại điện cho sự ảnh
hưởng của trạng thái đó lên ý nghĩa toàn cục của câu văn hoặc ý nghĩa eụe bộ
tai thời điểm mà mô hình đang xem xét Các khái niệm mã hóa - giải mã là các
khái niệm cơ bản được sử dụng trong máy dịch, và sẽ được sử đụng để giải thích phương pháp hoạt động của mô hình attention thông thường Theo đó, bộ mã hóa cho phép mã hóa một chuỗi thành một vector trong khi bộ giải mã thực
Cơ chế attention ban đầu được đề xuất để giải quyết bị
(sequence-to-sequence) thong thường bằng cơ chế mã hóa - giải n
được đưa vào để chỉnh sửa trọng số của vector trong phiên giải mã
Trang 24Plytl{yre + + yea} e) = guts st€) (2.1.4)
Trong đó, ở bước ma hoa, hy Be trang thai an beng ứng với dữ liệu đâu ví vào: che
của toàn bộ ci
nghĩa của từng từ ngữ cũng như ý nghĩa của toàn bộ câu văn Trong, bước giải
mã, xác suất của mỗi từ p(w|{mi —1}.e) được tính toán dựa trên các từ phía
trước _¡, vector ngữ cảnh s¿ và vector ý nghĩa của câu văn e được tạo ra trong:
« Trong hàm phân phối xác suất của bước giải mã, một tham số điều kiện
tương ứng với trạng thái + được sử dụng để kiểm soát thong tin ảnh hưởng
đến bước giải mã này:
Trang 25LUẬN VAN THAC Si NGUYEN HONG SON
Đễ thấy rằng phương trình |Ð.1.6|là một mô hình
sự tương ứng giữa giá trị đầu vào xung quanh vị trí j và giá trị đầu ra tại
vị trí f
Cae bién thé cia attention
Nhận thấy sự hiệu quả của mõ hình attention, rất nhiều biến thé ciia attention
được đưa ra cho nhiều mục đích khác nhau:
« Attention cứng - Hard attention :
— Xem xét attention như là các biến ẩn của mô hình
~ Dưa vào một phân phối xác suất rời rạc được tham số hóa bởi {a}, va
xem xét «& như một biến ngẫu nhiên Phân phối xác suất được định
nghĩa bởi: p(st¡ = 1|sj<t,A) = at,
26
Trang 26a= > Stitt
i sựý ~ Multinoulliz({a})
véi L la ham mat mat Ly = !og(p(y|a))
— hh: trang thai an nguén
— hy: trang thái an dich
— score(): hầm số tính toán mối liên hệ ngữ cảnh
Có ba dạng chính của hàm số tính toán mối liên hệ ngữ cảnh:
~ Hàm nhân: hƒh;
là xem xét tất cả các trang thai ẩn của bước mã hóa khi tính toán vector
(2.1.12)
Trang 27LUẬN VĂN THẠC SĨ NGUYEN HONG SON
thay đổi trọng số của mô hình tương ứng với từng vị trí Tuy nhiên
én giải ở phần này dựa trên ứng dụng của attention trong bài toán sinh
chuỗi với sự ảnh hưởng của các vị trí trên chuỗi mã hóa lên các vị trí khác trong,
Trên thực tế, trong bản thân một câu văn, mỗi liên hệ ngữ
trình mã hóa và giải mã, việc mô hình sự ảnh hưởng giữa các thành phần, vị trí
khác nhau trong câu văn là vô cùng cần thiết Đây chính là ý tưởng của cơ chế
tự chú sẽ được trình bày ngay sau đây
chuỗi đầu ra tương ứng Y
i tri a) dude sit dung
„ Đối với mỗi chuỗi đầu vào X = (zi.za z„) ta có
y) trong đó mỗi ; kết hợp thông tin của
(us moi x; cing nhu thong tin ve méi liên hệ giữa z¡ đến các vị trí khác trong X
Bộ vector (query, key, value) có thể được tạo ra bằng cách sử dụng phép chiếu
tuyến tính hoặc sử dụng mạng truyền thẳng
Với một giá trị query ạ các vector value (ø.»ạ „) và các vector key
(Et,kạ kạ) một giá trị đầu ra z được tính toán dựa theo phương trình:
“Trong đó, a; được tính toán g hầm softmax và ƒ(1¿.4) là hàm số đặc trưng
cho sự tương thích giữa k; và ạ, ở d giả goi là hàm tương thích
Hàm tương thích thường được sử dụng là hàm nhân ma trận - dot-produet funetion:
Trang 28
Ham nhaén ma tran thu gon - scaled dot-product function cing duge ua chudng:
us T
fia) = ae (2.1.16)
Việc giảm giá trị của hàm /
ic vector key, value cing nhit query tang,
Trong dé dy la s6 chiéu ctia key vector
đích tăng sự ồn định khi chiều của
lên
Việc tính toán này có thể được thực hiện một cách song song cho toàn bộ
chuỗi đầu vào bằng cách nhóm các vector query, key, valne tương ứng thành các
Phương pháp tính toán song song này có thể được coi là một đột phá về mặt kỹ
thuật, cho phép mô hình được huấn luyện nhanh hơn với kích thước lớn hơn và
bộ đữ liệu lớn ấn tượng Thực tế các mô hình tiền huấn luyện gần đây dựa trên
lượng tham số lớn ngoài sức tướng tượng [T3], [[1l
attention cổ điển, một cách tổng quát, ta có thể coi trạng thái phía trước của bộ giải mã là một vector truy vấn - query vector, trạng thái
ẩn của bộ mã hóa là khóa - key và giá trị - value vector, Két qua ciia attention
là giá trị trung bình có trọng số của các vector giá trị, trong đó hệ số được tính
toán dựa trên hầm tương thích giữa query và key Như vậy, thực chất mô hình
dụng trên bản thân một câu văn duy nhất với mục đích mã hóa, biểu điễn ý
nghĩa của câu văn đó
Cơ chế chú ý đa diện - Multi-head attention
Thay vì chỉ sự dụng cơ chế selEattention một lần cho (Q,K,V) với số chiều
dmodel CO chế multi-head attention được đưa ra bằng cách tính toán attention b
ó chiều tương ứng đ„¿„¿/h (head) Với mỗi head, bộ ma
trận (Q K,V) dude chiếu riêng biệt lên không gian đ„„„z¿¡/h chiều và tính toán
sel-attention Kết quả của mỗi head sau đó được nối lại và áp dụng một phép chiếu tuyến tính để đưa về không gian có số chiều tương ứng với bd (Q K.V)
lần với không gian có
ban dan
Mô hình tính toán được mô tả như sau:
MultiHead(Q K.V) Concat(heady, ., headn)W® (2.1.18)
29
Trang 29ÂN VĂN THẠC SĨ NGUYEN HONG SON
với we €Rdseeoek, JU € Resexdi,
TỶ €TRREhesaX6: và [VO € RBdxdosia
2.1.2 Mô hình Transformer
b năm 2017 v
u Đây là một mô hình
không sử dụng hồi quy và dựa hoàn toàn trên cơ chế attention để thể hiện sự
Transformer [15] duge gidi thiệu bởi Ashish Vaswani vi đã mở
ra một hướng đi hoàn toàn mới cho e: ¿ mô hình học
phụ thuộc toàn cục giữa đầu vào và đầu ra dữ liệu
Trang 30Lớp mã hĩa và giải mã
Lớp mã hĩa và giải mã của rõ hình 'Iransformer được mnơ tả như sau:
« Lép mé héa: Lớp mã hĩa dược hợp thành bởi 6 khối nhỏ hơn giống y hệt nhau Mỗi khối cố hai lớp con, trong dé lép dau tiến là một multi-head selfattenion như dã mơ tả ơ trên, Lớp thit hai 1a mot mang neuron diy
đủ truyền thẳng Lớp mã hĩa sử dụng các kết nối đư xung quanh mỗi lớp
con được đi theo bởi một lớp chuẩn hĩa, tức là đầu ra cúa mỗi lớp con
la mét Layer Norm(z + Sublawer(z)], với Subiawer(x) là hàm được thực hiện
bằng chính bản thần layer con đĩ Đầu ra này là một vector cĩ số chiều là
điàja — 012,
Lớp giải mã: Lớp giải mã cũng được tạo bải 6 khối giống hệt nhau Tuy
nhiên ở lớp giải mã, ngồi hai lớp con tương tự như các khối của lớp mã
hĩa, lớp giải mã được chèn thêm một lớp con thứ ba để thực hiện mulbi-hoad
attention trên đầu ra của lớp mã hĩa 'ương tự như lớp mã hĩa, ta sử dụng
các kết nổi dự xung quanh mỗi lớp con được đi theo bởi một lớp chuẩn la
Ư lớp giải mã này, lớp con sel-aktention cũng được chỉnh sửa để tránh tập trung vào các vị trí kiếp theo trong chuỗi, Điều này được thực hiện bồi một lép mat na, kết hợp với giá trị nhúng đầu ra dược bh bởi một giá trị vị trí
để đâm bão rằng gid tri dit doan cho vi tri i chi cĩ thể phụ thuộc vào các
gia tri dan ra đã biết trước của các vị trí nhỏ hơn ¿
Ấp dụng attcntion vào Transformer
Mé hinh Transformer stt dung inulti-head attention theo ba cách khác nhau:
« Trong liên kết giữa lớp mã hĩa và giải mã, vector truy vẫn dược lây tit lép
giải mã phía trước trong khi vector khĩa và vector giá trị được lấy từ giá trị đầu ra của lớp mã hĩa Điều này cho phép mọi vị trí của lớp mã hĩa sẽ
tự ưởng Truyền hơng của mt linh sequence-lo-sequence
Lớp mã hĩa sử dụng các lớp self-attention với cả ba vector khĩa, giá trị và truy vấn đều được lấy từ giá trị đầu ra của khối phía trước trong lớp mã
hĩa Mỗi vị trí trong lớp mã hĩa, cĩ thể chú ý để tắt cả các vị trí của lớp