1. Trang chủ
  2. » Luận Văn - Báo Cáo

Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc

61 2 0
Tài liệu được quét OCR, nội dung có thể không chính xác
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ CV xin việc
Tác giả Nguyen Hong Son
Người hướng dẫn TS. Nguyễn Thị Thanh Huyền
Trường học Trường Đại Học Bách Khoa Hà Nội
Chuyên ngành Toán Tin
Thể loại Luận văn
Năm xuất bản 2021
Thành phố Hà Nội
Định dạng
Số trang 61
Dung lượng 2,84 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

điện thực thể tên là một trong những bài toán quan trọng nhất thuộc lĩnh vực này với yêu cầu đặt ra là nhận biết các chuỗi từ trong văn bản đại diện cho tên của một đối tượng.. Có nhiễu

Trang 1

TRƯỜNG DẠI HỌC BÁCH KHOA HÀ NỘI

LUẬN VĂN THẠC SĨ

Ứng dụng học chuyển tiếp trong

bài toán trích xuất thong tin

từ CV xin việc

NGUYEN HONG SON

nguyenhongson kstn husttgmail.com

Ngành: Toán Tìn

Giảng viên hướng dẫn: TS Kguyễn Thị Thanh Huyền = Goa

HÀ NỘI, 03/2021

Trang 2

Tom tắt nội đung luận văn

Trích chọn thông tín trong văn bản là một lĩnh vực nhỏ trong xử lý ngôn ngữ tự nhiên có tính ứng dụng cao và có nhu cầu cấp thiết trong thực tế vải đổi tượng là các văn bản chứa đựng thõng tin quan trong cần trích xuất Nhận

điện thực thể tên là một trong những bài toán quan trọng nhất thuộc lĩnh vực

này với yêu cầu đặt ra là nhận biết các chuỗi từ trong văn bản đại diện cho tên của một đối tượng Có nhiễu phương pháp giải quyết đối với bài toán này, trong

đó phương pháp học chuyển tiếp đã và đang cho thây khả năng mạnh mẽ đối với bài toán xử lý ngôn ngữ tự nhiên nói chung và bài toán nhận diện thực thể tôn nói riêng, Các kết quả của các mỏ hình học chuyển tiếp nổi bat nhu BERT, AI,BERT, XI.NET, FLECTRA cho thấy khả năng mổ hình hồn hiệu quả những đặo trưng lỗ

p quái tủa ngôn ngữ, Tuy nhiền đối với miền dữ hiếu có lính đặc thù cao, một số nhược điểm của học chuyển liếp nồi chứng và mồ hình BRRT

nói riêng được bộc lộ rõ rang

Trong nội dung của luận văn, tác giả tập trung vào bài toán trích xuất thông

tin từ CV xin việc Tác giả đề xuất một hệ thông trích xuất thông tin ứng dụng học chuyển tiếp giải quyết bài toán nhận diện thực thể tên Do dữ liệu có tính

đặc thù cao, tác giá nhận théy mé hinh BERL khong dat hiệu quả như mong

muốn Để giải quyết vấn đẻ này, tác giá đề xuất phương pháp cải thiện độ chính xác của mõ hình bằng việc tiền huấn luyện mö hình ngõn ngữ Flair trên cùng, miễn dữ liệu là ngön ngữ từ ƠV xin việc Các kết quả thử nghiệm trên bộ dữ

liệu đánh giá cho thây mặc dù mô hình Flair có kích thước nhủ, hiển trúc đơn

giản và khả năng giới hạn hơn mõ hình BERT, nhưng do được tiền huấn luyện

trên cùng miễn để liệu, mồ hình có khả năng học các đặc Lrưng của dữ liệu và đưa ra các dự đoán chính xác hơn đáng kể

Sang song với việc thực hiện các thực nghiệm cần thiết, tác giả cũng nghiên

cứu các công trình liên quan đến ưu nhược điểm của phương pháp học chuyển

tiếp nói chung cũng như đối với từng mô hình được thực nghiệm Dựa trên kết

liện, tác pid dita ra những đề xuất Liềm năng để cải liên kết quả hệ thẳng

Từ khôa: tnƒotmunlion cairueliom, Timmafer laming, HE, Phuẩy

Hà Nội, ngày 30 tháng 03 năm 2021

Xí và ghỉ r họ tên Ki vi ghi rd hạ tên

Trang 3

LUAN VAN THAC éf NGUYEN HONG SƠN

cuộc đời tác giả Những đóng góp nhỏ bé của cuỗn luận văn này nhắc nhớ tác

giả rằng các nghiên cứu và kết quả này sẽ không thể được hoàn thiện nếu không

nhờ sự giúp đỡ của mọi người

Lời đầu tiên, tác giả xin gửi những lời cam dn sau sac nhất tới T8 Nguyễn

này Œõ dã dưa, ra rất nhiều lời nhận xét, giá trị, những Wei khuyến và những Trao

đi nhiều ý nghĩa Cô cũng cỗ vũ bác giả ngay từ khi ý Lưởng về đề lài này được

nhen nhóm trong tâm trí của tác giả, giúp cho tác giả quyết tâm nghiên cứu và hoàn thiện Trong suốt quá trình thực hiện luận văn, tác giả đã học được rất

nhiều kinh nghiệm chắc chắn sẽ có ích đối với sự nghiệp khoa học sau này của

tác giả

'1ác giả rất trân trọng những ý kiến nhận xét cụ thể, chỉ tiết và tận tâm của

T8 Lê Chí Ngọc và xin gửi lời cám ơn đến thầy Thầy đã nhiệt tình

tác giả trong những khoáng thời gian khó khăn Với kiến thức sãu sắc về lĩnh vực học máy và trí tuệ nhân tạo, thầy đã chỉ ra cho tác giã những điểm sai, thiểu

gối trong nghiên cửu Trên lãi, Ã, sự lặn tâm của thầy đối với ñ không chỉ riềng,

Lac giả mà còn với Lắt cả các học viên, sinh viên là điền mà, Íả ngưỡng mộ

Tôn nhất Nhiệu huyết và năng lượng gần như võ hạn cña thầy đối với khoa học

đã, đang và sẽ luôn luôn tạo động lực cho tác giả trên con đường nghiên cứu Tác giả xin cảm ơn chân thành tới 'TS Nguyễn Minh Tiển, giảng viên trường Dại học Sư Phạm Kỹ Thuật Hưng Yên, NLP team leader tại công ty 'UNHH Cinnamon Lab “L8 Nguyễn Minh 'Liễn đã giúp đổ, gốp ý cho tác giả rất nhiều không chỉ trong phạm vi của chủ đề mà tác giả nghiên cứu, mà còn trong cũng việu cũng nhĩ trong nghiên cổu khoa học nói chung, Tác giả sẽ không thể

nghiệm lần dầu tiên trình bày một, bài báo khoa học, với rất nhiều sai

gối sử: và điềm tÌ

8; những diểm yết tiển dược anh gốp ý lần lĩnh dã giúp tác

giÁ trường thành rất nhiều trong câng việc cing như trang nghiên cứu

Tie gid xin cắm ơn tật cá các thầy cô, bạn bè trong Viện Toán Ứng dụng và tin học Những kiến thức bể ích mà tác giả thu được thông qua quá trình học

tập và nghiên cứu, dưới sự hướng dẫn chỉ dạy của thầy cô, bạn bè nơi đây là nên tảng giúp tác giá hoàn thiện luận văn của mình Không những thế, đây là

Trang 4

những hanh trang quan trọng sẽ đi cùng tác giả sau này Hơn nữa, những kỷ

niệm trong suốt quãng thời gian rèn luyện nơi đây là những kỷ niệm đáng nhớ

và đáng trân trọng đối với tác giả

mẽ và săn gầng đương dẫu với những thách thức mới trong khoa học

Mi l : giả xin được gửi đến các đồng nghiệp trong:

Công ty TNIIII Techainer Mặc đù thời gian đẳng hành của tác giả và công ty

không quá đài, nhưng đó là những kỷ niệm vô cùng đáng nhớ Nếu không có anh

em, bạn hè trong công ty, tác giả đã không thể hoàn thiện được bộ dữ liệu và

tất nhiên là cả, đề tài nghiên cứu này Những kinh nghiệm mà anh em, bạn bè

tác giả trần trọng và vận dựng trong cuộc sống và sự nghiệp khoa học của mình

tỉnh thần võ cũng quan trọng và lớn lao này dã giúp tác giả có tham dộng lực

để cổ gắng phần dầu, không lùi bước trước bất kỳ khó khăn thử thách nào Tác giả sẽ kháng thể nào theo đuổi sự nghiệp khoa học của mình nếu khöng có sự

giúp đã từ mọi người Từ sâu thẩm trái tìm, tác giá xin gửi lời cảm on đến bố

có ngày hém nay Tắc giả cũng xin cảm ơn chi ya em gái, luôn tạo động lực

cho tác giả trong những giai đoạn khó khăn nhất,

'lác giả trấn trọng cám ơn các thầy cõ đọc, đánh giá và đưa ra nhận xét đổi

Trang 5

1.2.3 Mục tiêu, bài toán|

1.2.4 Một số nghiên cứu liên quan|

1.3.3 Gác miö Wink hoc sat) wi ss ese ee we wees

b Transfer learning trong xử

2.1 BERT - Mo hinh biểu diễn hai chiều tiền huấn lu

Trang 6

[3.3 Nhan dién thực thể tên sử dụng mô hình BERT] 4

(3.4.2 Mô hình nhận diện thực thể tên Flair] 49

Trang 7

12 CV được trình bàu dưới dạng bảng} 18

2.1 — Äfô hình scquence-to-seguence thông thường| 24

2.5 Biéu diễn dữ liệu đầu uào của BERT] 33

BG Äfô hình ngôn ngữ tự hôi quy| .- 36

= M6 hinh gan nhan tuan tl we " " 50 3.5 Mo hinh ngôn: ngữ Plots os aah 8 Hea BR DER a 51

Trang 8

Ket qua mo hinh Flair-NER cho dữ liệu thông tin cd ban} 53

3.4 Nết quả mô hành Flair-NER cho thông tin liên quan đến trình độ

3.5 Kết guả mô hình Plar-NER cho thông tin liên quan đến kỹ năng| 53

Trang 9

AR Auloregressive, Tu bOi quy

BERT Bidirectional Eucoder Reprewetatious leon: Transformers,

Mö hình biểu diễn ngòn ngữ bai chiểu

oRF Cond:tiona: random field, ‘Irudng điều kiện ngẫu nhiên

ov Cmricnlun Vitae

HMM Hidden Markov model, Ma ainh Markov Ấn

TM Tanguage mndel, mô lẺnh ngôn rgữ

T.8TM Tong short term memory, Mang, bp nhé đài m

NER Nanied culily revognition, Nhaa diện thực U

ENN Recurreat seural neLwotk, Mạng neuron bồi tiếp

10

Trang 10

Bài toán trích chọn thông tin trong văn bản (Document information extraetion)

đã và đang được tiếp cận và khai thác theo nhiều hướng khác nhau Trong đó

phương pháp học sâu (deep learning) dựa trên những bộ dữ liệu

lớn và đã ghi nhận những kết quả tốt với tính tổng quát cao hoặc các phương,

pháp học máy (machine learning) dựa trên việc phân tích và đánh giá

trưng của dữ liệu Tuy nhiên trong thực tế đối với lĩnh vực xử lý ngôn ngữ tự nhiên thì tập dữ liệu huấn luyện thường không sẵn có và tốn rất nhiều chi phí

phổ biến l

c đặc

đổ tạo ra Diều này đặt ra một yêu cầu rõ ràng cho những phương pháp tiếp cận

tập trung vào việc khai thác được đặc trưng ngôn ngữ từ những bố dữ liệu có

kích thước nhỏ hoặc khai thác thông tin từ các tập đữ liệu lớn và sit dung thong

tin học được áp dụng lên bài toán cụ thể Transfer learning (học chuyển tiếp)

ra đời dựa trên ý tưởng thứ hai, cho phép sử dụng thông tin tổng quan về một

lĩnh vực để áp dụng vào những bài toán cụ thể Các kết quả nghiên cứu trên

toán với nhiều tập dữ liệu đa dạng đã cho thấy khả năng vượt trội của

các phương pháp học chuyển tiếp [I] Trong khuôn khổ luận văn này, tác

đánh giá khả năng của họi

toán trích xuất thông tin từ hồ sơ xin việc (curriculum vitae - CV), từ đó đưa

ra những kết luận về sự hiệu quả cũng như những hạn chế của một số mõ hình

rất lớn Đây cũng là loại văn bản rất quan trọng đối với mọi cá nhãn trong quá

trình tìm kiếm việc làm Nói riêng về tình hình việc làm ở Việt Nam, dưới đây:

là một số thống kê trong quý IV năm 2020 E] :

e Lực lượng lao động từ 15 tnồi trở lên trong quý IV năm 2020 là 55,1 triệu

Trang 11

LUAN VAN THAC éf NGUYEN HONG SƠN

“Ta có thể dễ dàng ước lượng được rằng có tới 100 nghìn lao động mới có bằng

cấp chứng chỉ trong quý IV năm 2020, như vậy số lượng hề sơ xin việc cần phải

xử lý mỗi quý lên đến hàng trăm nghìn hỗ sơ

‘Tuy nhiên dữ liệu CV cũng có những đặc điểm riêng khiến cho việc xứ lý loại văn bản này là một thách thức rất lớn Một số đặc trưng có thể nhận thấy rõ

ràng như sau:

« Định dạng không cố định (free formai): Không số bất kỹ một liêu chuẩn nào quy định đối với định dạng của CV Thông tín trong CV thường bao

gồm thông tin cơ bản, trình độ học vấn, kinh nghiệm, nhưng có thể được

trình bày theo bỗ cục bự do

« Mang dân phong cách sá nhân (highly personalixedj: Với mục dích tạn ẩn tượng đối với nhà tuyển dụng, người xìn việc thường trình bày CV của mình với những phong cách rất riêng và độc đáo

« Thông tín được bố trí phức Lạp (complex layoul): Bảng biểu, hình ảnh, thông tấu về vị trí được sử dụng rất thường xuyên trong vấn bắu loại này vì

nồ mang lại tỉnh trực quan cao Tuy nhiền điền này lại đem lại thách thiíc

1ổn đổi với các mö hình thuần về xử lý ngôn ngữ đo không thể khai thác các

thong tin về vị trí trong văn bản,

chọn đề tài "Ứng đụng học chuyển tiếp trong bài toán trích xuất thông

Đối tượng và phạm + vi nghiên cứu của để tài này bao gỗm:

« Đối Lượng nghiên cứu: Bài toáu trích xuất thỡng tản từ vấn ban sit dung học

chuyển tiếp

« lập dữ lệ

ngõn ngữ: Tiếng Anh và Tiếng Việt

‘Lap các CV xin việc (có nhãn và khong có nhãn) thuộc hai

« Phương pháp nghiên cứu: Nghiên cứu các công bỗ khoa học và, thực hiện

các thực nghiệm cần thiết

"Trong nội dung luận văn, tác giã sẽ trình bày những kết quả nghiên cứu của

minh vé bài toán trích xuất thông tỉn từ CV xin việc theo bố cục gỗm ba chương:

ø Chương thứ nhất trình bày về bài toán trích xuất thong tin từ văn bản nói chung và bài toán trích xuất thong tin từ CV xin việc nói rièng Các phương

12

Trang 12

pháp tiẾp cận cơ bản được tác giả xem xét, phân tích và đánh giá, từ đĩ

đưa ra điểm mạnh yếu của từng phương pháp

« Chương thứ hai trình bày chỉ tiết về mõ bình học chuyển tiếp (Transfer learning), trong đĩ cĩ mạng biểu diễn hai chiều tiền huấn luyện cho mỏ

tình ngơn ngữ (BERT) và mơ lình biểu điễn ngơn ngữ dựa trên ngữ pảnh đành cho bài tốn đán nhãn tuần tự (Flạr) cùng các kiến khức nên Lắng Hiển

quan như dở chế chí ý (altentian), mạng neuron hồi tiếp (RNN) và mạng

bộ nhớ ngắn-dài (LSTM) BERT và Flair là những mơ hình ngơn ngữ tiễn

huấn luyện đã được kiểm chứng và đem lại kết quả ấn tượng cho nhiều tác

vụ xử lý ngơn ngữ tự nhiên khác nhau,

Ở chương thứ bá, táo giá dưa ra cách thức triển khai và áp dụng mơ lĩnh

học chuyển tiếp cho bài tốn nhận điện thực thé ten (NER)- một trong bốn

bài tốn cø bán của hệ thống trích chọn thưng tin từ CV xin việc Tác giả đánh giá kết quả của hai mơ hình khác nhan là BERT và Flaiz, từ đĩ đưa ra

những nhận xét về tác động của miền dữ liệu đến kết quả mơ hình cũng như

phương pháp xử lý phù hợp cho các loại hình dữ liệu đặc thù Lác giả cũng phân tích nhược điểm của từng phương pháp và đề xuất phương hướng cải

tiến cho hệ thống

Luận văn được hồn thành trong chương trình Thạc sĩ Khoa Hạc Tốn Tin tại học Viện tốn ting dung va Tin hoc, Dai hoc Bách Khoa Hà Nội đưới sự hướng dẫn của 'L5, Nguyễn Thị hanh Huyền

Mặc dù đã cố gắng nhưng do hạn chế về mặt thời gian vị kinh nghiệm, luận văn này khơng thể tránh khỏi những sai sĩi 'lác giả hy vọng nhận đượ

Trang 13

CHƯƠNG 1 Tổng quan hài toắn

1.1 Bài toán trích chọn thông tin trong văn bản

1.1.1 Giới thiện

'I>ích chọn thông tin trong văn bản là một lĩnh vực nhỏ trong xử lý ngôn ngữ

tự nhiền Bài toán này có tính ứng đựng cao và nhu cầu cắp thiết trong thực tế,

“Trích chọn thông tin (km thập thống tìn) dược định nghĩa như gan:

Định nghĩa 1.1 {rich chon thing tin (Information oxtraction - 1B} nghién cre tác tụ trích chọn tự động thông tia có cấu lrúc từ dữ liệu mù mâu tính có thể dục dưặc Đối nói thừ liệu nữ lý là ngôn ngữ tà năn bền, bồi toận trữ thành ruột

lĩnh tực của „ử lý ngôn ngữ bự nhiên

Tựa vào đặc điểm của thờng tin cần được trích xuất mà bài toán được chia thành các bài toán con như sau:

« '1ìm kiếm trong mau (‘Lomplate filling)

Nhan dian thye thé ten (Named entity recognition - NER)

+ Phản bích mỗi liên hệ giiia ode thang tin (Relationship extraction)

« Trích chọn thông tin có cấu trúc

— Trích chọn trường thông tin trong bằng

— trích chọn câu văn, đoạn vin

1.1.2 Bài toán nhận điện thực thể tên

Nhận dạng thực thể tên (Named Entity Hecognilion - NI) còn gọi là nhận dạng thực thể định danh, xác định thực thể hoặc trích xuất thực thể là bài toán xáo định các chưổi tit trong van bản tương ứng với tên của một đối tượng nào

đó, điển hình như:

ø 'lền người (Person)

& Tên tổ chức (Organization)

1

Trang 14

Tén dia diém (Location)

« Thời gian (Datetime)

Tién té (Monetary)

Trong đó, các thực thể như thời gian và tiền tệ thường không khó để nhận

dạng Các thực thể khác như tên người, tên tổ chức, tên địa điểm thường, mang

tính nhập nhằng cao, yên cầu mô hình phải phân tích dựa trên ngữ cảnh của

sinh học cần định nghĩa thêm các thực thể gen mang bệnh,

Bài toán nhận điện thực thể tên được định nghĩa như sau: cho trước chuỗi quan sát ký hiệu x = (zi.za zu) thông thường z¡ được biểu diễn dưới dang

B—T đánh dấu điểm khởi đầu của thực thể 7'

(begin type), 7 — 7 là các từ ngữ nằm trong thực thể T (inside type) Ngoài ra,

ta còn có nhãn Ø cho biết từ ngữ đó không thuộc bất kỳ thực the nao (outside)

“Ta có thể tham khảo ví dụ sau:

tà có hai nhãn 8 — 7 và I

Steve Jobs was a co-founder of Apple Inc

B-PER L-PER 0 0 0 0 B-ORG LORG

La một bài toán quan trọng và được nghiên cứu rộng, nhưng vẫn chưa có nhiều đánh giá về kết quả của bài toán trên các lĩnh vực hẹp cụ thể

1.2 Bài toán trích chọn thông tỉn trong CV xin việc

1.2.1 CV xin việc

CV xin việc (Curriculum Vitae) là văn bản chứa đựng các thông tin đại điện cho

một cá nhân, bao gồm các thông tin từ cơ bản đến đặc thù nhằm chứng minh

trình độ học thức hoặc kinh nghiệm làm việc của cá nhãn đó

CV xin việc thường chứa đựng những thông tin được mô tả ở Hình

thong tin quan trọng nhất là thông tin cá nhân, kinh nghiệm làm việc, trình độ

Các

học vấn và năng Ngoài ra, nhiều CV xin vỉ thường chứa một số thông tin

bên lề như mục tiêu nghề nghiệp

ở thích cá nhân hoặc lý do can tim công việc

Trang 15

LUẬN VAN THAC Si NGUYEN HONG SON

« Thong tin eo bin (Personal information)

« Trinh do hoc vin (Education background)

« Kinh nghiệm làm việc (Experienee)

« Ky nang (Skill)

ø Chứng chỉ chuyên môn (Certification)

« Thành tích, giải thưởng (Award)

Sơn Hong Nguyen

Hane University of Scien ated Technology

Hag 10000, Vietnam hen: (180031028571

Education

Angwst 2014 DLE in Applied Mathematics and Taorrasticx (Thlent Progeam)

=May 2010 dfanot Universty of Scienex end Technology

PAS ay

August 2011 Bien Hoa High School for the Gifted

= May 2014 Specialiad in Physics

CPA: 8.1/10

Awards Scholarship Award

“The cxedicnre Scholarship fr the neademic wear 2016-2010 First prize

Scientie Risearch Content for Exell Students sear 2017 DỊ Scholarship Award

Natlonal ey program on matheuutical dovelopracat year 2016-2017

“The socond prize

‘Vietnam Natioual Physica Olympiad 2014 Gold Medal

Viettam Majoe High Schools in Norther Delta and Constal Aron Olympiad 2013 Specialized im Phyxice

Research — Npuje, MiniTien: Phat VietAnbr Le, Thal Link: Nesayen Hang Son:

Tc Dang: Hirano, Miku aad Hotta, Hajinw Jum 2019, Transfer Íearming óc Information Extraction with Lunatet Data Proator wt hs th

International Conteern of te Parte Associatia fr Computitionad Lingnistixs (PACLING 2019)

Nauyea, Afni Thom; Le, Dung: ke, ‘TH Link; Duong, Do Hoang Thai; Minh, Cong Bat:

Son, Nguyen Hong: Phong, Hal Nguyen, Wiep Hu Nguyen Ang 2028, AURORA: An information Extraction System of Domain-specsfc Business Document with Liesteal Data Accupted us CIKM 2020 Peatecs aad Den

Hình 1.1; Ví đụ vé CV ain viee

16

Trang 16

1.2.2 Dặc điểm dữ liệu

Dữ liệu được sử dụng ở đây là CV xin việc dưới định dạng có thể đọc trực tiếp

ác ký tự (PDF/DOC/DOCx) Những CV xin việc này được thu thập từ internet

hoặc được cung cấp bởi bên thứ ba Tác giả kết hợp cùng nhóm của mình thực hiện dán nhãn để tạo ra một bộ dữ liệu có giả trị cao, chỉ tiết bộ dữ liệu cu thể nhự sau:

« Tổng số lượng CV xin việc được thu thập: 10036

ø Các thông tin được gán nhãn và kích thước tập dữ liệu tương ứng với từng

loại như sau:

~ Thông tin cơ ban (Personal information): 1000 CV

— Trinh độ học van (Education background): 2204 CV

— Kinh nghiệm làm viée (Experience): 2204 CV

Trang 17

LUẬN VAN THAC Si NGUYEN HONG SON

NGUYEN TH] THU HUONG 04/04/1991

Ngọc Động, Hoàng Đông, Duy Tiên, Hà Nam (184)356-241-252

Huong.ant.teqtkd@gmail.com

Trường Cao Đẳng tài chính quản trị kinh doanh

NGUYEN THI THU HUONG B

Hinh 1.2: CV duge trình bàu dưới dang bing

1.2.3 Muc tiéu, bai toan

Mục tiêu của đề tài là xây dựng một hệ thống có khả năng trích xuất các thông,

tin quan trọng nhất từ một V xin việc, từ đó có thể đưa ra được một bản

tóm tất có chất lượng cao chứa đựng những thông tìn có ý nghĩa nhất phục vụ cho những bước xử lý tiếp theo Thông tin được lấy ra cần được xác định có sự liên quan, ví dụ đối với khía cạnh trình độ học vấn, các thông tin được lấy ra cần được sắp xép chính xác theo từng mốc thời gian tương ứng là các cơ sở đào

tạo cũng như chuyên ngành tương ứng Do vậy, ngoài việc trích xuất các trường

thong tin thi tác giả cần phải đưa ra phương pháp phân cụm các trường thông,

tin

Tom lai, đối với một CV xin việc, mục tiêu đặt ra bao gồm:

e Trích xuất các trường thông tin quan trọng

e Kết hợp, nhóm các trường thông tin có quan hệ với nhau thành từng cụm

© Xây dựng lược đồ thời gian đối với CV đó

18

Trang 18

Để đạt được mục tiêu này, tác giả đã xây dựng và giải quyết các bài toán sau:

« Bài toán 1: Phân tích cấu trúc văn bản, tuần tự hóa đữ liệu

ø Bài toán 2: Phân loại câu văn

« Bài toán 3: Nhận diện thực thể

e Bài toán 4: Phân nhóm thực thể

“Trong đó bài toán 1 được giải quyết bằng phương pháp sử dụng luật, bài toán

2 và 4 được tiếp cận bằng học máy thống kê và bài toán còn lại được giải quyết

bằng phương pháp học chuyển tiếp Trong khuôn khổ luận văn này, tác giả sẽ

tập trung trình bày về bài toán 3

1.2.4 Một số nghiên cứu liên quan

Bài toán trích xuất thông tỉn từ văn bản nói chung đã được nghiên cứu và tiếp cận bằng nhiều phương pháp khác nhau Chao H và công sự [ð] đưa ra phương pháp phân tích và trích xuất cấu trúc và nội dung của văn bản sử dụng luật Nguyen, M.T và cộng sự [Ø] xử lý bài toán trích xuất thong tin bằng cách đưa

về bài toán đọc hiểu, trả lời câu hỏi Tuy vậy, đối với bộ dữ liệu là CV xin việc,

các kết quả còn chưa nhiều Một vài kết quả nổi bật như công trình của Chen,

J và cộng, sự [5| sử dụng luật và học máy thống kê (mô hình CRF) dé phan tich

và trích xuất thông tin từ sơ yếu lý lịch Bhatia, V cùng cộng sự [7] sử dung

BERT cho việc trích xuất thông tin và xếp hạng ứng viên

1.2.5 Thách thức

Đề tài này tập trung vào dữ liệu ở mức văn bản, do vậy thách thức đầu tiên mà

tác giả gặp phải là cách thức thông tin được biểu diễn trong văn bản Với những

mẫu phức tạp thông tin thường được biểu điển đưới dạng bảng hoặc văn bản có

nhiều cột Điều này khiến cho việc tuần tự hóa (serialization) văn bản rất

nhiều khó k

Vấn đề thứ hai đó là về ngôn ngữ trong CV Dây là ngôn ngữ rất đặc thù và

khác biệt với ngôn ngữ trong văn học, văn bản hành chính hay ngôn ngữ đời

thường Diều này đặt ra một khoảng cách lớn khiến cho các mô hình tiền huấn

he

luyện dựa trên ngôn ngữ thông thường bị

vào bộ đữ liệu Kết quả

uy giảm tính hiệu quả khi áp dụng

Trang 19

LUẬN VĂN THẠC SĨ NGUYEN HONG SON

1.3 Các hướng tiếp cận thông thường

Ta tập trung xem xét bài toán nhận diện thực thể tên Có nhiều cách thức tiếp

n đối với bài toán này, tùy thuộc vào đặc trưng của dữ liệu Tuy nhiên, về mặt

Hướng tiếp cận sử dụng, hệ luật được Hướng tiếp cận

này là hướng tiếp cận dễ nhất, có kết quả nhanh tuy nhiên đòi hỏi người sử dụng,

dựng bởi chuyên gi:

lến thức chuy ên môn cao về thực thể cần trích xuất từ đó đưa ra bộ luật tốt Hơn nữa tính kế thừa của phương pháp này rất yếu Hệ luật thường được tiếp cận bằng cách xem xét các khía cạnh sau như từ loại (danh từ, động từ )

ngữ cảnh (từ đứng trước, từ đứng sau), thuộc tính riêng của thực thể (độ dài,

viết hoa, ) kết hợp với bộ từ điển của thực thể để tạo luật Ví dụ bài toán nhận

"President Bush said Monday

a timetable for US forces to leave Iraq"

talk will incude discussion on security,

Trong vi du nay, tit "Bush" ditng sau tit "President" sẽ được nhận định là tên người (Person), "Iraq" đứng sau động từ "leave" sẽ được nhận định là tên địa điểm (Location)

1.3.2 Các mô hình học máy

Đối với bài toán nhận diện thực thể tên, có những mô hình học máy đem lại hiệu quả khá tốt như:

e Mô hình Marlkov ẩn (Hidden Markov Model - HMI được giới thiệu chỉ

tiết ở BJ: Thuật toán này sử dụng phương pháp tước lượng hợp lý cực đại

20

Trang 20

(Maximum Likelihood Estimation) để cực đại hóa xác suất p(x y) trong,

đó x là một chuỗi bất kỳ trong dữ liệu và y là nhãn tương ứng với chuỗi đó

ø Mô hình Markov cực đại hóa Entropy (Maximum Entropy Markov Models

MEMM) cho bai toán đán nhãn tuần tự [Õ]: Mô hình này cho độ lỗi thấp hơn HMM Lúc này nhãn ¡ được ước lượng dựa vào các từ lân cận z¡ và

Mô hình trường điều kiện ngẫu nhiên (Conditional Random Fields - CRF) HỮ|: Điểm khác biệt của CRF so với MEMM ở chỗ nhãn không chỉ ước lượng thông qua nhãn trước đó mà còn dựa vào các nhãn ở tương lai (phía sau) Hơn nữa, CRF là mô hình đồ thị vô hướng còn HMM và MEMM là

mô hình đồ thị có hướng, Trong mô hình này, ta cũng cố gắng cực đại hóa

Do CRF tính toán Z(x) bang cách lấy tổng tất cá các khả năng nhãn của

c huấn luyện CRF sẽ tốn kém hon MEMM Sarawagi và Cohen đề xuất mõ hình semi-Markov CRF cho phép gán nhãn lên các cụm

từ của chuỗi đầu vào x va trích chọn đặc trưng trên cụm từ này giúp cho quá trình huấn luyện được giảm t: lä được chứng mỉnh rằng mô hình

này mang lại hiệu suất cao hơn thuật toán CRF truyền thống

chuỗi x nên vi

Trang 21

LUẬN VĂN THẠC SĨ NGUYEN HONG SON

1.3.3 Các mô hình hoc sau

Việc áp dụng mõ hình học sâu cho bài toán xử lý ngôn ngữ tự nhiên đã được áp dụng rất nhiều trong thời gian gần đây và đem lại kết quả ấn tượng Có hai lý

đó cỡ bản để các mô hình học sâu có thể đạt được những kết quả tốt là:

e Có khả năng khai thác được các đặc trưng quan trọng nhất của ngôn ngữ

© Có khả năng khai thác ngữ nghĩa dựa trên tính chất tuần tự của dữ liệu

e kết quả tốt nhất hiện tại trong lĩnh vực xử lý ngôn ngữ tự nhiên đạt được

bởi ba mô hình chính:

Mang neuron tich chap (Convolution neural network)

¢ Mang bé nhé ngan han dai (Long short term memory)

¢ Co ché Attention (Attention mechanisms)

au rat tốt, nhưng nhược điểm của các luyện rất lớn, mà hầu như là bất khả

Mặc dù kết quả của các mô hình học

mô hình này là đòi hỏi lượng dữ liệu hì

thi trong thực tế

'Ta có thể thấy rằng hai phương pháp học sâu và học máy thống kê có những

ưu và nhược điểm riêng biệt tương phản nhau Trong khi học máy thống kê có khả năng đem lại kết quả khá tốt với tập dữ liệu nhỏ thi hoc sau can tap dit lieu

rất lớn để phát huy tính hiệu quả Thay vào đó, kết quả của các mô hình học

sâu mang tính tổng quát lớn hơn nhiều

Như vậy, câu hỏi được đặt ra một cách rất tự nhiên là làm thế nào kết hợp được điểm mạ h của hai mô hình này Một phương pháp đem lại kết quả mang, tính tổng quát cao nhưng không đòi hỏi quá nhiều dữ liệu huấn luyện sẽ có tính

ứng dụng rất cao Phương pháp mà tác giả đang nói đến chính là phương pháp

22

Trang 22

Transfer learning (Hoc chuyển tiếp) là một phương pháp học tập trung vào

khai thác các kiến thức thu được trong quá trình giải quyết một

áp dụng nó vào một bài toán nhỏ hơn nhưng có liên quan Phương pháp học

chuyển tiếp có liên quan mật thiết đến vấn đề học đa tác vụ và chuyển đổi ngữ

cảnh, mặt khác học chuyển tiếp thường sử dụng các mô hình học sâu nhưng bản

thân học chuyển tiếp không phải là một lĩnh vực của học sâu

Có nhiều yếu tố để phân chia học chuyển tiếp thành các loại khác nhau Tuy

nhiên, nói riêng trong lĩnh vực xứ lý ngôn ngữ tự nhiên, học chuyển tiếp thường,

được áp dụng bằng cách sử dụng các mô hình tiền huấn lu)

mồ hình này là học đặc trưng của ngôn ngữ, mối quan hệ của từ, ngữ cảnh trong

yên Mục tiêu của các

câu văn cũng như mối quan hệ của các câu văn trong văn bản nhờ vào các tác

vụ cụ thể Khi miền đữ liệu huấn luyện đủ lớn, mô hình được kỳ vọng có khả

năng biểu diễn hiệu quả ý nghĩa của từ, ngữ cảnh và câu văn,

p trung vào hai mô hình BERT và

'Trong khuôn khổ luận văn này, tác giả

Flair Phan [2.1] va 2.9] sé trinh bay

HH là mô hình biểu diễn ngôn ngữ dựa trên ngữ cảnh được huấn luyện bằng việc mô hình hóa từ ngữ và ngữ cảnh là chuỗi tuần tự các ký tự Flair được xây dựng dựa trên kiến trúc mạng LSTM và đã đem lại các kết quả ấn tượng cho

“Transformers for Language Understanding [] là mô hình biểu diễn hai chiều cho ngôn ngữ tuân theo mô hình tự mã hóa (autoencoder) dựa trên khả năng của cơ

2.1 BERT - Mô hình biểu diễn hai chiều tiền huấn luyện

Như đã giới thiệu, BERT được xây dựng dựa trên kiến trúc Transformer với nền ảng là eơ chế chú ý (cơ chế attention - attention mechanism) Sau đây, tác giả

sẽ trình bầy tổng quan vẻ cơ chế attention cñng như mô hình transformer

Trang 23

ÂN VĂN THẠC SĨ NGUYEN HONG SON

nghĩa của câu văn, một trong những vấn đề cơ bản của máy dịch Attention cho

phép mô hình tập trung hơn vào một hoặc một vài ngữ cảnh địa phương trong

câu văn, thay vì xem xét tất cả các từ ngữ trong câu có vai trò như nhau Dây cũng chính là nguồn gốc của tên gọi attention Mục tiêu của cơ chế attention là đưa ra các trọng số tương ứng với từng trạng thái đầu vào đại điện cho sự ảnh

hưởng của trạng thái đó lên ý nghĩa toàn cục của câu văn hoặc ý nghĩa eụe bộ

tai thời điểm mà mô hình đang xem xét Các khái niệm mã hóa - giải mã là các

khái niệm cơ bản được sử dụng trong máy dịch, và sẽ được sử đụng để giải thích phương pháp hoạt động của mô hình attention thông thường Theo đó, bộ mã hóa cho phép mã hóa một chuỗi thành một vector trong khi bộ giải mã thực

Cơ chế attention ban đầu được đề xuất để giải quyết bị

(sequence-to-sequence) thong thường bằng cơ chế mã hóa - giải n

được đưa vào để chỉnh sửa trọng số của vector trong phiên giải mã

Trang 24

Plytl{yre + + yea} e) = guts st€) (2.1.4)

Trong đó, ở bước ma hoa, hy Be trang thai an beng ứng với dữ liệu đâu ví vào: che

của toàn bộ ci

nghĩa của từng từ ngữ cũng như ý nghĩa của toàn bộ câu văn Trong, bước giải

mã, xác suất của mỗi từ p(w|{mi —1}.e) được tính toán dựa trên các từ phía

trước _¡, vector ngữ cảnh s¿ và vector ý nghĩa của câu văn e được tạo ra trong:

« Trong hàm phân phối xác suất của bước giải mã, một tham số điều kiện

tương ứng với trạng thái + được sử dụng để kiểm soát thong tin ảnh hưởng

đến bước giải mã này:

Trang 25

LUẬN VAN THAC Si NGUYEN HONG SON

Đễ thấy rằng phương trình |Ð.1.6|là một mô hình

sự tương ứng giữa giá trị đầu vào xung quanh vị trí j và giá trị đầu ra tại

vị trí f

Cae bién thé cia attention

Nhận thấy sự hiệu quả của mõ hình attention, rất nhiều biến thé ciia attention

được đưa ra cho nhiều mục đích khác nhau:

« Attention cứng - Hard attention :

— Xem xét attention như là các biến ẩn của mô hình

~ Dưa vào một phân phối xác suất rời rạc được tham số hóa bởi {a}, va

xem xét «& như một biến ngẫu nhiên Phân phối xác suất được định

nghĩa bởi: p(st¡ = 1|sj<t,A) = at,

26

Trang 26

a= > Stitt

i sựý ~ Multinoulliz({a})

véi L la ham mat mat Ly = !og(p(y|a))

— hh: trang thai an nguén

— hy: trang thái an dich

— score(): hầm số tính toán mối liên hệ ngữ cảnh

Có ba dạng chính của hàm số tính toán mối liên hệ ngữ cảnh:

~ Hàm nhân: hƒh;

là xem xét tất cả các trang thai ẩn của bước mã hóa khi tính toán vector

(2.1.12)

Trang 27

LUẬN VĂN THẠC SĨ NGUYEN HONG SON

thay đổi trọng số của mô hình tương ứng với từng vị trí Tuy nhiên

én giải ở phần này dựa trên ứng dụng của attention trong bài toán sinh

chuỗi với sự ảnh hưởng của các vị trí trên chuỗi mã hóa lên các vị trí khác trong,

Trên thực tế, trong bản thân một câu văn, mỗi liên hệ ngữ

trình mã hóa và giải mã, việc mô hình sự ảnh hưởng giữa các thành phần, vị trí

khác nhau trong câu văn là vô cùng cần thiết Đây chính là ý tưởng của cơ chế

tự chú sẽ được trình bày ngay sau đây

chuỗi đầu ra tương ứng Y

i tri a) dude sit dung

„ Đối với mỗi chuỗi đầu vào X = (zi.za z„) ta có

y) trong đó mỗi ; kết hợp thông tin của

(us moi x; cing nhu thong tin ve méi liên hệ giữa z¡ đến các vị trí khác trong X

Bộ vector (query, key, value) có thể được tạo ra bằng cách sử dụng phép chiếu

tuyến tính hoặc sử dụng mạng truyền thẳng

Với một giá trị query ạ các vector value (ø.»ạ „) và các vector key

(Et,kạ kạ) một giá trị đầu ra z được tính toán dựa theo phương trình:

“Trong đó, a; được tính toán g hầm softmax và ƒ(1¿.4) là hàm số đặc trưng

cho sự tương thích giữa k; và ạ, ở d giả goi là hàm tương thích

Hàm tương thích thường được sử dụng là hàm nhân ma trận - dot-produet funetion:

Trang 28

Ham nhaén ma tran thu gon - scaled dot-product function cing duge ua chudng:

us T

fia) = ae (2.1.16)

Việc giảm giá trị của hàm /

ic vector key, value cing nhit query tang,

Trong dé dy la s6 chiéu ctia key vector

đích tăng sự ồn định khi chiều của

lên

Việc tính toán này có thể được thực hiện một cách song song cho toàn bộ

chuỗi đầu vào bằng cách nhóm các vector query, key, valne tương ứng thành các

Phương pháp tính toán song song này có thể được coi là một đột phá về mặt kỹ

thuật, cho phép mô hình được huấn luyện nhanh hơn với kích thước lớn hơn và

bộ đữ liệu lớn ấn tượng Thực tế các mô hình tiền huấn luyện gần đây dựa trên

lượng tham số lớn ngoài sức tướng tượng [T3], [[1l

attention cổ điển, một cách tổng quát, ta có thể coi trạng thái phía trước của bộ giải mã là một vector truy vấn - query vector, trạng thái

ẩn của bộ mã hóa là khóa - key và giá trị - value vector, Két qua ciia attention

là giá trị trung bình có trọng số của các vector giá trị, trong đó hệ số được tính

toán dựa trên hầm tương thích giữa query và key Như vậy, thực chất mô hình

dụng trên bản thân một câu văn duy nhất với mục đích mã hóa, biểu điễn ý

nghĩa của câu văn đó

Cơ chế chú ý đa diện - Multi-head attention

Thay vì chỉ sự dụng cơ chế selEattention một lần cho (Q,K,V) với số chiều

dmodel CO chế multi-head attention được đưa ra bằng cách tính toán attention b

ó chiều tương ứng đ„¿„¿/h (head) Với mỗi head, bộ ma

trận (Q K,V) dude chiếu riêng biệt lên không gian đ„„„z¿¡/h chiều và tính toán

sel-attention Kết quả của mỗi head sau đó được nối lại và áp dụng một phép chiếu tuyến tính để đưa về không gian có số chiều tương ứng với bd (Q K.V)

lần với không gian có

ban dan

Mô hình tính toán được mô tả như sau:

MultiHead(Q K.V) Concat(heady, ., headn)W® (2.1.18)

29

Trang 29

ÂN VĂN THẠC SĨ NGUYEN HONG SON

với we €Rdseeoek, JU € Resexdi,

TỶ €TRREhesaX6: và [VO € RBdxdosia

2.1.2 Mô hình Transformer

b năm 2017 v

u Đây là một mô hình

không sử dụng hồi quy và dựa hoàn toàn trên cơ chế attention để thể hiện sự

Transformer [15] duge gidi thiệu bởi Ashish Vaswani vi đã mở

ra một hướng đi hoàn toàn mới cho e: ¿ mô hình học

phụ thuộc toàn cục giữa đầu vào và đầu ra dữ liệu

Trang 30

Lớp mã hĩa và giải mã

Lớp mã hĩa và giải mã của rõ hình 'Iransformer được mnơ tả như sau:

« Lép mé héa: Lớp mã hĩa dược hợp thành bởi 6 khối nhỏ hơn giống y hệt nhau Mỗi khối cố hai lớp con, trong dé lép dau tiến là một multi-head selfattenion như dã mơ tả ơ trên, Lớp thit hai 1a mot mang neuron diy

đủ truyền thẳng Lớp mã hĩa sử dụng các kết nối đư xung quanh mỗi lớp

con được đi theo bởi một lớp chuẩn hĩa, tức là đầu ra cúa mỗi lớp con

la mét Layer Norm(z + Sublawer(z)], với Subiawer(x) là hàm được thực hiện

bằng chính bản thần layer con đĩ Đầu ra này là một vector cĩ số chiều là

điàja — 012,

Lớp giải mã: Lớp giải mã cũng được tạo bải 6 khối giống hệt nhau Tuy

nhiên ở lớp giải mã, ngồi hai lớp con tương tự như các khối của lớp mã

hĩa, lớp giải mã được chèn thêm một lớp con thứ ba để thực hiện mulbi-hoad

attention trên đầu ra của lớp mã hĩa 'ương tự như lớp mã hĩa, ta sử dụng

các kết nổi dự xung quanh mỗi lớp con được đi theo bởi một lớp chuẩn la

Ư lớp giải mã này, lớp con sel-aktention cũng được chỉnh sửa để tránh tập trung vào các vị trí kiếp theo trong chuỗi, Điều này được thực hiện bồi một lép mat na, kết hợp với giá trị nhúng đầu ra dược bh bởi một giá trị vị trí

để đâm bão rằng gid tri dit doan cho vi tri i chi cĩ thể phụ thuộc vào các

gia tri dan ra đã biết trước của các vị trí nhỏ hơn ¿

Ấp dụng attcntion vào Transformer

Mé hinh Transformer stt dung inulti-head attention theo ba cách khác nhau:

« Trong liên kết giữa lớp mã hĩa và giải mã, vector truy vẫn dược lây tit lép

giải mã phía trước trong khi vector khĩa và vector giá trị được lấy từ giá trị đầu ra của lớp mã hĩa Điều này cho phép mọi vị trí của lớp mã hĩa sẽ

tự ưởng Truyền hơng của mt linh sequence-lo-sequence

Lớp mã hĩa sử dụng các lớp self-attention với cả ba vector khĩa, giá trị và truy vấn đều được lấy từ giá trị đầu ra của khối phía trước trong lớp mã

hĩa Mỗi vị trí trong lớp mã hĩa, cĩ thể chú ý để tắt cả các vị trí của lớp

Ngày đăng: 12/06/2025, 20:27

HÌNH ẢNH LIÊN QUAN

Hình  3.1:  M6  hink  sequence-to-sequence  thông  thường - Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
nh 3.1: M6 hink sequence-to-sequence thông thường (Trang 23)
Hình  2.2:  Soft  attention - Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
nh 2.2: Soft attention (Trang 25)
Hinh  24:  A2  hình  Transformer - Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
inh 24: A2 hình Transformer (Trang 29)
Hình  2.6:  Mo  hình  ngôn  ngữ  tự  hỏi  quy - Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
nh 2.6: Mo hình ngôn ngữ tự hỏi quy (Trang 35)
Hình  3.7:  Nguyên  tắc  hot  động  của  RNN - Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
nh 3.7: Nguyên tắc hot động của RNN (Trang 36)
Hình  3.1:  Kiến  trúc  tổng  quan - Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
nh 3.1: Kiến trúc tổng quan (Trang 40)
Hình  3.4:  Afô  hình  gán  nhân.  tuần  tự - Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
nh 3.4: Afô hình gán nhân. tuần tự (Trang 49)
Hinh  3.5:  A2  hình  ngôn  ngữ  Flair - Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
inh 3.5: A2 hình ngôn ngữ Flair (Trang 50)
Bảng  .4[  thể  hiện  kết  quả  trích  xuất c - Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
ng .4[ thể hiện kết quả trích xuất c (Trang 51)
Bảng  3.4:  Két  qué  mo  hinh  Flair-NER  cho  thong  tin  liên  quan  đến  trình  độ  học  uấn - Luận văn Ứng dụng học chuyển tiếp trong bài toán trích xuất thông tin từ cv xin việc
ng 3.4: Két qué mo hinh Flair-NER cho thong tin liên quan đến trình độ học uấn (Trang 52)

🧩 Sản phẩm bạn có thể quan tâm

w