1. Trang chủ
  2. » Luận Văn - Báo Cáo

Phân tích xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet

65 24 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 65
Dung lượng 2,6 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Phân tích xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet Phân tích xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet Phân tích xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên internet luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp luận văn tốt nghiệp,luận văn thạc sĩ, luận văn cao học, luận văn đại học, luận án tiến sĩ, đồ án tốt nghiệp

Trang 1

HƠăN i ậ 2019

Trang 2

NG IăH NGăD NăKHOAăH C:

TS NGUY NăH UăĐ C

HƠăN i ậ 2019

Trang 4

L I C M N

Đ ăhoƠnăthƠnhălu năánănƠy,ătr căh tătôiăxinăbƠyăt ălòngăkínhătr ngăvƠăbi tă nă

t iăTS.ăNguy năH uăĐ c,ăng iăth yăđƣătr căti păh ngăd n,ăgiúpăđỡătôiătrongăquáătrìnhăh căt păvƠăth căhi nălu năán

Cu iăcùngătôiăxinăc mă năgiaăđìnhăvƠănh ngăng iăb năvìăs ăđ ngăviênătrongă

su tăth iăgianăth căhi nălu năvĕn

Trang 5

M C L C

L IăCAMăĐOAN 1

L I C Mă N 2

DANH M C B NG 5

DANH M C HÌNH V , BI UăĐ 6

M Đ U 8

CH NGă1:ăT NG QUAN V BÀI TOÁN 9

1.1.ăĐ ng b vƠăl uătr d li u nhi uăđ nh d ng 9

1.2 T ng h p th ng kê, tr c quan s li u 9

1.3 Phân tích d đoánăxuăh ng 9

1.4 Các công c ,ămôăhìnhăđápă ng cho bài toán 10

1.4.1 H th ng qu n tr vƠăl uătr c ăs d li u NOSQL 10

1.4.2 Các công c tr c quan hóa s li u 13

1.4.3 M ngăn -ron nhân t o và mô hình d đoán 14

K t lu năch ngă1 22

CH NG 2: XÂY D NGăCH NGăTRÌNHăTHUăTH P VÀ PHÂN TÍCH XU H NG NGH NGHI P 24

2.1 Phân tích m c tiêu 24

2.2 Gi i quy t bài toán 25

2.2.1.ăC ăs d li u 25

2.2.2 Các công c gi i quy t yêu c u 25

K t lu năch ngă2 32

CH NGă3:ăMỌăPH NG TH C NGHI MăCH NGăTRÌNH 33

3.1.ăMôiătr ngăcƠiăđặt và công c l p trình 33

3.1.1.ăCƠiăđặt, thi t l p CSDL MongoDB Sharded Cluster 34

3.1.2.ăCƠiăđặt Task-Scheduler l p l chăđ ng b 39

3.1.3.ăCƠiăđặt công c hi n th và phân tích d li u TableAU 43

3.1.4.ăCƠiăđặtăcácăth ăvi n Python và tri n khai mã code cho mô hình d đoánă LSTM 44

3.2.ăDemoăch ngătrình 47

Trang 6

3.2.1.ăĐ ng b vƠăl uătr d li u 48

3.2.2 Trình di n d li u 51

3.2.3 Phân tích d đoánăxuăh ng vi c làm 55

K t lu năch ngă3: 59

CH NGă4:ăK T LU NăVĨăPH NGăH NG NGHIÊN C U, PHÁT TRI N 60

4.1 K t lu n 60

4.2 Các m cătiêuăđƣăvƠăch aăđ tăđ c 60

4.3 Nghiên c uătrongăt ngălai 61

TÀI LI U THAM KH O 62

Trang 7

DANH M C B NG

B ngă1.1.ăCácăd ngăd ăli uăNoSQL 10

B ngă1.2.ăăN -ronănhơnăt oă 14

B ngă1.3.ăCácăhƠmătruy nă 15

B ngă1.4.ăM ngănhi uăt ngătruy năthẳngă 16

B ngă1.5.ăH căgiámăsát 17

B ngă1.6.ăH căkhôngăgiámăsát 17

B ngă1.7.ăH cătĕngăc ng 18

B ngă1.8.ăMôăhìnhăLSTMăb că1 21

B ngă1.9.ăMôăhìnhăLSTMăb că2 21

B ngă1.10.ăMôăhìnhăLSTMăb că3 22

B ngă1.11.ăMôăhìnhăLSTMăb că4 22

B ngă2.1.ăB ngăc uătrúcăd ăli uătuy năd ng 25

B ngă2.2.ăModuleăPhơnătíchăd ăbáo 30

B ngă2.3.ăMôăhìnhăCSDLăl uătr ăc uăhìnhăphơnătích 31

B ngă2.4.ăMôăhìnhăm ngăn -ronăd ăđoán 31

B ngă3.1.ăB ngăđánhăhi uănĕngătruyăv năcácămôăhìnhăl uătr ăd ăli u 51

B ngă3.2.ăTh ngăkêăcácănhuăc uătuy năd ngăc aăcácăCôngăty 54

B ngă3.3.ăĐánhăgiáătỉăl ăd ăđoánănhơnăs ătuy năd ngăngƠnhăIT 58

B ngă3.4.ăĐánhăgiáătỉăl ăd ăđoánăđ ătu iătuy năd ngătrungăbình 58

Trang 8

DANH M C HÌNH V Ẽ, BI U Đ

Hìnhă1.1.ăD ăli uăd ngăKey-Value 11

Hìnhă1.2.ăD ăli uăd ngăDocument 11

Hình 1.3.ăD ăli uăd ngăColoumn 12

Hìnhă1.4.ăD ăli uăd ngăGraphă 12

Hìnhă1.5.ăĐánhăgiáăcácăcôngăc ătrìnhădi năd ăli uă 13

Hình 1.8 Mô hìnhăm ngăn -ronăh iăquyăRNNă 20

Hìnhă1.9.ăMôăhìnhăm ngăLSTMă 21

Hìnhă2.1.ăKi nătrúcăt ngăth ăh ăth ng 24

Hìnhă2.2.ăLu ngăthuăth păd ăli u 25

Hìnhă2.3.ăCácăb căthuăth păd li u 26

Hìnhă2.4.ăKi nătrúcăAPIăGateway 27

Hình 2.5.ăKi nătrúcăCSDLăMongoDBă 28

Hìnhă2.6.ăKi nătrúcăcôngăc ăphơnătích,ătrìnhăbƠyăd ăli uăTableAUă 29

Hìnhă2.7.ăL uăđ ăho tăđ ngăc aăhƠmăhu năluy n 32

Hìnhă3.1.ăCƠiăđặtăh ăđi uăhƠnh 33

Hìnhă3.2.ăThi tăl păm ngăNetwork 34

Hình 3.3ăH ăth ngăsauăcƠiăđặt 34

Hìnhă3.4.ăMôăhìnhătri năkhaiăc măCSDLăShardedăclusteră 35

Hìnhă3.5.ăH ăth ngăMongoăOpsăManagerăsauăkhiăcƠiăđặt 36

Hình 3.6.ăT oăm iăProjectătrênăOpsăMangager 36

Hìnhă3.7.ăC uăhìnhăShardedăCluster 37

Hìnhă3.8.ăThi tăl păkeyăvƠăgroupăchoăCSDL 37

Hìnhă3.9.ăThi tăl păshared clusterăv iăcácămáy 38

Hìnhă3.10.ăThi tăl păc uăhìnhăCSDLăchoăcácănode 38

Hìnhă3.11.ăThi tăl păSharding 39

Hìnhă3.12.ăMôăhìnhăCSDLăsauăcƠiăđặt 39

Hìnhă3.13.ăL păl chăthuăth păd ăli u 40

Hình 3.14 Mô hìnhătri năkhaiăcôngăc ăBIă 44

Hìnhă3.15.ăThi tăl păBIăConnector 44

Hìnhă3.16.ăD ăli uăthuăth păđ cătừăcácăCrawler 48

Trang 9

Hìnhă3.17.ăT ăch căl uătr ăd ăli uăd iăd ngăfile 48

Hìnhă3.18.ăTi nătrìnhăđ ngăb ăd ăli u 49

Hìnhă3.19.ăK tăqu ăthuăth păvƠăphơnăchiaăl uătr ăd ăli u 50

Hìnhă3.20.ăBáoăcáoăth ngăkêănhuăc uătuy năd ngăvi călƠmăc aăVi tăNamătừănĕmă2014ă đ nă2018 52

Hìnhă3.21.ăBáoăcáoăphơnăb ănhómăngƠnhăngh ătuy năd ngănĕmă2018 52

Hìnhă3.22.ăPhơnăb ăs ăl ngătuy năd ngătheoăcácăTỉnh 53

Hìnhă3.23.ăPhơnăb ănhuăc uătuy năd ngăhi năth ătrênăb năđ 53

Hình 3.24.ăNhuăc uătuy năd ngăngƠnhăCNTTăt iăcácăTỉnhătừănĕm 2014ăđ n 2018 54

Hìnhă3.26.ăTh ngăkêăcácănhuăc uătuy năd ngătheoăngƠnhăngh 54

Hìnhă3.27.ăTh ngăkêăđ ătu iătrungăbìnhăcácăngƠnh 55

Hìnhă3.28.ăTh ngăkêăs ănĕmăkinhănghi măchoăcácăngƠnhăngh 55

Hìnhă3.29.ăMƠnăhìnhăthi tăl pălo iădanhăm căbáoăcáoăphơnătíchăd ăđoán 55

Hìnhă3.30.ăMƠnăhìnhăch yăk tăqu ăphơnătích 56

Hìnhă3.31.ăK tăqu ăphơnătíchăxuăh ngătuy năd ngăngƠnhăITăt iăHƠăN iă03ăthángăcu iă nĕmă2018 57

Hìnhă3.32.ăK tăqu ăd ăbáoăđ ătu iătuy năd ngălaoăđôngătrungăbìnhă05ăthángăcu iănĕmă 2018 57

Trang 10

M Đ U

Chúngătaăđangăs ngătrongăth iăđ iăcôngăngh ,ăth iăđ iăbùngăn ăthôngătinăv iăs ăgiúpăs căvƠălanăt aăc aăm ngăInternetăđƣăgiúpăchoăconăng iăcóăth ăd ădƠngăti păc nă

v iăcácăngu năthôngătinămƠăkhôngăgặpătr ăng iăv ăkhôngăgianăvƠăth iăgian Thông tin

v ătuy năd ngăvi călƠm cũngăph iălƠăngo iăl , hằngăngƠyăcóăr tănhi uătinăđĕngătuy n,ăngătuy năchoăcácăv ă tríăcôngăvi c t iă nhi uăcôngătyă đ că đ aălên trên các website tuy năd ng.ăBênăc nhăđó,ăvi căti păc năvƠăt ngăh păcác thông tin trên đƣăđ căh ătr ă

r tănhi uătừ cácăcôngăc ăthuăth păd ăli uă(Crawler)ăđ căphátătri năsẵnăcóănh : Scrapy, Splash,ầTháchăth căđặtăraăsauăkhiăthuăth păđ căd ăli uălƠăph iăt ăch căl uătr ,ăphơnătíchăvƠăkhaiăthácăthôngătinăcóăhi uăqu ăđ ăph căv ăcácăm c đíchăxaăh nănh :ăth ngăkê,ă

d ăđoánăxuăh ng,

Xu tăphátătừănhuăc uănƠy,ătrongăkhuônăkh ălu năvĕnăth căs ,ăh căviênăđ ăxu tă

th căhi năđ ătƠiă"Phân tích xu hướng nghề nghiệp dựa trên thông tin tuyển dụng trên

Internet ", v iăm cătiêuăchínhălƠăxơyăd ngăh ăth ng đ ngăb ,ăt ăch căl uătr ăd ăli u,ă

t ngăh păphơnătíchăcũngănh ăd ăbáoăxuăh ngăvi călƠm

Đ iăt ngănghiênăc uăc aăđ ătƠiălƠăcácăcôngăc ăh ătr ăđ ngăb ,ăl uătr ăvƠăphơnătíchăd ăli uăcũngănh ămôăhìnhăd ăđoánăxuăh ngătheoăchu iăth iăgian

Ph măviănghiên c u:ăCácăd ăli uăđ căthuăth pătừăcácăwebsiteătuy năd ngăvi călàm đƣăđ căthuăth pătừăcácăch ngătrìnhăCrawler

Trongălu năvĕn,ătácăgi ănghiênăc uălýălu năvƠăđƣ xơyăd ngăm tăh ăth ngăhoàn chỉnhătừăvi căthuăth păthôngătinătuy năd ngăđ năbáoăcáoăvƠăphơnătíchăxuăh ng

N iădungăc aălu năvĕnăđ căchiaălƠmă4 ch ngăv iăn iădungănh ăsau:

Ch ngă1ăđ aăraăcáiănhìnăt ngăquanăv ă yêuăc uăbƠiătoán,ăcácăcôngăc ăvƠămôăhìnhăh ătr ăl uătr ,ăphơnătíchăvƠăd ăđoánăxuăh ngăngh ănghi p

Ch ngă2 phơnătíchăbƠiătoánăvƠăxơyăd ng chiăti tăcácăMô-đunăph căv ăđ ngăb ,ă

t ăch căl uătr ăd ăli uăvƠăphơnătíchăxuăh ng

Ch ngă3ăđ aăraănh ngăk tăqu ăth cănghi m

Ch ngă4ăk tălu năvƠăph ngăh ngănghiênăc u,ăphátătri n

Trang 11

CH NG 1: T NG QUAN V BÀI TOÁN 1.1 Đ ng b vƠ l u tr d li u nhi u đ nh d ng

V iăs ăphátătri năvƠăbùngăn ăCNTTăvƠătruy năthông,ăcácătinăt cătuy năd ngă

đ căđĕngăt iăvƠăc pănh tăth ngăxuyênătrênăcácăwebsiteătuy năd ngăcũngănh ăm ngăxƣă h i,ầă cácă thông tin th ngă cóă cácă đ nhă d ngă khôngă đ ngă nh tă v ă c uă trúc,ă tùyăthu căvƠoăm iăngu năđĕngăt iăs ăcóăc uătrúcăd ăli uăkhácănhau.ăBênăc nhăđó,ăcácătrìnhăthuăth păd ăli uăm iăb căđ uăgiúpăchúngătaăthuăth păthƠnhăcác fileăd ăli uănguyênăg că(raw) ch aăđ căđ ngăb ăvƠăt ăch căl uătr ăt pătrungăđ ăph căv ăcácăbƠiătoánăt ngă

h p,ăphơnătíchăvƠăd ăđoánăxuăh ng

Cĕnăc ăvƠoăy uăt ănh ătrên,ăvi căc năgi iăquy tăđ uătiênălƠăt ăch căđ ngăb ăvƠă

l uătr ăd ăli uăvƠoăc ăs ăd ăli uăt pătrung đ ăđ măb oăvi cătruyăv năvƠăth căhi năcácănghi păv ăm tăcáchăthu năti năvƠănhanhănh t

1.2 T ng h p th ng kê, tr c quan s li u

Khiăd ăli uăđƣăđ căthuăth păvƠăl uătr chúngătaăc năcóăcácăcôngăc ăđ h pă

th ngăkêăvƠătr căquanăhóaăs ăli uăthƠnhăcácăd ngăb ng,ăbi u Tuyănhiên,ăv iăngu năthông tin d ăli u r t l n,ăthêm vƠoăđóălƠănhuăc uăth ngăkê,ăbáoăcáoăr t da d ng,ăxoayătheo nhi uăgócănhìn Vi cănƠyăđòiăh iăchúngătaăc năcácăcôngăh ătr ăbáoăcáoăchuyênă

bi t.ăTrongăbƠiătoánănƠy,ătácăgi ăđặtăm cătiêuăc nătheoădõiăđ căm tăs ăcácăbáoăcáoă

th ngăkêănh ăsau:

 Nhuăc uătuy năd ngăvi călƠmăc aăVi tăNamăătừănĕmă2014ăđ nă2018

 Phơnăb ănhómăngƠnhăngh ătuy năd ngănĕmă2018

 Phơnăb ănhómăngƠnhăngh ătuy năd ngătheoăTỉnh

 Nhuăc uătuy năd ngăc aăcácăCôngăty

1.3 Phân tích d đoán xu h ng

Cácăcôngăty,ăcácănhƠătuy năd ngăl nătrênăth ăgi iăbênăc nhăvi cănhìnăcácăd ăli uă

c aăquáăkh ,ăhi năt iăthìăhi nănay thêmănhuăc uăd ăđoánăxuăh ngăcóăth ăx yăraătrongă

t ngălaiăg n cũngăr tăl n.ăĐơyăs ălƠăcĕnăc ,ăn năt ngăđ h ătr cácănhƠăho chăđ ch chi năl c,ănhƠ tuy năd ng,ầ cóăth ăđ aăraăcácăquy tăđ nhăcũngănh ăchi năthu tăh pă

Trang 12

lýăđ ăgi măthi uăđ căr iăroănh tăcóăth TrongăbƠiătoánănƠy,ătácăgi ăđặtăm cătiêuăc nă

đ aăraăđ căcácăd ăđoánănh ăsau:

 D ăđoánănhuăc uătuy năd ngăngƠnhăITăc aăHƠăN i

 D ăđoánăđ ătu iătuy năd ngălaoăđ ngătrungăbình

1.4 Các công c , mô hình đáp ng cho bài toán

b năđ năgi năhoặcăcácăt p,ădanhăsáchăd ăli uăph căt păh n.ăQuáătrìnhătìmăki măd ăli uă

th ngăs ăđ căth căhi năthôngăquaăkey,ăđi uănƠyăd năđ năs ăh năch ăv ăđ ăchính xác Cácăcôngăc ăsẵnăcó:ăRedis,ầ

Trang 13

Hình 1.1 Dữ liệu dạng Key-Value

Document: lƠă h ă c ă s ă d ă li uă qu nă lýă vƠă l uă cácă d ă li uă ă d ngă vĕnă b nă(Document).ăCácăvĕnăb nă(document)ăs ăđ căchu năhóaăv ăcácăd ngăchu nănh ăJSON (Javascript Object Notation),ă XMLă hoặcă BSONă (Binaryă JSON).ă Giáă tr ă c aă cácă c tătrongăcácăc ăs ăd ăli uăvĕnăb năch aăd ăli uăbánăc uătrúcă(Semi-StructuredăData),ăđặcă

bi tălƠăcặpăthu cătínhăkey-value.ăCácăc tăcóăth ăch aănhi uăthu cătính,ăs ăl ngăvƠălo iăthu cătínhăđ căl uătr ăcóăth ăkhácănhauăgi aăcácădòng.ăThêmăvƠoăđóăcácăki uăl uătr ă

d ăli uăd ngăKey-valueăđ năgi nălƠăc ăkeyăvƠăvalueăđ uăcóăth ătìmăki mătrongăCSDLăDocument.ăCácăcôngăc ăsẵnăcó:ăCouchDBă(JSON),ăMongoDBă(BSON),ầ

Hình 1.2 Dữ liệu dạng Document

Trang 14

Column-oriented databases (column-family):ă Nhìnă b ă ngoƠi,ă chúngă kháă

gi ngăv iăCSDLăquanăh ănh ngăth căt ălƠăhoƠnătoƠnăkhác.ăM tăs ăs ăkhácăbi tăd ăth yă

nh tălƠăvi căl uătr ăd ăli uătheoădòngăđ iăv iăcácăHQTăCSDLăquanăh ăv iăvi căl uătr ă

d ăli uătheoăc tăc aăcácăHQTăCSDLăConlumnăFamily.ăVƠăcácăt ăt ngăc aăc ăhaiălo iăCSDLănƠyăcũngăhoƠnătoƠnăkhácănhau.ăChúngătaăkhôngăth ăápăd ngăcùngăm tăgi iăphápămƠă chúngă taă đƣă s ă d ngă trongă CSDLă quană h ă vƠoă CSDLă Conlumnă Family.ă B iă vì,ăCSDLăColumnăFamilyălƠăcácăCSDLăphiăquanăh ă[1].ăCácăcôngăc ăsẵnăcó:ăBigTable,ầ

Hình 1.3 Dữ liệu dạng Coloumn

Graph databases:ăLƠăt păh păc ăs ăd ăli uăcóăd ngăđ ăth ătrongăđóăcóăcácănút,ă

gi aăcácănútă(nodes)ăcóăquanăh ă(relationships),ăthu cătínhă(attributes)ăđ ămôăt ăvƠăl uă

tr ă d ă li u.ă Cácă côngă c ă sẵnă có:ă Neo4J,ă Sones,ă AllegroGraph,ă Coreă Data,ă DEX,ăFlockDB,ăInfoGrid,ăOpenLinkăVirtuoso,ầ

Hình 1.4 Dữ liệu dạng Graph [1]

Trang 15

1.4.2 Các công c tr c quan hóa s li u

Trongăth iăgianătr ăl iăđơy gi iăphápăv báo cáo th ngăkê tr ăquaănhi uăthayăđ i,ă

hi nă nayă vi că ápă d ngă cácă báoă cáoă BIă (Business Intelligence) k tă h pă phơnă tíchă(Analytic) đangătr ănênăph ăbi n.ăĐángăchúăýănh tălƠălƠăxuăh ngăself-service, nó cung

c păchoăng iădùngăthôngăth ngăkh ănĕngăt ăx ălýăvƠăphơnătíchăs ăli uămƠăkhôngăc nănhi uăki năth căchuyênămônăv ăl pătrìnhăhayăphơnătích

Theoăbáoăcáoăđánhăgiáăc aăGartnerăv ăMagicăQuadrantă2017,ă ănhómăd nădắtă(leaders)ăcácăcôngăc ăc aăTableAUăvƠăMicrosoftă(PowerBI)ălƠănh ngăhƣngăđ ngăđ uă

v ăkh ănĕngăđápă ng,ăcungăc păd chăv

Hình 1.5 Đánh giá các công cụ trình diễn dữ liệu [2]

Power BI: LƠăph năm măđóngăgóiăc aăMicrosoft,ăng iădùngăcóăth ăcƠiăđặtăt iăcácămáyăcáănhơn,ăk tăn iăv iănhi uălo iăCSDL.ăĐi măm nhăc aăs năph mălƠăchiăphíăcƠiăđặtăth p.ăTuyănhiênăh năch ăc aăcôngăc ălƠăkh ănĕngăx ălýăd ăli uăl n.ăBênăc nhăđóăcácăbáoăcáoăxoayăchi uă(t ngăt ănh ăPivotăTableătrongăexcel)ăv năch aăđ căh ătr

TableAU: LƠăm tătrongănh ngăph năm măm nhănh tăv ătíchăh păvƠătrìnhădi nă

d ăli uă(visualization)ăcũngănh ăphơnătíchătr căquană(visualăanalysis).ăCôngăc ăh ătr ă

t iăđaăchoăng iădùngă(end-user), giúp ng iădùngăcóăth ăch ăđ ngăđ nhănghƿaăvƠăđi uăchỉnhăcácăbáoăcáoătrongăth iăgianăngắn.ăĐi măm nhăc aăcôngăc ălƠăkh ănĕngăx ălýăd ă

li uăl n,ăvi căthayăđ i/c pănh tănhanhăchóngăv iăcácăgiaoădi năkéoăth ă(dragă&ădrop)

Trang 16

1.4.3 M ng n -ron nhân t o và mô hình d đoán

1.4.3.1 Đ nh nghĩa và c u trúc

Đ nh nghĩa: lƠăm t môăhìnhătoánăh c hay mô hình tính toán đ căxơyăd ngăd aă

trên các m ngăn -ron sinhăh c.ăNóăg măcóăm tănhómăcác n -ronănhơnăt o (nút)ăn iă

v iănhau,ăvƠăx ălýăthôngătinăbằngăcáchătruy nătheoăcácăk tăn iăvƠătínhăgiáătr ăm iăt iăcác nút

Trongăth căt ăs ăd ng,ănhi uăm ngăn -ronălƠăcácăcôngăc môăhìnhăhóaăd ăli u th ngăkêăphiătuy n.ăChúngăcóăth ăđ cădùngăđ ămôăhìnhăhóaăcácăm iăquanăh ăph căt păgi aă

d ăli uăvƠoăvƠăk tăqu ăhoặcăđ tìmăki măcácăd ng/m u trongăd ăli u [3]

Trongăđó,ăm tăn -ronălƠăm tăthƠnhăph năc aăm ngăn -ronănóăgiúpăx ălýăcácăthôngătin,ăc uătrúcănh ăsau:

Bảng 1.2 Nơ-ron nhân tạo [4]

CácăthƠnhăph năc ăb năc aăm tăn -ron nhơnăt oăbaoăg m:ăđ uăvƠo,ătr ngăs ăliênă

k t,ăhƠmăt ng,ăng ỡngăvƠăđ uăra C ăth :

- Đ u vƠo (Input): Là các giáătr ăđ uăvƠo c aăn -ron,ăcácătínăhi uănƠyăth ngă

đ căđ aăvƠoăd iăd ngăm tăvectorăNăchi u.ă

- Tr ng s liên k t (weight): M iăliênăk tăđ uăđ căgắnăv iăcácătr ngăs ătaă

th ngăg iălƠătr ngăs ăliênăk t.ăTr ngăs ăliênăk tăth ngăđ căkh iăt oăng uănhiênăvƠăđ căc pănh tăl iătrongăquáătrìnhăh căm ng

- Hàm t ng (Summing function): bằngătíchăc aăđ u vƠoăv i tr ngăs ăliênă

k t

Trang 17

- Ng ỡng (bias): lƠă m tăthƠnhăph năc aăhƠmătruy n,ăvƠăđ că coiănh ăm tă

inputăb ăsungăv iătr ngăs ăluônăbằngă1

- HƠm truy n (Transfer function) : lƠăhƠmădùngăgi iăh năđ uăraăc aăm iă

n -ron.ăNóănh năđ uăvƠoălƠăk tăqu ăc aăhƠmăt ngăvƠăng ỡngăđƣăcho.ăThôngă

th ng,ă ph mă viă đ uă raă c aă m iă n -ron đ că gi iă h nă trongă đo nă các kho ngă[0,1] hoặcă[-1 ,1] CácăhƠmătruy năcóăth ălƠăhƠmătuy nătínhăhoặcăphiătuy n

Symmetrical Hard Limit

Trang 18

- Đ u ra: LƠătínăhi uăđ uăraăc aăm tăn -ron,ăv iăm iăn -ron s ăcóăt iăđaălƠă

m tăđ uăra.ă

1.4.3.2 M ng nhi u t ng truy n thẳng

Cóăr tănhi uălo iăm ngăn -ron khác nhau [10], [12], [13], [17]ătrongăđóăm ngă

n -ron truy nă thẳngă nhi uă l pă đ că s ă d ngă ph ă bi nă nh tă (MLPă - Multi Layer Perceptron).ă Đƣă cóă nhi uă nghiênă c uă s ă d ngă m ngă n -ron truy nă thẳngă nhi uă l pătrongăbƠiătoánăd ăbáoă[14], [15], [16], [18]ăvƠăđƣ ch ngăt ăđơyălƠăh ngăti păc năr tă

hi uăqu

M tăm ngăn -ronănhi uăt ngătruy năthẳngăth ngăs ăcóănhi uăh nă2ăt ngă(nă>=2ă

t ng),ătrongăđóăs ăt ngă năbằngăn-1ăvƠă1ăt ngăoutput.ăRiêngăt ngăđ uăvƠoă(input)ăkhôngă

đ cătính

Bảng 1.4 Mạng nhiều tầng truyền thẳng [4]

Ki nătrúc c a m ng truy năthẳng MLPăbaoăg măcácăthƠnhăph n:

- Đ uăvƠo vƠăđ uăra là các vector trong không gian nhi uăchi u

- M iăn -ronăc aăcácăt ngăsauăliênăk tăv iăt tăc ăcácăn -ronăt ngăli nătr cănó

- Đ uăraăc aăn -ron t ngătr călƠăđ uăvƠoăc aăn -ronăthu căt ngăli năsauănó

Trang 19

khác gi a giá tr th c t và giá tr đ uăraălƠăc ăs cho vi c hi u chỉnh

tr ng s ccuar m ng Quá trình hu n luy n liên t c và dừng l i khi

m ngăđ tăđ c giá tr sai s nh ămongămu n Đi n hình cho k thu t này là m ng n -ron lan truy năng c

Bảng 1.5 Học giám sát

o H c không giám sát (unsupervised learning): M ng ki u này ph i

t tìmăraăcácăđặcătínhăcũngănh ăquyălu tăt ngăquanăgi a d li uăđ u vƠoăđ t o ra d li uăđ u ra Trong quá trình t tìmăraăcácăđặcăđi m,

m ng tr i qua quá trình t t ch căđ thayăđ i tham s

Bảng 1.6 Học không giám sát

o H c tăng c ng (Reinforcement learning): Đ i v i h c có giám sát,

các giá tr đ uăraăđ c bi t chính xác v i m iăđ u vào Tuy nhiên,

Trang 20

trong th c t có m t s tr ng h p chỉ bi t ít thông tin chi ti t, chẳng

h n m ng chỉ bi t rằng giá tr đ u ra th c s quá cao hay có th m ng

chỉ cóăđ c thông tin ph n h i báo rằngăđ u ra đúngăhayăsai.ăThu t

h c d aătrênăthôngătinăđánhăgiáănƠyăđ c g i là thu t h c c ng c , thông tin ph n h iăđ c g i là tín hi uătĕngăc ng

Bảng 1.7 Học tăng cường

- Thu t toán lan truy n ng c [4]:

- M ngă feed-forwardă v iă

niđ uăvƠo,ănh nútă năvƠăno

đ uăra.ă

- H ăs ăh căηă

- T pă d ă li uă hu nă luy nă

B c 1:ăKh iăt oătr ngăs ă

b iăcácăgiáătr ăng uănhiênă

nh ă

B c 2:ă Lặpă l iă choă t iă

khiăth aămƣnăđi uăki năk tăthúc

V iă m iă m u,ă th că hi năcácăb căsau:ă

2.1ăTínhăđ uăraăojchoăm i nút j:

- wji:ătr ngăs ătrênăxji

- bj:ăng ỡngăt iănútăth ăjă

- oj:ăđ uăraăc aănútăth ăjă

- tj:ăđ uăraămongămu năc aănútăth ăjă

Trang 21

Đ u vào Đ u ra Ký hi u

Σx ji w ji

2.2ă V iă m iă nútă kă thu că

t ngă ra,ă tínhă δk theo công

th c:ă

δ k = (t k ậ o k )(1 ậ o k )o k

2.3ă V iă m iă nútă hă thu că

t ngă n,ătínhăδh theo công

th c:ă

δ h = o h (1 ậ o h ) Σδ k w kh v i

k Downstream(j) 2.4ă C pă nh t:ă w ji = w ji +

Δw ji TrongăđóăΔw ji= ηδk x ji

- Downstream(j):ă T pă t tă

c ăcácănútănh năđ uăraăc aănútă th ă jă lƠmă m tă giáă tr ă

đ uăvƠo.ă

- η:ăt căđ ăh că

- f:ăhƠmătruy năv iăf(x)ă=ă

1 / (1 + e-x)

1.4.3.4 M ng n -ron h i quy (RNN - Recurrent Neural Network)

Đ i v i m ngăn -ronăthôngăth ngăcácăđ uăvƠoăvƠăđ uăraălƠăđ c l p và không liên

k t thành chu i M t s bài toán s không phù h p khi áp d ng mô hình này, ví d đoánătừ ti p theo c a m tăcơu,ătrongăđóăđ đoánăđ c ta c n bi t l ch s xu t hi n các

từ đ ng tr căđóă cácăvĕnăb n đ d y thi t l p cho m ng,ầăNh ngăbƠiătoánănh ătrênăphù h p v i m ng h i quy RNN, do mô hình s th c hi n cùng m t tác v cho t t c các ph n t c a m t chu i v iăđ u ra ph thu c vào c cácăphépătínhătr căđó:

Trang 22

Hình 1.6 Mô hình mạng nơ-ron hồi quy RNN [5]

Tuyăm ng RNN giúpăgi iăquy tăcácăbƠiătoánăcóăd ăli uătu năt ănh ngăki nătrúcă

c aăm ngăkháăđ năgi nănênăkh ănĕngăliênăk tăcácăthƠnhăph năcóăkho ngăcáchăxaătrongăcơuăkhôngăt t Nguyên nhân do m ngăh iăquyăRNNăch uă nhăh ngăb iăgradientă(đ ă

d c) b ăth păd nătrongăquáătrìnhăh c (vanishingăgradient).ăGradientăl iălƠăthƠnhăph năquanătr ngăb cănh tătrongăvi căhu năluy năcácămodel.ăVìăth ăkhiăgiáătr ăc aăgradientă

đ căt oăb iăcácăthƠnhăph năphíaăđ uăđo năvĕnătr ănênăquáănh ,ănóăs ăkhôngăđóng góp gìăchoăvi căh căc aămodel.ăTừăh năch ănƠyătaănh năth yăki nătrúcăc aăm ngăh iăquyăRNNăkhôngăcóăc ăch ăl că(filter)ăvƠăb ăđiăcácăthôngătinăkhôngăc năthi t,ăđi uăđóăd nă

đ năb ănh ăs ăđ năng ỡngăvƠăs ăb ăđiănh ngăd ăli uătr căđóă ăxaătrongăquáăkh

Đ khắc ph c các h n ch c a m ng RNN nêu trên, m t phiên b năđặc bi t c a

m ng RNN là m ng LSTM (Long Short Term Memory) đƣăđ căraăđ i:

M ng LSTM là m tăd ngăđặcăbi tăc aămôăhìnhăm ngăRNN Đi măchínhătrongă

ki nătrúcă m ngăc aă LSTMăchínhălƠăcác memory cell v iăcácăc ngăchoăphépăl uătr ăhoặcătruyăxu tăthôngătin.ăCácăc ngănƠyăchoăphépăghiăđèă(inputăgate),ălo iăb ăd ăthừaă(forgetă gate)ă vƠă truyă xu tă (outpută gate)ă cácă thôngă tină đ că l uă tr ă bênă trong các memory cell

Trang 23

Hình 1.7 Mô hình mạng LSTM [5]

Quá trình ho tăđ ngăc a m ng LSTM [5]:

- B că1:ăQuy tăđ nh thôngătinănƠoăchúngătaăc nălo iăb ăkh iăcellăstate Vi cănƠyăđ căth căhi năthôngăquaăt ngăsigmoid (forget gate layer).ăĐ u vào là

ℎ�ứ1 và ��,ăđ u ra là m t giá tr nằm trong kho ng [0, 1] cho cell state ��ứ1

N uăgiáătr ătr ăraălƠă1ăthìăthôngătinăđ căgi ăl i,ăng căl iăbằngă0ăthìăthôngătinăb ălo iăb

Bảng 1.8 Mô hình LSTM bước 1

- B că2:ăXácăđ nhălo iăthôngătinăs ăđ căl uăvƠoăcellăstate,ăcóă2ăthƠnhăph n:

o T ngăsigmoidă(inputăgateălayer)ăquy tăđ nhăcácăgiáătr ăs ăc pănh t

o T ngătanhăt oăraăvectorăv iăcácăgiáătr ăm iăcóăth ăđ aăvƠoăcellstate

Bảng 1.9 Mô hình LSTM bước 2

Trang 24

- B c 3: C p nh tăcellstateăcũă��ứ1 vào cell state m i ��

Bảng 1.10 Mô hình LSTM bước 3

- B că4:ăQuy tăđ nhăđ uăraălƠăgì.ăCh yătínăhi uăquaăt ngăsigmoidăđ ăquy tă

đ nhăph năt ănƠoăs ătácăđ ngăđ năđ uăra.ăSauăđóăđ aăcellstateăđiăquaăm tăhàm tanh (đ yăgiáătr ăvƠoăkho ngă-1ăvƠă1)ăvƠănhơnăv iăm tăoutputăsigmoidăgate,ăđ ăgi ăl iănh ngăph nătaămu năoutputăraăngoƠi

Bảng 1.11 Mô hình LSTM bước 4

K t lu n ch ng 1:

S ăphátătri năkhôngăngừngăc aăCNTT,ăcácăd ăli u,ăthôngătinăhi năđƣăvƠăđangă

đ căs ăhóaătừngăngƠy.ăVi căkhaiăthácăcácăthôngătinăvƠă ngăd ngăvƠoăcácănhuăc uăc aăxƣăh iălƠăđi uăt tăy u.ăTuyănhiên,ădoăthôngătinăthuăth păđ cătừăinternetăr tăđaăd ngăv ă

c uătrúcăl uătr ,ăthêmăvƠoăđóăvi căphơnătíchăxuăh ngăv iăt păd ăli uăl nălƠăđi uăkhôngă

đ năgi n

Sauăkhiănghiênăc uăth căt ,ătácăgi ăđ ăxu tăxơyăd ngăm tăh ăth ngăhoƠnăchỉnhăbaoăg măcác Mô-đunăđápă ngăvi căđ ngăb ,ăl uătr ,ăphân tích vƠăd ăbáoăxuăh ngăd aătrênăcácăd ăli uăthuăth păđ c.ăĐ iăv iăh ăth ngăCSDLăph iăđ măb oătínhălinhăho t,ăcóă

kh ănĕngăm ăr ngănhanhăchóngăđ ngăth iăcóăth ătruyăsu tăhi uănĕngăcao.ăĐ iăv đunăt ngăh păthôngătinăvƠăphơnătíchăd ăli uăph iăđápă ngăđ căcácăbƠiătoánăv ăbáoăcáoă

iăMô-th ngăkê,ăphơnătíchăxuăiăMô-th ăvƠăd ăbáoăxuăh ngătrongăt ngălai.ăQuaăphơnătíchăđƣănêuă ăcácă ph nă trên,ă tácă gi ă đ ă xu tă s ă d ngă h ă CSDLă Non-Sqlă mƠă c ă th ă lƠă h ă th ngăMongoDB (tri năkhaiătheoămôăhìnhăshardedăcluster),ăh ăth ngătrìnhăbƠy,ăhi năth ăd ă

li uăs ăs ăd ngălƠăTableAU.ăRiêngăđ iăv iăMô-đunăphơnătíchătácăgi ăđƣătrìnhăbƠyăt ngă

Trang 25

quátăv ăm ngăN -ron,ăcáchăth căho tăđ ngăvƠăđ aăraăcácămôăhìnhăRNNăđ ăph căv ăt tăchoăcôngătácăd ăbáo, trongăđóămôăhìnhăLSTM (Long Short Term Memory) đ căđánhăgiáălƠăcóănhi uă uăđi m vƠăphùăh păv iăbƠiătoánăhi năt i.ăMôăhìnhănƠyăs ăđ cănghiênă

c uăvƠătri năkhaiălênăh ăth ngăd ăbáoăxuăh ngă ăCh ngă2

Trang 26

CH NG 2: XÂY D NG CH NG TRÌNH THU TH P VÀ PHÂN TÍCH XU

Trongăch ngănƠyătácăgi ăs ăphơnătíchăvƠăxơyăd ngăh ăth ng đ ngăb ăthôngătin,ă

t ăch căl uătr ăd ăli uăvƠăphơnătíchăxuăth ătừăcác thôngătinătuy năd ngătrênăinternetătừăcácăm cătiêuăđƣăđ căl aăch nătr căbaoăg măcácăb căchínhănh ăphơnătíchăm cătiêuăcũngănh ăthi tăk ăh ăth ngăc ăs ăd ăli u;ăki nătrúcăt ngăquát,ầ

2.1 Phân tích m c tiêu

Ch ngătrìnhăc năxơyăd ngăph iăđápă ngăđ căcácănghi păv ăđ uăraănh ăsau:

 T ăđ ngăphátăhi năthuăth păd ăli u

 L uătr ăphơnătánăc ăs ăd ăli uătrênăc măCSDL

 Tr căquanăd ăli uă

 Môăhìnhăd ăbáoăk tăqu ăLSTM

Hình 2.1 Kiến trúc tổng thể hệ thống

Trang 27

2.2 Gi i quy t bài toán

2.2.1 C s d li u

companyName Ch aăthôngătinăcácăcôngătyătuy năd ng

MajorName Ch aăthôngătinădanhăm căngƠnh

Description Môăt ătinătuy năd ng

Location Đ aăđi mătuy năd ng

NumofRecruitment S ăl ngănhơnăs ăc nătuy n

AgeRequire Đ ătu iăyêuăc u

Experience S ănĕmăkinhănghi m

ActiveTime Th iăgianăthuăth pă

Bảng 2.1 Bảng cấu trúc dữ liệu tuyển dụng

2.2.2 Các công c gi i quy t yêu c u

2.2.2.1 Mô-đun thu th p d li u

Môăđunăthuăth păd ăli uăđ căxơyăd ngătrênăngônăng ăPythonăv iăcácăthƠnhăph nă

đ cămôăt ănh ătrongăHìnhă3.2

Hình 2.2 Luồng thu thập dữ liệu

H ăth ngăbaoăg măcácăthƠnhăph n:

- C uăhìnhăvƠăl păl chăquétăcácăd ăli u:

o Thi tăl păcácăđ ngăd n/folder/DBăđ ăti nătrìnhăđ nhăkỳăquét

o Đ nhănghƿaăcácălu tă(rules)ăđ ăphơnăbi tăcácăd ăli uăm iăsinhăđ ăthuă

th păv

- Chuy năđ iăd ăli uărawăv ăd ngăchu năhóa

o Th căhi nămappingăd ăli uăgi aăd ăli uărawăvƠăd ngăd ăli uămongă

Trang 28

- Lưu đồ các bước xử lý

Hình 2.3 Các bước thu thập dữ liệu

-B că1:ăLoadăc uăhìnhăvƠoăch ngătrìnhăscanăd ăli uăbaoăg măcácăthôngătin:ă

đ ngăd n,ăruleăphátăhi năraăcácălo iăfileăm i

B că2:ăThi tăl păchuăkỳăch yăc aăti nătrìnhătheoăđ năv ăth iăgianămongămu nă(th ngăđ ălƠăphút).ăSauăkhiăthi tăl pă ăsauăm iăkho ngăth iăgianăđ căthi tăl p sau khi

k tăthúcăvi căquétăd ăli uăc aăl nătr căđó,ăti nătrìnhăquétăd ăli uăs ăđ căactiveăl i

B că3ă&ă4:ăTừăcácăc uăhìnhăđƣăđ căđ nhănghƿaătrongăfileăconfiguration,ăti nătrìnhăs ătruyăc păvƠoăcácăfolder/databaseătheoăcácăđ ngăd n

B că 5:ă D aă vƠoă lu tă phátă hi nă d ă li uă m i,ă ti nă trìnhă s ă l yă đ că cácăfiles/recordăm iăc năđ căx ălý.ăTh căhi năchuy năđ iăd ăli uătừăd ngăRawăv ăd ngămongămu năthôngăquaăc uăhìnhămappingăd ăli u.ăSauăkhiăthuăth păvƠămappingăd ăli uăxongăs ăg iăvƠăc pănh tăvƠoăc ăs ăd ăli u thông qua GatewayAPI, ti nătrìnhăs ăsleepătheoăc uăhình

2.2.2.2 API Gateway

Phơnă h ă APIă Gatewayă đ că phátă tri nă trênă ngônă ng ă C#ă v iă cácă thƠnhă ph nă

đ cămôăt ătrongăHìnhă3.4

Trang 29

Hình 2.4 Kiến trúc API Gateway

H th ng bao g m các thƠnh ph n:

- API Gateway:

o LƠăl pătrungăgianăđ ngăgi aăcácă ngăd ngăkhaiăthác,ăt ngătácăd ă

li uăvƠă ngăd ngăqu nălýăCSDL.ă

o Đi uăh ngăvƠăphơnăph iăcácărequest,ăđ măb oătínhăAnătoƠnăthôngătinăvƠăb oăm tăc aăd ăli uă(mƣăhóaăd ăli u)

- Query Nodes:

o LƠăcácănodeăg năv iăt ngăCSDLănh t,ăđ căphátătri năđ căphátătri nă

ph căv ăcácăm căđíchăđặcăthùăc aănghi păv ,ăcácănodeăcóăth ătri năkhaiă đ că l pă trênă cácă h ă t ngă khácă nhauă v iă ch că nĕngă nh ăInsert/Update/Delete :

 Nh năTh căhi năk tăn iăvƠătruyăv năl yăcácăd ăli uătheoăcácă

đi uăki năđ cătruy năvƠo.ă

 Chu năhóaăcácănghi păv ăthƠnhăcácăhƠmă(function)ăvƠăcácăbi nă

s ă

- L iăth ătrongăvi cătri năkhaiăl păAPIăGateWayăvƠăcácăQueryăNodes:ă

o Giúpăt ngăminhăcácălu ngăgiaoăti p gi aăcácă ngăd ngăvƠăCSDL.ă

D ădƠngătrongăvi căkhoanhăvùngăl iăvƠăx ălýăs ăc ăphátăsinh

o M măd oăkhiăphátăsinhăthêmănghi păv ăhoặcăthayăđ iălu ng

o Đ măb oăATTTăvƠăphơnăquy năv ămặtănghi păv

o Giúpătáiăs ăd ngăl iăcácăfunctionă(gi măthi uăn ăl căcoding)ăthông quaăvi căc uăhìnhăcácăthamăs

Trang 30

o LƠăinterfaceăđ ăth căhi năcungăc p/c pănh tăthôngătinătừăbênăngoƠiă

đ năh ăth ngăDatabase

- L iă th ă trongă vi că tri nă khaiă h ă th ngă MongoDBă theoă môă hìnhă ShardedăCluster:

o Giúpă t iă t iă uă hi uă nĕngă trongă vi că truyă v nă CSDLă soă v iă CSDLă

ch yătrênăm tănodeă

o Cóă kh ă nĕngă m ă r ngă nhanhă chóng:ă chỉă c nă thi tă l pă nodeă vƠă c uăhình

Trang 31

2.2.2.4 Công c trình di n d li u

Lu năvĕnăs ăd ngăcôngăc ăTableAUăchoăm căđíchătrìnhădi năcácăthôngătinăphơnătíchătuy năd ng

Hình 2.6 Kiến trúc công cụ phân tích, trình bày dữ liệu TableAU [7]

H th ng bao g m các thƠnh ph n nh sau:

- Dataă Connector:ă LƠă thƠnhă ph nă choă phépă ng iă dùngă đ nhă nghƿaă cácăDatasource

- Mainăcomponents:ăT oăraăcácăviewănhìnăd ăli uăbaoăg măcácăbi uăđ ăvƠăd ă

li uăchiăti t

Trang 32

2.2.2.5 Mô đun phơn tích, d đoán xu h ng

đ tài lu năvĕnănƠy,ătácăgi khôngăđiătri n khai l i các thu tătoánăcũngănh ăphát tri n l i các ch cănĕngăd báo v năđƣăcóăr t nhi uăth ăvi n cung c p s d ng trên ngôn ng l p trình Python nh :ăKeras, Tensorflow, Sklearn Tác gi s v n d ng các

th ăvi n sẵn có nêu trên k t h p v i vi c xây d ng m t ch cănĕngăc uăhìnhăđ ng cho phépă ng i dùng có th thi t l p b t c m t phân tích nào v i các tham s mong

mu n

Bảng 2.2 Module Phân tích dự báo

Mô-đun s g m 03 ch cănĕngăchính: C u hình tham s , thu th p d li u và th c

o Ph m vi d li uăvƠăđi u ki n l c Ví d : l cătheoăđ aăph ngătuy n

d ng, l c theo công ty tuy n d ng, l c theo ngành ngh ,ầ

o Th i gian l y d li uăđ hu n luy n

Ngày đăng: 12/02/2021, 22:12

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w