1. Trang chủ
  2. » Giáo Dục - Đào Tạo

Tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí tt

32 55 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 32
Dung lượng 1,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong phạm vi của luận văn này chỉ làm việc trên văn bản bằng tiếng Việt, cụ thể là các bài báo trên mạng Internet Vì vậy, Học viên xin chọn đề tài “Tổng hợp ý kiến phản hồi của độc giả

Trang 2

Người hướng dẫn khoa học: TS Nguyễn Mạnh Hùng

Phản biện 1:

Phản biện 2:

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: …… giờ…….ngày …… tháng…… năm ……

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Hiện nay với sự phát triển mạnh mẽ của công nghệ thông tin, sự phổ biến của mạng Internet là môi trường phổ biến dùng để lưu trữ các thông tin Một lượng lớn tri thức đã được sản sinh và chia sẻ trên mạng Internet Ngoài ra, hàng ngày có rất nhiều bài báo, sách được chia sẻ hàng ngày trên mạng Internet để cập nhật thông tin về cuộc sống quanh chúng ta Cùng với đó là nhu cầu tiếp thu kiến thức, lượng thông tin, tri thức trên mạng Internet của con người ngày càng tăng lên do vậy khi chúng ta tiếp thu, chắt lọc nội dung bằng phương pháp thông thường sẽ mất rất nhiều thời gian Ứng dụng phân loại nội dung của một văn bản tiếng Việt cung cấp thêm một phương pháp tiếp cận thông tin dựa trên nội dung đã được phân phân loại chủ đề giúp người đọc dễ dàng tiếp cận thông tin mình mong muốn

Phân loại nội dung của của một văn bản đó là xử lý, phân tích , trích xuất và tổng hợp nội dung của một văn bản tiếng Việt, từ đó phân loại nội dung văn bản theo các chủ đề khác nhau, giúp người đọc dễ dàng nắm bắt được các văn bản có nội dung theo chủ đề mà người dùng quan tâm Đây là một đề tài có tính ứng dụng cao trong thực tiễn nên được nghiên cứu và giải quyết bằng nhiều phương pháp khác nhau trên toàn thế giới Trong phạm vi của luận văn này chỉ làm việc trên văn bản bằng tiếng Việt, cụ thể là các bài báo trên mạng Internet

Vì vậy, Học viên xin chọn đề tài “Tổng hợp ý kiến phản hồi của độc giả theo sự kiện phản ánh bởi báo chí” nhằm phân loại nội của một bài báo trên mạng

Internet theo các thuật toán phân loại văn bản và từ đó chọn ra thuật toán phân loại nội dung bài báo tiếng Việt tốt nhất trong khuôn khổ nghiên cứu Dựa vào việc cài đặt thuật toán và kết quả thu được về bài báo để phân loại bài toán và đưa ra kết quả đánh giá về các thuật toán thực hiện phân loại văn bản

Luận văn sẽ trình bày tổng quan về bài toán phân loại nội dung văn bản và các thuật toán xử lý phân loại nội dung văn bản Cài đặt thuật toán phân loại nội dung văn bản Tiếng việt được mô tả trong luận văn với dữ liệu đầu vào là các bài báo trên mạng Internet và đưa ra kết quả đánh giá nhận được

Trang 4

Luận văn có bố cục gồm: Phần mở đầu, 3 chương chính, phần kết luận, tài liệu tham khảo và phụ lục Được bố trí theo thứ tự:

- Mở đầu

- Chương 1: Tổng quan về phân loại nội dung văn bản

Trong chương này, luận văn sẽ trình bày tổng quan về xử lý và phân loại nội dung, đặc trưng của một văn bản tiếng Việt , phương pháp tiếp cận bài toán phân loại văn bản và các bước trong giai đoạn tiền xử lý văn bản trước khi thực hiện phân loại văn bản Các thuật toán sử dụng để phân loại văn bản sẽ được giới thiệu ở chương 2

- Chương 2: Thuật toán phân loại nội dung văn bản

Trong chương này, luận văn sẽ trình bày một số thuật toán hay dùng để phân loại văn bản Luận văn cũng sẽ trình bày chi tiết các thuật toán sử dụng để phân loại nội dung văn bản tiếng Việt Việc cài đặt thuật toán và đánh giá kết quả nhận được

sẽ được thực hiện trong chương 3

- Chương 3: Cài đặt thuật toán và đánh giá kết quả

Trong chương này, luận văn sẽ trình bày các bước cài đặt thuật toán phân loại nội dung văn bản, kết quả thực nghiệm thu được từ việc cài đặt và sử dụng thuật toán Từ đó đưa ra kết luận và đánh giá về thuật toán sử dụng để phân loại nội dung văn bản

- Kết luận luận văn

- Tài liệu tham khảo

Trang 5

CHƯƠNG 1 TỔNG QUAN VỀ PHÂN LOẠI

NỘI DUNG VĂN BẢN

Trong chương này, luận văn sẽ trình bày tổng quan về xử lý và phân loại nội dung của một văn bản tiếng Việt, các phương pháp tiếp cận bài toán phân loại văn bản và các bước hay dùng trong giai đoạn tiền xử lý văn bản

1.1 Tổng quan về bài toán phân loại nội dung văn bản

1.1.1 Giới thiệu về bài toán phân loại văn bản

Nhiệm vụ tiếp theo đó là xác định được mô hình phân loại mà có thể gán đúng lớp để một tài liệu bất kỳ có thể phân loại chính xác vào một trong những chủ

đề của tập chủ đề

Hình 1 1 Mô tả bài toán phân loại nội dung văn bản [12]

Vậy phân loại văn bản là quá trình phân loại, gán nhãn (lớp) cho các tài liệu văn bản bao gồm các văn bản có cấu trúc hoặc không cấu trúc vào một tập hợp của một hay nhiều chủ đề đã được định nghĩa trước đó

Trang 6

1.1.2 Ứng dụng bài toán phân loại văn bản

Lọc thư rác

Phân loại tin tức điện tử

Xây dựng các cỗ máy tìm kiếm

1.2 Mô hình cho bài toán phân loại văn bản

Trong phần này, luận văn sẽ giới thiệu mô hình để thực hiện phân loại văn bản vào các lớp

Hình 1 2 Mô hình thực hiện bài toán phân loại văn bản [9]

1.2.1 Yêu cầu đối với bài toán phân loại văn bản

Vậy để giải quyết được bài toán phân loại văn bản chúng ta cần phải nắm được:

- Dữ liệu đầu vào cho việc phân loại (tin tức điện tử, bài báo khoa học, nghị luận chính trị )

- Mô hình thực hiện phân loại văn bản

- Thuật toán sử dụng để phân loại văn bản

- Kết quả và đánh giá

Trang 7

Trong luận văn này, dữ liệu đầu vào sẽ các bài báo trên mạng Internet

1.2.2 Giai đoạn huấn luyện

Các văn bản đầu vào được gán nhãn và được trích chọn đặc trưng để nhận dạng và sử dụng thuật toán học để lưu trữ lại các giá trị của đặc trưng theo một mô hình chuẩn

Hình 1 3 Chi tiết giai đoạn huấn luyện [5]

1.2.3 Giai đoạn phân lớp

Đây là giai đoạn thực hiện phân loại cho một văn bản chưa có nhãn dựa trên

mô hình mẫu đã được xây dựng từ giai đoạn huấn luyện

1.3 Tiền xử lý văn bản

Trong phần này, luận văn sẽ trình bày các bước cơ bản được thực hiện trong giai đoạn tiền xử lý văn bản và một số mô hình và phương pháp áp dụng để thực hiện trong giai đoạn này

Trang 8

Bước 2: Xây dựng các khả năng tách từ

Bước 3: Lựa chọn khả năng tách tối ưu

Tầng mạng Neural

Phương pháp học dựa vào sự biến đổi trạng thái

1.3.2 Trọng số của từ trong văn bản

Mô hình Boolean

Phương pháp dựa trên tần số từ khoá

1.3.3 Trích chọn đặc trưng văn bản

a Phương pháp rút trích đặc trưng

b Phương pháp đặc trưng đề nghị sử dụng trong luận văn

1.3.4 Các mô hình biểu diễn văn bản

Mô hình xác suất

Hình 1 4 Biểu diễn văn bản theo mô hình xác suất [1]

Mô hình xác suất là mô hình toán học làm việc với các biến ngẫu nhiên và phân bố xác suất của nó Theo thuật ngữ toán học, một mô hình xác suất có thể được coi như một cặp (Y, P), trong đó Y là tập các quan sát (biến ngẫu nhiên) và P

là tập các phân bố xác suất trên Y Khi đó, sử dụng suy diễn xác suất sẽ cho ta kết

Trang 9

luận về các phần tử của tập Y Các phương pháp suy diễn có thể là các phương pháp hồi quy hoặc suy diễn Bayes

Mô hình không gian vector

Các đặc trưng của văn bản khi biểu diễn dưới dạng vector

- Không gian đặc trưng thường lớn Các văn bản càng dài, lượng thông tin trong nó đề cập đến nhiều vấn đề thì không gian đặc trưng càng lớn

- Các đặc trưng độc lập nhau Sự kết hợp các đặc trưng này thường không

có ý nghĩa trong phân lớp

- Các đặc trưng rời rạc: Vector đặc trưng di có thể có nhiều thành phần mang giá trị 0 do có nhiều đặc trưng không xuất hiện trong văn bản di (nếu tiếp cận theo cách sử dụng giá trị nhị phân 0,1 để biểu diễn cho việc có xuất hiện hay không một đặc trưng nào đó trong văn bản đang được biểu diễn thành vector)

1.4 Đặc trưng văn bản Tiếng Việt

1.4.1 Đặc trưng của tiếng Việt

1.4.2 Đặc trưng văn bản tin tức

1.4.3 Xử lý tiếng Việt trong phân loại văn bản

1.5 Kết luận

Trong chương này, luận văn đã trình bày tổng quan về xử lý và phân loại nội dung, đặc trưng của một văn bản tiếng Việt , phương pháp tiếp cận bài toán phân loại văn bản và các bước trong giai đoạn tiền xử lý văn bản trước khi thực hiện phân loại văn bản Các thuật toán sử dụng để phân loại văn bản sẽ được giới thiệu ở chương 2

Trang 10

CHƯƠNG 2 THUẬT TỐN PHÂN LOẠI

NỘI DUNG VĂN BẢN

Trong chương này, luận văn sẽ trình bày một số thuật tốn hay dùng để phân loại văn bản Nội dung đầu vào của các thuật tốn là các văn bản tiếng Việt Việc cài đặt thuật tốn và đánh giá kết quả nhận được sẽ được thực hiện trong chương 3

2.1 Thuật tốn Naive Bayes

Nạve Bayes (NB) [6] là phương pháp phân loại dựa vào xác suất, được coi

là một trong những thuật tốn phân lớp điển hình nhất trong học máy và khai phá

dữ liệu, đặc biệt được sử dụng rộng rãi trong phân lớp văn bản

Thuật tốn Nạve Bayes dựa trên định lý Bayes được phát biểu như sau:

𝑃(𝑌|𝑋) = 𝑃(𝑋𝑌)

𝑃(𝑋) =𝑃(𝑋|𝑌)𝑃(𝑌)

𝑃(𝑋) (2.1)

Áp dụng trong bài tốn phân loại, các dữ kiện gồm cĩ:

 D: tập dữ liệu huấn luyện đã được vector hĩa dưới dạng 𝑥⃗ = (𝑥1, 𝑥2, … , 𝑥𝑛)

𝑃(𝑋|𝐶𝑖) = ∏𝑛 𝑃(𝑥𝑘|𝐶𝑖)

𝑘=1 (2.3) Trong đĩ:

 𝑃(𝐶𝑖|𝑋) là xác suất thuộc phân lớp i khi biết trước mẫu X

 𝑃(𝐶𝑖) xác suất là phân lớp i

Trang 11

 𝑃(𝑥𝑘|𝐶𝑖) xác suất thuộc tính thứ k mang giá trị xk khi đã biết X thuộc phân lớp i

Các bước thực hiện thuật tốn Nạve Bayes:

Bước 1: Huấn luyện Nạve Bayes (dựa vào tập dữ liệu), tính 𝑃(𝐶𝑖) và 𝑃(𝑥𝑘|𝐶𝑖)

Bước 2: Phân lớp 𝑋𝑛𝑒𝑤 = (𝑥1, 𝑥2, … , 𝑥𝑛), ta cần tính xác suất thuộc từng phân lớp khi đã biết trước Xnew Xnew được gán vào lớp cĩ xác suất lớn nhất theo cơng thức

max

𝐶𝑖∈𝐶(𝑃(𝐶𝑖) ∏𝑛 𝑃(𝑥𝑘|𝐶𝑖)

𝑘=1 ) (2.4) Nĩi chung Nạve Bayes là một cơng cụ rất hiệu quả trong học máy nĩi chung

và phân loại văn bản nĩi riêng Kết quả của thuật tốn cĩ thể rất xấu nếu dữ liệu huấn luyện nghèo nàn và các tham số dự đốn (như khơng gian đặc trưng) cĩ chất lượng kém Đây là một thuật tốn phân loại tuyến tính thích hợp trong phân loại văn bản nhiều chủ đề

NB cĩ ưu điểm là cài đặt đơn giản, tốc độ thực hiện thuật tốn nhanh, dễ dàng cập nhật dữ liệu huấn luyện mới và cĩ tính độc lập cao với tập huấn luyện

2.2 Thuật tốn Long Short Term Memory networks

Mạng bộ nhớ dài-ngắn (Long Short Term Memory networks) [10], thường được gọi là LSTM - là một dạng đặc biệt của RNN (Recurrent Neural Network), nĩ

cĩ khả năng học được các phụ thuộc xa LSTM được giới thiệu bởi Hochreiter & Schmidhuber (1997), và sau đĩ đã được cải tiến và phổ biến bởi rất nhiều người trong ngành Chúng hoạt động cực kì hiệu quả trên nhiều bài tốn khác nhau nên dần đã trở nên phổ biến như hiện nay

LSTM được thiết kế để tránh được vấn đề phụ thuộc xa (long-term dependency) Việc nhớ thơng tin trong suốt thời gian dài là đặc tính mặc định của chúng, chứ ta khơng cần phải huấn luyện nĩ để cĩ thể nhớ được Tức là ngay nội tại của nĩ đã cĩ thể ghi nhớ được mà khơng cần bất kì can thiệp nào

Trang 12

Mọi mạng hồi quy đều có dạng là một chuỗi các mô-đun lặp đi lặp lại của mạng nơ-ron Với mạng RNN chuẩn, các mô-dun này có cấu trúc rất đơn giản,

thường là một tầng tanh

Hình 2 1 The repeating module in a standard RNN contains a single layer LSTM cũng có kiến trúc dạng chuỗi như vậy, nhưng các mô-đun trong nó có cấu trúc khác với mạng RNN chuẩn Thay vì chỉ có một tầng mạng nơ-ron, chúng

có tới 4 tầng tương tác với nhau một cách rất đặc biệt

Hình 2 2 The repeating module in an LSTM contains four interacting layers Giờ thì đừng hoang mang về chi tiết bên trong chúng ngay, chúng ta sẽ khám phá chúng chi tiết chúng ở bước sau Điều bạn cần làm bây giờ là làm hãy làm quen với các kí hiệu mà ta sẽ sử dụng ở dưới đây:

Hình 2 3 các ký hiệu sử dụng trong mô hình LSTM

Ở sơ đồ trên, mỗi một đường mang một véc-tơ từ đầu ra của một nút tới đầu vào của một nút khác Các hình trong màu hồng biểu diễn các phép toán như phép

Trang 13

cộng véc-tơ chẳng hạn, còn các ô màu vàng được sử dụng để học trong các từng mạng nơ-ron Các đường hợp nhau kí hiệu việc kết hợp, còn các đường rẽ nhánh ám chỉ nội dung của nó được sao chép và chuyển tới các nơi khác nhau

2.2.1 Ý tưởng cốt lõi của LSTM

Chìa khóa của LSTM là trạng thái tế bào (cell state) - chính đường chạy thông ngang phía trên của sơ đồ hình vẽ Trạng thái tế bào là một dạng giống như băng truyền Nó chạy xuyên suốt tất cả các mắt xích (các nút mạng) và chỉ tương tác tuyến tính đôi chút Vì vậy mà các thông tin có thể dễ dàng truyền đi thông suốt

mà không sợ bị thay đổi

LSTM có khả năng bỏ đi hoặc thêm vào các thông tin cần thiết cho trạng thái

tế báo, chúng được điều chỉnh cẩn thận bởi các nhóm được gọi là cổng (gate) Các cổng là nơi sàng lọc thông tin đi qua nó, chúng được kết hợp bởi một tầng mạng sigmoid và một phép nhân

Tầng sigmoid sẽ cho đầu ra là một số trong khoản [0, 1], mô tả có bao nhiêu thông tin có thể được thông qua Khi đầu ra là 0 thì có nghĩa là không cho thông tin nào qua cả, còn khi là 1 thì có nghĩa là cho tất cả các thông tin đi qua nó Một LSTM gồm có 3 cổng như vậy để duy trì và điều hành trạng thái của tế bào

2.2.2 Bên trong LSTM

Bước đầu tiên của LSTM là quyết định xem thông tin nào cần bỏ đi từ trạng thái tế bào Quyết định này được đưa ra bởi tầng sigmoid - gọi là “tầng cổng quên” (forget gate layer) Nó sẽ lấy đầu vào là ℎ𝑡−1 và 𝑥𝑡 rồi đưa ra kết quả là một số trong khoảng [0,1] cho mỗi số trong trạng thái tế bào 𝐶𝑡−1 Đẩu ra là 1 thể hiện rằng nó giữ toàn bộ thông tin lại, còn 0 chỉ rằng toàn bộ thông tin sẽ bị bỏ đi Quay trở lại với ví dụ mô hình ngôn ngữ dự đoán từ tiếp theo dựa trên tất cả các từ trước

đó, với những bài toán như vậy, thì trạng thái tế bào có thể sẽ mang thông tin về giới tính của một nhân vật nào đó giúp ta sử dụng được đại từ nhân xưng chuẩn xác

Trang 14

Tuy nhiên, khi đề cập tới một người khác thì ta sẽ không muốn nhớ tới giới tính của nhân vật nữa, vì nó không còn tác dụng gì với chủ thế mới này

Hình 2 4 Mô tả thuật toán LSTM Bước tiếp theo là quyết định xem thông tin mới nào ta sẽ lưu vào trạng thái

tế bào Việc này gồm 2 phần Đầu tiên là sử dụng một tầng sigmoid được gọi là

“tầng cổng vào” (input gate layer) để quyết định giá trị nào ta sẽ cập nhập Tiếp

theo là một tầng tanh tạo ra một véc-tơ cho giá trị mới 𝐶𝑡~ nhằm thêm vào cho trạng thái Trong bước tiếp theo, ta sẽ kết hợp 2 giá trị đó lại để tạo ra một cập nhập cho trạng thái

Chẳng hạn với ví dụ mô hình ngôn ngữ của ta, ta sẽ muốn thêm giới tính của nhân vật mới này vào trạng thái tế bào và thay thế giới tính của nhân vật trước đó

Hình 2 5 Mô tả thuật toán LSTM Giờ là lúc cập nhập trạng thái tế bào cũ 𝐶𝑡−1 thành trạng thái mới 𝐶𝑡 Ở các bước trước đó đã quyết định những việc cần làm, nên giờ ta chỉ cần thực hiện là xong Ta sẽ nhân trạng thái cũ với 𝑓𝑡 để bỏ đi những thông tin ta quyết định quên lúc trước Sau đó cộng thêm 𝑖𝑡 ∗ 𝐶𝑡~ Trạng thái mới thu được này phụ thuộc vào

Trang 15

việc ta quyết định cập nhập mỗi giá trị trạng thái ra sao Với bài toàn mô hình ngôn ngữ, chính là việc ta bỏ đi thông tin về giới tính của nhân vật cũ, và thêm thông tin

về giới tính của nhân vật mới như ta đã quyết định ở các bước trước đó

Hình 2 6 Mô tả thuật toán LSTM Cuối cùng, ta cần quyết định xem ta muốn đầu ra là gì Giá trị đầu ra sẽ dựa vào trạng thái tế bào, nhưng sẽ được tiếp tục sàng lọc Đầu tiên, ta chạy một tầng sigmoid để quyết định phần nào của trạng thái tế bào ta muốn xuất ra Sau đó, ta đưa nó trạng thái tế bảo qua một hàm tanh tanh để co giá trị nó về khoảng [−1,1], và nhân nó với đầu ra của cổng sigmoid để được giá trị đầu ra ta mong muốn Với ví

dụ về mô hình ngôn ngữ, chỉ cần xem chủ thể mà ta có thể đưa ra thông tin về một trạng từ đi sau đó

Ví dụ, nếu đầu ra của chủ thể là số ít hoặc số nhiều thì ta có thể biết được dạng của trạng từ đi theo sau nó phải như thế nào

Hình 2 7 Mô tả thuật toán LSTM

Trang 16

2.3 Thuật tốn phân loại văn bản dựa trên từ đại diện

2.3.1 Mơ tả thuật tốn chọn từ đại diện

Trong lĩnh vực khai phá dữ liệu, bài tốn phân loại văn bản đã được thực hiện dựa trên nhiều thuật tốn như Nạve Bayes, K-Nearest Neighbor, Support Vector Machine… Những phương pháp này đã cho kết quả chấp nhận được và được

sử dụng nhiều trong thực tế Luận văn này sẽ trình bày một thuật tốn khác đã được

mơ tả chi tiết trong bài báo khoa học “Best Topic Word Selection for Topic Labelling” [8] Thuật tốn này là phương pháp phân loại văn bản dựa theo đánh giá

khách quan của người dùng, nhãn của mỗi văn bản sẽ được người dùng quyết định bằng việc đưa ra một số lượng N keyword và thuật tốn sẽ xác định đâu là nhãn của một văn bản Xét với các phương pháp phân lớp khác, khả năng phân lớp của thuật tốn này là khá tốt và hiệu quả

Mơ tả chi tiết thuật tốn:

- Giả định rằng văn bản cần phân loại là rõ nghĩa và do đĩ, các từ trong tập keyword truyền vào là rõ ràng, cĩ ý nghĩa

- Dữ liệu đầu vào là N keyword, trong N keyword truyền vào (N = 10), chúng ta cĩ thể chọn được một keyword để làm nhãn cho văn bản

- Ta sẽ so sánh mức độ quan trọng giữa các keyword được truyền vào (dựa theo cơng thức được mơ tả), từ đĩ tìm ra từ nào cĩ trọng số cao nhất để xác định làm nhãn

Trong đĩ P(wi, wj ) là xác suất số lần xuất hiện của wi , wj trong cùng văn bản

P (wi) là xác suất của từ wi trong tập văn bản

Ngày đăng: 05/02/2020, 11:27

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Nguyễn Nhật An, “Nghiên cứu, phát triển các kĩ thuật tự động tóm tắt văn bản tiếng Việt” – Viện khoa học và công nghệ quân sự Sách, tạp chí
Tiêu đề: Nghiên cứu, phát triển các kĩ thuật tự động tóm tắt văn bản tiếng Việt
[2] Nguyễn Thị Kim Anh, Trịnh Thị Ngọc Hương (2016), Nghiên cứu kỹ thuật đánh giá độ tương đồng văn bản ứng dụng trong so sánh văn bản tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Hàng hải Việt Nam, Hải Phòng Sách, tạp chí
Tiêu đề: Nghiên cứu kỹ thuật đánh giá độ tương đồng văn bản ứng dụng trong so sánh văn bản tiếng Việt
Tác giả: Nguyễn Thị Kim Anh, Trịnh Thị Ngọc Hương
Năm: 2016
[3] Nguyễn Thái Ân, “Ứng dụng deep learning cho phân tích cảm xúc với dữ liệu twitter” – Học việc công nghệ bưu chính viễn thông Sách, tạp chí
Tiêu đề: Ứng dụng deep learning cho phân tích cảm xúc với dữ liệu twitter
[4] Nguyễn Tạ, “Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc” , - Trường đại học Lạc Hồng Sách, tạp chí
Tiêu đề: Xây dựng hệ thống rút trích các nội dung chính của văn bản khoa học dựa trên cấu trúc
[5] Trần Thị Thu Thảo, Vũ Thị Chinh (2012), Xây dựng hệ thống phân loại tài liệu tiếng Việt, Báo cáo nghiên cứu khoa học, Đại học Lạc Hồng, Đồng Nai Sách, tạp chí
Tiêu đề: Xây dựng hệ thống phân loại tài liệu tiếng Việt
Tác giả: Trần Thị Thu Thảo, Vũ Thị Chinh
Năm: 2012
[6] Hà Quang Thụy (2009), Giáo trình khai phá dữ liệu Web, NXB Giáo dục, Hà Nội Sách, tạp chí
Tiêu đề: Giáo trình khai phá dữ liệu Web
Tác giả: Hà Quang Thụy
Nhà XB: NXB Giáo dục
Năm: 2009
[8] Jey Han Lau, David Newman, Sarvnaz Karimi, Timothy Baldwin (2010) “Best Topic Word Selection for Topic Labelling” pp. 605 – 613 Sách, tạp chí
Tiêu đề: Best Topic Word Selection for Topic Labelling
[9] Steven Bird, Ewan Klein, Edward Loper (2009), Natural language processing with Python, O'Reilly Media, America Sách, tạp chí
Tiêu đề: Natural language processing with Python
Tác giả: Steven Bird, Ewan Klein, Edward Loper
Năm: 2009
[7] Ủy ban Khoa học Xã hội Việt Nam (1983), Ngữ pháp tiếng Việt, NXB Khoa học Xã hội, Hà NộiTiếng Anh Khác

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w