1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường

80 1,1K 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 80
Dung lượng 2,1 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Mong muốn ứng dụng hệ thống phân lớp này vào phục vụ nghiên cứu khoa học và công tác quản lý, phân loại các tài liệu văn bản các thông tin chuyên ngành về tài nguyên môi trường, bởi tài

Trang 1

đại học quốc gia hà nội tr-ờng đại học công nghệ

Trang 2

đại học quốc gia hà nội Tr-ờng đại học công nghệ

Trang 3

MỤC LỤC

TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG

19

Trang 4

2.1 Một số đặc điểm tiếng Việt 19

2.3 Một số thông tin chuyên ngành Tài nguyên và môi trường 23

2.4 Bài toán phân lớp tự động các văn bản báo chí tiếng Việt về

tài nguyên và môi trường

2.5.6 Phân lớp văn bản tiếng việt về tài nguyên và môi trường 36

Trang 5

Chương 3: THIẾT KẾ XÂY DỰNG HỆ THỐNG PHÂN LỚP VĂN BẢN 37

3.4 Sơ đồ khung cảnh mức 1 của chức năng tiền xử lý 41 3.5 Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản mẫu 42 3.6 Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản phân lớp 43

4.1.2 Giao diện chương trình phân lớp văn bản báo chí tiếng Việt

về tài nguyên và môi trường

Trang 6

DANH MỤC CÁC BẢNG

Trang

Bảng 4.1 Thông tin mô tả một số thông số của tập dữ liệu huấn luyện 50 Bảng 4.2 Trích kết quả kiểm thử phân lớp văn bản báo chí tiếng

Việt về tài nguyên môi trường

54

Trang 7

DANH MỤC CÁC HÌNH

Trang Hình 1.1 Biểu diễn văn bản v1 và v2 trong không gian véc tơ ba

chiều T1, T2, T3, trong đó Ti là các từ khóa

6

Hình 1.3 Lược đồ thống kê tần số của từ theo định luật Zipf 10 Hình 1.4 Thuật toán lựa chọn đặc trưng cơ bản cho việc lựa chọn

k đặc trưng tốt nhất

11

Hình 1.6 Lược đồ chung quá trình xây dựng bộ phân lớp văn bản 15

Hình 2.2 Khai thác cát vô tội vạ làm diện tích đất ven các sông sạt lở 27 Hình 2.3 Mô hình tiếp cận bài toán phân lớp tự độngvăn bản tiếng

Việt về tài nguyên và môi trường

Trang 8

loại bỏ từ dừng

Trang 9

MỞ ĐẦU

Phân lớp văn bản là bài toán cơ bản trong khai phá dữ liệu văn bản Bài toán phân lớp văn bản là việc gán tên các chủ đề (tên lớp/nhãn lớp) đã được xác định trước, vào các văn bản dựa trên nội dung của chúng

Phân lớp văn bản là công việc được sử dụng để hỗ trợ trong quá trình tìm kiếm thông tin, chiết lọc thông tin, lọc văn bản hoặc tự động dẫn đường cho các văn bản tới những chủ đề xác định trước Phân lớp văn bản có thể thực hiện thủ công hoặc tự động sử dụng các kỹ thuật học máy có giám sát

Các hệ thống phân lớp có thể ứng dụng trong việc phân loại tài liệu của các thư viện điện tử, phân loại văn bản báo chí trên các trang tin điện tử,… những hệ thống tốt, cho ra kết quả khả quan, giúp ích nhiều cho con người

Đề tài "Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài

nguyên và môi trường", học viên vận dụng những kiến thức về kỹ thuật khai

phá văn bản, kỹ thuật phân lớp văn bản nói riêng, và kiến thức về công nghệ thông tin nói chung, xây dựng bộ phân lớp văn bản báo chí tiếng Việt về tài nguyên và môi trường Mong muốn ứng dụng hệ thống phân lớp này vào phục vụ nghiên cứu khoa học và công tác quản lý, phân loại các tài liệu văn bản các thông tin chuyên ngành về tài nguyên môi trường, bởi tài nguyên và môi trường hiện nay đang là vấn đề nóng bỏng không những Việt Nam mà cả thế giới đang rất quan tâm

Nội dung và phạm vi đề tài: Trình bày khái niệm khai phá dữ liệu,

khai phá văn bản, một số kỹ thuật khai phá văn bản và phân lớp văn bản Nghiên cứu một số đặc điểm đặc trưng của ngôn ngữ tiếng Việt, phương pháp tách từ tiếng Việt và loại bỏ từ dừng Nghiên cứu các chủ đề về thông tin chuyên ngành tài nguyên và môi trường Nghiên cứu, sử dụng thuật toán K-

NN xây dựng bộ phân lớp văn bản báo chí tiếng việt về tài nguyên và môi

trường vào các chủ đề chuyên ngành

Trang 10

Đầu vào của bộ phân lớp là văn bản báo chí tiếng Việt về tài nguyên

và môi trường ở dạng tệp tin.doc,.txt, phông chữ Unicode

Đầu ra là kết quả phân lớp văn bản báo chí tiếng Việt vào một trong các chủ đề thông tin chuyên ngành: Tài nguyên đất; tài nguyên nước; tài nguyên khoáng sản; tài nguyên biển; khí tượng thuỷ văn; môi trường; đo đạc

và bản đồ

Bố cục của luận văn bao gồm:

Chương 1: Khái quát về phân lớp văn bản và thuật toán KNN Chương

này trình bày khái quát về khai phá văn bản, Phân lớp văn bản, thuật toán KNN

Chương 2: Bài toán phân lớp văn bản báo chí tiếng Việt về tài nguyên và

môi trường Chương này trình bày đặc điểm cơ bản của tiếng Việt, kỹ thuật tách từ văn bản tiếng Việt, tìm hiểu thông tin chuyên ngành tài nguyên và môi trường, nêu và mô tả bài toán ứng dụng, …

Chương 3: Thiết kế xây dựng hệ thống phân lớp văn bản tiếng Việt về

tài nguyên môi trường: Trình bày thiết kế xây dựng hệ thống

Chương 4: Cài đặt mô hình và kiểm thử kết quả: Trình bày một số

giao diện chương trình, kết quả kiểm thử

Kết luận và định hướng phát triển

Trang 11

Chương 1

KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN

VÀ THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT

1.1 KHAI PHÁ DỮ LIỆU VĂN BẢN

Khai phá dữ liệu văn bản là quá trình trích chọn ra các tri thức mới, có giá trị và tác động được, đang tiềm ẩn trong các văn bản, để sử dụng các tri thức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ con người

Dữ liệu văn bản thường được chia thành hai loại [5]:

1 Dạng phi cấu trúc: là dạng văn bản chúng ta sử dụng hằng ngày được thể hiện dưới dạng ngôn ngữ tự nhiên của con người và không có một cấu trúc định dạng cụ thể nào Ví dụ: các văn bản lưu dưới dạng tệp tin TXT, DOC

2 Dạng bán cấu trúc: là các loại văn bản không được lưu trữ dưới dạng các bản ghi chặt chẽ mà được tổ chức qua các thẻ đánh dấu để thể hiện nội dung chính của văn bản Ví dụ: dạng tệp tin HTML, email, …

Tùy từng mục đích sử dụng cụ thể mà việc xử lý văn bản được thực hiện trên dạng cấu trúc nào Trong luận văn này, học viên quan tâm xử lý các

dữ liệu văn bản ở dạng phi cấu trúc (biểu diễn dưới dạng tệp tin.TXT,.DOC)

1.2 KHÁI NIỆM CƠ BẢN TRONG KHAI PHÁ VĂN BẢN

1.2.1 Một số khái niệm sử dụng trong luận văn

- Từ khóa: là các từ xuất hiện trong một văn bản có nghĩa trong từ điển

- Thuật ngữ: là các từ khóa có nghĩa liên quan đến một số lĩnh vực nào

đó ví dụ: "máy tính", "công nghệ phần mềm", "tính toán song song" Các thuật ngữ này thuộc về lĩnh vực "tin học"

- Từ dừng: Nhiều từ được dùng để biểu diễn cấu trúc câu, xuất hiện thường xuyên trong các văn bản, nhưng hầu như không mang ý nghĩa về mặt

Trang 12

nội dung, chẳng hạn các giới từ, liên từ, … những từ đó được gọi là từ dừng

Ví dụ: Có thể, nếu, vì vậy, sau khi, thì, một số, với lại, quả thật, hầu như, …

- Trọng số của từ là độ quan trọng hay hàm lượng thông tin mà từ đó mang lại cho văn bản Trọng số của từ là đại lượng dùng để đo sự khác biệt giữa văn bản chứa nó với các văn bản khác

1.2.2 Các phương pháp đánh trọng số cho từ khóa

1.2.2.1 Phương pháp boolean

Giả sử có một tập gồm m văn bản D = {d1, d2, d3, dm}, T là một tập

từ vựng gồm n từ khóa T = {t1, t2, tn} gọi w = (wi j) là ma trận trọng số, trong đó wi j là trọng số của từ khóa ti trong văn bản dj

Phương pháp boolean là phương pháp đánh trọng số đơn giản nhất, giá trị trọng số wi j được xác định như sau:

1.2.2.2 Phương pháp dựa trên tần số

1/ Phương pháp dựa trên tần số từ khóa TF: Các giá trị wij được tính

dựa trên tần số xuất hiện của từ khóa trong văn bản Gọi fij là số lần xuất hiện

của thuật ngữ ti trong văn bản dj, khi đó wij được tính bởi một trong 3 công thức sau:

wi j =

Trang 13

xuất hiện nhiều từ khóa máy tính, điều đó có nghĩa là văn bản đang xét chủ yếu liên quan đến lĩnh vực tin học

2/ Phương pháp dựa trên nghịch đảo tần số văn bản IDF: Trong phương

pháp này, giá trị wij được tính theo công thức sau:

trong đó m là số lượng văn bản và hi là số văn bản mà từ khóa ti xuất hiện

3/ Phương pháp TF × IDF: Phương pháp này là tổng hợp của hai phương pháp TF và IDF, giá trị của ma trận trọng số được tính như sau:

Phương pháp này kết hợp được ưu điểm của cả 2 phương pháp trên

Trọng số wij được tính bằng tần số xuất hiện của từ khóa ti trong văn bản dj và

độ hiếm của từ khóa ti trong toàn bộ cơ sở dữ liệu

1.3 MỘT SỐ PHƯƠNG PHÁP BIỂU DIỄN VĂN BẢN

1.3.1 Mô hình Boolean

Giả sử có một tập gồm m văn bản D = {d1, d2, d3, dm}, T là một tập

từ vựng gồm n từ khóa T = {t1, t2, tn} gọi w = (wi j) là ma trận trọng số, trong đó wi j là trọng số của từ khóa ti trong văn bản dj và được xác định như sau:

Trong mô hình boolean, văn bản vốn là tập hợp của các từ khóa, được biểu diễn bởi chỉ số từng từ và trọng số của chúng Trọng số của từng từ -

log log( m ) log( h ) h

m

1 i

nếu từ khóa ti xuất hiện trong tài liệu dj

0 nếu ngược lại

Trang 14

dùng để đánh giá độ quan trọng của chúng - trong mô hình này chỉ mang hai giá trị 0 và 1, tùy theo sự xuất hiện của từ đó trong văn bản

1.3.2 Mô hình không gian vector

Mô hình không gian véc tơ là mô hình toán học được sử dụng rộng rãi Mỗi văn bản được biểu diễn thành một vector, trong một không gian véc

tơ nhiều chiều, mỗi chiều tương ứng với một từ khóa trong văn bản

Mỗi thành phần của một vector văn bản, là một từ khóa riêng biệt trong tập văn bản gốc và được gán một giá trị là hàm f của từng từ khóa trong văn bản (thường là gán trọng số từ khóa) Cách biểu diễn văn bản thông dụng nhất là thông qua mô hình không gian vector, đây là một cách biểu diễn tương

đối đơn giản Khi áp dụng xử lý vector thưa, mang lại hiệu quả cao cho bài

toán ứng dụng

Xử lý vec tơ thưa

Xử lý các phép toán trên vector sẽ phụ thuộc vào độ lớn của ma trận

Wnm, ở đây n là số lượng thuật ngữ hay số chiều của vector, và m là số lượng

văn bản có trong cơ sở dữ liệu Trên thực tế, số lượng thuật ngữ và số văn bản

có thể lên đến vài chục nghìn Khi đó số lượng phần tử trong ma trận Wnm sẽ

lên đến con số trăm triệu và lưu trữ ma trận Wnm sẽ tốn rất nhiều tài nguyên bộ

đó T i là các từ khóa

Trang 15

nhớ, đồng thời các phép toán trên các vector sẽ phức tạp Để khắc phục, ta có thể sử dụng kỹ thuật xử lý vector thưa

Các vector thực sự thưa: số phần tử có trọng số khác 0 nhỏ hơn rất nhiều so với số thuật ngữ trong cơ sở dữ liệu Phép xử lý vector đơn giản

Đối với vector chuẩn: d0 = (6, 5, 0, 0, 0, 0); d1 = (0, 0, 4, 0, 3, 1); d2 = (0, 0, 0, 3, 0, 4) Đối với vector thưa: d0 =((1, 6), (2, 5)); d1 = ((3, 4), (5, 3), (6, 1)); d2 = ((4, 3), (6, 4)) Kiểu phần tử của vector thưa có thay đổi so với vector chuẩn Mỗi phần tử gồm hai giá trị là mã biểu diễn thuật ngữ và giá trị trọng

số tương ứng của thuật ngữ đó

1.3.3 Mô hình xác suất

Mô hình xác suất là mô hình toán học làm việc với các biến ngẫu nhiên và phân bố xác xuất của nó Theo thuật ngữ toán học, một mô hình xác suất có thể coi như một cặp (Y, P), trong đó Y là tập các quan sát (biến ngẫu nhiên) và P là tập các phân bố xác suất trên Y Khi đó, sử dụng suy diễn xác suất sẽ cho ta kết luận về các phần tử của tập Y

Văn bản trong mô hình xác suất được coi như một quan sát trong tập Y, trong đó các từ trong văn bản được giả thiết là độc lập, không phụ thuộc vào vị trí cũng như ngữ pháp của văn bản Khi đó văn bản sẽ gồm các từ mà nó chứa trong đó, chính vì vậy phương pháp này được gọi là biểu diễn túi - các - từ

Các bước để chuyển từ

không gian các từ khóa

sang không gian khái niệm

tương đối phức tạp Trước

tiên LSI lập ma trận từ-văn

Trang 16

1.3.4 Mô hình LSI

LSI đánh chỉ số ngữ nghĩa tiềm năng, là phương pháp được áp dụng nhiều trong bài toán phân lớp Ý tưởng chính của phương pháp này là, ánh xạ mỗi văn bản vào một tập không gian ít chiều hơn, trong đó mỗi chiều được gắn với một khái niệm Như vậy bản chất của phương pháp này là chuyển từ không gian các từ khóa sang không gian các khái niệm

1.4 PHƯƠNG PHÁP LỰA CHỌN TỪ TRONG BIỂU DIỄN VĂN BẢN 1.4.1 Loại bỏ từ dừng

Trước hết có thể quan sát thấy rằng, trong một văn bản có nhiều từ chỉ dùng để phục vụ cho biểu diễn cấu trúc câu, chứ không biểu đạt nội dung của

nó, chẳng hạn như các giới từ, từ nối,… Những từ xuất hiện nhiều trong văn bản mà không có liên quan gì tới nội dung văn bản Có thể loại bỏ những từ như vậy, nó được xem như là những từ dừng

1.4.2 Thu gọn đặc trưng biểu diễn

Với các tài liệu văn bản, mỗi một từ khóa duy nhất sẽ biểu diễn một chiều trong không gian biểu diễn Do đó, kích thước của không gian biểu diễn văn bản thường rất lớn, việc tính toán sẽ tốn nhiều thời gian

Thêm nữa, một tài liệu văn bản khi được biểu diễn dưới dạng một vector, thì số lượng các phần tử trong vector đó có giá trị 0 là rất lớn, điều này cũng có thể là một nguyên nhân làm cho việc tính toán phân lớp phức tạp và khó khăn hơn

Một trong những giải pháp để khắc phục những vấn đề trên là thu gọn

số lượng các từ để biểu diễn văn bản hay là thu gọn số lượng các đặc trưng bằng cách lựa chọn các đặc trưng có khả năng ảnh hưởng đến chất lượng phân lớp của các giải thuật phân lớp, còn các đặc trưng khác có thể bỏ qua Việc thu gọn này cần đảm bảo sao cho các đặc trưng còn lại vẫn có khả năng "đại diện" cho toàn bộ văn bản, không làm giảm chất lượng phân lớp

Trang 17

Lựa chọn đặc trưng là tiến trình lựa chọn một tập các đặc trưng (hay còn gọi là tập phổ biến) xuất hiện trong tập đào tạo và chỉ sử dụng các tập này như là các đặc trưng để biểu diễn văn bản

Thứ nhất, nó làm cho quá trình huấn luyện các bộ phân lớp hiệu quả

hơn bằng cách giảm kích thước của không gian các đặc trưng, điều này đặc biệt quan trọng đối với các giải thuật có chi phí huấn luyện là đắt

Thứ hai, Lựa chọn các đặc trưng thường tăng tính đúng đắn cho quá

trình phân lớp, vì nó có thể giúp loại bỏ các đặc trưng nhiễu

Một đặc trưng nhiễu là một đặc trưng mà khi thêm vào biểu diễn tài liệu, nó sẽ làm tăng các lỗi phân loại trên dữ liệu mới

Chúng ta có thể xem lựa chọn đặc trưng như một phương pháp để thay thế một bộ phân lớp phức tạp (sử dụng tất cả các đặc trưng) bằng một

bộ phận phân lớp đơn giản hơn (do nó chỉ sử dụng một tập hợp con của các đặc trưng)

*Các phương pháp để lựa chọn đặc trưng (các từ) để biểu diễn văn bản hay được sử dụng:

1.4.2.1 Định luật Zipf

Để giảm số chiều của vector biểu diễn văn bản ta dựa vào một quan sát sau: các từ xuất hiện ít lần (tần số xuất hiện nhỏ) thì ảnh hưởng rất bé đến nội dung các văn bản Tiền đề cho việc lý luận để loại bỏ những từ có tần suất nhỏ được đưa ra bởi Zipf năm 1949

Gọi tổng số tần số xuất hiện của từ t trong tài liệu D là f t Sau đó sắp

xếp tất cả các từ trong tập hợp theo chiều giảm dần của tần số xuất hiện f t, và

gọi thứ hạng của mỗi từ là r t

Định luật Zipf được phát biểu dưới dạng công thức như sau:

r t f t ≈ K (với K là một hằng số) Hay r t ≈ K/ f t

Trang 18

Năm 1958 Luhn đề xuất những từ "phổ biến" và "hiếm" và không cần thiết cho quá trình xử lý Các từ có tần số xuất hiện cao nhất hiển nhiên là những từ này không góp nhiều trong việc phản ánh nội dung văn bản Mặt khác, những từ chỉ xuất hiện ít lần (1 đến 3 lần) cũng không đóng vai trò quan trọng Những từ đóng vai trò quan trọng là những từ có tần số xuất hiện trung bình

Luhn đưa ra một phương pháp đơn giản cho việc lựa chọn các từ để biểu diễn văn bản [5] (lựa chọn đặc trưng) như sau:

1 Cho một tập gồm n văn bản, tính tần số của mỗi từ duy nhất (xuất hiện một lần) trong mỗi văn bản

2 Tính tần số xuất hiện của mỗi từ trong toàn bộ tập n văn bản

3 Sắp xếp tần số các từ giảm dần Chọn một giá trị ngưỡng trên để loại

bỏ các từ có tần số cao hơn ngưỡng đó Việc này sẽ loại bỏ các từ có tần số cao

4 Cũng như vậy, chọn một giá trị ngưỡng dưới để loại bỏ các từ có tần số thấp

5 Các từ còn lại là các từ được dùng trong quá trình đánh chỉ số văn bản Việc chọn các từ để đánh chỉ số văn bản hay còn gọi là lựa chọn đặc trưng

Trang 19

Phương pháp này được sử dụng phổ biến là lược bỏ những từ có tần

số xuất hiện thấp (từ 1 đến 3 lần) trong văn bản tùy theo từng ứng dụng cụ thể, và loại bỏ những từ có tần số xuất hiện cao

1.4.2.2 Thuật toán lựa chọn k đặc trưng tốt nhất [5]

Thuật toán lựa chọn đặc trưng cơ bản được mô tả ở hình 1.5 cho một lớp c, tính toán một hàm tiện ích A (t, c) cho mỗi thuật ngữ trong tập từ vựng, sau đó lựa chọn k thuật ngữ có giá trị A (t, c) là cao nhất Tất cả các thuật ngữ còn lại sẽ bị loại bỏ

SELECT FEATURES (ID, c, k)

1 V EXTRACT VOCABULARY (ID)

(Trích rút tập từ vựng V từ tập văn bản)

2 L [] (Tập đặc trưng ban đầu gán là rỗng, L = ø)

3 for each t V (lấy mọi từ khóa t thuộc tập từ vựng V)

4 do A (t, c) COMPUTE FEATURE UTILITY (id, t, c) (Tính hàm tiễn ích đặc trưng A(t, c) nhờ mỗi từ khóa t, mỗi chủ đề c, mỗi tập văn bản đã đánh chỉ số id)

5 APPEND (L, A(t, c), t ) (đánh giá lựa chọn cho bộ (L, A(t, c), t ))

6 Return FEATURESWITHLARGESTVALUES (L, k) (trả về tập đặc trưng L với k đặc trưng tốt nhất, có A(t, c) lớn nhất)

Hình 1.4 Thuật toán lựa chọn đặc trưng cơ bản cho việc lựa chọn k đặc trưng tốt nhất

1.4.2.3 Thông tin tương hỗ [5]

Một phương pháp lựa chọn đặc trưng phổ biến để tính toán A (t, c) là thông tin tương hỗ MI của thuật ngữ t với lớp c MI đo mức độ thông tin (xuất hiện/không xuất hiện) của thuật ngữ t góp phần làm cho quyết định quá trình phân lớp đúng đắn trên lớp c

Trang 20

Công thức của MI là:

) (

) (

) ,

( log ) ,

( )

, (

} , 1 } ,

c t

c t

e

e C e U p e

C e U p C

U

I

c t

Với U là biến ngẫu nhiên, nó có giá trị là et = 1 (tài liệu hiện tại chứa thuật ngữ t) và et = 0 (tài liệu không chứa thuật ngữ t), và C là biến ngẫu nhiên, nó có giá trị ec = 1 (tài liệu có trong lớp c) và ec = 0 (tài liệu không có trong lớp c)

Công thức trên được tính theo phương pháp ước lượng maximum - likelihood estimation (MLE), được biểu diễn bằng công thức:

I(U, C) =

N N

NN Log

N N N

NN Log

N N N

NN Log

N N N

NN

Log

N

0 0

00 2

00 0

1

10 2

10 1 0

01 2

01 1

1

11 2

11

N N

N N

Trong đó các biến N được tính thông qua các giá trị e1 và ec (được ký hiệu bằng các con số trong phần chỉ số dưới)

N10 là số tài liệu mà có chứa t (et = 1) và không có trong c (ec = 0)

N1. = N10 + N11 là số tài liệu mà có chứa t (et = 1) Các biến Nij khác được giải thích tương tự Và N là tổng các tài liệu: N = N11 + N01 + N10 + N00

Để lựa chọn k các thuật ngữ: t1, …, tk cho bởi lớp nào đó, sử dụng thuật toán lựa chọn đặc trưng trong hình 1.4, tính toán các hàm tiện ích cho tất

cả các thuật ngữ A (t, c) = I (Ut, Cc) và sau đó lựa chọn k thuật ngữ có các giá trị lớn nhất

1.4.2.4 Giải thuật Apriori[3]

Giải thuật này được sử dụng để lựa chọn đặc trưng (tập dữ liệu thường xuyên) Thuật toán này sử dụng các k-itemset (tập thuật ngữ gồm k items) để thăm dò (k+1)-itemset và qua đó khai thác được toàn bộ các tập thuật ngữ thường xuyên (Fls) trong tập dữ liệu

- Đầu tiên tính 1-itemsets, 2-itemsets và sau đó là 3-itemsets…

Trang 21

- Khi tính toán (k+1)-itemsets, chỉ xét những (k+1)-itemsets mà tất cả các tập con có độ dài k đã được xác định là thường xuyên (đặc trưng) ở bước trước

Mô tả giải thuật Apriori:

Biến Ck: Các tập thuật ngữ ứng cử có kích thước k

Biến Lk: Các tập thuật ngữ thường xuyên kích thước k

L1 = {Các thuật ngữ thường xuyên mức 1};

For (k=1; Lk!=ø; k++) do

Begin

//Bước kết hợp: Kết hợp L k với bản thân nó để tạo ra C k+1

//Bước cắt tỉa: Loại bỏ (k+1)-itemsets từ C k+1 chứa k+1-itemsets không thường xuyên

Ck+1 = các ứng cử viên được tạo ra từ Lk

For mỗi văn bản t trong cơ sở dữ liệu do

Tăng số lượng của tất cả các ứng cử viên trong Ck+1 có chứa trong t

Lk+1 = các ứng cử viên trong Ck+1 có GS > min_support

End

Return Tập cácLk

1.5 ĐỘ LIÊN QUAN GIỮA CÁC VĂN BẢN

Độ liên quan giữa hai văn bản là một đại lượng đo mức độ giống nhau

về mặt nội dung giữa hai văn bản đó

Phương pháp đánh giá độ liên quan theo tần xuất xuất hiện thuật ngữ, không quan tâm đến thứ tự sắp xếp của các thuật ngữ trong văn bản mà chỉ quan tâm đến số lần nó xuất hiện trong văn bản đó Ví dụ: phương pháp sử dụng hệ số consine, Độ tương tự giữa hai vector văn bản X = {x1, x2, …, xm} và

Y = { y1, y2, …, ym } biểu diễn dưới dạng vector tần xuất TF x IDF sẽ được tính theo công thức:

Trang 22

Sim(X, Y) = cosin(X, Y) =

Y X

i i

i i i

y x

y x

1 2 1

2 1

Trong đó xi, i = 1…m, yj, j = 1…m, là là các tần số xuất hiện của các

từ khóa trong từng văn bản

Hình 1.5 Mô tả bài toán phân lớp

- Để phân lớp văn bản tự động thường sử dụng các kỹ thuật học máy

có giám sát, dữ liệu văn bản đã được phân lớp bằng tay, được chia thành hai phần: Tập huấn luyện hay tập mẫu và tập kiểm thử (kiểm tra), tập mẫu chiếm 2/3 dữ liệu, tập kiểm thử 1/3 dữ liệu còn lại Đầu tiên hệ thống được huấn luyện (học) thông qua tập mẫu, Sau đó đánh giá hiệu quả của hệ thống thông qua các dữ liệu kiểm thử

- Các hệ thống phân lớp có thể ứng dụng trong việc phân loại tài liệu của các thư viện điện tử, phân loại văn bản báo chí trên các trang tin điện tử,… những hệ thống tốt, cho ra kết quả rất khả quan, giúp ích nhiều cho con người

Trang 23

- Lược đồ chung cho quá trình xây dựng hệ thống phân lớp văn bản, bao gồm ba thành phần chính:

+ Biểu diễn văn bản, tức là chuyển các dữ liệu văn bản thành một

dạng có cấu trúc nào đó

+ Học quy nạp - sử dụng các kỹ thuật học máy để học trên các mẫu

huấn luyện vừa biểu diễn Như vậy việc biểu diễn ở công đoạn một sẽ là đầu vào cho công đoạn thứ hai Và sau đó sử dụng công cụ phân lớp để phân lớp văn bản cần phân lớp vừa được biểu diễn

Thành phần thứ hai được coi là trung tâm của một hệ thống phân lớp văn bản Trong thành phần này, có nhiều phương pháp học máy được áp dụng như mô hình học Bayes, cây quyết định, phương pháp k người láng giềng gần nhất, …

+ Tri thức ngoài - bổ sung các kiến thức thêm vào đó người dùng

cung cấp để làm tăng độ chính xác trong biểu diễn văn bản hay trong quá trình học máy Trong nhiều trường hợp, các phương pháp học hệ thống phân lớp có thể bỏ qua thành phần thứ ba này

Biểu diễn ban đầu

Tri thức ngoài

Học quy nạp

Dữ liệu văn bản

Các công cụ

phân lớp

Làm giảm số chiều hoăc lựa chọn thuộc tính

Biểu diễn cuối

Hình 1.6 Lược đồ chung quá trình xây dựng bộ phân lớp văn bản

Biểu diễn ban đầu

Trang 24

- Sử dụng mô hình đã được xây dựng để phân lớp dữ liệu mới

Đại lượng đánh giá hiệu suất phân lớp:

Việc đánh giá độ phân lớp dựa trên việc áp dụng mô hình đối với các

dữ liệu thuộc tập dữ liệu kiểm tra Dtest, sử dụng mô hình cho từng trường hợp

dữ liệu ở Dtest mà kết quả đầu ra là lớp c dự báo cho từng dữ liệu

Hai độ đo được dùng phổ biến để đánh giá chất lượng của thuật toán phân lớp là độ hồi tưởng p và độ chính xác Ngoài ra, một số độ đo kết hợp được xây dựng từ các độ đo này cũng được sử dụng, trong đó điển hình nhất

là độ đo f1 (nhiều trường hợp bỏ qua trị số 1) Phần dưới đây trình bày các tính toán chi tiết giá trị của các độ đo hồi tưởng và chính xác trong bài toán phân lớp văn bản

Xét trường hợp lực lượng của tập C các lớp trong bài toán lớn hơn hai, trường hợp tập C chỉ gồm có hai lớp là đơn giản Đối với mỗi lớp c, cho thực hiện mô hình phân lớp vừa được xác định với các dữ liệu thuộc Dtest nhận được các đại lượng TPc, TNc, FNc, FPc như Bảng 1.1

- TPc (true positives): Số lượng ví dụ dương (tài liệu thực sự thuộc lớp c) được thuật toán phân lớp gán cho giá trị đúng thuộc lớp c

- TNc (true negatives): số lượng ví dụ âm (tài liệu thực sự không thuộc c) nhưng lại được thuật toán phân lớp gán cho giá trị đúng thuộc lớp c

Trang 25

Khi đó, với mỗi lớp c, giá trị các độ đo pc và c được tính như sau:

pc =

c c

c

FP TP

TP

và c =

c c

c

TN TP TP

Với bài toán phân lớp nhị phân, các độ đo nói trên cho một lớp trong hai lớp là đủ để đánh giá chất lượng bộ phân lớp, tuy nhiên, trong trường hợp bài toán phân lớp K lớp, các độ đo trung bình được sử dụng bao gồm trung bình mịn và trung bình thô

Độ hồi tưởng trung bình thô:

ρM

=

k

c c

1

1

) (

1

1

) (

Các độ đo vi trung bình mịn được coi là các độ đo tốt hơn để đánh giá chất lượng thuật toán phân lớp đa lớp tài liệu

1.7 THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT (KNN)

Ý tưởng của phương pháp này là khi cần phân lớp một văn bản mới, thuật toán sẽ xác định khoảng cách (có thể áp dụng các công thức về khoảng cách như Euclide, Cosine, …) của tất cả các văn bản trong tập huấn luyện đến văn bản này để tìm ra k văn bản gần nhất, gọi là k láng giềng gần nhất Sau đó dùng các khoảng cách này đánh trọng số cho tất cả các chủ đề, bằng cách trọng số của một chủ đề chính là tổng tất cả các khoảng cách ở trên của các

Trang 26

văn bản trong k láng giềng có cùng chủ đề, chủ đề nào không xuất hiện trong

k láng giềng sẽ có trọng số bằng 0 Sau đó các chủ đề sẽ được sắp xếp theo giá trị trọng số giảm dần và các chủ đề có trọng số cao sẽ được chọn làm chủ

đề của văn bản cần phân loại

Trọng số của chủ đề cj đối với văn bản x được tính như sau:

c j ,

d i y {kNN}

di

d i , x sim

c j x, W

d i.x

d i,xcos

d i,xsim

Để chọn được tham số k tốt nhất cho thao tác phân loại, thuật toán cần được chạy thử nghiệm trên nhiều giá trị k khác nhau, giá trị k càng lớn thì thuật toán càng ổn định và sai sót càng thấp

Trang 27

Chương 2

BÀI TOÁN PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT

VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG

Ngoài việc nắm bắt kiến thức về công nghệ thông tin, các kĩ thuật khai phá văn bản nói chung đã trình bày, cần phải nghiên cứu kĩ thêm đặc điểm đặc trưng của tiếng Việt, tìm hiểu thông tin chuyên ngành về tài nguyên và môi trường, đặc biệt là kỹ thuật tách từ tiếng Việt, để áp dụng giải quyết bài toán phân lớp tự động văn bản tiếng việt về tài nguyên môi trường Sau đây là phần trình bày những nội dung này

2.1 MỘT SỐ ĐẶC ĐIỂM TIẾNG VIỆT

2.1.1 Âm tiết

Âm tiết là đơn vị nhỏ nhất có thể có ý nghĩa, có thể không Về mặt ngữ âm thì âm tiết được ghi lại thành một cụm kí tự trong văn bản Âm tiết là đơn vị ngữ pháp dùng để cấu tạo từ Ví dụ: ai, thơ, văn, …

2.1.2 Từ

Từ là đơn vị nhỏ nhất có nghĩa, có chức năng gọi tên, được vận dụng

độc lập, tái hiện tự do trong lời nói để tạo câu Ví dụ: nhà, người, áo, cũng,

đường sắt, sân bay, dạ dày, đen sì,

Để có thể hiểu, nói, viết, suy nghĩ chúng ta sử dụng từ chứ không sử dụng tiếng Trong các ngôn ngữ phổ dụng như tiếng Anh, Pháp, …các khoảng trống đánh dấu sự tách rời các từ, ở tiếng Việt khoảng trống đánh dấu sự tách rời các tiếng Do vậy, khi nghiên cứu tiếng Việt, cần quan tâm vấn đề ghép các tiếng thành từ

Một số khái niệm liên quan đến tiếng Việt:

- Cấu tạo từ: từ đơn (nhà, xe), từ ghép (nhà cửa), từ láy (cao kều), từ ngẫu hợp (mồ hóng, mặc cả, mâu thuẫn, hi sinh), từ vay mượn gốc Ấn-Âu qua con đường sách vở hoặc khẩu ngữ: a-xít, mit tinh, mùi xoa, xà phòng, sô-cô-la

Trang 28

- Biến thể của từ: ki-lô-gam thành ki lô hoặc kí lô, khổ sở thành lo khổ lo sở

- Từ đồng âm: đường 1 (đường tàu Thống Nhất); đường 2 (mua một cân đường)

- Từ đồng nghĩa: cố, gắng, cố gắng

- Từ trái nghĩa: cao và thấp

- Từ loại: danh từ (cây cối, bàn ghế, …), động từ (chạy, nhẩy, ), tính

từ (xinh, đẹp, ), Đại từ (tôi, nó, …), Số từ (một, hai, …), quán từ (các, những, …), Trạng từ (trên, dưới, …), liên từ (và, hay, …), giới từ (cùng, với, bằng…), phó từ (đã, sẽ, không…), trợ từ (Ừ, nhỉ, nhé, …)

2.1.3 Câu

- Câu là đơn vị ở bậc cao hơn, mang tính hoàn chỉnh của quá trình tư duy so với từ

- Câu có cấu tạo đa dạng: câu đơn, câu kép

- Cấu tạo ngữ pháp của câu thay đổi có thể làm thay đổi nghĩa của câu

2.1.4 Các đặc điểm chính tả văn bản tiếng Việt

Việc nghiên cứu đặc điểm chính tả tiếng Việt có ý nghĩa quan trọng trong tiền xử lý dữ liệu văn bản một số đặc điểm chính tả của tiếng Việt cần quan tâm như:

- Các tiếng đồng âm: kĩ/kỹ, lí/lý, … thường bị sử dụng lẫn nhau, Ví dụ: lý luận, lí luận, …

- Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ thông, ví dụ: đậu phộng/lạc, …

- Vị trí dấu: theo quy định đánh dấu tiếng Việt, dấu được đặt trên nguyên âm có ưu tiên cao nhất Tuy nhiên khi viết văn bản, do mỗi người sử dụng một bộ gõ tiếng Việt khác nhau nên nhiều khi gây ra sự không chuẩn xác Ví dụ: toán, tóan, …

Trang 29

- Cách viết hoa: theo quy định dấu câu và dấu tên riêng phải viết hoa Tuy nhiên vẫn tồn tại một số cách viết tùy tiện

- Phiên âm tiếng nước ngoài: Các cách viết sau cẫn được chấp nhận và không có trong quy chuẩn tiếng Việt: Singapore/ Xin-ga-po,

- Từ gạch nối: do các viết dấu gạch nối tùy tiện, không phân biệt được giữa nối tên riêng hay chú thích, …

- Kí tự ngắt câu: Các kí tự đặc biệt ".", ";", "!", "?", (…), (-), … ngăn cách giữa các câu hoặc các vế câu, các hình vị trong câu ghép, …

- Trong tiếng Việt, ngoài những từ thuần Việt còn có cả những từ ngoại lai của những ngôn ngữ khác (gi đông, soundcard, …)

- Ranh giới từ không được xác định mặc nhiên bằng khoảng trắng, điều này khiến cho việc phân tích tách từ gặp khó khăn Việc nhận diện ranh giới từ là rất quan trọng, làm tiền đề cho việc xử lý tiếp theo sau đó: như kiểm lỗi chính tả, gán nhãn từ loại, thống kê tần suất từ, …

2.2 PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT

2.2.1 Phương pháp So khớp tối đa [5]

Ở phương pháp này, chúng ta sẽ duyệt một ngữ hoặc câu từ trái sang phải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lại như vậy cho đến hết câu

Dạng đơn giản của phương pháp dùng để giải quyết nhập nhằng từ đơn Giả sử chúng ta có một chuỗi ký tự C1, C2, …, Cn Chúng ta sẽ áp dụng phương pháp từ đầu chuỗi Đầu tiên kiểm tra xem C1 có phải là từ hay không, sau đó kiểm tra xem C1C2 có phải là từ hay không Tiếp tục thực hiện như thế cho đến khi tìm được từ dài nhất

Dạng phức tạp: quy tắc của dạng này là phân đoạn từ Thông thường người ta lựa chọn lấy kết quả phân đoạn ba từ nào có chiều dài tối đa Thuật toán bắt đầu từ dạng đơn giản, cụ thể là nếu phát hiện ra những cách từ gây nhập nhằng, như ở ví dụ trên, giả sử C1 là từ và C1C2 cũng là một từ, khi đó

Trang 30

chúng ta kiểm tra ký tự kế tiếp trong chuỗi C1, C2, … , Cn, để tìm tất cả các đoạn gồm ba từ mà mỗi đoạn đó có bắt đầu với từ C1 hoặc từ C1C2

Ví dụ: Giả sử chúng ta có được các đoạn sau:

2.2.2 Phương pháp Giải thuật học cải biến [5]

Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu Theo cách tiếp cận này để cho máy tính có thể nhận biết ranh giới giữa các từ Để

có thể tách từ chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữ liệu đã được đánh dấu ranh giới giữa các từ đúng Rõ ràng chúng ta thấy phương pháp rất đơn giản, vì chỉ cần cho máy học các tập câu mẫu và sau đó máy sẽ tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính xác khi

có những câu đúng theo luật mà máy đã rút ra Và rõ ràng để tách từ được hoàn toàn chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếng Việt thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ

Trang 31

Ưu điểm:

- Đặc điểm phương pháp này là khả năng tự rút ra quy luật của ngôn ngữ

- Nó có những ưu điểm của cách tiếp cận dựa trên luật vì cuối cùng nó cũng dựa trên luật được rút ra, nhưng nó khắc phục được khuyết điểm của việc xây dựng các luật một cách thủ công bởi các chuyên gia

- Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả của luật (dựa trên ngữ liệu huấn luyện)

- Có khả năng khử được một số nhập nhằng trong ngôn ngữ

2.2.3 Phương pháp đối sánh thuật ngữ dài nhất

- Thuật toán đối sánh từ trái qua:

Xét câu sau: Hôm nay trời đẹp

Đầu tiên ta kiểm tra xem trong từ điển có từ hôm nay trời đẹp không? Kết quả là không có Ta tách bớt âm tiết cuối ra, và kiểm tra hôm nay trời có

trong từ điển không? Kết quả cũng không có Ta lại bỏ bớt một tiếng nữa ra,

kiểm tra từ điển có từ hôm nay không? Kết quả là có, và hôm nay được coi là một từ đã tìm thấy Ta kiểm tra tiếp phần còn lại của câu, còn lại trời đẹp, kiểm tra xem có từ này không Kết quả là không có, ta lại bỏ tiếng đẹp đi và xét xem có từ trời không? Kết quả là có, và ta thu được hai từ là hôm nay và

trời Xét đẹp xem có hay không? Kết quả là có, và ta thu được các từ hôm nay, trời và đẹp

- Thuật toán đối sánh từ phải qua: chỉ khác thuật toán đối sánh từ trái qua đó là lấy chuỗi dài nhất từ cuối câu (vị trí xuất phát là bên phải nhất) và khi ta cắt chuỗi hay tiếng thì ta cắt phần bên trái nhất đi, giữ lại phần bên phải Cuối cùng khi thuật toán kết thúc, đảo ngược lại thứ tự các từ tách được trong danh sách từ

2.3 MỘT SỐ THÔNG TIN CHUYÊN NGÀNH TÀI NGUYÊN VÀ MÔI TRƯỜNG

Dân tộc ta trường tồn như ngày nay, cũng là nhờ có nguồn tài nguyên thiên nhiên phong phú và đa dạng, đảm bảo cho sự phát triển, sự sống của toàn dân tộc từ đời này sang đời khác, tiếp nối

Trang 32

Việt Nam có diện tích 331.212 km², bao gồm khoảng 327.480 km² đất liền và hơn 4.200 km² biển, với hơn 2.800 hòn đảo, bãi đá ngầm lớn nhỏ, gần

và xa bờ, bao gồm cả Trường Sa và Hoàng Sa mà Việt Nam tuyên bố chủ quyền Việt nam có nhiều sông ngòi Khí hậu Việt nam có bốn mùa xuân, hạ, thu, đông rõ rệt Việt Nam có nhiều tài nguyên

2.3.1 Tài nguyên đất

Ðất là một dạng tài nguyên vật liệu của con người Ðất gồm đất đai là nơi ở, xây dựng cơ sở hạ tầng của con người, và thổ nhưỡng là mặt bằng để sản xuất nông lâm nghiệp

Giá trị tài nguyên đất được đo bằng số lượng diện tích (ha, km2) và độ phì (độ mầu mỡ thích hợp cho trồng cây công nghiệp và lương thực)

Ðất là một hệ sinh thái hoàn chỉnh nên thường bị ô nhiễm bởi các hoạt động của con người Ô nhiễm đất có thể phân loại theo nguồn gốc phát sinh thành ô nhiễm do chất thải công nghiệp, chất thải sinh hoạt, chất thải của các hoạt động nông nghiệp, ô nhiễm nước và không khí từ các khu dân cư tập trung

Tài nguyên đất của Việt Nam đang suy thoái nghiêm trọng do xói mòn, rửa trôi, bạc mầu, nhiễm mặn, nhiễm phèn và ô nhiễm đất, biến đổi khí hậu

Việc quản lý nhà nước về đất đai theo luật đất đai Nhà nước đã tăng cường quản lý đất đai bằng pháp luật, đã đạt nhiều hiệu quả nhất định song ở nhiều nơi, nhiều chỗ các cơ quan chức năng cũng còn buông lỏng quản lý, nhiều hiện tượng tiêu cực xảy ra Một số cá nhân tư do khai thác tài nguyên đất, rừng trái phép, gây hậu quả xấu nghiêm trọng

2.3.2 Tài nguyên nước

Các nguồn nước con người sử dụng dùng trong các hoạt động nông nghiệp, công nghiệp, dân dụng, giải trí và môi trường, hầu hết đều cần nước

ngọt Nước ngọt là nguồn tài nguyên tái tạo, bao gồm nước mặt và nước ngầm.

- Nước mặt là nước trong sông, hồ hoặc nước ngọt trong vùng đất ngập nước Nước mặt được bổ sung một cách tự nhiên bởi giáng thủy và chúng mất đi khi chảy vào đại dương, bốc hơi và thấm xuống đất

Trang 33

- Nước ngầm hay còn gọi là nước dưới đất, là nước ngọt được chứa trong các lỗ rổng của đất hoặc đá Nó cũng có thể là nước chứa trong các tầng ngậm nước bên dưới mực nước ngầm Đôi khi người ta còn phân biệt nước ngầm nông, nước ngầm sâu và nước chôn vùi

Việt Nam có 2360 con sông, có chiều dài trên 10km, trong đó có 9 hệ thống sông lớn có diện tích lưu vực trên 10.000km2 Tổng lượng nước hàng năm chảy qua các sông, suối tới 835 tỷ m3, trong đó có 313 tỷ m3 sản sinh trên lãnh thổ Việt Nam còn lại 522 tỷ m3 từ lãnh thổ các nước ngoài chảy vào nước ta

Tài nguyên nước dưới đất có trữ lượng động thiên nhiên toàn lãnh thổ khoảng 1500m3/s Nguồn tài nguyên nước, tính theo đầu người ở nước ta hiện nay vào loại trung bình thấp so với thế giới và suy giảm do dân số tăng nhanh

Do đặc điểm địa lý nước ta kéo dài theo phương kinh tuyến, địa hình

bị chia cắt mạnh đã tác động trực tiếp tới sự ảnh hưởng của các chế độ gió mùa, là nguyên nhân gây ra sự phân bố rất không đồng đều về tài nguyên nước theo thời gian và không gian Hàng năm lượng nước tập trung trong 3-4 tháng mùa mưa chiếm tới 70-75%, chỉ riêng một tháng cao điểm trong mùa mưa có thể chiếm tới 30% Trong khi về mùa khô, lượng nước chỉ chiếm 25-30% Chính sự phân bố không đều này là nguyên nhân gây ra lũ, úng, lụt và các đợt hạn hán nghiêm trọng Thiên tai, lũ lụt, bão, úng ngập, hạn hán, chua phèn, xâm nhập mặn thường xuyên là mối đe doạ đối với sản xuất và đời sống dân cư nhiều vùng của nước ta Do vậy, việc điều hoà phân phối nguồn nước, khai thác mặt lợi của nước và giảm thiểu tác hại do nước gây ra cần phải được quản lý thống nhất theo lưu vực sông

Hiện nay, vấn đề suy thoái tài nguyên nước lưu vực sông diễn ra ngày càng nghiêm trọng Suy thoái tài nguyên nước trên lưu vực sông được biểu hiện ở sự suy giảm về số lượng và đặc biệt là chất lượng Trong những năm qua, sự tăng nhanh về dân số và khai thác quá mức tài nguyên nước, các tài nguyên đất và rừng đã làm suy kiệt nguồn nước; việc phát triển đô thị và công nghiệp nhưng không có biện pháp quản lý chặt chẽ và xử lý các chất thải lỏng, thải rắn theo yêu cầu cũng đã làm ô nhiễm nguồn nước, cho nên suy

Trang 34

thoái tài nguyên nước đã trở thành khá phổ biến đối với các lưu vực sông Việt Nam được quốc tế xếp vào loại các quốc gia có tài nguyên nước suy thoái

2.3.3 Tài nguyên khoáng sản

Khoáng sản là khoáng vật của lớp vỏ Trái đất, thành phần hóa học và các tính chất vật lý của chúng cho phép sử dụng chúng có hiệu quả và lợi ích trong lĩnh vực sản xuất ra của cải vật chất của nền kinh tế quốc dân

Việt Nam có nguồn tài nguyên khoáng sản phong phú, một số loại có trữ lượng lớn như than đá, quặng kim loại, vật liệu xây dựng như cát, đá vôi, đất sét Tuy nhiên là một nước đang phát triển, Việt nam hiện đang phải đối mặt với tình trạng khai thác khoáng sản tràn lan, không có quy hoạch, gây lãng phí, ảnh hưởng nghiêm trọng đến môi sinh Môi trường, nguồn nước bị ô nhiễm, đất đai xâm hại, hạ tầng cơ sở bị xuống cấp…

Quảng ninh là tỉnh có tiềm năng du lịch và cũng là nơi có mỏ than với trữ lượng lớn của Việt nam Khai thác khoáng sản và du lịch là hai ngành mang lại thu nhập cao giúp kinh tế Quảng ninh, tuy nhiên chất thải ra môi trường ở đây vượt quá tiêu chuẩn cho phép

Tình hình khai thác khoáng sản tràn lan tại Việt Nam

Hình 2.1 Khai thác khoáng sản ở Thái Nguyên

Trong thời gian gần đây tình trạng khai thác cát quá mức tại các con sông

và bờ biển để phục vụ xây dựng và xuất khẩu Hiện tại các dòng sông của Việt nam từ miền Bắc đến miền Nam vẫn tiếp tục chịu cảnh khai thác cát ngày đêm

Trang 35

Trước những bức xúc về tình trạng khai thác tài nguyên khoáng sản trên

cả nước, chính phủ đã đệ trình quốc hội xem xét luật khoáng sản sửa đổi, trong

đó có những quy định về đấu giá quyền thăm dò khai thác khoáng sản, phân cấp trong việc thăm do khoáng sản, tổ chức đấu giá và cấp phép cho Bộ Tài nguyên Môi trường để tránh tình trạng địa phương cấp phép khai thác mỏ ồ ạt

Hình 2.2 Khai thác cát vô tội vạ làm diện tích đất ven các sông sạt lở

2.3.4 Tài nguyên biển

Biển Việt Nam được công nhận là một trong 10 trung tâm đa dạng sinh học biển, 20 vùng biển giàu hải sản trên thế giới

Các nhà sinh vật học phát hiện tại vùng biển Việt Nam có tới 11.000 loài sinh vật cư trú trong hơn 20 kiểu hệ sinh thái điển hình thuộc 6 vùng đa dạng sinh học biển khác nhau

Trên diện tích gần 1.200km2

rạn san hô, có hơn 300 loài san hô đá phân bố rộng khắp từ Bắc vào Nam Sống gắn bó với các hệ sinh thái này là trên 4.000 loài sinh vật sống dưới đáy và cá, trong đó có trên 400 loài cá, rạn san hô và nhiều đặc hải sản

Bản thân các hệ sinh thái này còn là những bức tường tự nhiên phòng chống thiên tai, bảo vệ bờ biển khỏi xói lở, thậm chí giảm thiểu tác hại của sóng thần và là bộ lọc tự nhiên các chất ô nhiễm từ sông mang ra biển Đa dạng sinh học biển và các hệ sinh thái trên là nền tảng cho việc phát triển lâu dài một số ngành kinh tế như du lịch, thuỷ sản, y dược biển

Trang 36

Vùng ven biển Việt Nam có khoảng 126 bãi cát biển đẹp, trong đó có tới 20 bãi cát biển đạt tiêu chuẩn quốc tế, hàng trăm bãi biển nhỏ, đẹp, nằm ven các vụng, vũng tĩnh lặng, ven các đảo hoang sơ

Ngoài Vịnh Hạ Long đã được UNESCO công nhận di sản Thiên nhiên Thế giới năm 1994; 4 di sản thiên nhiên thế giới khác của Việt Nam đều nằm

ở vùng ven biển Năm 2003, vịnh Nha Trang được công nhận là một trong 29 vịnh đẹp nhất thế giới, 15 khu bảo tồn biển đang trình Chính phủ phê duyệt

Việt Nam phát triển kinh tế đi đôi với bảo vệ môi trường biển Việt Nam ban hành Luật bảo vệ môi trường (1993, 2004), Luật dầu khí (1993, 2000), Luật thủy sản (2003), Luật hàng hải (1990, 2005), Pháp lệnh du lịch (1999); Tuy nhiên việc quản lý khai thác tài nguyên biển ở Việt nam vẫn còn nhiều bất cập cần phải nghiên cứu giải quyết

2.3.5 Khí tƣợng thủy văn

Khí tượng là một ngành khoa học nghiên cứu cấu tạo, tính chất khí quyển và các hiện tượng xảy ra trong đó, bao gồm nhiệt độ, áp suất, độ ẩm, quan sát về thời tiết… Nhiệm vụ chủ yếu của khí tượng là dự báo thời tiết trong từng thời kì, cho từng vùng hoặc cho toàn cầu

Thủy văn là một ngành khoa học nghiên cứu về sự vận động, phân

phối, và chất lượng của nước trên trái Đất, nó đề cập đến cả vòng tuần hoàn nước và các nguồn nước

Khí tượng-thuỷ văn là một khoa học liên ngành nghiên cứu, phân tích

mối quan hệ qua lại giữa các pha của nước trong khí quyển và đất khi nó chuyển qua chu trình thuỷ văn

Ở nước ta, có viện Khí tượng-thuỷ văn và môi trường, có các trung tâm dự báo khí tượng và thủy văn Trung tâm Tư liệu khí tượng thuỷ văn là tổ chức sự nghiệp trực thuộc Trung tâm Khí tượng Thuỷ văn quốc gia, Bộ Tài nguyên và Môi trường, có chức năng thu nhận, quản lý,

phát triển kinh tế - xã hội, đảm bảo an ninh quốc phòng trong phạm vi cả nước

Trang 37

2.3.6 Môi trường

Môi trường là tập hợp tất cả các yếu tố tự nhiên và xã hội bao quanh con người, ảnh hưởng tới con người và tác động đến các hoạt động sống của con

người như: không khí, nước, độ ẩm, sinh vật, xã hội loài người và các thể chế

- Môi trường là không gian sống của con người và sinh vật Trong quá trình tồn tại và phát triển con người cần có các nhu cầu tối thiểu về không khí,

độ ẩm, nước, nhà ở cũng như các hoạt động vui chơi giải trí khác Tất cả các nhu cầu này đều do môi trường cung cấp

- Môi trường là nơi cung cấp các nhu cầu về tài nguyên cho con người như đất, đá, tre, nứa, tài nguyên sinh vật Tất cả các tài nguyên này đều do môi trường cung cấp và giá trị của tài nguyên phụ thuộc và mức độ khan hiếm

và giá trị của nó trong xã hội

- Môi trường là nơi chứa đựng, đồng hóa các chất thải của con người trong quá trình sử dụng các tài nguyên thải vào môi trường Các tài nguyên sau khi hết hạn sử dụng, chúng bị thải vào môi trường dưới dạng các chất thải Các chất thải này bị các quá trình vật lý, hóa học, sinh học phân hủy thành các chất vô cơ, vi sinh quay trở lại phục vụ con người Tuy nhiên chức năng là nơi chứa đựng chất thải của môi trường là có giới hạn Nếu con người vượt quá giới hạn này thì sẽ gây ra mất cân bằng sinh thái và ô nhiễm môi trường

Môi trường sống ở việt Nam hiện nay có nhiều vấn đề cần xem xét,

đồng thời với việc phát triển kinh tế xã hội, công nghiệp hóa, hiện đại hóa đất nước thì việc gây ô nhiễm môi trường cũng ngày càng gia tăng Việc xử lý nước thải, rác thải công nghiệp, nông nghiệp, y tế, và sinh hoạt không đúng quy trình kỹ thuật, nên nhiều nơi gây ô nhiễm nặng môi trường Các cơ quan chức năng có nhiều biện pháp quản lý song cũng chưa có hiệu quả mong đợi

2.3.7 Đo đạc và bản đồ

Bản đồ địa lý là sự biểu thị thu nhỏ qui ước của bề mặt trái đất lên mặt phẳng, xây dựng trên cơ sở toán học với sự trợ giúp và sử dụng các ký hiệu qui ước để phản ánh sự phân bố, trạng thái và mối quan hệ tương quan của

Trang 38

các hiện tượng thiên nhiên và xã hội được lựa chọn và khái quát hoá để phù hợp với mục đích sử dụng của bản đồ và đặc trưng cho khu vực nghiên cứu Bản đồ có tính trực quan, tính đo đếm được và tính thông tin nhanh

Những bản đồ đầu tiên được lập thủ công bằng bút vẽ và giấy da, vì thế chất lượng của chúng rất giới hạn và đã được phổ biến hạn chế Kỹ thuật ngày càng phát triển, chất lượng của bản đồ ngày càng tốt hơn

Ngành đo đạc và bản đồ Việt Nam phát triển cùng thế giới, nhiều tiến

bộ kỹ thuật, nhiều thành công trong đo đạc và bản đồ, đặc biệt là đạt nhiều thành công trong công tác đo đạc và phân mốc biên giới lãnh thổ đất liền

Tóm lại, thông tin chuyên ngành tài nguyên và môi trường phân thành

bảy chủ đề sau:

1 Tài nguyên đất

2 Tài nguyên nước

3 Tài nguyên biển

4 Tài nguyên khoáng sản

5 Khí tượng thủy văn

6 Môi trường

7 Đo đạc và bản đồ

Mặt khác, từ nhận thức về sự biến đổi không ngừng theo thời gian của tài nguyên và môi trường, ảnh hưởng trực tiếp tới đời sống, hoạt động của mỗi đối tượng trong tự nhiên và xã hội Do vậy việc nắm bắt kịp thời các thông tin chuyên ngành tài nguyên và môi trường của con người nói chung, người Việt Nam ta nói riêng, có ý nghĩa hết sức quan trọng Đặc biệt, mỗi người cần quan tâm tới thông tin theo một chủ đề riêng, phục vụ cho công tác chuyên môn

Như vậy một vấn đề đặt ra là, giả thiết các thông tin về tài nguyên và môi trường được thể hiện bằng các Văn bản tiếng Việt, dạng tệp tin.TXT,.DOC, ta cần phân lớp các văn bản đó vào một trong các chủ đề trên Nếu phân lớp bằng phương pháp thủ công có nhiều nhược điểm: tốc độ chậm

Trang 39

và thiếu chính xác Học viên mong muốn áp dụng kiến thức về công nghệ thông tin nói chung, kỹ thuật khai phá văn bản nói riêng, đặc biệt là kỹ thuật phân lớp văn bản tiếng Việt, để xây dựng bộ phân lớp tự động văn bản báo chí tiếng việt về tài nguyên và môi trường vào bảy chủ đề nêu trên, theo yêu cầu của bài toán đặt ra Thuật toán phân lớp văn bản như vậy đáp ứng được tốc độ xử lý phân lớp các văn bản, đảm bảo độ chính xác phân lớp, kết quả mang lại chất lượng khả quan

2.4 BÀI TOÁN PHÂN LỚP TỰ ĐỘNG CÁC VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG

Có thể mô tả bài toán đơn giản như sau:

Cho một tập hợp các văn bản báo chí tiếng Việt có nội dung bàn về

lĩnh vực tài nguyên môi trường, được lưu trữ dạng tệp tin.TXT,.DOC trong máy tính, đã được phân lớp bằng tay vào một số chủ đề có sẵn Tập này gọi là tập mẫu (tập huấn luyện) Hệ thống sẽ tự động "học" dựa trên các tri thức này

Khi đưa vào một tập văn bản báo chí tiếng Việt có nội dung bàn về lĩnh vực tài nguyên môi trường mới (chưa xuất hiện trong tập văn bản mẫu), dạng tệp tin.TXT,.DOC vào hệ thống

Yêu cầu: Hệ thống tự động chỉ ra tên chủ đề phù hợp nhất với từng

văn bản báo chí đó

2.5 MÔ HÌNH TIẾP CẬN BÀI TOÁN

Ý tưởng xây dựng mô hình bài toán này là thực hiện giảm chiều không gian biểu diễn các văn bản Nghĩa là ánh xạ mỗi văn bản mẫu vào một không gian các từ ít chiều hơn, đặc trưng cho văn bản Các tập hợp từ khóa biểu diễn trong không gian đó, được sử dụng để làm tăng hiệu suất phân lớp văn bản

Các bước trong mô hình 2.3 được mô tả chi tiết dưới đây:

2.5.1 Tiền xử lý văn bản

- Trước tiên đưa tập mẫu văn bản đã phân lớp bằng tay vào môdun tiền xử lý văn bản

Trang 40

- Lọc nhiễu: loại bỏ kí tự thừa, vô nghĩa, lỗi chính tả, lựa chọn văn bản.doc, txt, chữ viết hoa đồng nghĩa với chữ viết thường…

Kết quả Phân lớp

Hình 2.3 Mô hình tiếp cận bài toán phân lớp tự độngvăn bản tiếng Việt

về tài nguyên và môi trường

Từ dừng

Biểu diễn vec tơ văn bản theo mô hình vector thưa (chỉ số văn bản, chỉ số

từ khóa, trọng số TFxIDF

Chỉ số từ theo từ điển

Bộ vecto hóa

- Tính độ liên quan công thức côsin

- Thuật toán phân lớp knn

Tính trọng

số TFxIDF Lựa chọn

tập đặc trưng theo chủ đề

Danh sách

từ, tần số xuất hiện

Ngày đăng: 25/03/2015, 10:01

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Phạm thế Hùng (2007), Khai phá dữ liệu phục vụ khách hàng, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Khai phá dữ liệu phục vụ khách hàng
Tác giả: Phạm thế Hùng
Nhà XB: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Năm: 2007
2. Ngô thương Huyền (2007), Phân lớp thư điện tử sử dụng máy véc tơ hỗ trợ, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Phân lớp thư điện tử sử dụng máy véc tơ hỗ trợ
Tác giả: Ngô thương Huyền
Nhà XB: Trường Đại học Công nghệ, Đại học Quốc gia Hà Nội
Năm: 2007
3. Đinh Thị Thu Phương (2004), Tiếp cận học không giám sát trong học có giám sát với bài toán phân lớp văn bản tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai véc tơ trong mô hình véc tơ, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Bách Khoa Hà Nội Sách, tạp chí
Tiêu đề: Tiếp cận học không giám sát trong học có giám sát với bài toán phân lớp văn bản tiếng Việt và đề xuất cải tiến công thức tính độ liên quan giữa hai véc tơ trong mô hình véc tơ
Tác giả: Đinh Thị Thu Phương
Nhà XB: Luận văn thạc sĩ Công nghệ thông tin
Năm: 2004
4. Hoàng Minh Quang (2010), Các tập mục thường xuyên trong khai phá dữ liệu và ứng dụng, Luận văn thạc sĩ Công nghệ thông tin, Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội Sách, tạp chí
Tiêu đề: Các tập mục thường xuyên trong khai phá dữ liệu và ứng dụng
Tác giả: Hoàng Minh Quang
Nhà XB: Trường Đại học Công nghệ - Đại học Quốc gia Hà Nội
Năm: 2010
5. Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú (2009), Giáo trình Khai phá dữ liệu Web, Nxb Giáo dục, Hà Nội Sách, tạp chí
Tiêu đề: Giáo trình Khai phá dữ liệu Web
Tác giả: Hà Quang Thụy, Phan Xuân Hiếu, Đoàn Sơn, Nguyễn Trí Thành, Nguyễn Thu Trang, Nguyễn Cẩm Tú
Nhà XB: Nxb Giáo dục
Năm: 2009
6. Nguyễn Tiến, Ngô Quốc Việt, Phạm Nguyễn Tuấn Kỳ (2000), Giáo trình Lý thuyết và thực hành Java TM 2 lập trình và ứng dụng, Nxb Thống kê, Hà Nội Sách, tạp chí
Tiêu đề: Giáo trình Lý thuyết và thực hành Java TM 2 lập trình và ứng dụng
Tác giả: Nguyễn Tiến, Ngô Quốc Việt, Phạm Nguyễn Tuấn Kỳ
Nhà XB: Nxb Thống kê
Năm: 2000
7. Nguyễn Tuệ (2003), Giáo trình Nhập môn hệ cơ sở dữ liệu, Khoa công nghệ - Đại học quốc gia Hà Nội.Tiếng Anh Sách, tạp chí
Tiêu đề: Giáo trình Nhập môn hệ cơ sở dữ liệu
Tác giả: Nguyễn Tuệ
Năm: 2003
8. Nguyễn Hùng Sơn (2007), Data Mining, Bài giảng tại Đại Học Quốc Gia Hà Nội Sách, tạp chí
Tiêu đề: Data Mining
Tác giả: Nguyễn Hùng Sơn
Nhà XB: Đại Học Quốc Gia Hà Nội
Năm: 2007
9. Ian H.Witten & Eibe Frank, Data mining Practical Macchine Learning tool and techniques Sách, tạp chí
Tiêu đề: Data mining Practical Macchine Learning tool and techniques
Tác giả: Ian H. Witten, Eibe Frank
10. Kamal Nigam, Andrew Mccallum, Sebastian Thurn, Tom Mitchell (2000), Text classification from labeled and unlabeled documents using em Sách, tạp chí
Tiêu đề: Text classification from labeled and unlabeled documents using em
Tác giả: Kamal Nigam, Andrew Mccallum, Sebastian Thurn, Tom Mitchell
Năm: 2000
11. Robert H. Creecy, Bij M.Masand, Stephen J.Smith, and David L.Waltz (1992) Trading mips and memory for knowledge engineering: Classifying census return on the conection machine pp. 48-63 Sách, tạp chí
Tiêu đề: Classifying census return on the conection machine
13. T.Joachims (1998), Text Categorization with Support vector Machines: Learning with many Relevant Features, Proceedings 10 th European Conference on Machine learning Sách, tạp chí
Tiêu đề: Text Categorization with Support vector Machines: "Learning with many Relevant Features
Tác giả: T.Joachims
Năm: 1998
15. Florian Beil-Martin Ester- Xiaowei Xu (2002), Frequent Term-Based Text Clustering Sách, tạp chí
Tiêu đề: Frequent Term-Based Text Clustering
Tác giả: Florian Beil, Martin Ester, Xiaowei Xu
Năm: 2002
16. D. Lewis and M. Ringuette(1994), A Comparison of Two Learning Algorithms for Text Categorization, In 3 rd Annual Symposium on Document Analysis and information retrieval Sách, tạp chí
Tiêu đề: A Comparison of Two Learning Algorithms for Text Categorization
Tác giả: D. Lewis and M. Ringuette
Năm: 1994
17. Makoto IWAYMA- Takenobu TOKUNAGA (1995), Hierachical Bayesian Clustering for Automatic Text Classification Sách, tạp chí
Tiêu đề: Hierachical Bayesian Clustering for Automatic Text Classification
Tác giả: Makoto IWAYMA, Takenobu TOKUNAGA
Năm: 1995
18. Soumen Chakrabarti (2003), Mining the Web- Discovering Knowledge from Hypertext Data, Morgan Kaufmann Publishers Sách, tạp chí
Tiêu đề: Mining the Web- Discovering Knowledge from Hypertext Data
Tác giả: Soumen Chakrabarti
Năm: 2003
19. Thomas Hofmann (2000), Learning the similarity of document:An information geometric approach to document retrieval and categorization Sách, tạp chí
Tiêu đề: Learning the similarity of document:An information geometric approach to document retrieval and categorization
Tác giả: Thomas Hofmann
Năm: 2000
20. Yiming Yang (1999), An evaluation of statistical approaches to text categorization, information retrieval Sách, tạp chí
Tiêu đề: An evaluation of statistical approaches to text categorization
Tác giả: Yiming Yang
Nhà XB: information retrieval
Năm: 1999
14. Eui-Hong (Sam) Han- George Karypis- Vipin Kumar (1999), Text Categorization Using Weight Adjusted k-Nearest Neighbor Classfication Khác

HÌNH ẢNH LIÊN QUAN

Hình 1.3. Lược đồ thống kê tần số của từ theo Định luật Zipf - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 1.3. Lược đồ thống kê tần số của từ theo Định luật Zipf (Trang 18)
Hình 1.6. Lược đồ chung quá trình xây dựng bộ phân lớp văn bản - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 1.6. Lược đồ chung quá trình xây dựng bộ phân lớp văn bản (Trang 23)
Hình 2.1. Khai thác khoáng sản ở Thái Nguyên - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 2.1. Khai thác khoáng sản ở Thái Nguyên (Trang 34)
Hình 2.2. Khai thác cát vô tội vạ làm diện tích đất ven các sông sạt lở - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 2.2. Khai thác cát vô tội vạ làm diện tích đất ven các sông sạt lở (Trang 35)
Hình 2.3. Mô hình tiếp cận bài toán phân lớp tự độngvăn bản tiếng Việt - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 2.3. Mô hình tiếp cận bài toán phân lớp tự độngvăn bản tiếng Việt (Trang 40)
Hình 2.4. Sơ đồ của thuật toán tách từ - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 2.4. Sơ đồ của thuật toán tách từ (Trang 41)
Hình 2.5. Mô hình xử lý tập mẫu - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 2.5. Mô hình xử lý tập mẫu (Trang 43)
Hình 3.1: Sơ đồ phân rã chức năng chính của hệ thống phân lớp văn bản - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 3.1 Sơ đồ phân rã chức năng chính của hệ thống phân lớp văn bản (Trang 45)
Hình 3.2: Sơ đồ phân rã chức năng chi tiết của hệ thống phân lớp văn bản - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 3.2 Sơ đồ phân rã chức năng chi tiết của hệ thống phân lớp văn bản (Trang 46)
3.3. SƠ ĐỒ KHUNG CẢNH MỨC 0 CỦA HỆ THỐNG - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
3.3. SƠ ĐỒ KHUNG CẢNH MỨC 0 CỦA HỆ THỐNG (Trang 47)
3.4. SƠ ĐỒ KHUNG CẢNH MỨC 1 CỦA CHỨC NĂNG TIỀN XỬ LÝ - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
3.4. SƠ ĐỒ KHUNG CẢNH MỨC 1 CỦA CHỨC NĂNG TIỀN XỬ LÝ (Trang 49)
3.5. SƠ ĐỒ KHUNG CẢNH MỨC 1 CHỨC NĂNG QUẢN LÝ VĂN BẢN MẪU - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
3.5. SƠ ĐỒ KHUNG CẢNH MỨC 1 CHỨC NĂNG QUẢN LÝ VĂN BẢN MẪU (Trang 50)
Hình 3.6: Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản phân lớp - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 3.6 Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản phân lớp (Trang 51)
Bảng 3.1. Bảng thiết kế cơ sở dữ liệu - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Bảng 3.1. Bảng thiết kế cơ sở dữ liệu (Trang 53)
Hình 4.1. Kết quả sau khi lọc nhiễu và tách từ dựa vào từ điển - Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường
Hình 4.1. Kết quả sau khi lọc nhiễu và tách từ dựa vào từ điển (Trang 60)

TỪ KHÓA LIÊN QUAN

TRÍCH ĐOẠN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm