Nghiên cứu phân lớp tự động văn bản báo chí tiếng việt về tài nguyên và môi trường

Các phương pháp đánh trọng số cho từ khóa 4Chương 2: BÀI TOÁN PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ 19 TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG... Mong muốn ứng dụng hệ thống phân lớp này vào p

Trang 1

luËn v¨n th¹c sÜ c«ng nghÖ th«ng tin

Hµ néi - 2012

Trang 2

đại học quốc gia hà nội Tr-ờng đại học công nghệ

trần thị lan h-ơng

NGHIấN CỨU PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT VỀ TÀI NGUYấN VÀ MễI TRƯỜNG

Ngành : Công nghệ thông tin

Chuyên ngành : Hệ thống thông tin Mã số

luận văn thạc sĩ công nghệ thông tin

Ng-ời h-ớng dẫn khoa học: PGS.TS Đỗ Trung Tuấn

Hà nội - 2012

Trang 3

1.2.2 Các phương pháp đánh trọng số cho từ khóa 4

Chương 2: BÀI TOÁN PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ 19

TIẾNG VIỆT VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG

Trang 4

2.1 Một số đặc điểm tiếng Việt 19

2.3 Một số thông tin chuyên ngành Tài nguyên và môi trường 23

2.4 Bài toán phân lớp tự động các văn bản báo chí tiếng Việt về 31

tài nguyên và môi trường

2.5.6 Phân lớp văn bản tiếng việt về tài nguyên và môi trường 36

Trang 5

Chương 3: THIẾT KẾ XÂY DỰNG HỆ THỐNG PHÂN LỚP VĂN BẢN 37

3.4 Sơ đồ khung cảnh mức 1 của chức năng tiền xử lý 413.5 Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản mẫu 423.6 Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản phân lớp 43

4.1.2 Giao diện chương trình phân lớp văn bản báo chí tiếng Việt 46

về tài nguyên và môi trường

Trang 6

DANH MỤC CÁC BẢNG

Trang

Bảng 4.1 Thông tin mô tả một số thông số của tập dữ liệu huấn luyện 50Bảng 4.2 Trích kết quả kiểm thử phân lớp văn bản báo chí tiếng 54

Việt về tài nguyên môi trường

Trang 7

DANH MỤC CÁC HÌNH

TrangHình 1.1 Biểu diễn văn bản v1 và v2 trong không gian véc tơ ba 6

chiều T1, T2, T3, trong đó Ti là các từ khóa

Hình 1.3 Lược đồ thống kê tần số của từ theo định luật Zipf 10Hình 1.4 Thuật toán lựa chọn đặc trưng cơ bản cho việc lựa chọn 11

k đặc trưng tốt nhất

Hình 1.6 Lược đồ chung quá trình xây dựng bộ phân lớp văn bản 15

Hình 2.2 Khai thác cát vô tội vạ làm diện tích đất ven các sông sạt lở 27Hình 2.3 Mô hình tiếp cận bài toán phân lớp tự độngvăn bản tiếng 32

Việt về tài nguyên và môi trường

Hình 3.1 Sơ đồ phân rã chức năng chính của hệ thống phân lớp 37

văn bảnHình 3.2 Sơ đồ phân rã chức năng mức chi tiết của hệ thống phân 38

lớp văn bản

Hình 3.4 Sơ đồ khung cảnh mức 1 chức năng tiền xử lý 41Hình 3.5 Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản mẫu 42Hình 3.6 Sơ đồ khung cảnh mức 1 chức năng quản lý văn bản 43

Trang 8

loại bỏ từ dừng

Trang 9

MỞ ĐẦU

Phân lớp văn bản là bài toán cơ bản trong khai phá dữ liệu văn bản.Bài toán phân lớp văn bản là việc gán tên các chủ đề (tên lớp/nhãn lớp) đãđược xác định trước, vào các văn bản dựa trên nội dung của chúng

Phân lớp văn bản là công việc được sử dụng để hỗ trợ trong quá trìnhtìm kiếm thông tin, chiết lọc thông tin, lọc văn bản hoặc tự động dẫn đườngcho các văn bản tới những chủ đề xác định trước Phân lớp văn bản có thểthực hiện thủ công hoặc tự động sử dụng các kỹ thuật học máy có giám sát

Các hệ thống phân lớp có thể ứng dụng trong việc phân loại tài liệu củacác thư viện điện tử, phân loại văn bản báo chí trên các trang tin điện tử,…những hệ thống tốt, cho ra kết quả khả quan, giúp ích nhiều cho con người

Đề tài "Nghiên cứu phân lớp tự động văn bản báo chí tiếng Việt về tài nguyên và môi trường", học viên vận dụng những kiến thức về kỹ thuật khai

phá văn bản, kỹ thuật phân lớp văn bản nói riêng, và kiến thức về công nghệthông tin nói chung, xây dựng bộ phân lớp văn bản báo chí tiếng Việt về tàinguyên và môi trường Mong muốn ứng dụng hệ thống phân lớp này vào phục

vụ nghiên cứu khoa học và công tác quản lý, phân loại các tài liệu văn bản cácthông tin chuyên ngành về tài nguyên môi trường, bởi tài nguyên và môitrường hiện nay đang là vấn đề nóng bỏng không những Việt Nam mà cả thếgiới đang rất quan tâm

Nội dung và phạm vi đề tài: Trình bày khái niệm khai phá dữ liệu,khai phá văn bản, một số kỹ thuật khai phá văn bản và phân lớp văn bản.Nghiên cứu một số đặc điểm đặc trưng của ngôn ngữ tiếng Việt, phương pháptách từ tiếng Việt và loại bỏ từ dừng Nghiên cứu các chủ đề về thông tinchuyên ngành tài nguyên và môi trường Nghiên cứu, sử dụng thuật toán K-

NN xây dựng bộ phân lớp văn bản báo chí tiếng việt về tài nguyên và môi trường vào các chủ đề chuyên ngành

Trang 10

Đầu vào của bộ phân lớp là văn bản báo chí tiếng Việt về tài nguyên

và môi trường ở dạng tệp tin.doc,.txt, phông chữ Unicode

Đầu ra là kết quả phân lớp văn bản báo chí tiếng Việt vào một trongcác chủ đề thông tin chuyên ngành: Tài nguyên đất; tài nguyên nước; tàinguyên khoáng sản; tài nguyên biển; khí tượng thuỷ văn; môi trường; đo đạc

và bản đồ

Bố cục của luận văn bao gồm:

Chương 1: Khái quát về phân lớp văn bản và thuật toán KNN Chương

này trình bày khái quát về khai phá văn bản, Phân lớp văn bản, thuật toánKNN

Chương 2: Bài toán phân lớp văn bản báo chí tiếng Việt về tài nguyên

và môi trường Chương này trình bày đặc điểm cơ bản của tiếng Việt, kỹ thuật

tách từ văn bản tiếng Việt, tìm hiểu thông tin chuyên ngành tài nguyên và môitrường, nêu và mô tả bài toán ứng dụng, …

Chương 3: Thiết kế xây dựng hệ thống phân lớp văn bản tiếng Việt về

tài nguyên môi trường: Trình bày thiết kế xây dựng hệ thống

Chương 4: Cài đặt mô hình và kiểm thử kết quả: Trình bày một số

giao diện chương trình, kết quả kiểm thử

Kết luận và định hướng phát triển.

Trang 11

Chương 1

KHÁI QUÁT VỀ PHÂN LỚP VĂN BẢN

VÀ THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT

1.1 KHAI PHÁ DỮ LIỆU VĂN BẢN

Khai phá dữ liệu văn bản là quá trình trích chọn ra các tri thức mới, cógiá trị và tác động được, đang tiềm ẩn trong các văn bản, để sử dụng các trithức này vào việc tổ chức thông tin tốt hơn nhằm hỗ trợ con người

Dữ liệu văn bản thường được chia thành hai loại [5]:

1 Dạng phi cấu trúc: là dạng văn bản chúng ta sử dụng hằng ngàyđược thể hiện dưới dạng ngôn ngữ tự nhiên của con người và không có một cấutrúc định dạng cụ thể nào Ví dụ: các văn bản lưu dưới dạng tệp tin

.TXT, DOC

2 Dạng bán cấu trúc: là các loại văn bản không được lưu trữ dướidạng các bản ghi chặt chẽ mà được tổ chức qua các thẻ đánh dấu để thể hiện nộidung chính của văn bản Ví dụ: dạng tệp tin HTML, email, …

Tùy từng mục đích sử dụng cụ thể mà việc xử lý văn bản được thựchiện trên dạng cấu trúc nào Trong luận văn này, học viên quan tâm xử lý các

dữ liệu văn bản ở dạng phi cấu trúc (biểu diễn dưới dạng tệp tin.TXT,.DOC)

1.2 KHÁI NIỆM CƠ BẢN TRONG KHAI PHÁ VĂN BẢN 1.2.1 Một số khái niệm sử dụng trong luận văn

- Từ khóa: là các từ xuất hiện trong một văn bản có nghĩa trong từ điển

- Thuật ngữ: là các từ khóa có nghĩa liên quan đến một số lĩnh vực nào

đó ví dụ: "máy tính", "công nghệ phần mềm", "tính toán song song" Các thuậtngữ này thuộc về lĩnh vực "tin học"

- Từ dừng: Nhiều từ được dùng để biểu diễn cấu trúc câu, xuất hiệnthường xuyên trong các văn bản, nhưng hầu như không mang ý nghĩa về mặt

Trang 12

nội dung, chẳng hạn các giới từ, liên từ, … những từ đó được gọi là từ dừng

Ví dụ: Có thể, nếu, vì vậy, sau khi, thì, một số, với lại, quả thật, hầu như, …

- Trọng số của từ là độ quan trọng hay hàm lượng thông tin mà từ đó

mang lại cho văn bản Trọng số của từ là đại lượng dùng để đo sự khác biệt giữa

văn bản chứa nó với các văn bản khác

1.2.2 Các phương pháp đánh trọng số cho từ khóa

1.2.2.1 Phương pháp boolean

Giả sử có một tập gồm m văn bản D = {d1, d2, d3, dm}, T là một tập

từ vựng gồm n từ khóa T = {t1, t2, tn} gọi w = (wi j) là ma trận trọng số,

trong đó wi j là trọng số của từ khóa ti trong văn bản dj

Phương pháp boolean là phương pháp đánh trọng số đơn giản nhất, giátrị trọng số wi j được xác định như sau:

wi j =

0

1.2.2.2 Phương pháp dựa trên tần số

1/ Phương pháp dựa trên tần số từ khóa TF: Các giá trị wij được tính

dựa trên tần số xuất hiện của từ khóa trong văn bản Gọi fij là số lần xuất hiện

của thuật ngữ ti trong văn bản dj, khi đó wij được tính bởi một trong 3 công

thức sau:

wij = fij

hoặc wij = 1 + log(fij) hoặc wij = f ij

Trong phương pháp này, trọng số wij tỷ lệ thuận với số lần xuất hiện của

từ ti trong văn bản dj Khi số lần xuất hiện từ khóa ti trong văn bản dj càng nhiều

thì điều đó có nghĩa là văn bản dj càng phụ thuộc vào từ khóa ti, hay nói cách

khác từ khóa ti mang nhiều thông tin trong văn bản dj Ví dụ: khi văn bản

Trang 13

xuất hiện nhiều từ khóa máy tính, điều đó có nghĩa là văn bản đang xét chủ

yếu liên quan đến lĩnh vực tin học

2/ Phương pháp dựa trên nghịch đảo tần số văn bản IDF: Trong

phương pháp này, giá trị wij được tính theo công thức sau:

log m log(m) log(h )nếu từ khóa t xuất hiện trong tài liệu d

j

1

w ij = h i

i

0 nếu ngược lại

trong đó m là số lượng văn bản và hi là số văn bản mà từ khóa ti xuất hiện

3/ Phương pháp TF × IDF: Phương pháp này là tổng hợp của hai

phương pháp TF và IDF, giá trị của ma trận trọng số được tính như sau:

0 nếu ngược lại

Phương pháp này kết hợp được ưu điểm của cả 2 phương pháp trên

Trọng số wij được tính bằng tần số xuất hiện của từ khóa ti trong văn bản dj và

độ hiếm của từ khóa ti trong toàn bộ cơ sở dữ liệu.

1.3 MỘT SỐ PHƯƠNG PHÁP BIỂU DIỄN VĂN BẢN

1.3.1 Mô hình Boolean

Giả sử có một tập gồm m văn bản D = {d1, d2, d3, dm}, T là một tập

từ vựng gồm n từ khóa T = {t1, t2, tn} gọi w = (wi j) là ma trận trọng số,

trong đó wi j là trọng số của từ khóa ti trong văn bản dj và được xác định như sau:

wi j =

0

Trong mô hình boolean, văn bản vốn là tập hợp của các từ khóa, được

biểu diễn bởi chỉ số từng từ và trọng số của chúng Trọng số của từng từ

Trang 14

-dùng để đánh giá độ quan trọng của chúng - trong mô hình này chỉ mang haigiá trị 0 và 1, tùy theo sự xuất hiện của từ đó trong văn bản.

1.3.2 Mô hình không gian vector

Mô hình không gian véc tơ là mô hình toán học được sử dụng rộngrãi Mỗi văn bản được biểu diễn thành một vector, trong một không gian véc

tơ nhiều chiều, mỗi chiều tương ứng với một từ khóa trong văn bản

Mỗi thành phần của một vector văn bản, là một từ khóa riêng biệttrong tập văn bản gốc và được gán một giá trị là hàm f của từng từ khóa trongvăn bản (thường là gán trọng số từ khóa) Cách biểu diễn văn bản thông dụngnhất là thông qua mô hình không gian vector, đây là một cách biểu diễn tương

đối đơn giản Khi áp dụng xử lý vector thưa, mang lại hiệu quả cao cho bài

toán ứng dụng

Xử lý vec tơ thưa

Hình 1.1: Biểu diễn

văn bản v 1 và v 2 trong không gian véc tơ ba

Xử lý các phép toán trên vector sẽ phụ thuộc vào độ lớn của ma trận

Wnm, ở đây n là số lượng thuật ngữ hay số chiều của vector, và m là số lượng văn

bản có trong cơ sở dữ liệu Trên thực tế, số lượng thuật ngữ và số văn bản có thể

lên đến vài chục nghìn Khi đó số lượng phần tử trong ma trận Wnm sẽ lên đến

con số trăm triệu và lưu trữ ma trận Wnm sẽ tốn rất nhiều tài nguyên bộ

Trang 15

số tương ứng của thuật ngữ đó.

1.3.3 Mô hình xác suất

Mô hình xác suất là mô hình toán học làm việc với các biến ngẫunhiên và phân bố xác xuất của nó Theo thuật ngữ toán học, một mô hình xácsuất có thể coi như một cặp (Y, P), trong đó Y là tập các quan sát (biến ngẫunhiên) và P là tập các phân bố xác suất trên Y Khi đó, sử dụng suy diễn xácsuất sẽ cho ta kết luận về các phần tử của tập Y

Văn bản trong mô hình xác suất được coi như một quan sát trong tập Y,trong đó các từ trong văn bản được giả thiết là độc lập, không phụ thuộc vào vịtrí cũng như ngữ pháp của văn bản Khi đó văn bản sẽ gồm các từ mà nó chứatrong đó, chính vì vậy phương pháp này được gọi là biểu diễn túi - các - từ

Các bước để chuyển từ

không gian các từ khóa

sang không gian khái niệm

tương đối phức tạp Trước

tiên LSI lập ma trận từ-văn

Trang 16

1.3.4 Mô hình LSI

LSI đánh chỉ số ngữ nghĩa tiềm năng, là phương pháp được áp dụngnhiều trong bài toán phân lớp Ý tưởng chính của phương pháp này là, ánh xạmỗi văn bản vào một tập không gian ít chiều hơn, trong đó mỗi chiều đượcgắn với một khái niệm Như vậy bản chất của phương pháp này là chuyển từkhông gian các từ khóa sang không gian các khái niệm

1.4 PHƯƠNG PHÁP LỰA CHỌN TỪ TRONG BIỂU DIỄN VĂN BẢN 1.4.1 Loại bỏ từ dừng

Trước hết có thể quan sát thấy rằng, trong một văn bản có nhiều từ chỉdùng để phục vụ cho biểu diễn cấu trúc câu, chứ không biểu đạt nội dung của

nó, chẳng hạn như các giới từ, từ nối,… Những từ xuất hiện nhiều trong vănbản mà không có liên quan gì tới nội dung văn bản Có thể loại bỏ những từnhư vậy, nó được xem như là những từ dừng.

1.4.2 Thu gọn đặc trưng biểu diễn

Với các tài liệu văn bản, mỗi một từ khóa duy nhất sẽ biểu diễn mộtchiều trong không gian biểu diễn Do đó, kích thước của không gian biểu diễnvăn bản thường rất lớn, việc tính toán sẽ tốn nhiều thời gian

Thêm nữa, một tài liệu văn bản khi được biểu diễn dưới dạng mộtvector, thì số lượng các phần tử trong vector đó có giá trị 0 là rất lớn, điều nàycũng có thể là một nguyên nhân làm cho việc tính toán phân lớp phức tạp vàkhó khăn hơn

Một trong những giải pháp để khắc phục những vấn đề trên là thu gọn

số lượng các từ để biểu diễn văn bản hay là thu gọn số lượng các đặc trưngbằng cách lựa chọn các đặc trưng có khả năng ảnh hưởng đến chất lượng phânlớp của các giải thuật phân lớp, còn các đặc trưng khác có thể bỏ qua Việcthu gọn này cần đảm bảo sao cho các đặc trưng còn lại vẫn có khả năng "đạidiện" cho toàn bộ văn bản, không làm giảm chất lượng phân lớp.

Trang 17

Lựa chọn đặc trưng là tiến trình lựa chọn một tập các đặc trưng (haycòn gọi là tập phổ biến) xuất hiện trong tập đào tạo và chỉ sử dụng các tập nàynhư là các đặc trưng để biểu diễn văn bản

Thứ nhất, nó làm cho quá trình huấn luyện các bộ phân lớp hiệu quả

hơn bằng cách giảm kích thước của không gian các đặc trưng, điều này đặcbiệt quan trọng đối với các giải thuật có chi phí huấn luyện là đắt

Thứ hai, Lựa chọn các đặc trưng thường tăng tính đúng đắn cho quá

trình phân lớp, vì nó có thể giúp loại bỏ các đặc trưng nhiễu

Một đặc trưng nhiễu là một đặc trưng mà khi thêm vào biểu diễn tàiliệu, nó sẽ làm tăng các lỗi phân loại trên dữ liệu mới

Chúng ta có thể xem lựa chọn đặc trưng như một phương pháp để thaythế một bộ phân lớp phức tạp (sử dụng tất cả các đặc trưng) bằng một bộ phậnphân lớp đơn giản hơn (do nó chỉ sử dụng một tập hợp con của các đặctrưng)

*Các phương pháp để lựa chọn đặc trưng (các từ) để biểu diễn vănbản hay được sử dụng:

1.4.2.1 Định luật Zipf

Để giảm số chiều của vector biểu diễn văn bản ta dựa vào một quansát sau: các từ xuất hiện ít lần (tần số xuất hiện nhỏ) thì ảnh hưởng rất bé đếnnội dung các văn bản Tiền đề cho việc lý luận để loại bỏ những từ có tần suấtnhỏ được đưa ra bởi Zipf năm 1949

Gọi tổng số tần số xuất hiện của từ t trong tài liệu D là f t Sau đó sắp xếp tất cả các từ trong tập hợp theo chiều giảm dần của tần số xuất hiện f t, và

gọi thứ hạng của mỗi từ là r t

Định luật Zipf được phát biểu dưới dạng công thức như sau:

r t f t ≈ K (với K là một hằng số) Hay r t ≈ K/ f t

Trang 18

Hình 1.3 Lược đồ thống kê tần số của từ theo Định luật Zipf

Năm 1958 Luhn đề xuất những từ "phổ biến" và "hiếm" và không cầnthiết cho quá trình xử lý Các từ có tần số xuất hiện cao nhất hiển nhiên là những

từ này không góp nhiều trong việc phản ánh nội dung văn bản Mặt khác, những

từ chỉ xuất hiện ít lần (1 đến 3 lần) cũng không đóng vai trò quan trọng Những

từ đóng vai trò quan trọng là những từ có tần số xuất hiện trung bình

Luhn đưa ra một phương pháp đơn giản cho việc lựa chọn các từ đểbiểu diễn văn bản [5] (lựa chọn đặc trưng) như sau:

1 Cho một tập gồm n văn bản, tính tần số của mỗi từ duy nhất (xuất hiện một lần) trong mỗi văn bản.

2 Tính tần số xuất hiện của mỗi từ trong toàn bộ tập n văn bản

3 Sắp xếp tần số các từ giảm dần Chọn một giá trị ngưỡng trên để loại

bỏ các từ có tần số cao hơn ngưỡng đó Việc này sẽ loại bỏ các từ có tần số cao.

4 Cũng như vậy, chọn một giá trị ngưỡng dưới để loại bỏ các từ có tần số thấp.

5 Các từ còn lại là các từ được dùng trong quá trình đánh chỉ số văn bản Việc chọn các từ để đánh chỉ số văn bản hay còn gọi là lựa chọn đặc trưng.

Trang 19

Phương pháp này được sử dụng phổ biến là lược bỏ những từ có tần sốxuất hiện thấp (từ 1 đến 3 lần) trong văn bản tùy theo từng ứng dụng cụ thể,

và loại bỏ những từ có tần số xuất hiện cao

1.4.2.2 Thuật toán lựa chọn k đặc trưng tốt nhất [5]

Thuật toán lựa chọn đặc trưng cơ bản được mô tả ở hình 1.5 cho mộtlớp c, tính toán một hàm tiện ích A (t, c) cho mỗi thuật ngữ trong tập từ vựng,sau đó lựa chọn k thuật ngữ có giá trị A (t, c) là cao nhất Tất cả các thuật ngữcòn lại sẽ bị loại bỏ

SELECT FEATURES (ID, c, k)

1 V EXTRACT VOCABULARY (ID)

(Trích rút tập từ vựng V từ tập văn bản)

2 L[] (Tập đặc trưng ban đầu gán là rỗng, L = ø)

3 for each t V (lấy mọi từ khóa t thuộc tập từ vựng V)

4 do A (t, c) COMPUTE FEATURE UTILITY (id, t, c) (Tính hàmtiễn ích đặc trưng A(t, c) nhờ mỗi từ khóa t, mỗi chủ đề c, mỗi tập văn bản đã đánhchỉ số id)

5 APPEND (L, A(t, c), t ) (đánh giá lựa chọn cho bộ (L, A(t, c), t ))

6 Return FEATURESWITHLARGESTVALUES (L, k) (trả về tập đặc trưng L với k đặc trưng tốt nhất, có A(t, c) lớn nhất)

Hình 1.4 Thuật toán lựa chọn đặc trưng cơ bản cho việc lựa chọn k đặc trưng tốt nhất

1.4.2.3 Thông tin tương hỗ [5]

Một phương pháp lựa chọn đặc trưng phổ biến để tính toán A (t, c) làthông tin tương hỗ MI của thuật ngữ t với lớp c MI đo mức độ thông tin (xuấthiện/không xuất hiện) của thuật ngữ t góp phần làm cho quyết định quá trìnhphân lớp đúng đắn trên lớp c

Trang 20

N10 là số tài liệu mà có chứa t (et = 1) và không có trong c (ec = 0).

N1. = N10 + N11 là số tài liệu mà có chứa t (et = 1) Các biến Nij khácđược giải thích tương tự Và N là tổng các tài liệu: N = N11 + N01 + N10 + N00

Để lựa chọn k các thuật ngữ: t1, …, tk cho bởi lớp nào đó, sử dụngthuật toán lựa chọn đặc trưng trong hình 1.4, tính toán các hàm tiện ích cho tất

cả các thuật ngữ A (t, c) = I (Ut, Cc) và sau đó lựa chọn k thuật ngữ có các giá

trị lớn nhất

1.4.2.4 Giải thuật Apriori [3]

Giải thuật này được sử dụng để lựa chọn đặc trưng (tập dữ liệu thường xuyên)

Thuật toán này sử dụng các k-itemset (tập thuật ngữ gồm k items) đểthăm dò (k+1)-itemset và qua đó khai thác được toàn bộ các tập thuật ngữ

thường xuyên (Fls) trong tập dữ liệu

- Đầu tiên tính 1-itemsets, 2-itemsets và sau đó là 3-itemsets…

Trang 21

tập con có độ dài k đã được xác định là thường xuyên (đặc trưng) ở bước trước.

Mô tả giải thuật Apriori:

Biến Ck: Các tập thuật ngữ ứng cử có kích thước k

Biến Lk: Các tập thuật ngữ thường xuyên kích thước k

L1 = {Các thuật ngữ thường xuyên mức 1};

For (k=1; Lk!=ø; k++) doBegin

//Bước kết hợp: Kết hợp L k với bản thân nó để tạo ra C k+1

//Bước cắt tỉa: Loại bỏ (k+1)-itemsets từ C k+1 chứa k+1-itemsets không thường xuyên

Ck+1 = các ứng cử viên được tạo ra từ LkFor mỗi văn bản t trong cơ sở dữ liệu doTăng số lượng của tất cả các ứng cử viên trong Ck+1 có chứa trong tLk+1 = các ứng cử viên trong Ck+1 có GS > min_support

EndReturn Tập các Lk

1.5 ĐỘ LIÊN QUAN GIỮA CÁC VĂN BẢN

Độ liên quan giữa hai văn bản là một đại lượng đo mức độ giống nhau

về mặt nội dung giữa hai văn bản đó

Phương pháp đánh giá độ liên quan theo tần xuất xuất hiện thuật ngữ,không quan tâm đến thứ tự sắp xếp của các thuật ngữ trong văn bản mà chỉquan tâm đến số lần nó xuất hiện trong văn bản đó Ví dụ: phương pháp sửdụng hệ số consine, Độ tương tự giữa hai vector văn bản X = {x1, x2, …, xm}

và Y = { y1, y2, …, ym } biểu diễn dưới dạng vector tần xuất TF x IDF sẽ đượctính theo công thức:

Trang 22

Trong đó xi, i = 1…m, yj, j = 1…m, là là các tần số xuất hiện của các

từ khóa trong từng văn bản

1.6 PHÂN LỚP VĂN BẢN

Phân lớp văn bản là một trong những bài toán cơ bản trong khai phá

dữ liệu văn bản [5]

- Bài toán phân lớp văn bản: là việc gán tên các chủ đề (tên lớp/nhãn

lớp) đã được xác định trước, vào các văn bản dựa trên nội dung của chúng

- Phân lớp là công việc được sử dụng để hỗ trợ trong quá trình tìm

kiếm thông tin, chiết lọc thông tin, lọc văn bản hoặc tự động dẫn đường cho các

văn bản tới những chủ đề xác định trước

Hình 1.5 Mô tả bài toán phân lớp

- Để phân lớp văn bản tự động thường sử dụng các kỹ thuật học máy

có giám sát, dữ liệu văn bản đã được phân lớp bằng tay, được chia thành hai phần:

Tập huấn luyện hay tập mẫu và tập kiểm thử (kiểm tra), tập mẫu chiếm 2/3 dữ liệu,

tập kiểm thử 1/3 dữ liệu còn lại Đầu tiên hệ thống được huấn luyện (học) thông

qua tập mẫu, Sau đó đánh giá hiệu quả của hệ thống thông qua các dữ liệu kiểm

thử

Trang 23

- Các hệ thống phân lớp có thể ứng dụng trong việc phân loại tài liệu củacác thư viện điện tử, phân loại văn bản báo chí trên các trang tin điện tử,… những hệthống tốt, cho ra kết quả rất khả quan, giúp ích nhiều cho con người.

Trang 24

Dữ liệu văn Biểu diễn ban đầubản

Biểu diễn ban đầu

Tri thức

hoăc lựa chọn thuộc tính

phân lớp

Hình 1.6 Lược đồ chung quá trình xây dựng bộ phân lớp văn bản

- Lược đồ chung cho quá trình xây dựng hệ thống phân lớp văn bản,

bao gồm ba thành phần chính:

+ Biểu diễn văn bản, tức là chuyển các dữ liệu văn bản thành một

dạng có cấu trúc nào đó

+ Học quy nạp - sử dụng các kỹ thuật học máy để học trên các mẫu

huấn luyện vừa biểu diễn Như vậy việc biểu diễn ở công đoạn một sẽ là đầu vào

cho công đoạn thứ hai Và sau đó sử dụng công cụ phân lớp để phân lớp văn bản

cần phân lớp vừa được biểu diễn

Thành phần thứ hai được coi là trung tâm của một hệ thống phân lớp văn bản Trong thành phần này, có nhiều phương pháp học máy được áp dụng như mô

hình học Bayes, cây quyết định, phương pháp k người láng giềng gần nhất, …

+ Tri thức ngoài - bổ sung các kiến thức thêm vào đó người dùng

cung cấp để làm tăng độ chính xác trong biểu diễn văn bản hay trong quá trình học

máy Trong nhiều trường hợp, các phương pháp học hệ thống phân lớp có thể bỏ

qua thành phần thứ ba này

Trang 25

- Sử dụng mô hình đã được xây dựng để phân lớp dữ liệu mới

Đại lượng đánh giá hiệu suất phân lớp:

Việc đánh giá độ phân lớp dựa trên việc áp dụng mô hình đối với các

dữ liệu thuộc tập dữ liệu kiểm tra Dtest, sử dụng mô hình cho từng trường hợp

dữ liệu ở Dtest mà kết quả đầu ra là lớp c dự báo cho từng dữ liệu

Hai độ đo được dùng phổ biến để đánh giá chất lượng của thuật toánphân lớp là độ hồi tưởng p và độ chính xác Ngoài ra, một số độ đo kết hợpđược xây dựng từ các độ đo này cũng được sử dụng, trong đó điển hình nhất

là độ đo f1 (nhiều trường hợp bỏ qua trị số 1) Phần dưới đây trình bày cáctính toán chi tiết giá trị của các độ đo hồi tưởng và chính xác trong bài toánphân lớp văn bản

Xét trường hợp lực lượng của tập C các lớp trong bài toán lớn hơn hai,trường hợp tập C chỉ gồm có hai lớp là đơn giản Đối với mỗi lớp c, cho thựchiện mô hình phân lớp vừa được xác định với các dữ liệu thuộc Dtest nhậnđược các đại lượng TPc, TNc, FNc, FPc như Bảng 1.1

- TPc (true positives): Số lượng ví dụ dương (tài liệu thực sự thuộc lớp c) được thuật toán phân lớp gán cho giá trị đúng thuộc lớp c

- TNc (true negatives): số lượng ví dụ âm (tài liệu thực sự không thuộcc) nhưng lại được thuật toán phân lớp gán cho giá trị đúng thuộc lớp c

Bảng 1.1: Các đại lượng TP c TN c FN c FP c

Lớp c

Giá trị thực tếThuộc lớp c Không thuộc lớp c

- FPc: (false positives): số lượng ví dụ dương được thuật toán phân lớpgán cho giá trị sai là không thuộc lớp c

- FNc: (false negatives): số lượng ví dụ âm được thuật toán phân lớp gán cho giá trị sai là không thuộc lớp c

Trang 26

Khi đó, với mỗi lớp c, giá trị các độ đo pc và c được tính như sau:

1.7 THUẬT TOÁN K LÁNG GIỀNG GẦN NHẤT (KNN)

Ý tưởng của phương pháp này là khi cần phân lớp một văn bản mới,

thuật toán sẽ xác định khoảng cách (có thể áp dụng các công thức về khoảng cách

như Euclide, Cosine, …) của tất cả các văn bản trong tập huấn luyện đến văn bản

Trang 27

này để tìm ra k văn bản gần nhất, gọi là k láng giềng gần nhất Sau đó dùng cáckhoảng cách này đánh trọng số cho tất cả các chủ đề, bằng cách trọng số của mộtchủ đề chính là tổng tất cả các khoảng cách ở trên của các

Trang 28

văn bản trong k láng giềng có cùng chủ đề, chủ đề nào không xuất hiện trong

k láng giềng sẽ có trọng số bằng 0 Sau đó các chủ đề sẽ được sắp xếp theo

giá trị trọng số giảm dần và các chủ đề có trọng số cao sẽ được chọn làm chủ

đề của văn bản cần phân loại

Trọng số của chủ đề cj đối với văn bản x được tính như sau:

cơ bản đối với ngôn ngữ tiếng Việt phức tạp, cần có sự nghiên cứu vận dụng,

phù hợp, mang lại hiệu quả khi áp dụng

Trang 29

Chương 2

BÀI TOÁN PHÂN LỚP TỰ ĐỘNG VĂN BẢN BÁO CHÍ TIẾNG VIỆT

VỀ TÀI NGUYÊN VÀ MÔI TRƯỜNG

Ngoài việc nắm bắt kiến thức về công nghệ thông tin, các kĩ thuật khaiphá văn bản nói chung đã trình bày, cần phải nghiên cứu kĩ thêm đặc điểmđặc trưng của tiếng Việt, tìm hiểu thông tin chuyên ngành về tài nguyên vàmôi trường, đặc biệt là kỹ thuật tách từ tiếng Việt, để áp dụng giải quyết bàitoán phân lớp tự động văn bản tiếng việt về tài nguyên môi trường Sau đây làphần trình bày những nội dung này

2.1 MỘT SỐ ĐẶC ĐIỂM TIẾNG VIỆT 2.1.1 Âm tiết

Âm tiết là đơn vị nhỏ nhất có thể có ý nghĩa, có thể không Về mặtngữ âm thì âm tiết được ghi lại thành một cụm kí tự trong văn bản Âm tiết làđơn vị ngữ pháp dùng để cấu tạo từ Ví dụ: ai, thơ, văn, …

2.1.2 Từ

Từ là đơn vị nhỏ nhất có nghĩa, có chức năng gọi tên, được vận dụng

độc lập, tái hiện tự do trong lời nói để tạo câu Ví dụ: nhà, người, áo, cũng,

đường sắt, sân bay, dạ dày, đen sì,

Để có thể hiểu, nói, viết, suy nghĩ chúng ta sử dụng từ chứ không sửdụng tiếng Trong các ngôn ngữ phổ dụng như tiếng Anh, Pháp, …các khoảngtrống đánh dấu sự tách rời các từ, ở tiếng Việt khoảng trống đánh dấu sự táchrời các tiếng Do vậy, khi nghiên cứu tiếng Việt, cần quan tâm vấn đề ghépcác tiếng thành từ

Một số khái niệm liên quan đến tiếng Việt:

hợp (mồ hóng, mặc cả, mâu thuẫn, hi sinh), từ vay mượn gốc Ấn-Âu qua con

đường sách vở hoặc khẩu ngữ: a-xít, mit tinh, mùi xoa, xà phòng, sô-cô-la

Trang 30

- Biến thể của từ: ki-lô-gam thành ki lô hoặc kí lô, khổ sở thành lokhổ lo sở

- Từ đồng âm: đường 1 (đường tàu Thống Nhất); đường 2 (mua một cân đường)

- Từ đồng nghĩa: cố, gắng, cố gắng

- Từ trái nghĩa: cao và thấp

- Từ loại: danh từ (cây cối, bàn ghế, …), động từ (chạy, nhẩy, ), tính

từ (xinh, đẹp, ), Đại từ (tôi, nó, …), Số từ (một, hai, …), quán từ (các, những, …),Trạng từ (trên, dưới, …), liên từ (và, hay, …), giới từ (cùng, với, bằng…), phó từ(đã, sẽ, không…), trợ từ (Ừ, nhỉ, nhé, …)

2.1.3 Câu

- Câu là đơn vị ở bậc cao hơn, mang tính hoàn chỉnh của quá trình tư duy so với từ

- Câu có cấu tạo đa dạng: câu đơn, câu kép

- Cấu tạo ngữ pháp của câu thay đổi có thể làm thay đổi nghĩa của câu

2.1.4 Các đặc điểm chính tả văn bản tiếng Việt

Việc nghiên cứu đặc điểm chính tả tiếng Việt có ý nghĩa quan trọngtrong tiền xử lý dữ liệu văn bản một số đặc điểm chính tả của tiếng Việt cầnquan tâm như:

- Các tiếng đồng âm: kĩ/kỹ, lí/lý, … thường bị sử dụng lẫn nhau, Vídụ: lý luận, lí luận, …

- Các từ địa phương: một số từ địa phương sử dụng thay cho các từ phổ thông, ví dụ: đậu phộng/lạc, …

- Vị trí dấu: theo quy định đánh dấu tiếng Việt, dấu được đặt trênnguyên âm có ưu tiên cao nhất Tuy nhiên khi viết văn bản, do mỗi người sử dụngmột bộ gõ tiếng Việt khác nhau nên nhiều khi gây ra sự không chuẩn xác Ví dụ:toán, tóan, …

Trang 31

từ là rất quan trọng, làm tiền đề cho việc xử lý tiếp theo sau đó: như kiểm lỗi chính

tả, gán nhãn từ loại, thống kê tần suất từ, …

2.2 PHƯƠNG PHÁP TÁCH TỪ TIẾNG VIỆT 2.2.1 Phương pháp So khớp tối đa [5]

Ở phương pháp này, chúng ta sẽ duyệt một ngữ hoặc câu từ trái sangphải và chọn từ có nhiều âm tiết nhất có mặt trong từ điển và cứ thực hiện lặp lạinhư vậy cho đến hết câu

Dạng đơn giản của phương pháp dùng để giải quyết nhập nhằng từđơn Giả sử chúng ta có một chuỗi ký tự C1, C2, …, Cn Chúng ta sẽ áp dụngphương pháp từ đầu chuỗi Đầu tiên kiểm tra xem C1 có phải là từ hay không,sau đó kiểm tra xem C1C2 có phải là từ hay không Tiếp tục thực hiện như thếcho đến khi tìm được từ dài nhất

Dạng phức tạp: quy tắc của dạng này là phân đoạn từ Thông thườngngười ta lựa chọn lấy kết quả phân đoạn ba từ nào có chiều dài tối đa Thuậttoán bắt đầu từ dạng đơn giản, cụ thể là nếu phát hiện ra những cách từ gâynhập nhằng, như ở ví dụ trên, giả sử C1 là từ và C1C2 cũng là một từ, khi đó

Trang 32

chúng ta kiểm tra ký tự kế tiếp trong chuỗi C1, C2, … , Cn, để tìm tất cả cácđoạn gồm ba từ mà mỗi đoạn đó có bắt đầu với từ C1 hoặc từ C1C2

Ví dụ: Giả sử chúng ta có được các đoạn sau:

2.2.2 Phương pháp Giải thuật học cải biến [5]

Phương pháp này tiếp cận dựa trên tập ngữ liệu đã đánh dấu Theocách tiếp cận này để cho máy tính có thể nhận biết ranh giới giữa các từ Để

có thể tách từ chính xác, chúng ta sẽ cho máy học các câu mẫu trong tập ngữliệu đã được đánh dấu ranh giới giữa các từ đúng Rõ ràng chúng ta thấyphương pháp rất đơn giản, vì chỉ cần cho máy học các tập câu mẫu và sau đómáy sẽ tự rút ra qui luật của ngôn ngữ và để từ đó sẽ áp dụng chính xác khi cónhững câu đúng theo luật mà máy đã rút ra Và rõ ràng để tách từ được hoàntoàn chính xác trong mọi trường hợp thì đòi hỏi phải có một tập ngữ liệu tiếngViệt thật đầy đủ và phải được huấn luyện lâu để có thể rút ra các luật đầy đủ

Trang 33

Ưu điểm:

- Đặc điểm phương pháp này là khả năng tự rút ra quy luật của ngôn ngữ

- Nó có những ưu điểm của cách tiếp cận dựa trên luật vì cuối cùng nócũng dựa trên luật được rút ra, nhưng nó khắc phục được khuyết điểm của việc xâydựng các luật một cách thủ công bởi các chuyên gia

- Các luật được thử nghiệm tại chỗ để đánh giá độ chính xác và hiệu quả của luật (dựa trên ngữ liệu huấn luyện)

- Có khả năng khử được một số nhập nhằng trong ngôn ngữ

2.2.3 Phương pháp đối sánh thuật ngữ dài nhất

- Thuật toán đối sánh từ trái qua:

Xét câu sau: Hôm nay trời đẹp.

Đầu tiên ta kiểm tra xem trong từ điển có từ hôm nay trời đẹp không? Kết quả là không có Ta tách bớt âm tiết cuối ra, và kiểm tra hôm nay trời có

trong từ điển không? Kết quả cũng không có Ta lại bỏ bớt một tiếng nữa ra,

kiểm tra từ điển có từ hôm nay không? Kết quả là có, và hôm nay được coi là một từ đã tìm thấy Ta kiểm tra tiếp phần còn lại của câu, còn lại trời đẹp, kiểm tra xem có từ này không Kết quả là không có, ta lại bỏ tiếng đẹp đi và xét xem có từ trời không? Kết quả là có, và ta thu được hai từ là hôm nay và trời Xét đẹp xem có hay không? Kết quả là có, và ta thu được các từ hôm nay, trời và đẹp.

- Thuật toán đối sánh từ phải qua: chỉ khác thuật toán đối sánh từ tráiqua đó là lấy chuỗi dài nhất từ cuối câu (vị trí xuất phát là bên phải nhất) và khi tacắt chuỗi hay tiếng thì ta cắt phần bên trái nhất đi, giữ lại phần bên phải Cuối cùngkhi thuật toán kết thúc, đảo ngược lại thứ tự các từ tách được trong danh sách từ

2.3 MỘT SỐ THÔNG TIN CHUYÊN NGÀNH TÀI NGUYÊN VÀ MÔI TRƯỜNG

Dân tộc ta trường tồn như ngày nay, cũng là nhờ có nguồn tài nguyênthiên nhiên phong phú và đa dạng, đảm bảo cho sự phát triển, sự sống củatoàn dân tộc từ đời này sang đời khác, tiếp nối

Trang 34

Việt Nam có diện tích 331.212 km², bao gồm khoảng 327.480 km² đấtliền và hơn 4.200 km² biển, với hơn 2.800 hòn đảo, bãi đá ngầm lớn nhỏ, gần

và xa bờ, bao gồm cả Trường Sa và Hoàng Sa mà Việt Nam tuyên bố chủquyền Việt nam có nhiều sông ngòi Khí hậu Việt nam có bốn mùa xuân, hạ,thu, đông rõ rệt Việt Nam có nhiều tài nguyên

2.3.1 Tài nguyên đất

Ðất là một dạng tài nguyên vật liệu của con người Ðất gồm đất đai lànơi ở, xây dựng cơ sở hạ tầng của con người, và thổ nhưỡng là mặt bằng đểsản xuất nông lâm nghiệp

Giá trị tài nguyên đất được đo bằng số lượng diện tích (ha, km2) và độphì (độ mầu mỡ thích hợp cho trồng cây công nghiệp và lương thực)

Ðất là một hệ sinh thái hoàn chỉnh nên thường bị ô nhiễm bởi các hoạtđộng của con người Ô nhiễm đất có thể phân loại theo nguồn gốc phát sinhthành ô nhiễm do chất thải công nghiệp, chất thải sinh hoạt, chất thải của cáchoạt động nông nghiệp, ô nhiễm nước và không khí từ các khu dân cư tập trung

Tài nguyên đất của Việt Nam đang suy thoái nghiêm trọng do xói mòn,rửa trôi, bạc mầu, nhiễm mặn, nhiễm phèn và ô nhiễm đất, biến đổi khí hậu

Việc quản lý nhà nước về đất đai theo luật đất đai Nhà nước đã tăngcường quản lý đất đai bằng pháp luật, đã đạt nhiều hiệu quả nhất định song ởnhiều nơi, nhiều chỗ các cơ quan chức năng cũng còn buông lỏng quản lý,nhiều hiện tượng tiêu cực xảy ra Một số cá nhân tư do khai thác tài nguyênđất, rừng trái phép, gây hậu quả xấu nghiêm trọng

2.3.2 Tài nguyên nước

Các nguồn nước con người sử dụng dùng trong các hoạt động nôngnghiệp, công nghiệp, dân dụng, giải trí và môi trường, hầu hết đều cần nướcngọt Nước ngọt là nguồn tài nguyên tái tạo, bao gồm nước mặt và nước ngầm

- Nước mặt là nước trong sông, hồ hoặc nước ngọt trong vùng đấtngập nước Nước mặt được bổ sung một cách tự nhiên bởi giáng thủy và chúngmất đi khi chảy vào đại dương, bốc hơi và thấm xuống đất

Trang 35

- Nước ngầm hay còn gọi là nước dưới đất, là nước ngọt được chứatrong các lỗ rổng của đất hoặc đá Nó cũng có thể là nước chứa trong các tầngngậm nước bên dưới mực nước ngầm Đôi khi người ta còn phân biệt nước ngầmnông, nước ngầm sâu và nước chôn vùi

Việt Nam có 2360 con sông, có chiều dài trên 10km, trong đó có 9 hệthống sông lớn có diện tích lưu vực trên 10.000km2 Tổng lượng nước hàng nămchảy qua các sông, suối tới 835 tỷ m3, trong đó có 313 tỷ m3 sản sinh trên lãnhthổ Việt Nam còn lại 522 tỷ m3 từ lãnh thổ các nước ngoài chảy vào nước ta

Tài nguyên nước dưới đất có trữ lượng động thiên nhiên toàn lãnh thổkhoảng 1500m3/s Nguồn tài nguyên nước, tính theo đầu người ở nước ta hiệnnay vào loại trung bình thấp so với thế giới và suy giảm do dân số tăng nhanh

Do đặc điểm địa lý nước ta kéo dài theo phương kinh tuyến, địa hình

bị chia cắt mạnh đã tác động trực tiếp tới sự ảnh hưởng của các chế độ giómùa, là nguyên nhân gây ra sự phân bố rất không đồng đều về tài nguyênnước theo thời gian và không gian Hàng năm lượng nước tập trung trong 3-4tháng mùa mưa chiếm tới 70-75%, chỉ riêng một tháng cao điểm trong mùamưa có thể chiếm tới 30% Trong khi về mùa khô, lượng nước chỉ chiếm 25-30% Chính sự phân bố không đều này là nguyên nhân gây ra lũ, úng, lụt vàcác đợt hạn hán nghiêm trọng Thiên tai, lũ lụt, bão, úng ngập, hạn hán, chuaphèn, xâm nhập mặn thường xuyên là mối đe doạ đối với sản xuất và đời sốngdân cư nhiều vùng của nước ta Do vậy, việc điều hoà phân phối nguồn nước,khai thác mặt lợi của nước và giảm thiểu tác hại do nước gây ra cần phải đượcquản lý thống nhất theo lưu vực sông

Hiện nay, vấn đề suy thoái tài nguyên nước lưu vực sông diễn ra ngàycàng nghiêm trọng Suy thoái tài nguyên nước trên lưu vực sông được biểuhiện ở sự suy giảm về số lượng và đặc biệt là chất lượng Trong những nămqua, sự tăng nhanh về dân số và khai thác quá mức tài nguyên nước, các tàinguyên đất và rừng đã làm suy kiệt nguồn nước; việc phát triển đô thị và côngnghiệp nhưng không có biện pháp quản lý chặt chẽ và xử lý các chất thảilỏng, thải rắn theo yêu cầu cũng đã làm ô nhiễm nguồn nước, cho nên suy

Trang 36

thoái tài nguyên nước đã trở thành khá phổ biến đối với các lưu vực sông ViệtNam được quốc tế xếp vào loại các quốc gia có tài nguyên nước suy thoái.

2.3.3 Tài nguyên khoáng sản

Khoáng sản là khoáng vật của lớp vỏ Trái đất, thành phần hóa học vàcác tính chất vật lý của chúng cho phép sử dụng chúng có hiệu quả và lợi íchtrong lĩnh vực sản xuất ra của cải vật chất của nền kinh tế quốc dân

Việt Nam có nguồn tài nguyên khoáng sản phong phú, một số loại cótrữ lượng lớn như than đá, quặng kim loại, vật liệu xây dựng như cát, đá vôi,đất sét Tuy nhiên là một nước đang phát triển, Việt nam hiện đang phải đốimặt với tình trạng khai thác khoáng sản tràn lan, không có quy hoạch, gâylãng phí, ảnh hưởng nghiêm trọng đến môi sinh Môi trường, nguồn nước bị ônhiễm, đất đai xâm hại, hạ tầng cơ sở bị xuống cấp…

Quảng ninh là tỉnh có tiềm năng du lịch và cũng là nơi có mỏ than vớitrữ lượng lớn của Việt nam Khai thác khoáng sản và du lịch là hai ngànhmang lại thu nhập cao giúp kinh tế Quảng ninh, tuy nhiên chất thải ra môitrường ở đây vượt quá tiêu chuẩn cho phép

Tình hình khai thác khoáng sản tràn lan tại Việt Nam

Hình 2.1 Khai thác khoáng sản ở Thái Nguyên

Trong thời gian gần đây tình trạng khai thác cát quá mức tại các con sông

và bờ biển để phục vụ xây dựng và xuất khẩu Hiện tại các dòng sông của Việtnam từ miền Bắc đến miền Nam vẫn tiếp tục chịu cảnh khai thác cát ngày đêm

Trang 37

Trước những bức xúc về tình trạng khai thác tài nguyên khoáng sản trên

cả nước, chính phủ đã đệ trình quốc hội xem xét luật khoáng sản sửa đổi, trong

đó có những quy định về đấu giá quyền thăm dò khai thác khoáng sản, phân cấptrong việc thăm do khoáng sản, tổ chức đấu giá và cấp phép cho Bộ Tài nguyênMôi trường để tránh tình trạng địa phương cấp phép khai thác mỏ ồ ạt

Hình 2.2 Khai thác cát vô tội vạ làm diện tích đất ven các sông sạt lở

2.3.4 Tài nguyên biển

Biển Việt Nam được công nhận là một trong 10 trung tâm đa dạngsinh học biển, 20 vùng biển giàu hải sản trên thế giới

Các nhà sinh vật học phát hiện tại vùng biển Việt Nam có tới 11.000loài sinh vật cư trú trong hơn 20 kiểu hệ sinh thái điển hình thuộc 6 vùng đadạng sinh học biển khác nhau

Trên diện tích gần 1.200km2 rạn san hô, có hơn 300 loài san hô đáphân bố rộng khắp từ Bắc vào Nam Sống gắn bó với các hệ sinh thái này làtrên 4.000 loài sinh vật sống dưới đáy và cá, trong đó có trên 400 loài cá, rạnsan hô và nhiều đặc hải sản

Bản thân các hệ sinh thái này còn là những bức tường tự nhiên phòngchống thiên tai, bảo vệ bờ biển khỏi xói lở, thậm chí giảm thiểu tác hại củasóng thần và là bộ lọc tự nhiên các chất ô nhiễm từ sông mang ra biển Đadạng sinh học biển và các hệ sinh thái trên là nền tảng cho việc phát triển lâudài một số ngành kinh tế như du lịch, thuỷ sản, y dược biển

Trang 38

Vùng ven biển Việt Nam có khoảng 126 bãi cát biển đẹp, trong đó cótới 20 bãi cát biển đạt tiêu chuẩn quốc tế, hàng trăm bãi biển nhỏ, đẹp, nằmven các vụng, vũng tĩnh lặng, ven các đảo hoang sơ.

Ngoài Vịnh Hạ Long đã được UNESCO công nhận di sản Thiên nhiênThế giới năm 1994; 4 di sản thiên nhiên thế giới khác của Việt Nam đều nằm

ở vùng ven biển Năm 2003, vịnh Nha Trang được công nhận là một trong 29 vịnh đẹp nhất thế giới, 15 khu bảo tồn biển đang trình Chính phủ phê duyệt

Việt Nam phát triển kinh tế đi đôi với bảo vệ môi trường biển ViệtNam ban hành Luật bảo vệ môi trường (1993, 2004), Luật dầu khí (1993,2000), Luật thủy sản (2003), Luật hàng hải (1990, 2005), Pháp lệnh du lịch(1999); Tuy nhiên việc quản lý khai thác tài nguyên biển ở Việt nam vẫn cònnhiều bất cập cần phải nghiên cứu giải quyết

2.3.5 Khí tƣợng thủy văn

Khí tượng là một ngành khoa học nghiên cứu cấu tạo, tính chất khíquyển và các hiện tượng xảy ra trong đó, bao gồm nhiệt độ, áp suất, độ ẩm,quan sát về thời tiết… Nhiệm vụ chủ yếu của khí tượng là dự báo thời tiếttrong từng thời kì, cho từng vùng hoặc cho toàn cầu

Thủy văn là một ngành khoa học nghiên cứu về sự vận động, phânphối, và chất lượng của nước trên trái Đất, nó đề cập đến cả vòng tuần hoànnước và các nguồn nước

Khí tượng-thuỷ văn là một khoa học liên ngành nghiên cứu, phân tích

mối quan hệ qua lại giữa các pha của nước trong khí quyển và đất khi nóchuyển qua chu trình thuỷ văn

Ở nước ta, có viện Khí tượng-thuỷ văn và môi trường, có các trungtâm dự báo khí tượng và thủy văn Trung tâm Tư liệu khí tượng thuỷ văn là tổchức sự nghiệp trực thuộc Trung tâm Khí tượng Thuỷ văn quốc gia, Bộ Tàinguyên và Môi trường, có chức năng thu nhận, quản lý,

phát triển kinh tế - xã hội, đảm bảo an ninh quốc phòng trong phạm vi cả nước

Trang 39

2.3.6 Môi trường

Môi trường là tập hợp tất cả các yếu tố tự nhiên và xã hội bao quanh conngười, ảnh hưởng tới con người và tác động đến các hoạt động sống của conngười như: không khí, nước, độ ẩm, sinh vật, xã hội loài người và các thể chế

- Môi trường là không gian sống của con người và sinh vật Trong quátrình tồn tại và phát triển con người cần có các nhu cầu tối thiểu về không khí, độ

ẩm, nước, nhà ở cũng như các hoạt động vui chơi giải trí khác Tất cả các nhucầu này đều do môi trường cung cấp

- Môi trường là nơi cung cấp các nhu cầu về tài nguyên cho con ngườinhư đất, đá, tre, nứa, tài nguyên sinh vật Tất cả các tài nguyên này đều do môitrường cung cấp và giá trị của tài nguyên phụ thuộc và mức độ khan hiếm và giá trịcủa nó trong xã hội

- Môi trường là nơi chứa đựng, đồng hóa các chất thải của con ngườitrong quá trình sử dụng các tài nguyên thải vào môi trường Các tài nguyên sau khihết hạn sử dụng, chúng bị thải vào môi trường dưới dạng các chất thải Các chấtthải này bị các quá trình vật lý, hóa học, sinh học phân hủy thành các chất vô cơ, visinh quay trở lại phục vụ con người Tuy nhiên chức năng là nơi chứa đựng chấtthải của môi trường là có giới hạn Nếu con người vượt quá giới hạn này thì sẽ gây

ra mất cân bằng sinh thái và ô nhiễm môi trường

Môi trường sống ở việt Nam hiện nay có nhiều vấn đề cần xem xét,

đồng thời với việc phát triển kinh tế xã hội, công nghiệp hóa, hiện đại hóa đấtnước thì việc gây ô nhiễm môi trường cũng ngày càng gia tăng Việc xử lýnước thải, rác thải công nghiệp, nông nghiệp, y tế, và sinh hoạt không đúngquy trình kỹ thuật, nên nhiều nơi gây ô nhiễm nặng môi trường Các cơ quanchức năng có nhiều biện pháp quản lý song cũng chưa có hiệu quả mong đợi

2.3.7 Đo đạc và bản đồ

Bản đồ địa lý là sự biểu thị thu nhỏ qui ước của bề mặt trái đất lên mặtphẳng, xây dựng trên cơ sở toán học với sự trợ giúp và sử dụng các ký hiệuqui ước để phản ánh sự phân bố, trạng thái và mối quan hệ tương quan của

Trang 40

các hiện tượng thiên nhiên và xã hội được lựa chọn và khái quát hoá để phùhợp với mục đích sử dụng của bản đồ và đặc trưng cho khu vực nghiên cứu.Bản đồ có tính trực quan, tính đo đếm được và tính thông tin nhanh.

Những bản đồ đầu tiên được lập thủ công bằng bút vẽ và giấy da, vìthế chất lượng của chúng rất giới hạn và đã được phổ biến hạn chế Kỹ thuậtngày càng phát triển, chất lượng của bản đồ ngày càng tốt hơn

Ngành đo đạc và bản đồ Việt Nam phát triển cùng thế giới, nhiều tiến

bộ kỹ thuật, nhiều thành công trong đo đạc và bản đồ, đặc biệt là đạt nhiềuthành công trong công tác đo đạc và phân mốc biên giới lãnh thổ đất liền

Tóm lại, thông tin chuyên ngành tài nguyên và môi trường phân thành

bảy chủ đề sau:

4 Tài nguyên khoáng sản

Mặt khác, từ nhận thức về sự biến đổi không ngừng theo thời gian của tàinguyên và môi trường, ảnh hưởng trực tiếp tới đời sống, hoạt động của mỗi đốitượng trong tự nhiên và xã hội Do vậy việc nắm bắt kịp thời các thông tinchuyên ngành tài nguyên và môi trường của con người nói chung, người ViệtNam ta nói riêng, có ý nghĩa hết sức quan trọng Đặc biệt, mỗi người cần quantâm tới thông tin theo một chủ đề riêng, phục vụ cho công tác chuyên môn

Như vậy một vấn đề đặt ra là, giả thiết các thông tin về tài nguyên vàmôi trường được thể hiện bằng các Văn bản tiếng Việt, dạng tệptin.TXT,.DOC, ta cần phân lớp các văn bản đó vào một trong các chủ đề trên.Nếu phân lớp bằng phương pháp thủ công có nhiều nhược điểm: tốc độ chậm

Định dạng
Số trang	101
Dung lượng	1,66 MB