Không dừng lại ở đó, chúng tôi hướng đến việc mở rộng hơn chủ đề này từ các dữ liệu liên quan đến đa dạng thực vật bằng việc trực quan hóa các thông tin, phân bố địa lí của loài thực vật
Trang 1ĐẠI HỌC ĐÀ NẴNG -
BÙI QUANG THUẬN
ĐỀ TÀI XÂY DỰNG HỆ THỐNG TRA CỨU THỰC VẬT RỪNG TẠI THÀNH PHỐ ĐÀ NẴNG
ỨNG DỤNG MÔ HÌNH HỌC SÂU
Chuyên ngành: Khoa học máy tính
Mã số: 60.48.01
TÓM TẮT LUẬN VĂN THẠC SĨ NGÀNH KHOA HỌC MÁY TÍNH
Đà Nẵng - Năm 2022
Trang 2ĐẠI HỌC ĐÀ NẴNG
TRƯỜNG ĐẠI HỌC BÁCH KHOA -
Người hướng dẫn khoa học: TS Nguyễn Văn Hiệu
Phản biện 1: TS BÙI THỊ THANH THANH
Phản biện 2: TS LÂM TÙNG GIANG
Luận văn sẽ được bảo vệ trước Hội đồng chấm Luận
văn tốt nghiệp thạc sĩ Chuyên ngành Khoa học máy tính họp tại Đại học Đà Nẵng vào ngày tháng năm
Có thể tìm hiểu luận văn tại:
- Trung tâm Học liệu và TT Đại học Bách khoa_ ĐHĐN
- Thư viện Khoa Công nghệ thông tin, Trường Đại học
Bách Khoa - Đại học Đà Nẵng
Trang 3MỞ ĐẦU
1 Lý do chọn đề tài
Theo các tài liệu thống kê, Việt Nam là một trong 25 nước có mức độ đa dạng sinh học cao trên thế giới với dự tính có thể có tới 20.000-30.000 loài thực vật Việt Nam được xếp thứ 16 về mức độ đa dạng sinh học, chiếm 6.5% số loài có trên thế giới Theo dự đoán của các nhà thực vật học số loài thực vật bậc cao có mạch ít nhất sẽ lên đến 12.000 loài, trong đó có khoảng 2.300 loài đã được nhân dân dùng làm nguồn lương thực, thực phẩm, thuốc chữa bệnh, thức ăn cho gia súc, lấy gỗ, tinh dầu và nhiều nguyên vật liệu khác
Hiện nay trên thế giới có rất nhiều bộ cơ sở dữ liệu, các hệ thống và ứng dụng đề cập về đa dạng tài nguyên thực vật phổ biến rộng rãi trên Internet Nhưng ở Việt Nam thì có rất ít thông tin hay các ứng dụng đề cập đến vấn đề này, và nếu có thì dữ liệu vẫn còn rất ít, rời rạc hoặc chưa chính xác Bên cạnh
đó, việc quản lý dữ liệu của các ứng dụng còn sơ sài, chưa đáp ứng được khả năng cung cấp một cái nhìn tổng quát và thông tin bổ ích đến người sử dụng Ví dụ như các chuyên gia cần tra cứu thông tin sinh học
về ngành, bộ, họ, chi, loài… và công dụng chữa bệnh hay vị trí phân bố địa lí của loài thực vật để đưa ra các kế hoạch bảo tồn và nhân giống
Vì vậy, việc lên kế hoạch để thu thập và hoàn thành xây dựng bộ cơ sở dữ liệu về đa dạng thực vật là vấn đề cần thiết trong việc bảo vệ và duy trì đa dạng sinh học ở nước ta Không dừng lại ở đó, chúng tôi hướng đến việc mở rộng hơn chủ đề này từ các dữ liệu liên quan đến đa dạng thực vật bằng việc trực quan hóa các thông tin, phân bố địa lí của loài thực vật trên bản đồ nền như một hệ thống thông tin địa lý cho thực vật và một module hỗ trợ tra cứu thực vật từ các thông tin cơ bản như tên loài, khu vực phân bố… và đặc biệt là có thể định danh các loài thực vật bằng hình ảnh
Chính vì những lý do trên, tôi đề xuất triển khai đề tài “Xây dựng hệ thống tra cứu thực vật rừng tại Thành Phố Đà Nẵng ứng dụng mô hình học sâu”
Trang 4c Ý nghĩa thực tiễn
Một ứng dụng về tra cứu thực vật thật sự là một công cụ tuyệt vời cho sinh viên, nghiên cứu sinh
và chuyên gia đang hoạt động trong lĩnh vực tài nguyên môi trường trong việc khai thác thông tin về các khu bảo tồn thiên nhiên, vườn quốc gia… trong thời buổi Việt Nam đang thiếu chuyên gia sinh học và trong thời đại chuyển đổi số như hiện nay
3 Mục tiêu và nhiệm vụ
a Mục tiêu
Đề tài bao gồm 3 mục tiêu chính
• Hoàn thành thu thập và xây dựng bộ khung cở sở dữ liệu về đa dạng thực vật học (bộ khung sau này có thể áp dụng cho thực vât Việt Nam)
• Hoàn thành triển khai hệ thống thông tin địa lý về đa dạng thực vật học ở Đà Nẵng
• Triển khai các module định danh và tra cứu thực vật thông qua hình ảnh
b Nội dung thực hiện
Để đạt được mục tiêu nêu ở trên, thì đề tài đặt ra một số nội dung cơ bản sau:
- Nội dung 1: Thu thập dữ liệu về tài nguyên đa dạng thực vật bao gồm dữ liệu liên quan đến thông tin, phân bố địa lí và hình ảnh thực vật tại các khu bảo tồn thiên nhiên, vườn quốc gia Thu thập dữ liệu từ các nguồn sau:
• Các chuyên gia thu thập dữ liệu (tên thực vật, hình ảnh, tọa độ) từ thực tế
• Các phương pháp thu thập dữ liệu thực vật từ các nguồn trên Internet
- Nội dung 2: Tổng hợp và chỉnh sửa dữ liệu thu thập được để hoàn thành bộ CSDL đa dạng thực vật khu
Trang 5• Xây dựng hệ thống thông tin trên nền tảng Web với các chức năng định danh và tra cứu thực vật Đồng thời triển khai dữ liệu tài nguyên thực vật trên bản đồ nền
4 Đối tượng và phạm vi nghiên cứu
Trong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tôi chỉ giới hạn nghiên cứu các vấn đề sau:
• Tra cứu thông tin liên quan đến thực vật
• Các mô hình học máy phục vụ tra cứu bằng hình ảnh
5 Phương pháp nghiên cứu
a Phương pháp lý thuyết
• Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài
• Nghiên cứu các kiến thức về thực vật phục vụ cho việc thu thập dữ liệu
• Nghiên cứu các kiến thức liên quan đến bản đồ nền MapBox, GIS…
• Nghiên cứu các công nghệ để giải quyết bài toán “Xây dựng hệ thống tra cứu thực vật rừng tại Thành Phố Đà Nẵng ứng dụng mô hình học sâu”
• Nghiên cứu các mô hình học máy hỗ trợ tra cứu thực vật bằng hình ảnh MobileNet, VGG16,
MobiFaceNet…
b Phương pháp thực nghiệm
• Phân tích yêu cầu thực tế của bài toán đa dạng thực vật
• Thu thập dữ liệu và xây dựng chương trình thử nghiệm đa dạng thực vật Việt Nam sử dụng hệ
thống thông tin địa lí
• Triển khai các giải pháp tra cứu thông tin thực vật kết hợp các mô hình học sâu
• Đánh giá và hiệu chỉnh kết quả
6 Dàn ý nội dung chính
Bố cục luận văn bao gồm 03 chương chính:
Trang 6CHƯƠNG 1: “TỔNG QUAN HỆ THỐNG TRA CỨU THỰC VẬT VÀ CƠ SỞ LÝ
THUYẾT” trình bày tổng quan các vấn đề và cách tiếp cận để triển khai một hệ thống thông tin cho bài
toán tra cứu thông tin thực vật Tiếp theo trình bày các cơ sở lý thuyết về phương pháp học sâu là Mạng
nơ ron tích chập và các mô hình biến thể được sử dụng trong đề tài nghiên cứu này như VGG16, MobilenetV2 và MobileFacenet Và giới thiệu sơ lược về cơ sở lý thuyết của hệ thông tin địa lý
CHƯƠNG 2: “XÂY DỰNG HỆ THỐNG TRA CỨU THỰC VẬT” trình bày về quy trình
triển khai hệ thống thông tin tra cứu thông tin thực vật tthực hiện các giải pháp để thu thập dữ liệu loài thực vật rồi từng bước biên tập thành bộ khung cơ sở dữ liệu hoàn chỉnh Từ đó triển khai mô hình thành ứng dụng với các giải pháp tra cứu dựa trên nền bản đồ, tra cứu dựa trên hình ảnh, tra cứu dựa trên dữ liệu biên tập cho hệ thống thông tin
CHƯƠNG 3: “TRIỂN KHAI HỆ THỐNG VÀ ĐÁNH GIÁ KẾT QUẢ” trình bày về kết quả
đạt được với các chỉ tiêu đề ra và quy trình ở nội dung Chương 2 Và cuối cùng là việc thực hiện đánh giá
về khả năng và tính ứng dụng của hệ thống tra cứu thực vật
Trang 7CHƯƠNG 1: TỔNG QUAN HỆ THỐNG TRA CỨU THỰC VẬT VÀ CƠ SỞ LÝ THUYẾT 1.1 Tổng quan hệ thống tra cứu thực vật
1.1.1 Giới thiệu
Theo các tài liệu thống kê, Việt Nam là một trong 25 nước có mức độ đa dạng sinh học cao trên thế giới với dự tính có thể có tới 20.000-30.000 loài thực vật Việt Nam được xếp thứ 16 về mức độ đa dạng sinh học, chiếm 6.5% số loài có trên thế giới Theo dự đoán của các nhà thực vật học số loài thực vật bậc cao có mạch ít nhất sẽ lên đến 12.000 loài, trong đó có khoảng 2.300 loài đã được nhân dân dùng làm nguồn lương thực, thực phẩm, thuốc chữa bệnh, thức ăn cho gia súc, lấy gỗ, tinh dầu và nhiều nguyên vật liệu khác Theo số liệu được lấy từ Bộ Nông nghiệp và Phát triển nông thôn công bố hiện trạng rừng toàn quốc năm 2019, tính đến ngày 31/12/2019, diện tích đất rừng toàn quốc là 14.609.220 ha
Tại Việt Nam thì có rất ít thông tin hay các ứng dụng đề cập đến vấn đề này, và nếu có thì dữ liệu vẫn còn rất ít, rời rạc hoặc chưa chính xác Bên cạnh đó, việc quản lí dữ liệu của các ứng dụng còn sơ sài, chưa đáp ứng được khả năng cung cấp một cái nhìn tổng quát và thông tin bổ ích đến người sử dụng Ví
dụ như các chuyên gia cần tra cứu thông tin sinh học về ngành, bộ, họ, chi, loài… và công dụng chữa bệnh hay vị trí phân bố địa lí của loài thực vật để đưa ra kế hoạch bảo tồn và nhân giống Vì vậy, việc lên
kế hoạch để thu thập và hoàn thành xây dựng bộ cơ sở dữ liệu về đa dạng thực vật là vấn đề cần thiết trong việc bảo vệ và duy trì đa dạng sinh học ở nước ta Không dừng lại ở đó, chúng tôi hướng đến việc
mở rộng hơn chủ đề này từ các dữ liệu liên quan đến đa dạng thực vật bằng việc trực quan hóa các thông tin, phân bố địa lí của loài thực vật trên bản đồ nền như một hệ thống thông tin địa lí cho thực vật và một module hỗ trợ tra cứu thực vật từ các thông tin cơ bản như tên loài, khu vực phân bố… và đặc biệt là có thể định danh các loài thực vật bằng hình ảnh
Chính vì những lý do trên, chúng tôi đề xuất triển khai đề tài “Xây dựng hệ thống tra cứu thực vật tại Thành phố Đà Nẵng ứng dụng mô hình học sâu” Trong phạm vi đề tài này, chúng tôi cho triển
khai tại thành phố Đà Nẵng trước tiên và sẽ mở rộng cho các tỉnh thành khác của Việt Nam trong tương lai
1.1.2 Bài toán tra cứu thực vật
Việc quản lý và lưu trữ một cách có hệ thống những loài thực vật đã gặp sẽ hỗ trợ tích cực cho việc tiếp cận tính đa dạng của một hệ thực vật nói chung và hệ thực vật Việt Nam nói riêng Và việc tra cứu định danh loài là công việc diễn ra thường xuyên đối với những người làm trong lĩnh vực sinh học
Để xây dựng được các giải pháp tra cứu thông tin thực vật chúng ta cần phải có kiến thức về giới thực vật
để công việc “Xếp Loại” và “Định Danh” thực vật đạt được độ chính xác cao nhất Xếp loại là việc đặt thực vật được biết đến vào nhóm hoặc thể loại để hiển thị một số mối quan hệ Định danh thực vật sau đó tuân theo một hệ thống các quy tắc được tiêu chuẩn hóa các kết quả, và tiếp tục gộp các thể loại đã được xếp vào một hệ thống phân cấp Việc định danh thực vật tạo ra một hệ thống được cấu trúc để đặt tên và xếp danh mục cho các loài được phát hiện, và trong trường hợp lý tưởng nó phản ánh các ý tưởng khoa học về mối quan hệ giữa các loài thực vật Từ đó, việc tra cứu thông tin định danh thực vật có thể dùng nhiều giải pháp khác nhau như sử dụng tên để tìm kiếm và định danh thông qua hình ảnh …
Trang 81.1.3 Tra cứu thực vật bằng hình ảnh
Bài toán tra cứu thực vật bằng hình ảnh hay phân loại thực vật đã xuất hiện từ lâu và đã
có rất nhiều bài báo, công trình khoa học được đưa ra nhằm đề xuất hoặc cải tiến các thuật toán
cũ Trong đó, xuất hiện sớm nhất là các phương pháp xử lý ảnh các phương pháp này tập trung vào phát triển các thuật toán nhằm trích xuất tin, ví dụ như các tham số về màu sắc, hình dạng, kết cấu, kích thước, …từ bức ảnh đầu vào để phân loại thực vật Trong những năm gần đây, nhờ
sự phát triển vượt bậc về sức mạnh tính toán của máy tính cũng như sự bùng nổ dữ liệu trên internet, học sâu đã đạt được nhiều thành tựu đáng kể trong lĩnh vực xử lý ảnh và xử lý ngôn ngữ
tự nhiên Phương pháp học sâu cũng đã áp dụng thành công vào bài toán phân loại thực vật và bước đầu đã đạt được một số kết quả kinh ngạc
1.2 Hệ thống thông tin địa lí
Hệ thống thông tin địa lýlà một công cụ tập hợp những quy trình dựa trên máy tính để lập bản đồ, lưu trữ và thao tác dữ liệu địa lý, phân tích các sự vật hiện tượng thực trên trái đất, dự đoán tác động và hoạch định chiến lược Một tập hợp có tổ chức của phần cứng, phần mềm, cơ
sở dữ liệu và con người được thiết kế để thu nhận, lưu trữ, cập nhật, thao tác phân tích làm mô hình và hiển thị tất cả các dạng thông tin địa lý có quan hệ không gian nhằm giải quyết các vấn
đề về quản lý và quy hoạch GIS sẽ làm thay đổi đáng kể tốc độ mà thông tin địa lý được sản xuất, cập nhật và phân phối GIS cũng làm thay đổi phương pháp phân tích dữ liệu địa lý, hai ưu điểm quan trọng của GIS so với bản đồ giấy là dễ dàng cập nhật thông tin không gian và tổng hợp hiệu quả nhiều tập hợp dữ liệu thành một cơ sở dữ liệu kết hợp
1.3 Mạng học sâu
1.3.1 Mạng nơ-ron tích chập
Mạng nơ-ron tích chập (CNN - Convolutional Neural Network) là một trong những mô hình mạng Học sâu phổ biến nhất hiện nay, có khả năng nhận dạng và phân loại hình ảnh với độ chính xác rất cao, thậm chí còn tốt hơn con người trong nhiều trường hợp Mô hình này đã và đang được phát triển, ứng dụng vào các hệ thống xử lý ảnh lớn của Facebook, Google hay Amazon… cho các mục đích khác nhau như các thuật toán tagging tự động, tìm kiếm ảnh hoặc gợi ý sản phẩm cho người tiêu dùng Các lớp cơ bản trong một mạng CNN bao gồm: Lớp tích chập (Convolutional Layer), Lớp kích hoạt phi tuyến ReLU (Rectified Linear Unit Layer), Lớp lấy mẫu (Pooling Layer) và Lớp kết nối đầy đủ (Fully-connected Layer), được thay đổi về số lượng và cách sắp xếp để tạo ra các mô hình huấn luyện phù hợp cho từng bài toán khác nhau
1.3.2 Kiến trúc mạng VGG16
Mô hình VGG16 là một mô hình CNN cải thiện độ chính xác của phân loại bằng cách thêm độ sâu, được đề xuất bởi K Simonyan và A Zisserman từ Đại học Oxford [20] VGG16 đạt được 92,7% độ chính xác top 5 trên tập dữ liệu ImageNet, bao gồm hơn 14 triệu hình ảnh của 1000 lớp Kiến trúc này là một trong những mô hình được gửi và giành chiến thắng trong cuộc thi ImageNet ILSVR năm 2014 Nó cải thiện AlexNet bằng cách thay thế các bộ lọc kích thước hạt nhân lớn bằng nhiều bộ lọc kích thước hạt nhân 3 × 3
Trang 9Trong kiến trúc VGG16, hình ảnh RGB kích thước cố định 224 x 224 đầu vào của lớp cov1 Một chồng các lớp phức tạp đi qua hình ảnh bằng các bộ lọc có trường tiếp nhận nhỏ: 3 × 3 Bộ lọc tích chập 1 × 1 cũng được sử dụng trong một trong những cấu hình để thực hiện chuyển đổi tuyến tính cho các kênh đầu vào Không gian việc gộp chung thực hiện bởi năm lớp gộp tối đa sau một số lớp phức hợp Tối đa pooling hoạt động với bước sóng 2 trên cửa sổ 2 × 2 pixel Có ba kết nối đầy đủ các lớp sau chồng lớp tích tụ, mỗi lớp trong số hai lớp đầu tiên có 4096 kênh, và thứ ba chứa 1000 kênh Lớp softmax là lớp cuối cùng Đầy đủ cấu hình các lớp được kết nối giống nhau trong tất cả các mạng và tất cả các lớp ẩn bao gồm chỉnh lưu (ReLU) phi tuyến tính
1.3.3 Kiến trúc mạng MobilenetV2
MobileNet là một mô hình xương sống để khai thác tính năng đã được sử dụng rộng rãi về mặt lý thuyết và thực tế Hơn nữa, nó có một hiệu suất hiện đại cho đối tượng phát hiện và phân đoạn ngữ nghĩa Trong mô hình MobileNet, chiều sâu phân tách Convolution có thể làm giảm đáng kể kích thước mô hình
và độ phức tạp của mạng, được áp dụng cho điện thoại di động và các thiết bị có công suất tính toán thấp
So với mô hình MobileNetV1, Mô hình MobileNetV2 có mô-đun tốt hơn với cấu trúc phần dư đảo ngược
và không có bất tuyến tính trong các lớp hẹp Sử dụng các hệ số chiều rộng và độ phân giải đầu vào khác nhau, mô hình MobileNetV2 hoạt động tốt hơn MobileNetV1, trong khi nó có chi phí tính toán và kích thước mô hình tương đương Hơn thế nữa, mô hình MobileNetV2, có hệ số nhân chiều rộng là 1,4, hoạt động tốt hơn với suy luận nhanh hơn thời gian hơn ShuffleNet (× 2) và NASNet
1.3.4 Kiến trúc mạng MobileFacenet
MobileFaceNet là một loại mô hình được sáng tạo ra nhằm giải quyết bài toán Xác minh khuôn mặt, cũng là một công nghệ xác thực danh tính rất quan trọng [24] Nó đang được sử dụng trong ngày càng nhiều điện thoại di động và các ứng dụng - chẳng hạn như để mở khóa thiết bị hoặc nền tảng thanh toán di động, trong số những nền tảng khác Để đạt được sự thân thiện với người dùng tối đa với tài nguyên tính toán hạn chế, các mô hình xác minh khuôn mặt được triển khai cục bộ trên thiết bị di động được kỳ vọng không chỉ chính xác mà còn nhỏ và nhanh chóng
➢ Global Depthwise Convolution
Để xử lý các đơn vị khác nhau của FMap-end với tầm quan trọng khác nhau, chúng tôi thay thế global average pooling layer bằng một global depthwise convolution layer (được ký hiệu là GDConv) Lớp GDConv là lớp tích chập theo chiều sâu với kích thước kernel bằng kích thước đầu vào, pad = 0 và stride = 1 Đầu ra cho lớp tích chập theo chiều sâu toàn cục được tính như sau:
𝐺𝑚 = ∑𝑖,𝑗 𝐾𝑖,𝑗,𝑚 ⋅ 𝐹𝑖,𝑗,m (3) trong đó 𝐹 là bản đồ tính năng đầu vào có kích thước 𝑊 × 𝐻 × 𝑀, 𝐾 là nhân chập theo chiều sâu có kích thước 𝑊 × 𝐻 × 𝑀, 𝐺 là đầu ra của kích thước 1 × 1 × 𝑀 , kênh 𝑚𝑡ℎ trong 𝐺 chỉ có một phần tử 𝐺𝑚, (𝑖, 𝑗) biểu thị vị trí không gian trong 𝐹 và 𝐾, và 𝑚 biểu thị chỉ số kênh Tích chập theo chiều sâu toàn cầu có chi phí tính toán là:
Trang 10𝑊 ⋅ 𝐻 ⋅ M (4) Khi được sử dụng sau FMap-end trong MobileNetV2 để nhúng đặc điểm khuôn mặt, lớp tích chập theo chiều sâu toàn cục của kernel size 7 × 7 × 1280 xuất ra vectơ đặc điểm khuôn mặt 1280 chiều với chi phí tính toán là 62720 MAdds (tức là số lượng hoạt động được đo bởi multiply-adds) và 62720 tham số Hãy để MobileNetV2-GDConv biểu thị MobileNetV2 với lớp tích chập theo chiều sâu toàn cục Lớp này là một cấu trúc hiệu quả cho thiết kế MobileFaceNets
➢ Kiến trúc MobileFaceNet
Kiến trúc MobileFaceNet một phần được lấy cảm hứng từ kiến trúc MobileNetV2 Các nút thắt cổ chai còn lại được đề xuất trong MobileNetV2 được sử dụng làm khối xây dựng chính của chúng tôi Các nhà nghiên cứu sử dụng PReLU là phi tuyến tính, phù hợp hơn để xác minh trên khuôn mặt hơn là sử dụng ReLU Các nhà nghiên cứu cũng sử dụng chiến lược lấy mẫu nhanh ở đầu mạng và lớp tích chập 1 ×
1 tuyến tính theo sau lớp tích chập theo chiều sâu toàn cục tuyến tính làm lớp đầu ra tính năng Mạng MobileFaceNet chính sử dụng 0,99 triệu tham số Để giảm chi phí tính toán, các nhà nghiên cứu quyết định thay đổi độ phân giải đầu vào từ 112 × 112 thành 112 × 96 hoặc 96 × 96 Lớp tích chập 1 × 1 tuyến tính sau lớp GDConv tuyến tính cũng bị xóa khỏi MobileFaceNet Điều này tạo ra một mạng kết quả được gọi là MobileFaceNet-M
➢ ArcFace - Additive Angular Margin Loss
Hàm mất mát Additive Angular Margin Loss có thể được xem như một sự cải tiến cho hàm softmax, tích vô hướng giữa véc tơ đặc điểm từ mô hình DCNN và lớp fullly connected cuối bằng với khoảng cách cosine của feature và weight đã được chuẩn hóa Chúng ta tận dụng hàm arc-cosine để tính góc giữa feature hiện tại và weight mục tiêu Sau đó chúng ta cộng thêm additive angular margin vào góc mục tiêu và chúng ta sẽ thu được lại véc tơ logit thông qua hàm cosine Tiếp theo, các logits sẽ được định lại tỉ lệ và các bước còn lại sẽ giống hệt như hàm mất mát softmax Tóm tắt các các bước như sau:
• Bước 1: Sau khi normalization weights và feature vectors, ta lấy được cosθj với ∀j=1,2, ,C
• Bước 2: Ta cần tính θj (rất dễ dàng, chỉ cần lấy ArcCos là được) θj là góc giữa ground truth weight Wyi và feature vector xi
• Bước 3: Sau đó ta tính cos(θ+m) Nếu bạn còn nhớ vòng tròn lượng giác, thì trong khoảng từ 0 đến π, góc càng tăng cos càng giảm
• Bước 4: Tính s∗cos(θ+m) Sau đó đưa vào softmax để lấy ra phân phối xác suất probability của các
nhãn
• Bước 5: Cuối cùng, ta có ground truth vector (là label đã được one-hot) cùng probability, đóng góp vào cross entropy loss
Trang 11CHƯƠNG 2: PHÂN TÍCH VÀ THIẾT KẾ HỆ THỐNG TRA CỨU THỰC VẬT
Chương 2 giới thiệu về các phân hệ chức năng cần triển khai cho hệ thống tra cứu thực vật và trình bày về quy trình triển khai hệ thống theo từng bước như Hình 2.0 Chúng tôi thực hiện các giải pháp
để thu thập dữ liệu loài thực vật rồi từng bước biên tập thành bộ khung cơ sở dữ liệu hoàn chỉnh Từ đó triển khai mô hình thành ứng dụng với các giải pháp tra cứu dựa trên nền bản đồ, tra cứu dựa trên hình ảnh, tra cứu dựa trên dữ liệu biên tập cho hệ thống thông tin
2.1 Yêu cầu hệ thống
Các nội dung yêu cầu cho hệ thống tra cứu thực vật được chia thành 5 phân hệ
1 Phân hệ chức năng tra cứu thông tin cơ bản
2 Phân hệ chức năng tra cứu phân bố trên nền Bản đồ
3 Phân hệ chức năng thống kê báo cáo
4 Phân hệ chức năng biên tập dữ liệu
5 Phân hệ chức năng quản lí người dùng
2.2 Ứng dụng mô hình học sâu vào tra cứu hình ảnh
2.2.1 Thu thập dữ liệu
Để thu thập số liệu về đa dạng sinh học trong phạm vi đề tài này, chúng tôi chia công việc thành hai nguồn chính, thứ nhất là thu thập dữ liệu trên địa bàn thành phố Đà Nẵng và thứ hai là thu thập từ nguồn Internet để làm bổ sung vào các danh mục dữ liệu còn thiếu
2.2.1.1 Quy trình thu thập dữ liệu trên địa bàn Đà Nẵng
Như đã đề cập ở chương I, trong phạm vi đề tài này chúng tôi triển khai thu thập dữ liệu thí điểm
ở Đà Nẵng trước tại địa điểm Khu bảo tồn thiên nhiên Bán Đảo Sơn Trà, Khu Bảo tồn thiên nhiên Bà Nà – Núi Chúa, Nam Hải Vân và Ngũ Hành Sơn Việc thu thập dữ liệu bao gồm thu thập ảnh, thông tin về cá thể và vị trí phân bố sau đó sẽ được tổng hợp và phân loại thành bộ cơ sở dữ liệu nhờ vào việc tổng hợp kiến thức giới thực vật
Với đội ngũ chuyên gia giàu kinh nghiệm trong lĩnh vực sinh học, chúng tôi đã hoàn thành việc
thu thập dữ liệu trong 4 tháng Kết quả thu được với số liệu tổng hợp như Bảng 2.2.1-1 như sau:
Số lượng loài thực vật 433 loài thuộc 114 Họ, thuộc 5 Ngành
Số lượng ảnh hiện truòng Gần 3000 ảnh trên 433 loài
Bảng 2.2.1-1 Thống kế số lượng dữ liệu thu thập tại Đà Nẵng 2.2.1.2 Quy trình thu thập dữ liệu từ nguồn Internet
Nguồn dữ liệu thu thập từ hiện trường không đủ để chúng tôi thực hiện quá trình xây dựng mô hình huấn luyện, do đó chúng tôi đã đề xuất thu thập thêm dữ liệu cho từng cá thể loài thực vật dựa vào nguồn tài nguyên dồi dào trên internet Bộ dữ liệu hình ảnh thực vật được bổ sung bằng cách thu thập từ