triển kinh tế - xã hội đặt biệt là các thông tin KH&CN phục vụ nông nghiệp, nông thôn trên cơ sở đó một số tỉnh, thành phố cũng áp dụng nhiều phương thức, phương pháp và công nghệ truyền
Trang 1TRƯỜNG ĐẠI HỌC LẠC HỒNG
***
BÙI XUÂN PHONG
ĐÁNH GIÁ NHU CẦU KHAI THÁC THÔNG TIN KHOA HỌC CÔNG NGHỆ HỖ TRỢ ĐỊNH HƯỚNG SẢN XUẤT TRÊN LĨNH VỰC NÔNG NGHIỆP
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
Đồng Nai, Năm 2018
Trang 2BỘ GIÁO DỤC VÀ ĐÀO TẠO TRƯỜNG ĐẠI HỌC LẠC HỒNG
***
BÙI XUÂN PHONG
ĐÁNH GIÁ NHU CẦU KHAI THÁC THÔNG TIN KHOA HỌC CÔNG NGHỆ HỖ TRỢ ĐỊNH HƯỚNG SẢN XUẤT TRÊN LĨNH VỰC NÔNG NGHIỆP
Chuyên ngành: Công nghệ thông tin
Mã số: 8480201
NGƯỜI HƯỚNG DẪN KHOA HỌC
PGS.TS ĐỖ PHÚC
Đồng Nai, Năm 2018
Trang 3LỜI CÁM ƠN -o0o -
Mặc dù đã hết sức nỗ lực, song do thời gian và kinh nghiệm nghiên cứu khoa học còn hạn chế nên không thể tránh khỏi những thiếu sót
Qua luận văn này em xin chân thành cảm ơn PGS TS Đỗ Phúc – Trường Đại học Công nghệ thông tin TPHCM đã tận tình giúp đỡ, động viên, định hướng, hướng dẫn em nghiên cứu và hoàn thành luận văn này
Em xin cảm ơn các thầy cô giáo trong Khoa Sau đại học, Khoa Công nghệ thông tin trường Đại học Lạc Hồng, đã giảng dạy và giúp đỡ em trong năm học qua, cảm ơn sự giúp đỡ nhiệt tình của các bạn đồng nghiệp trong cơ quan, các bạn học trong lớp cao học khóa 8 đã tạo điều kiện, giúp đỡ tôi trong suốt thời gian qua
Rất mong nhận được sự góp ý của tất cả các thầy cô, bạn bè đồng nghiệp
để luận văn có thể phát triển và hoàn thiện hơn
Đồng Nai, ngày tháng năm 2018
Người viết luận văn
Trang 4LỜI CAM ĐOAN
-o0o -
Tôi xin cam đoan:
- Những nội dung trong luận văn này là do tôi thực hiện dưới sự hướng dẫn trực tiếp của PGS.TS Đỗ Phúc
- Mọi tham khảo dùng trong luận văn đều được trích dẫn rõ ràng và trung thực tên tác giả, tên công trình, thời gian, địa điểm công bố
- Mọi sao chép không hợp lệ, vi phạm quy chế đào tạo, hay gian trá, tôi xin chịu hoàn toàn trách nhiệm
NGƯỜI CAM ĐOAN
Bùi Xuân Phong
Trang 5MỤC LỤC
Chương 1 1
TỔNG QUAN 1
1.1 ĐẶT VẤN ĐỀ 1
1.2 LÝ DO CHỌN ĐỀ TÀI 2
1.3 MỤC TIÊU CỦA ĐỀ TÀI 4
1.4 PHẠM VI VÀ ĐỐI TƯỢNG NGHIÊN CỨU 5
1.5 NỘI DUNG THỰC HIỆN 5
1.6 PHƯƠNG PHÁP THỰC HIỆN 5
1.7 BỐ CỤC LUẬN VĂN 6
Chương 2 7
CƠ SỞ LÝ THUYẾT 7
2.1 TỔNG QUAN VỀ KỸ THUẬT KHAI PHÁ DỮ LIỆU (DATA MINING) 7
2.1.1 Khái niệm về Khai phá dữ liệu (KPDL) 7
2.1.2 Các giai đoạn của quá trình KPDL 8
2.2 TỔNG QUAN LÝ THUYẾT NGHIÊN CỨU CỦA LUẬN VĂN 10
2.2.1 Giới thiệu chung về mô hình cung cấp thông tin KH&CN 11
2.2.2 Giới thiệu Cơ sở dữ liệu thông tin KH&CN 12
2.2.3 Giới thiệu về Hệ thống mạng lưới cung cấp thông tin KH&CN 16
2.3 GIỚI THIỆU BÀI TOÀN PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU 17
2.4 LỰA CHỌN MIỀN ỨNG DỤNG 18
2.5 PHƯƠNG PHÁP VÀ CÔNG CỤ 19
2.5.1 Lựa chọn phương pháp 19
2.5.2 Lựa chọn công cụ 19
2.6 CÁC KHÁI NIỆM SỬ DỤNG TRONG NGHIÊN CỨU 20
2.6.1 Áp dụng thông tin KH&CN trong hoạt động sản xuất 20
2.6.2 Mức độ áp dụng và sử dụng thông tin KH&CN trong sản xuất 21
2.7 CÁC YẾU TỐ ĐƯỢC CHỌN TRONG NGHIÊN CỨU 21
2.7.1 Thông tin cung cấp về “Kỹ thuật” trong sản xuất: 21
2.7.2 Thông tin cung cấp về “Phân bón” trong sản xuất: 21
2.7.3 Thông tin cung cấp về “công nghệ” trong sản xuất: 22
2.7.4 Thông tin cung cấp về “Dịch bệnh” trong sản xuất 22
2.7.5 Thông tin cung cấp về “Giống” trong sản xuất 22
Trang 62.7.6 Thông tin cung cấp về “Áp dụng” trong sản xuất: 22
2.7.7 Thông tin khác: gồm các thông tin cố định là “Diện tích”, “Năng suất” và Thông tin về “Sản lượng” là những thông tin khẳng định 22
2.8 Ứng dụng mô hình hồi quy tuyến tính vào phân tích dữ liệu 22
Chương 3 27
PHÂN TÍCH VÀ ĐÁNH GIÁ 27
3.1 PHÁT BIỂU BÀI TOÁN THỰC TẾ 27
3.2 TIẾN HÀNH XÂY DỰNG MÔ HÌNH 27
3.2.1 Thu thập dữ liệu 27
3.2.2 Tiền xử lý dữ liệu 29
3.3 KHẢO SÁT VÀ ĐÁNH GIÁ DỮ LIỆU 30
3.4 NHỮNG YẾU TỐ THÔNG TIN NÀO ẢNH HƯỞNG ĐẾN “SẢN LƯỢNG CÂY TRỒNG HÀNG NĂM CỦA CÁC VÙNG TRÊN ĐỊA BÀN TỈNH ĐỒNG NAI 35
Chương 4 40
TỔNG KẾT 40
4.1 KẾT LUẬN 40
4.2 HẠN CHẾ CỦA LUẬN VĂN 40
4.3 HƯỚNG PHÁT TRIỂN 41 TÀI LIỆU THAM KHẢO
PHỤ LỤC 1
PHỤ LỤC 2
PHỤ LỤC 3
Trang 7DANH MỤC HÌNH
Hình 2.1: Các lĩnh vực khai thác dữ liệu liên quan đến khai phá dữ liệu 8
Hình 2.2: Các bước thực hiện trong quá trình khai phá tri thức 10
Hình 2.3: Mô hình tổ chức và khai thác tin và cung cấp tại 144 Điểm 15
Hình 2.4: Các bước của quá trình phân tích dữ liệu 17
Hình 3.1: Quá trình tiền xử lý dữ liệu 29
Hình 3.2: Mô hình nghiên cứu chính thức 34
Hình 3.3: Mô hình hồi quy tuyến tính 38
Trang 8DANH MỤC CÁC BẢNG
Bảng 2.1: Cung cấp thông tinh KH&CN trên địa bàn tỉnh Đồng Nai 11
Bảng 2.2: Số liệu theo dõi dữ liệu cung cấp thông tin 25
Bảng 2.3: Số liệu bảng hồi quy 26
Bảng 3.1: Danh sách thuộc tính của tập dữ liệu thu thập 28
Bảng 3.2: Danh sách các thuộc tính đã tiền xử lý 29
Bảng 3.3: Phân tích thống kê biến tổng “Thông tin kỹ thuật” 30
Bảng 3.4: Phân tích thống kê biến tổng “Thông tin phân bón” 30
Bảng 3.5: Phân tích thống kê biến tổng “Thông tin công nghệ” 31
Bảng 3.6: Phân tích thống kê biến tổng “Thông tin dịch bệnh” 31
Bảng 3.7: Phân tích thống kê biến tổng “Thông tin giống” 31
Bảng 3.8: Phân tích thống kê biến tổng “Thông tin áp dụng” 32
Bảng 3.9: Hệ số Cronbach’s Alpha các thang đo 32
Bảng 3.10: Phân tích thống kê biến tổng 33
Bảng 3.11: Hệ số Cronbach’s Alpha các nhân tố 34
Bảng 3.12: Mức độ giải thích của mô hình 36
Bảng 3.13: Kết quả phân tích hồi quy tuyến tính bội 36
Bảng 3.14: Phân tích phương sai 37
Bảng 3.15: Thông tin dự đoán và phần dư 37
Trang 9Chương 1 TỔNG QUAN
1.1 ĐẶT VẤN ĐỀ
Phát triển Khoa học và công nghệ (KH&CN) cùng với giáo dục đào tạo là quốc sách hàng đầu của đất nước ta được quy định tại Hiến pháp năm 2013 Trong những năm gần đây chính phủ nước ta đặc biệt quan tâm và đầu tư nhiều cho 02 lĩnh vực này thông qua các chính sách, nguồn vốn, các chương trình trọng điểm và các công trình nghiên cứu khoa học, đặc biệt là trong lĩnh vực KH&CN phục vụ nông nghiệp;
Ứng dụng công nghệ thông tin vào việc lưu trữ và xử lý thông tin có thể nói
là được áp dụng cho hầu hết tất cả mọi lĩnh vực của đời sống xã hội Từ đó tạo
ra một lượng dữ liệu lớn và không ngừng tăng lên cả về số lượng lẫn chất lượng, đây chính là điều kiện tốt cho việc khai thác kho dữ liệu này để đem lại tri thức
có ích Các hệ quản trị cơ sở dữ liệu truyền thống cũng chỉ khai thác được một lượng thông tin nhỏ không còn đáp ứng đầy đủ những yêu cầu, những thách thức mới Do vậy một khuynh hướng mới được ra đời đó là kỹ thuật phát hiện tri thức trong cơ sở dữ liệu [2]
Khai phá dữ liệu (KPDL) là một kỹ thuật dựa trên nền tảng của nhiều lý thuyết như thống kê, học máy, trực quan,… nhằm tìm kiếm các tri thức tiềm ẩn trong các kho lưu trữ dữ liệu lớn mà người dùng khó có thể nhận biết bằng những kỹ thuật thông thường
Nguồn dữ liệu KH&CN phục vụ phát triển văn hóa, kinh tế - xã hội đặc biệt là trên lĩnh vực phát triển nông nghiệp, nông thôn, nông dân là rất lớn nếu
áp dụng kỹ thuật KPDL nó sẽ mang lại nhiều ý nghĩa và sẽ cung cấp những thông tin quý giá để hỗ trợ tốt hơn cho mọi người dân trong việc lực chọn nuôi con gì? trồng cây gì? đồng thời là cơ sở để những người quản lý có một bức tranh tổng thể về tình hình sản xuất, chăn nuôi trên địa bàn mình Trên cơ sở thông kê, phân tích CSDL của nhiều năm có thể chỉ ra được những thông tin nào
Trang 10là quan trọng nó ảnh hưởng đến năng suất, chất lượng của sản phẩm, chỉ ra những thông tin nào mà người dân ít quan tâm, chú ý từ đó người quản lý có thể điều chỉnh các chính sách, kế hoạch và ra những quyết định phù hợp với tình hình thực tế chung của tỉnh và từng huyện nói riêng
1.2 LÝ DO CHỌN ĐỀ TÀI
Cho đến nay, Việt Nam đã hình thành một mạng lưới các tổ chức dịch vụ thông tin KH&CN với hàng trăm cơ quan thông tin KH&CN công lập hoạt động
ở Trung ương, các Bộ/ngành, các tổng công ty, các tỉnh/thành, các địa phương
và các đơn vị cơ sở… Sản phẩm mà mạng lưới các tổ chức này cung cấp cho người dùng tin và xã hội rất đa dạng và phong phú, bao gồm những sản phẩm truyền thống như ấn phẩm, các bộ phiếu tra cứu thủ công cho tới các CSDL, các Website, các bản tin điện tử, các băng hình, đĩa hình với âm thanh, hình ảnh động Phương thức phục vụ thông tin cũng hết sức linh hoạt, đa dạng: từ thủ công cho tới tự động hoá và phục vụ on-line/ trực tuyến, thuê bao nguồn tin trên Internet
Mạng lưới các tổ chức dịch vụ thông tin này đã góp phần nhất định vào phát triển kinh tế xã hội của đất nước Tuy nhiên sự phát triển mạnh mẽ của khoa học và công nghệ, đặc biệt là công nghệ thông tin và truyền thông (CNTT&TT) trong những thập kỷ gần đây đã tác động sâu sắc đến sự phát triển kinh tế, xã hội nói chung và hoạt động thông tin KH&CN nói riêng Người ta đã
đề cập đến việc chuyển đổi của thế giới từ kỷ nguyên công nghiệp sang kỷ nguyên thông tin với kinh tế tri thức, xã hội thông tin Trong bối cảnh đó, hoạt động thông tin khoa học và công nghệ đang có những thay đổi quan trọng, đòi hỏi hoạt động này cũng phải được điều chỉnh phù hợp.[4]
* Một số nghiên cứu có liên quan
Cùng với vấn đề đổi mới, nâng cao chất lượng thông tin đặt biệt thông tin phục vụ nông nghiệp, vấn đề ứng dụng công nghệ thông tin trong hoạt động cung cấp thông tin được các cơ quan, các nhà nghiên cứu quan tâm trong suốt những năm qua Nhiều công trình có giá trị như Cục Thông tin KH&CN quốc gia có xây dựng mô hình chung là cung cấp thông tin KH&CN phục vụ phát
Trang 11triển kinh tế - xã hội đặt biệt là các thông tin KH&CN phục vụ nông nghiệp, nông thôn trên cơ sở đó một số tỉnh, thành phố cũng áp dụng nhiều phương thức, phương pháp và công nghệ truyền thông để đưa thông tin KH&CN về các xã, phường, thị trấn phục vụ nhu cầu dùng tin của người dân và nông nghiệp như:
mô hình “Đưa internet đến các điểm Văn hóa xã phường” của tỉnh An Giang;
“Xây dựng mô hình ứng dụng KH&CN phục vụ phát triển kinh tế xã hội nông thôn miền núi” của tỉnh Ninh Bình; “Cung cấp thông tin KH&CN tại một số xã trong tỉnh” của tỉnh Lạng Sơn; “Xây dựng thư viện số về kỹ thuật sản xuất nông – lâm nghiệp và cung cấp thông tin cho các xã” của tỉnh Bắc Cạn, Bình Dương, Vĩnh Long…[1][4][5][6]
Đối với tỉnh Đồng Nai, từ năm 2003 Sở Khoa học Công nghệ Đồng Nai hiện đã và đang triển khai thực hiện “Mô hình cung cấp thông tin khoa học và công nghệ phục vụ phát triển kinh tế - xã hội trên địa bàn các huyện tỉnh Đồng Nai” [1] để phục vụ cho nhu cầu tìm kiếm, áp dụng những tiến bộ khoa học và
kỹ thuật vào trong cuộc sống, sản xuất và kinh doanh nhằm phục vụ phát triển kinh tế - xã hội trên địa bàn các xã, huyện nói riêng và cả tỉnh nói chung
Qua thực tế triển khai ở các tỉnh/thành trong cả nước và của tỉnh Đồng Nai nhận thấy dữ liệu được ghi chép lại rất nhiều tuy nhiên việc khai thác, phân tích chúng thì hầu như chưa được chú trọng và gặp nhiều khó khăn Nhằm để có thể biến chúng trở thành những thông tin hữu ích phục vụ cho công tác quản lý của nhà nước và người dân, cho nên những thông tin, dữ liệu đó trở thành lãng phí Việc thu thập, lưu trữ, và phân tích dữ liệu đang tuân theo quỹ đạo có xu hướng đi lên và dường như không có ranh giới Vì vậy việc thu thập, lưu trữ, và phân tích dữ liệu để tìm ra những quy luật chung nhất giúp cho những người quản lý có thể định hướng giúp cho bà con nông dân trong sản xuất và kinh doanh nhằm phát triển có định hướng và bền vững [8]
Qua tìm hiểu thì nhận thấy nhưng phân tích dữ liệu trong lĩnh vực thông tin khoa học và công nghệ cung cấp cho người dân cho đến nay, đã có một số bài viết, bài nghiên cứu về vấn đề này tuy nhiên mỗi tác giả có hướng tiếp cận, hướng giải quyết vấn đề khác nhau và chỉ dừng lại ở việc nghiên cứu nguồn lực
Trang 12thông tin nói chung chứ chưa thấy tác giả nào nghiên cứu và phân tích các dữ liệu thông tin KH&CN đã cung cấp cho người dân để hỗ trợ và ra quyết định của
cơ quan quản lý nhà nước
Vì vậy tôi nghiên cứu xây Luận văn “đánh giá nhu cầu khai thác thông tin khoa học và công nghệ để hỗ trợ định hướng trong lĩnh vực nông nghiệp tại tỉnh Đồng Nai” bằng kỹ thuật thống kê và phân tích dữ liệu trên cơ sở dựa vào quy luật tìm kiếm thông tin của người dân và thông tin KH&CN áp dụng thực tiễn để
có thể phân lớp đối tượng và thông tin, từ đó tìm ra được những thông tin nào người dân dùng nhiều, dùng ít có khi không quan tâm nhưng đó lại là những nội dung hữu ích nó liên quan đến năng suất và chất lượng của sản phẩm Có thể nói cách khác sản lượng của một loại cây trồng vật nuôi nó có mối tương quan giữa các thông tin KH&CN được áp dụng ngay từ khi bắt đầu trồng cho đến khi thu hoạch sản phẩm dựa trên diện tích, từ nhận định đó nó là cơ sở khoa họa để nhà quản lý hoạch định chiến lượng, định hướng tốt hơn cho bà con nông dân trong điều kiện sản xuất thực tế của địa phương mình
1.3 MỤC TIÊU CỦA ĐỀ TÀI
Nghiên cứu đánh giá mức độ ứng dụng thông tin KH&CN trong sản xuất của địa phương đồng thời xác định mối tương quan các yếu tố ảnh hưởng đến mức độ ứng dụng thông tin KH&CN của người dân trong sản xuất
Kết quả nghiên cứu sẽ cho thấy:
- Thực trạng mức độ ứng dụng các thông tin KH&CN trong sản xuất của người dân trên địa bàn các huyện thuộc tỉnh Đồng Nai
- Chỉ ra các yếu tố tác động và mức độ tác động của từng yếu tố đến mức
độ ứng dụng thông tin KH&CN trong sản xuất của người dân tại tỉnh Đồng Nai;
Từ nghiên cứu đó sẽ đề xuất một số gợi ý đối với Sở KH&CN, UBND các huyện và người dân, nhằm nâng cao mức độ ứng dụng thông tin KH&CN và trong sản xuất của người dân góp phần nâng cao chất lượng, sản lượng sản phẩm trong sản xuất nông nghiệp trên địa bàn tỉnh đồng thời đề xuất các giải pháp hỗ
Trang 13trợ định hướng sản xuất trên lĩnh vực nông nghiệp, tăng cường nguồn tin số hóa cho địa phương và định hướng xây dựng mô hình cho phù hợp hơn nữa
1.4 PHẠM VI VÀ ĐỐI TƯỢNG NGHIÊN CỨU
- Phạm vị: Đề tài tập trung nghiên cứu kỹ thuật phân tích và thống kê trong khai phá dữ liệu (cụ thể là phân lớp và hồi quy tuyến tính bội) để áp dụng vào việc phân tích cơ sở dữ liệu trong hệ thống quản lý tra cứu và cung cấp thông tin KH&CN tại 144 điểm thông tin KH&CN trên địa bàn tỉnh Đồng Nai từ 2016 -
2017
- Đối tượng: Thông tin KH&CN đã cung cấp cho người dân
1.5 NỘI DUNG THỰC HIỆN
- Thu thập đầy đủ nội dung thông tin KH&CN đã cung cấp và nhu cầu khai thác thông tin KH&CN của người dân của 144 Điểm thông tin KH&CN để triển khai thực hiện xây dựng đánh giá, phân tích và thông kê CSDL;
- Thu thập về tình hình sản xuất thực tế của địa phương để xây dựng mối tương quan các yếu tố ảnh hưởng đến mức độ ứng dụng thông tin KH&CN của người dân trong sản xuất;
- Phân tích và đánh giá các thông tin KH&CN thu thập các thông tin sản
xuất thực tế từ đó chỉ ra thực trạng mức độ ứng dụng các thông tin KH&CN và các yếu tố tác động và mức độ tác động của từng yếu tố đến mức độ ứng dụng thông tin KH&CN trong sản xuất của người dân tại tỉnh Đồng Nai;
1.6 PHƯƠNG PHÁP THỰC HIỆN
* Thu thập thông tin
- Thập thông tin KH&CN đã cung cấp cho người dân tại 144 Điểm Thông tin KH&CN năm 2016 – 2017 (theo mẫu);
- Tạo cây phân cấp theo chủ đề dựa trên khung phân loại Dewey;
Trang 14- Thu thập thông tin về tình hình sản xuất thực tế của 08 huyện, thành phố Long Khánh và thành phố Biên Hòa tỉnh Đồng Nai năm 2016-2017 (theo mẫu)
* Phân tích và xử lý dữ liệu
- Xử lý dữ liệu thu thập đã được thu thập;
- Phân tích dữ liệu đã được xử lý
Giới thiệu về những vấn đề liên quan đến việc tại sao phải khai phá dữ liệu,
lý do chọn đề tài, mục tiêu, phạm vi nghiên cứu, nội dung và phương pháp thực hiện,…
Chương 2: Cơ sở lý thuyết
Nói lên cách tiếp cận và giải quyết các vấn đề của đề tài, trình bày cơ sở khoa học và áp dụng lý thuyết vào bài toán, trình bày các kiến thức cơ bản về khai phá dữ liệu, hồi quy tuyến tính bội,…, kiến thức về thông tin KH&CN cung cấp, ý nghĩa vận dụng thông tin KH&CN và trong sản xuất
Chương 3: Phân tích và đánh giá
Trong chương này trình bày các đặc điểm của dữ liệu, các bước tiến hành
xử lý dữ liệu trước khi đưa vào hệ thống Xây dựng và đánh giá mô hình tìm ra được những thông tin nào ảnh hưởng đến sản lượng của cây trồng
Chương 4: Tổng kết
Đánh giá kết luận, ý nghĩa thực tế mang lại, những hạn chế và hướng phát triển của luận văn
Trang 15Chương 2
CƠ SỞ LÝ THUYẾT
2.1 TỔNG QUAN VỀ KỸ THUẬT KHAI PHÁ DỮ LIỆU (DATA MINING)
2.1.1 Khái niệm về Khai phá dữ liệu (KPDL)
Khai phá dữ liệu (Data mining) là quá trình trích xuất kiến thức ẩn từ khối lượng dữ liệu thô thông qua việc sử dụng thuật toán và các kỹ thuật được rút ra
từ lĩnh vực thống kê (Statistics), học máy (Machine Learning), trực quan (Visualization) và hệ thống quản lý cơ sở dữ liệu (Databases)
Khai phá dữ liệu cũng được gọi là khám phá kiến thức trong dữ liệu lớn cho phép ra các quyết định của một công ty và tổ chức bằng cách tích lũy, phân tích và truy cập dữ liệu của công ty đó Nó sử dụng nhiều công cụ như công cụ truy vấn và báo cáo, xử lý phân tích và các công cụ hệ thống hỗ trợ quyết định (DSS)
KPDL nhấn mạnh 2 khía cạnh chính đó là khả năng trích xuất thông tin có
ích Tự động (Automated) và thông tin mang tính dự đoán (Predictive)
KPDL có thể được sử dụng cho các lĩnh vực nông nghiệp như chọn cây trồng, vật nuôi,… có thể được xem như là kết quả của sự tiến bộ và phát triển của công nghệ thông tin trong thời đại hiện nay, khai phá dữ liệu trong lĩnh vực nông nghiệp sẽ hỗ trợ cho người dân và nhà quản lý trong vấn đề trồng cây gì? nuôi con gì? để giữa cung và cầu được cân đối giảm thiểu những rui ro có thể xảy ra
Tóm lại : Việc khai phá dữ liệu còn hơn việc chạy một số truy vấn phức tạp
trên dữ liệu mà bạn đã lưu trong cơ sở dữ liệu của mình Chúng ta phải làm việc với dữ liệu của mình, định dạng lại nó hoặc cấu trúc lại nó, bất kể chúng ta có đang sử dụng SQL, cơ sở dữ liệu dựa trên tài liệu như Hadoop hoặc các tệp phẳng đơn giản hay không Việc nhận ra định dạng thông tin mà chúng ta cần được dựa trên kỹ thuật và việc phân tích mà bạn muốn làm Sau khi chúng ta có thông tin theo định dạng mà chúng ta cần, chúng ta có thể áp dụng các kỹ thuật
Trang 16khác (riêng lẻ hay kết hợp lại với nhau) không phân biệt cấu trúc dữ liệu cơ bản hay tập hợp dữ liệu cần thiết
Hình 2.1: Các lĩnh vực khai thác dữ liệu liên quan đến khai phá dữ liệu
2.1.2 Các giai đoạn của quá trình KPDL
Quá trình khai thác dữ liệu có tính chất lặp lại và không ngừng tìm kiếm khi có một giải pháp cụ thể nào được triển khai Kết quả khai thác dữ liệu kích hoạt các câu hỏi sản xuất mới mà lần lượt có thể được sử dụng để phát triển tập trung hơn mô hình
a) Tìm hiểu và xác định vấn đề cần giải quyết
Giai đoạn này ta tập trung tìm hiểu, xác định vấn đề cần giải quyết, tìm hiểu bài toán đang thực hiện bao gồm các tri thức của các chuyên gia trong lĩnh vực cần nghiên cứu từ đó xác định chính xác nguồn dữ liệu để thu thập đồng thời phải hiểu được cấu trúc dữ liệu, ý nghĩa và tầm quan trọng của nó để từ đó
ta đưa ra bài toán cụ thể để giải quyết vấn đề
b) Thu thập và chuẩn bị dữ liệu
Giai đoạn hiểu dữ liệu liên quan đến thu thập và thăm dò dữ liệu, xem xét
kỹ hơn từ đó xác định xem nó giải quyết vấn đề tốt như thế nào được gọi là tiền
Trang 17Tiền xử lý dữ liệu bao gồm:
- Xử lý dữ liệu bị thiếu hoặc mất: Các giá trị bị thiếu hoặc mất sẽ được thay thế bằng các giá trị thích hợp hơn hoặc xóa những dữ liệu sai miền giá trị và giải quyết sự không nhất quán
- Khử sự trùng lắp dữ liệu : Loại bỏ những dữ liệu bị trùng
- Giảm nhiễu dữ liệu: Các dữ liệu bị nhiễu sẽ được điều chỉnh hoặc loại ra khỏi cơ sở dữ liệu
- Giảm chiều: Loại bớt các thuộc tính chứa ít thông tin để tiết kiệm thời gian và tài nguyên của máy tính
- Chuyển đổi dữ liệu: Trong giai đoạn này dữ liệu sẽ được chuyển đổi về dạng thuận tiện để tiến hành các thuật toán khám phá dữ liệu.Khai phá dữ liệu (Data ming): trong giai đoạn này ta sử dụng các kỹ thuật nhằm phát hiện ra các tri thức tiềm ẩn trong dữ liệu một số kỹ thuật được sử dụng đó là: phân lớp, gom cụm, luật kết hợp,
c) Xây dựng mô hình và đánh giá
Giai đoạn này lựa chọn và áp dụng các kỹ thuật mô hình hóa khác nhau và hiệu chỉnh các tham số cho các giá trị tối ưu Nếu thuật toán yêu cầu chuyển đổi
dữ liệu, chúng ta sẽ cần phải quay trở lại giai đoạn trước để thực hiện chúng Giai đoạn này là thời gian để đánh giá mức độ phù hợp của mô hình ban đầu với mục tiêu đã nêu
Đây là giai đoạn biến đổi từ những luật rút ra được (của giai đoạn trước) từ tập huấn luyện sang dạng phù hợp với nghiệp vụ của bài toán đang nghiên cứu Đồng thời cũng sẽ là giai đoạn đánh giá của các chuyên gia tư vấn dựa trên tập
dữ liệu thử Dựa vào nhận xét và hỗ trợ của các chuyên gia khi đó sẽ điều chỉnh kịp thời các mô hình của các giai đoạn trước Các mô hình đạt yêu cầu với các chuyên gia sẽ được sử dụng
d) Triển khai kiến thức
Triển khai kiến thức là việc sử dụng khai phá dữ liệu trong môi trường đích Trong thông tin chi tiết về giai đoạn triển khai và thông tin có thể hành động có thể được lấy từ dữ liệu Triển khai có thể liên quan đến việc chấm điểm
Trang 18mô hình chi tiết hoặc tích hợp khai thác dữ liệu trong cơ sở hạ tầng kho dữ liệu ứng dụng hoặc truy vấn và báo cáo công cụ (Các mô hình đạt yêu cầu sẽ được xây dựng thành chương trình ứng dụng thực tế nhằm hỗ trợ đưa ra quyết định theo yêu cầu của người dùng.)
Hình 2.2: Các bước thực hiện trong quá trình khai phá tri thức
2.2 TỔNG QUAN LÝ THUYẾT NGHIÊN CỨU CỦA LUẬN VĂN
Như đã trình bày trong chương 1, đến nay đã có nhiều tác giả đã có một số bài viết, bài nghiên cứu về vấn đề này tuy nhiên mỗi tác giả có hướng tiếp cận, hướng giải quyết vấn đề khác nhau và chỉ dừng lại ở việc nghiên cứu nguồn lực thông tin nói chung chứ chưa thấy tác giả nào nghiên cứu về nguồn dữ liệu thông tin KH&CN đã cung cấp cho người dân để hỗ trợ và ra quyết định của cơ quan quản lý nhà nước
Kết quả lưu trữ những năm qua và phỏng vấn sâu chuyên gia trong lĩnh vực ứng dụng thông tin trong sản xuất cho thấy các yếu tố chính tác động đến mức
độ ứng dụng thông tin trong sản xuất trên địa bàn tỉnh gồm yếu tố khách quan
và yếu tố chủ quan Yếu tố khách quan gồm điều kiện cơ sở vật chất, chính sách, đặc điểm chung, đặc thù của từng loại cây trồng vật nuôi…; yếu tố chủ quan gồm năng lực, nhận thức, tính tích cực, hứng thú của người dân về ứng dụng thông tin trong sản xuất
Trang 19Kế thừa kết quả các nghiên cứu trước đây, dựa vào kết quả lưu trữ, và tham khảo các ý kiến chuyên gia, trong phạm vi của đề tài này, tác giả xác định các yếu tố tác động đến mức độ ứng dụng thông tin trong sản xuất gồm (1) Thông tin về kỹ thuật, (2) Thông tin về công nghệ, (3) thông tin về phân bón, (4) thông tin dịch bệnh, (5) thông tin về tình hình áp dụng kỹ thuật vào sản xuất Như vậy, Khung lý thuyết nghiên cứu của luận văn được xác định
2.2.1 Giới thiệu chung về mô hình cung cấp thông tin KH&CN
Mô hình “Cung cấp thông tin khoa học và công nghệ phục vụ phát triển kinh tế - xã hội trên địa bàn các huyện tỉnh Đồng Nai” ra đời và kết quả từ năm
2003 đến nay về hoạt động cung cấp thông tin KH&CN: đã cung cấp thông tin cho 52.995 lượt người dân đến Điểm yêu cầu cung cấp thông tin Đối tượng cung cấp thông tin đa số là nông dân, học sinh, sinh viên và cán bộ công chức, viên chức xã, phường thị trấn; Thông tin do Điểm thông tin KH&CN cung cấp chủ yếu
về kỹ thuật chăn nuôi, trồng trọt, dịch hại cây trồng, một số mô hình thuộc lĩnh vực nông nghiệp, văn bản pháp luật…
Bảng 2.1: Cung cấp thông tinh KH&CN trên địa bàn tỉnh Đồng Nai STT Tên địa phương
Trang 20Nhu cầu tin đóng một vai trò hết sức quan trọng trong hoạt động cung cấp thông tại các Điểm thông tin Nhu cầu tin chính là cơ sở để định hướng cho việc xây dựng và phát triển nguồn lực thông tin nói chung
Việc nắm bắt nhu cầu tin của người dùng tin cũng có một ý nghĩa quan trọng trong hoạt động cung cấp thông tin, bởi vì nếu nắm bắt được từng loại nhu cầu tin của từng đối tượng người dùng tin khác nhau thì sẽ tạo ra nguồn thông tin, tổ chức được các sản phẩm và dịch vụ thông tin, thiết kế hệ thống thông tin trong đó có các công cụ tìm tin truyền thống hoặc hiện đại phù hợp với người dùng tin, qua đó, hoạt động cung cấp thông tin của Điểm mới đạt hiệu quả kinh
tế, hiệu quả xã hội, hiệu quả khoa học cao
Nhu cầu dùng tin tại 144 Điểm có thể chia thành các nhóm, gồm:
- Nhóm người dùng tin là Cán bộ quản lý (nghiên cứu);
- Nhóm người dùng tin là người nông dân (thuần nông)
- Nhóm người dùng tin là các DN, công ty, trang trại lớn;
- Nhóm người dùng tin là các em học sinh, sinh viên;
- Nhóm người dùng tin khác
2.2.2 Giới thiệu Cơ sở dữ liệu thông tin KH&CN
* Nguồn tin KH&CN
Cho tới nay, trong toàn Hệ thống có hơn 3 triệu đầu tên sách, trên 25 triệu bản mô tả sáng chế phát minh, trên 200 nghìn tiêu chuẩn; 50 nghìn catalo công nghiệp, 4.000 bộ báo cáo địa chất, 4.500 báo cáo lâm nghiệp; 20.000 báo cáo kết quả nghiên cứu, luận án tiến sĩ; hàng chục triệu biểu ghi trên CD/ROM,
Đặc biệt, Cục Thông tin KH&CN Quốc gia, với tư cách là cơ quan đầu mối trung tâm của mạng lưới các tổ chức dịch vụ thông tin KH&CN đã được phát triển được nguồn tin KH&CN trực tuyến với hàng chục nghìn đầu tên tạp chí điện tử, có khả năng truy cập tới hàng chục triệu tài liệu gốc với độ cập nhật rất nhanh và độ hồi cố khá sâu như: STD (Tài liệu KH&CN Việt Nam); ScienceDirect; SringerLink; ISI-Web of Knowledge; Proquest Central; Ebrary; Tạp chí điện tử của một số hội KH&CN uy tín,…
Trang 21* Cơ sở dữ liệu thông tin KH&CN
Điểm thông tin KH&CN đặt tại Trung tâm Văn hóa Thể thao và Học tập cộng đồng hoặc tại trụ sở UBND các xã/phường Điểm thông tin KH&CN được trang bị gồm: 02 máy vi tính, 01 máy chụp hình KTS, 01 máy in, 01 bộ lưu điện,
02 bộ bàn vi tính, 01 bộ bàn ghế để đọc sách báo và tiếp người dân khi đến Điểm thông tin, 01 bảng hiệu ghi tên Điểm thông tin, 01 tủ đựng tài liệu, 01 cán
bộ có trình độ tin học tương đương A trở lên và được đào tạo các kỹ năng quản
lý và cung cấp thông tin
Điểm Điểm được trang bị các cơ sở dữ liệu (CSDL) thông tin KH&CN, gồm: CSDL 10 vạn câu hỏi đáp khoa học và kỹ thuật; CSDL 60.000 công nghệ nông thôn toàn văn; CSDL 40.000 câu hỏi đáp khoa học thường thức; CSDL 3.000 phim công nghệ nông thôn; CSDL 2000 câu hỏi đáp về dịch hại trên cây trồng và cách sử dụng thuốc bảo vệ thực vật; CSDL 21 giống cây ăn trái có lợi thế cạnh tranh và xuất khẩu; CSDL 150 chuyên gia và tổ chức KH&CN có khả năng tư vấn về các vấn đề trong sản xuất, kinh doanh và đời sống vùng nông thôn Ngoài ra mỗi Điểm còn được trang bị 01 Trang Thông tin điện tử (website) trên Internet để chia sẻ, giới thiệu, quảng bá hình ảnh, hoạt động phát triển kinh
tế - xã hội, sản phẩm, hàng hóa của địa phương với mọi cá nhân, tổ chức trong
và ngoài tỉnh, khu vực và quốc tế
* Sơ lược về quy trình cung cấp thông KH&CN, gồm:
+ Yêu cầu cung cấp thông tin
+ Xử lý thông tin
+ Tra cứu, tìm kiếm trong thư viện của Điểm
+ Chuyển chuyên gia xử lý (bao gói thông tin)
+ Phản hồi
* Tổ chức và khai thác tin và cung cấp thông tin tại 144 Điểm
a) Yêu cầu cung cấp thông tin
- Phân loại người dân đến lấy thông tin:
+ Cán bộ quản lý, hội (nông dân, phụ nữ, hưu trí, );
+ Doanh nghiệp, tổ chức;
Trang 22+ Thuần nông (nông dân);
+ Sinh viên, học sinh;
b) Xử lý thông tin (dành cho cán bộ quản lý)
+ Phân loại dựa trên mức độ ưu tiên;
+ Phân loại dựa theo lĩnh vực;
+ Phân loại dựa trên tần suất lấy thông tin;
+ Phân loại dựa trên vùng sản xuất
c) Tra cứu, tìm kiếm trong thư viện của Điểm
Sau khi nhận thông tin cán bộ tra cứu trong thư viện điện tử của Điểm để lấy thông tin
+ Một yêu cầu sẽ cho ra nhiều kết quả thuộc nhiều “Dạng tài liệu” của
“nhiều đơn vị cung cấp tài liệu”; Dựa vào mức độ ưu tiên; Dựa vào lĩnh vực cần cung cấp; Tìm kiếm trên nhiều nguồn tư liệu
d) Chuyển chuyên gia xử lý (bao gói thông tin)
+ Thông tin không đáp ứng;
+ Thông tin đáp ứng nhu cầu một phần;
+ Thông tin đáp ứng những chưa đủ
e) Phản hồi (ghi nhận phản hồi)
Ghi nhận kết quả sử dụng, áp dụng thông tin KH&CN vào trong điều kiện sản xuất thực tế của mình
Trang 23Hình 2.3: Mô hình tổ chức và khai thác tin và cung cấp tại 144 Điểm
Yêu cầu
ĐỐI TƯỢN
G DÙNG TIN TẠI CÁC
XÃ
THƯ VIỆN ĐIỆN TỬ CÔNG NGHỆ NÔNG THÔN CÁC XÃ
Cung cấp thông tin theo yêu cầu
Bao gói thông tin theo yêu cầu (đặc thù địa bàn)
Xử lý yêu cầu tin
So sánh lựa chọn
nguồn tin phù hợp
- Thư viện KHKT
TW
- Trung tâm Thông
tin KH&CN Quốc
- Văn phòng điện tử
- Ngân hàng
dữ liệu KH&CN
- Xử lý nội dung
- Xử lý kỹ thuật
- Tạo tiềm lực thông tin vùng sâu, vùng xa
- Bao gói phục
vụ cung cấp thông tin
Yêu cầu
Trung tâm
……
(Đơn vị đầu mối)
Trang 242.2.3 Giới thiệu về Hệ thống mạng lưới cung cấp thông tin KH&CN
a) Mạng lưới các tổ chức cung cấp thông tin KH&CN Việt Nam
Ở Việt Nam, hoạt động lưu trữ và cung cấp thông tin KH&CN bắt đầu triển khai từ cuối năm 1959 khi thành lập Uỷ ban Khoa học Nhà nước (Sắc lệnh số 016-SL ngày 4/3/1959 của Chủ tịch nước Việt Nam Dân chủ Cộng hòa), bao gồm 4 giai đoạn:
+ Giai đoạn mở đầu (1959-1972);
+ Giai đoạn hình thành và phát triển Hệ thống (1972-1986);
+ Giai đoạn đổi mới hoạt động thông tin KH&CN (1986-1996);
+ Giai đoạn phát triển phục vụ CNH và HĐH (Từ 1996 đến nay)
Hoạt động cung cấp thông tin KH&CN trong thời gian vừa qua đã đạt được những kết quả đáng kể như: Mạng lưới tổ chức dịch vụ thông tin KH&CN quốc gia đã hình thành và phát triển rộng khắp trên cả nước;
Nguồn tin KH&CN được phát triển đáng kể, cơ bản đáp ứng những nhu cầu cơ bản về thông tin KH&CN của người dân; Cục Thông tin Khoa học và Công nghệ Quốc gia là đầu mối liên kết mạng lưới các tổ chức dịch vụ thông tin khoa học và công nghệ của cả nước; 63 cơ quan/đơn vị thông tin KH&CN cấp tỉnh và thành phố trực thuộc Trung ương
b) Mạng lưới các Điểm cung cấp thông tin KH&CN Đồng Nai
Ở Đồng Nai, hoạt động cung cấp thông tin KH&CN được bắt đầu hình thành và triển khai từ năm 2003, bao gồm 3 giai đoạn chủ yếu:
+ Giai đoạn hình thành và thử nghiệm (2003-2008) với 12 Điểm trên toàn tỉnh;
+ Giai đoạn nhân rộng (2008-2010) với 44 Điểm;
+ Giai đoạn đầu tư phát triển phục vụ CNH và HĐH (từ 2010 đến nay) nâng tổng số Điểm thông tin trong toàn tỉnh lên 144 Điểm đi vào hoạt động ổn định Trung tâm Thông tin và Thống kê KH&CN Đồng Nai là đơn vị được giao quản lý vận hành toàn bộ mạng lưới cung cấp thông tin KH&CN trên địa bàn toàn tỉnh
Trang 252.3 GIỚI THIỆU BÀI TOÀN PHÂN TÍCH DỮ LIỆU NGHIÊN CỨU
Dữ liệu được tạo ra từng giây, từng phút trong đời sống xã hội hiện đại Chúng có thể là dữ liệu web, dữ liệu từ các cảm biến, các tệp lưu nhật ký, dữ liệu cá nhân, dữ liệu từ các thiết bị thông minh,… Từ khối dữ liệu này mà chúng
ta có thể tìm kiếm, khai thác và trích xuất ra những thông tin hữu ích Làm thế nào để có được những thông tin ấy là vấn đề được đặt ra Phân tích dữ liệu là một trong những chìa khóa giúp chúng ta giải quyết vấn đề nêu trên Vậy phân tích dữ liệu là gì?
Phân tích dữ liệu là một trong những ứng dụng thực tiễn của kỹ thuật khai phá dữ liệu (Data mining) Phân tích dữ liệu là một quá trình trích xuất thông tin hữu ích từ tập dữ liệu được cung cấp
Các bước cơ bản của quá trình phân tích dữ liệu bao gồm: Kiểm định (Inspecting), làm sạch (Cleaning), chuyển đổi (Transforming), mô hình hóa (Modeling) và phân tích (Analysing) dữ liệu nhằm mục đích tìm kiếm thông tin, cho thấy kết luận, hỗ trợ đưa ra quyết định (minh họa bằng hình 2.4)
Hình 2.4: Các bước của quá trình phân tích dữ liệu
Trước khi có máy tính, nhiều phương pháp phân tích cho tập dữ liệu nhỏ đã phát triển và tập trung phân tích từng biến riêng lẻ Ngày nay, khi khả năng tính toán của máy tính đã phát triển vượt bậc, phân tích dữ liệu đã phân tích đồng thời quan hệ của nhiều biến
Phân tích dữ liệu được chia thành phân tích dữ liệu thăm dò EDA và phân tích dữ liệu khẳng định CDA Phân tích dữ liệu thăm dò dùng dữ liệu để xác
Trang 26định mối quan hệ giữa các biến độc lập với biến phụ thuộc hay xác định các biến được đưa vào mô hình Phân tích dữ liệu khẳng định sử dụng dữ liệu để khẳng định giả thiết là đúng hoặc sai Hai phương pháp này không tách rời nhau mà luôn đi cùng nhau để tìm ra những thông tin hữu ích từ tập dữ liệu đã có
2.4 LỰA CHỌN MIỀN ỨNG DỤNG
Hiện nay, xung quanh chúng ta là một biển dữ liệu khổng lồ và không ngừng mở rộng Khối dữ liệu này liên quan đến tất cả các khía cạnh của đời sống xã hội Đáp ứng nhu cầu hiểu biết vô tận của con người, giới học thuật đã nghiên cứu về phân tích dữ liệu nhằm chắt lọc những thông tin cần thiết, bổ ích đối với mỗi cá nhân, mỗi tập thể, mỗi lĩnh vực, mỗi quốc gia,… Giới kinh doanh cũng không thể bỏ qua công cụ hữu ích này để tăng cường lợi nhuận của doanh nghiệp từng ngày, thậm trí từng giờ Từ đó, nhiều giải pháp công nghệ đã được nghiên cứu với mục đích hỗ trợ các công ty, doanh nghiệp đưa ra các quyết định kinh doanh hợp lý, sáng suốt Thực tế, các công ty, tập đoàn lớn đã chuyển dần
từ chế tạo sản phẩm sang cung cấp dịch vụ phân tích kinh doanh Trước đây, tập đoàn IBM chế tạo, sản xuất các sản phẩm công nghệ như máy chủ, máy tính xách tay, máy tính để bản, thiết bị cho hạ tầng công nghệ thông tin Nhưng, ngày nay, tập đoàn IBM đang quan tâm nhiều hơn và cung cấp thêm dịch vụ phân tích kinh doanh
Trong khuôn khổ luận văn này, tác giả tập trung nghiên cứu, ứng dụng phân tích dữ liệu vào sản xuất Dữ liệu cung cấp thông tin KH&CN là khối dữ liệu đồ sộ với đa dạng của các loại thông tin trên các lĩnh vực kinh tế - văn hóa –
xã hội, đặc biệt trong lĩnh vực nông nghiệp Khối dữ liệu này được thu thập thông qua tình hình cung cấp thực tế của địa phương từ đó dự đoán và cho biết được mối quan hệ giữa thông tin và tình hình sản xuất thực tế của các loại cây trồng trên địa bàn tỉnh
Trang 272.5 PHƯƠNG PHÁP VÀ CÔNG CỤ
2.5.1 Lựa chọn phương pháp
Phân tích dữ liệu khẳng định là lựa chọn không thể bỏ qua để hỗ trợ đưa ra quyết định sản xuất một cách khoa học Một mô hình dữ liệu được xây dựng dựa trên tập dữ liệu lịch sử Những thuật toán học máy được sử dụng để xây dựng,
mô hình dữ liệu ẩn giấu trong tập dữ liệu này Sau khi mô hình dữ liệu được xác nhận, nó được coi là tổng quát hóa kiến thức và có thể dự đoán tương lai, chỉ ra những thông tin hữu ích, những thông tin ảnh hưởng đến năng suất của một loại cây trồng trong điều kiện và khu vực cụ thể Bằng cách này, các nhà quản lý, người dân có thể dự đoán chủ động tìm kiếm thông tin thích hợp và hiểu rỏ các nguy cơ tiềm ẩn trong tương lai để hoạch định chiến lược sản xuất cho phù hợp Thống kê cung cấp các phương pháp, kỹ thuật xây dựng mô hình toán học
để phân tích dữ liệu Hai phương pháp thống kê chính được sử dụng trong phân tích dữ liệu là: Thống kê mô tả (Descriptive statistics) và thống kê suy diễn (Inferential statistics) Dữ liệu thống kê thường được thu thập để trả lời các câu hỏi được định trước Thống kê mô tả tóm tắt dữ liệu từ một mẫu thí nghiệm còn thống kê suy diễn rút ra kết luận từ dữ liệu Ngày nay, với sự phát triển không ngừng về khả năng tính toán của máy tính, thống kê được sử dụng nhiều trong học máy (Machine learning) nhằm xây dựng các mô hình toán cho các thuật toán học máy Thống kê suy diễn được sử dụng nhiều trong phân tích dữ liệu khẳng định
Trong khuôn khổ luận văn này, tác giả tập trung nghiên cứu mô hình hồi quy tuyến tính trong thống kê với mục đích xây dựng mô hình học máy cho bài toán phân tích dữ liệu để dự đoán tương lai và tìm ra mối liên hệ giữa cung cấp thông tin và tình hình sản xuất thực tiễn
2.5.2 Lựa chọn công cụ
Hiện tại, các công cụ hỗ trợ phân tích dữ liệu đã xuất hiện nhiều như R, SPSS, WEKA,… Tuy nhiên, tác giả lựa chọn và nghiên cứu phần mềm SPSS,
Trang 28Weka Đây là phần mềm được phát triển bằng Java nhằm phát triển các kỹ thuật học máy và áp dụng chúng vào các bài toán khai phá dữ liệu trong thực tế
2.6 CÁC KHÁI NIỆM SỬ DỤNG TRONG NGHIÊN CỨU
2.6.1 Áp dụng thông tin KH&CN trong hoạt động sản xuất
Nghị định của Chính phủ giải thích (2014): “Thông tin khoa học và công nghệ” là dữ liệu, dữ kiện, số liệu, tin tức được tạo ra trong các hoạt động khoa học và công nghệ, đổi mới sáng tạo; "Nguồn tin khoa học và công nghệ" là các thông tin khoa học và công nghệ được thể hiện dưới dạng sách, báo, tạp chí khoa học; kỷ yếu hội nghị, hội thảo khoa học; thuyết minh nhiệm vụ, báo cáo kết quả thực hiện, ứng dụng kết quả nhiệm vụ khoa học và công nghệ; tài liệu sở hữu trí tuệ, tiêu chuẩn, quy chuẩn kỹ thuật; catalô công nghiệp; luận án khoa học; tài liệu thiết kế, kỹ thuật; cơ sở dữ liệu; trang thông tin điện tử; tài liệu thống kê khoa học và công nghệ; tài liệu đa phương tiện và tài liệu trên các vật mang tin khác “Hoạt động thông tin khoa học và công nghệ” là hoạt động dịch
vụ khoa học và công nghệ, bao gồm các hoạt động liên quan đến thu thập, xử lý, phân tích, lưu giữ, tìm kiếm, phổ biến, sử dụng, chia sẻ và chuyển giao thông tin khoa học và công nghệ, các hoạt động khác có liên quan Theo đó Thông tin KH&CN cung cấp cho chúng ta các quan điểm, phương pháp khoa học, các phương tiện, công cụ và giải pháp kĩ thuật hiện đại chủ yếu là các máy tính và phương tiện truyền thông nhằm tổ chức, khai thác và sử dụng có hiệu quả các nguồn tài nguyên thông tin trong mọi lĩnh vực hoạt động kinh tế, xã hội, văn hoá của con người
Tóm lại, Áp dụng Thông tin KH&CN trong sản xuất là việc cung cấp và
sử dụng các phương pháp khoa học, công nghệ và công cụ kỹ thuật hiện đại để khai thác, sản xuất và trao đổi thông tin số, phục vụ hiệu quả cho sản xuất của người dân Cụ thể hơn, ứng dụng thông tin KH&CN trong sản xuất là việc sử dụng nội dung kỹ thuật và các phương pháp trong việc chăm sóc, bón phân, tỉa cành, chọn giống,… hỗ trợ người dân trong canh tác và cả việc nghiên cứu nhằm phát triển kỹ thuật của mình
Trang 292.6.2 Mức độ áp dụng và sử dụng thông tin KH&CN trong sản xuất
Mức độ áp dụng thông tin KH&CN có thể hiểu theo nghĩa khác nhau theo từng cách tiếp cận khác nhau, theo đó mức độ áp dụng Thông tin KH&CN được chia thành các mức: (1) chưa bao giờ, (2) hiếm khi, (3) thỉnh thoảng, (4) thường xuyên, và (5) rất thường xuyên hoặc (1) không bao giờ, (2) một lần/năm, (3) 2-3 lần/năm, (4) hằng tháng, (5) 2-3 lần/tháng,
Trong luận văn này, tác giả tiếp cận mức độ áp dụng Thông tin KH&CN ở khía cạnh tần số áp dụng Thông tin KH&CN trong sản xuất thực tiễn của người
dân Mức độ được xác định theo 5 mức theo chiều hướng tăng dần về việc áp
dụng Thông tin KH&CN trong sản xuất là: ((1) chưa bao giờ, (2) hiếm khi, (3)
thỉnh thoảng, (4) thường xuyên, và (5) rất thường xuyên
2.7 CÁC YẾU TỐ ĐƯỢC CHỌN TRONG NGHIÊN CỨU
2.7.1 Thông tin cung cấp về “Kỹ thuật” trong sản xuất:
Đánh giá thông tin về “Kỹ thuật” trong sản xuất cận được tác giả chia làm
5 loại thông tin, gồm:
- Kỹ thuật trồng;
- Kỹ thuật Chăm sóc;
- Kỹ thuật tỉa cành;
- Kỹ thuật cải tạo
- Kỹ thuật diệt cỏ, chuột,…
2.7.2 Thông tin cung cấp về “Phân bón” trong sản xuất:
Đánh giá thông tin về phân bón trong sản xuất cận được tác giả chia làm 5 loại thông tin, gồm:
Trang 302.7.3 Thông tin cung cấp về “công nghệ” trong sản xuất:
Đánh giá thông tin về áp dụng công nghệ trong sản xuất cận được tác giả chia làm 3 loại thông tin, gồm:
- Công nghệ tưới nhỏ giọt;
- Bón phân qua đường óng nước;
- Nhà màng nha lưới,
2.7.4 Thông tin cung cấp về “Dịch bệnh” trong sản xuất
Đánh giá thông tin về áp dụng công nghệ trong sản xuất cận được tác giả chia làm 3 loại thông tin, gồm:
- Tình hình về dịch bệnh trong nước;
- Tình hình về dịch bệnh trong tỉnh;
- Các loại bệnh hại cây trồng
2.7.5 Thông tin cung cấp về “Giống” trong sản xuất
Đánh giá thông tin về áp dụng công nghệ trong sản xuất cận được tác giả chia làm 3 loại thông tin, gồm:
- Giống ngắn ngày;
- Giống chịu hạn
- Các loại giống mới
2.7.6 Thông tin cung cấp về “Áp dụng” trong sản xuất:
Đánh giá thông tin về áp dụng trong sản xuất cận được tác giả chia làm 3 loại thông tin, gồm:
2.8 Ứng dụng mô hình hồi quy tuyến tính vào phân tích dữ liệu
Trên thực tế, khi phân tích dữ liệu, chúng ta phải xác định mối quan hệ giữa một biến phụ thuộc vào nhiều biến độc Ví dụ như, các yếu tố ảnh hưởng
Trang 31đến sản lượng của cây lúa (cây lúa không chỉ phụ thuộc vào diện tích mà còn phụ thuộc vào thời tiết, phòng trừ dịch bệnh, bón phân,…)
Vì vậy, chúng ta cần xem xét các mô hình hồi quy tuyến tính nhiều hơn 1 biến độc lập
Khi đó, hàm hồi quy tổng thể với k biến độc lập có dạng:
f(Xi) = E(Y|Xi) = β0 + β1X1i + β2X2i + … + βkXki Với n quan sát ta có:
𝑌1 = 𝛽0+ 𝛽1𝑋11+𝛽2𝑋21+ … + 𝛽𝑘𝑋𝑘1+ 𝑒1 𝑌2 = 𝛽0+ 𝛽1𝑋12+𝛽2𝑋22+ … + 𝛽𝑘𝑋𝑘2+ 𝑒2
𝛽0
𝛽1
…
𝛽𝑘] ; 𝑒 = [
𝑒1
𝑒2
…
𝑒𝑛] 𝑣à 𝑋 = [
11
…1
Các ước lượng OLS tìm được bằng cách tìm các 𝛽̂𝑖 sao cho:
Trang 33Hệ số xác định r2 được định nghĩa như là tỷ lệ (%) sự biến động của biến phụ thuộc Y được giải thích bằng các biến độc lập Xk
𝑟2 = 1 - 𝑅𝑆𝑆/𝑇𝑆𝑆 = 𝐸𝑆𝑆/𝑇𝑆𝑆 (0 ≤ 𝑟2 ≤1)
Với:
𝑅𝑆𝑆 = ∑ 𝑒2 = ∑ (𝑌𝑖 − 𝑌̂𝑖)2
𝑛 𝑖=1
𝑛 𝑖=1
𝐸𝑆𝑆 = ∑ (𝑌̂𝑖 − 𝑌̂)2
𝑛 𝑖=1
Hệ số xác định đã điều chỉnh 𝑟̅̅̅ để xác định có nên thêm 1 biến độc lập 2
vào mới vào mô hình hay không Thường thì giá trị của 𝑟̅̅̅ có sự khác biệt rất ít 2
so với r2 Chúng ta có thể quyết định thêm một biến độc lập mới vào mô hình nếu 𝑟̅̅̅ tăng lên khi tăng biến đó 2
𝑟2
̅̅̅ = 1 − (1 − 𝑟2)(𝑛 − 1
𝑛 − 𝑘)
Trong đó: k là số biến độc lập đưa vào mô hình
Ví dụ: Ta có số liệu quan sát của một mẫu được nêu trong Bảng 2.2
Bảng 2.2: Số liệu theo dõi dữ liệu cung cấp thông tin
Trang 34Trong đó:
- Y là sản lượng của một loại rau trong tháng (tấn/tháng)
- X1 là thông tin về áp dụng công nghệ của người dân (thông tin/năm)
- X2 là thông tin về bón phân của loại rau này (gam/ngày)
14.990.76
RSS = 2.2886 ESS = 56.1686 TSS = 58.5 r2 = 0.960147 r = 0.979871 𝑟2 = 0.955165
Vậy, với hàm hồi quy tìm được, sự biến động của sản lượng của 01 loại rau được giải thích theo việc áp dụng thông tin về công nghệ và kết hợp với lượng phân bón hàng ngày với tỷ lệ 96% Đồng thời, sản lượng có tương quan chặt chẽ với áp dụng công nghệ của người dân và tỷ lệ bón phân của sản phẩm đó
Trang 35Chương 3 PHÂN TÍCH VÀ ĐÁNH GIÁ
3.1 PHÁT BIỂU BÀI TOÁN THỰC TẾ
Luận văn đã được triển khai trong thực tế với khối lượng dữ liệu gồm 60.000 kết quả cung cấp thông tin tại 144 Điểm trong 03 năm gần nhất Tuy nhiên với việc áp dụng thuật toán đã xây dựng sẽ gặp khó khăn do dữ liệu dàn trải với nhiều lĩnh vực và nhiều loại cây trồng, vật nuôi Để khắc phục điểm yếu này tôi tiến hành thu thập, xử lý dữ liệu cho 01 loại cây trồng (cây rau) và những thông tin liên quan đến loại cây trồng đó, những thông tin không phù sẽ được loại bỏ sau đó tính toán và đưa ra kết quả để kết luận
Với mục đích nêu trên, tác giả đã tiến hành thu thập dữ liệu cung cấp thông tin KH&CN tại các Điểm thông tin KH&CN, xây dựng mô hình hồi quy tuyến tính trên tập dữ liệu thu thập được để dự báo và đánh giá những thông tin nào có giá trị đối với mỗi loại cây trồng
Trong đó, dữ liệu đầu vào của quá trình thực nghiệm là những thông tin về các kỹ thuật trong trồng trọt của một số sản phẩm chủ yếu của tỉnh Đồng Nai
Dữ liệu đầu ra là một mô hình hồi quy tuyến tính với biến phụ thuộc là thông tin
về sản lượng của những mặt hàng (lúa, bắp, chôm chôm, điều, tiêu, cà phê), các biến độc lập là các thông tin về kỹ thuật trồng, kỹ thuật bón phân, kỹ thuật xịt thuốc, … Thông qua mô hình hồi quy tuyến tính xây dựng được, người sử dụng
có thể tính toán sản lượng thực tế khi có sự thay đổi về số lượng thông tin cung cấp và có thể nhận biết thông tin nào là quan trong, thông tin nào ảnh hưởng nhiều nhất và những thông tin ít được quan tâm trong quá trình sản xuất
3.2 TIẾN HÀNH XÂY DỰNG MÔ HÌNH
3.2.1 Thu thập dữ liệu
Điều kiện tiên quyết để xây dựng được mô hình hồi quy tuyến tính là cần phải thu thập một tập dữ liệu chính xác, đáng tin cậy và các thuộc tính nhận giá