1. Trang chủ
  2. » Luận Văn - Báo Cáo

nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm

71 445 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên Cứu Giải Pháp Lọc Nội Dung Internet Tại Máy Tính Cá Nhân Và Xây Dựng Phần Mềm
Tác giả Phạm Tiến Dũng
Người hướng dẫn PGS. TS. Hà Quang Thụy
Trường học Đại học Công Nghệ, Đại học Quốc Gia Hà Nội
Chuyên ngành Công nghệ Thông tin
Thể loại Luận Văn Thạc Sĩ
Năm xuất bản 2009
Thành phố Hà Nội
Định dạng
Số trang 71
Dung lượng 1,59 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Tuy nhiên trước thực tế nhu cầu cần giải pháp lọc nội dung truy cập của người sử dụng Internet, tìm hiểu và xây dựng giải pháp lọc nội dung truy cập trực tiếp trên máy tính cá nhân hiện

Trang 1

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Trang 2

ĐẠI HỌC QUỐC GIA HÀ NỘI

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ

Phạm Tiến Dũng

NGHIÊN CỨU GIẢI PHÁP LỌC NỘI DUNG INTERNET TẠI MÁY TÍNH CÁ NHÂN

VÀ XÂY DỰNG PHẦN MỀM

Ngành : Công nghệ Thông tin

Chuyên ngành : Hệ thống Thông tin

Trang 3

LỜI CAM ĐOAN

Tôi xin cam đoan nội dung bản luận văn chưa từng được công bố hay xuất bản dưới bất kỳ hình thức nào và cũng không được sao chép từ bất kỳ một công trình nghiên cứu nào

Toàn bộ ứng dụng thử nghiệm đều do tôi tự thiết kế và xây dựng

Nếu sai tôi xin hoàn toàn chịu trách nhiệm

Hà Nội, tháng 08 năm 2009

Người cam đoan

Phạm Tiến Dũng

Trang 4

LỜI CẢM ƠN

Em xin chân thành cảm ơn các Thầy giáo, Cô giáo trong khoa Công nghệ thông tin và các cán bộ, nhân viên phòng Đào tạo Sau đại học, trường Đại học Công nghệ, Đại học Quốc gia Hà Nội đã luôn nhiệt tình giúp đỡ và tạo điều kiện tốt nhất cho em trong quá trình học tập tại trường

Xin chân thành cảm ơn các anh, chị và các bạn học viên lớp Cao học K12T3 - trường Đại học Công nghệ - Đại học Quốc gia Hà Nội đã luôn động viên, giúp đỡ

và nhiệt tình chia sẻ với em những kinh nghiệm học tập, công tác trong suốt khoá học

Đặc biệt em xin bày tỏ lòng biết ơn sâu sắc đến thầy giáo PGS.TS Hà Quang Thụy đã tận tình giúp đỡ em định hướng xây dựng, nghiên cứu phát triển và hoàn

chỉnh luận văn

Mặc dù đã có nhiều cố gắng, song bài luận văn không tránh khỏi những khiếm khuyết do sự hạn hẹp về thời gian và điều kiện nghiên cứu Em chân thành mong nhận được những ý kiến đóng góp quý báu của các thầy cô giáo nhằm giúp đề tài

của luận văn ngày một hoàn thiện và có tính phổ dụng trong tương lai

Trang 5

MỤC LỤC

MỤC LỤC i

DANH SÁCH HÌNH VẼ ii

MỞ ĐẦU iii

Chương 1 - TỔNG QUAN LỌC NỘI DUNG INTERNET 1

1.1 Đánh giá tình hình nghiên cứu thuộc lĩnh vực đề tài 1

1.1.1 Thế giới 1

1.1.2 Tại Việt Nam 3

1.2 Thực trạng lọc nội dung truy cập hiện nay 4

Chương 2 - MỘT SỐ NỘI DUNG CƠ BẢN VỀ PHƯƠNG PHÁP LỌC INTERNET 7

2.1 Biện pháp lọc 7

2.2 Phương pháp lọc 8

2.2.1 Lọc địa chỉ IP 8

2.2.2 Lọc địa chỉ URL 9

2.2.3 Lọc từ khóa 9

2.2.4 Lọc cụm từ 10

2.2.5 Lọc ảnh 10

2.3 Vị trí thực hiện lọc 11

2.3.1 Lọc tại cổng Internet quốc gia 11

2.3.2 Lọc tại cổng Internet mạng LAN 11

2.3.3 Lọc thông qua bên thứ ba 12

2.3.4 Lọc tại máy tính cá nhân 12

Chương 3 - GIẢI PHÁP LỌC NỘI DUNG INTERNET 13

3.1 Giải pháp tại cổng Internet quốc gia 13

3.1.1 Kiến trúc hệ thống 13

3.1.2 Hoạt động 15

3.1.3 Phân tích các thành phần 16

3.2 Giải pháp tại cổng Internet của mạng LAN 19

3.2.1 Kiến trúc tổng quan 19

3.2.2 Giải thuật và cơ chế hoạt động 19

3.3 Giải pháp trực tiếp trên máy tính cá nhân 24

3.3.1 User mode: lấy nội dung từ lớp ứng dụng (Application) 25

3.3.2 User Mode: lấy nội dung từ lớp phiên (Session) 29

3.3.3 Kernel mode: lấy nội dung từ lớp mạng (IP) 32

3.3.4 Kernel mode: cơ chế nghe lén (sniffer) 35

Trang 6

3.4 Đề xuất giải pháp 36

3.4.1 Đánh giá giải pháp trực tiếp 36

3.4.2 Đề xuất 37

Chương 4 - GIẢI PHÁP LỌC NỘI DUNG VÀ XÂY DỰNG PHẦN MỀM TẠI MÁY TÍNH CÁ NHÂN 39

4.1 Giải thuật 39

4.2 Hoạt động 40

4.3 Phân tích các thành phần 41

4.3.1 Thành phần lấy dữ liệu 41

4.3.2 Thành phần phân tích nội dung gói tin 45

4.3.3 Thành phần tách, tổng hợp gói tin thành phiên giao dịch 48

4.3.4 Thành phần lọc cụ thể, lọc loại trừ 51

4.3.5 Thành phần lọc nội dung 52

4.3.6 Thành phần quản lý ứng dụng 54

4.3.7 Thành phần ghi log truy cập 56

4.3.8 Thành phần quản lý luật truy cập 56

4.4 Chương trình thử nghiệm 57

4.4.1 Kết quả chương trình thử nghiệm 57

4.4.2 So sánh với chương trình cùng loại 58

KẾT LUẬN 60

TÀI LIỆU THAM KHẢO 61

Trang 7

DANH SÁCH HÌNH VẼ

Hình 2.1 Lọc tại cổng Internet quốc gia 11

Hình 2.2 Lọc thông qua bên thứ ba 12

Hình 2.3 Lọc tại máy tính cá nhân 12

Hình 3.1 Hệ thống tưởng lửa hiện tại của các ISP 14

Hình 3.2 Kiến trúc hệ thống lọc nội dung Internet tại ISP 15

Hình 3.3 Gateway Filter lọc cho một mạng LAN 19

Hình 3.4 Sơ đồ giải thuật lọc cho mạng LAN 1 20

Hình 3.5 Sơ đồ giải thuật lọc cho mạng LAN 2 22

Hình 3.6 Sơ đồ giải thuật lọc cho mạng LAN 3 23

Hình 3.7 Sơ đồ giải thuật lọc cho mạng LAN 4 24

Hình 3.8 Nội dung kiểm soát lấy từ cửa sổ trình duyệt 26

Hình 3.9 Sơ đồ giải thuật User mode (lấy nội dung lớp ứng dụng) 27

Hình 3.10 Hook Firewall ở User Mode 30

Hình 3.11 Sơ đồ giải thuật User mode (lấy nội dung lớp phiên) 31

Hình 3.12 Các chế độ Hook Firewall trên Windows 33

Hình 3.13 Sơ đồ giải thuật Kernel mode (lấy nội dung lớp IP) 34

Hình 4.1 Sơ đồ giải thuật lọc nội dung trực tiếp trên máy tính cá nhân 39

Hình 4.2 Phân lớp xử lý gói tin 41

Hình 4.3 Sơ đồ xử lý tổng quát giải pháp lọc nội dung 42

Hình 4.4 Quy trình ghi log truy cập 42

Hình 4.5 Cấu trúc dữ liệu tầng Transport 43

Hình 4.6 Cấu trúc dữ liệu tầng Network 44

Trang 8

Hình 4.7 Cấu trúc dữ liệu tầng DataLink 44

Hình 4.8 Cấu trúc gói tin lấy dữ liệu 45

Hình 4.9 Các gói tin dạng thô và được phân tích theo từng lớp mạng 47

Hình 4.10 Dữ liệu tầng TCP/IP của một gói tin 48

Hình 4.11 Header file ảnh 48

Hình 4.12 Header file text/html 49

Hình 4.13 Gói tin đầu tiên của một phiên giao dịch 49

Hình 4.14 Tham số Seq và Ack 49

Hình 4.15 Tham số Seq và Ack gói tin kế tiếp 50

Hình 4.16 Tổng hợp các gói tin đơn lẻ thành phiên giao dịch 50

Hình 4.17 Trích đoạn danh sách lọc đang được áp dụng cho mạng VNN 51

Hình 4.18 Gói tin request(Get) 52

Hình 4.19 Ánh xạ tên tiến trình và cổng tương ứng 55

Hình 4.20 Ánh xạ chi tiết PID (Process number) và số cổng 55

Hình 4.21 Tổng hợp ghi log 56

Hình 4.22 Cập nhật luật truy cập từ server 57

Trang 9

MỞ ĐẦU

Mạng Internet ra đời và phát triển thành một kho dữ liệu khổng lồ, bao gồm đầy đủ các khía cạnh về văn hoá, chính trị, khoa học - kỹ thuật, Với sự đa sắc màu văn hoá trên thế giới, đa tín ngưỡng, đa lối sống, đa tư duy,… đã làm cho thông tin trên Internet luôn song hành tính tích cực và tiêu cực trong nội tại Ưu thế

từ công nghệ Internet làm cho sức thâm nhập của kênh thông tin quan trọng này đối với người sử dụng rất rộng lớn và nhanh chóng Các khía cạnh xấu - độc hại trong

xã hội cũng theo đường Internet để thâm nhập vào mỗi gia đình, mỗi con người Chính vì lý do đó, công việc hỗ trợ quản lý và đảm bảo an toàn – an ninh thông tin trên mạng Internet đã trở thành mối quan tâm của mỗi gia đình, mỗi tổ chức, mỗi quốc gia

Về phương diện gia đình, mối quan tâm của các bậc phụ huynh là ngăn ngừa việc thâm nhập các trang Web độc hại đối với con em mình Về phía cá nhân người

sử dụng, khai thác được những thông tin tích cực và ngăn ngừa tiếp xúc web độc hại do vô tình hay cố ý

Trong những năm gần đây, lĩnh vực nghiên cứu phát triển hệ thống lọc nội dung hỗ trợ quản lý và đảm bảo an toàn – an ninh thông tin trên mạng Internet nhận được sự quan tâm đặc biệt ở hầu hết các quốc gia trên thế giới

Tại Việt Nam, giải pháp cấp quốc gia đã được Nhà nước chỉ đạo các ban ngành liên quan nghiên cứu và đề xuất Tuy nhiên trước thực tế nhu cầu cần giải pháp lọc nội dung truy cập của người sử dụng Internet, tìm hiểu và xây dựng giải pháp lọc nội dung truy cập trực tiếp trên máy tính cá nhân hiện đang là mục tiêu nghiên cứu của nhiều cá nhân, tập thể và đây chính là mục tiêu của luận văn này Chương thứ nhất của luận văn trình bày tổng quan về lọc nội dung Internet trên thế giới và tại Việt Nam, phân tích thực trạng về lọc nội dung truy cập hiện nay trên phương diện về chính sách quy định của Nhà nước cũng như yêu cầu đặt ra đối với các công cụ phần mềm

Chương thứ hai của luận văn trình bày các nội dung cơ bản liên quan đến vấn

đề lọc nội dung truy cập Internet, bao gồm: biện pháp lọc, phương pháp lọc và vị trí thực hiện lọc

Trang 10

Dựa trên việc phân tích về vị trí thực hiện lọc nội dung đã trình bày trong chương hai, chương thứ ba trình bày về các giải pháp lọc nội dung truy cập tại cổng Internet Quốc gia, tại cổng Internet của mạng LAN và giải pháp trực tiếp trên máy tính cá nhân

Cuối cùng, chương thứ tư trình bày về giải pháp và xây dựng chương trình lọc nội dung truy cập Internet tại máy tính cá nhân Trong các trường hợp thử nghiệm, chương trình đã hoạt động đúng chức năng đặt ra

Trang 11

Chương 1 - TỔNG QUAN LỌC NỘI DUNG INTERNET

1.1 Đánh giá tình hình nghiên cứu thuộc lĩnh vực đề tài

1.1.1 Thế giới

Hầu hết các nước trên thế giới đều xây dựng và thực hiện các chính sách quốc gia về an toàn – an ninh Internet, trong đó đặc biệt chú ý tới vấn đề lọc nội dung trên Internet Ngoài một số công bố về vấn đề lọc nội dung đối với nước Mỹ [ 1 ], một số công trình nghiên cứu về lọc nội dung trên Internet điển hình đối với một số nước khác đã được tổ chức The OpenNet Initiative - ONI (Tổ chức cộng tác, phối hợp nghiên cứu của the Citizen Lab thuộc Munk Centre for International Studies tại University of Toronto) tổng hợp và công bố tại trang Web với địa chỉ http://www.opennetinitiative.net/ Đây là một tổ chức có nhiệm vụ điều tra nghiên cứu về tình trạng giám sát và lọc thông tin trên thực tế tại các quốc gia, để từ đó tìm

ra những ảnh hưởng đến chủ quyền đất nước, các tác động đến người sử dụng, Để đạt được mục đích đó, ONI sử dụng một cách tiếp cận kết hợp các phương tiện kỹ thuật tiên tiến (các công cụ giám sát mạng tinh vi, các kỹ thuật đánh giá phù hợp với từng hoàn cảnh cụ thể,…) và năng lực về tri thức địa phương dựa trên quan hệ hợp tác giữa các nhà nghiên cứu và chuyên gia trên toàn thế giới

Một điều đặc biệt đáng chú ý, do tầm quan trọng của việc bảo đảm an toàn-an ninh thông tin trên mạng diện rộng nói chung và mạng Internet nói riêng, hầu hết chính phủ các nước đều thành lập các cơ quan cấp nhà nước tiến hành các hoạt động nghiên cứu và triển khai đối với công tác đảm bảo an toàn an ninh Internet, trong đó có vấn đề lọc nội dung trên Internet

Mỹ được coi là quốc gia xuất phát của công nghệ Internet, vấn đề bảo đảm an toàn an ninh trên mạng Internet của nước Mỹ đã được đề cập đến ngay từ những ngày đầu xuất hiện Internet Đồng thời với các đạo luật an ninh mạng trong các giao dịch điện tử, vấn đề lọc nội dung Internet, đặc biệt đối với việc truy nhập Internet của trẻ em, được quan tâm rất sớm

Trong báo cáo được công bố vào tháng 12/2005, Marcia S Smith [ 1 ] đã tổng hợp và phân tích các văn bản pháp lý điển hình của nước Mỹ về vấn đề lọc Internet

Trang 12

đối với trẻ em bao gồm các văn bản the 1996 Communications Decency Act (CDA), the 1998 Child Online Protection Act (COPA), the 2000 Children’s Internet Protection Act (CIPA - http://www.ala.org/CIPA/), the 2002 “Dot Kids” Act (P.L 107-317) và the 2003 “Amber Alert” Act (P.L 108-21) Thêm nữa, có tới 21 bang

của nước Mỹ bổ sung các luật lọc Internet áp dụng cho các trường phổ thông và thư viện công cộng, bao gồm cả đòi hỏi bắt buộc phải sử dụng các bộ lọc Internet Hai bang Texas và Utah còn có các đạo luật riêng đối với nhà cung cấp dịch vụ Internet hoặc nhà cung cấp máy tính về các điều khoản đảm bảo cơ chế lọc Internet

Việc sử dụng Internet của trẻ em đã đặt ra cho các bậc phụ huynh thêm nhiều mối quan tâm, lo lắng về các hiểm họa mới, trong đó có hiện tượng trẻ em sử dụng

“blog” để đưa nhật ký cá nhân trên mạng Vì vậy, các gia đình Mỹ đã sử dụng các phương tiện kỹ thuật để đảm bảo an toàn truy nhập Internet cho con em mình Theo kết quả nghiên cứu của Amanda Lenhart, số lượng gia đình có trẻ vị thành niên kết nối Internet trực tuyến đã sử dụng bộ lọc Internet ngày càng tăng và đạt tới 54% vào tháng 3-2005 Hiện nay, hầu hết các trường học và thư viện trên khắp nước Mỹ đều sử dụng những hệ thống lọc Internet có quy luật lọc ràng buộc trong luật lọc (National Conference of State Legislatures)

Nhiều sản phẩm phần mềm lọc nội dung đã được công bố và được sử dụng từ

rất sớm Dự án The InFoPeople Project kết thúc vào năm 2001 [ 1 ], cung cấp một

cái nhìn tổng quát về hoạt động lọc nội dung trên Internet tại nước Mỹ, đặc biệt đã cung cấp các đánh giá xác đáng về các sản phẩm phần mềm lọc nội dung điển hình như CyberPatrol, i-Gear, i-Prism, N2H2, S4F, SmartFilter, Web Inspector, WebSense, X-Stop

Tuy là nước có hệ thống phương tiện hiện đại trong việc đảm bảo an ninh quốc gia, nhưng trong không ít tình huống, chính quyền Mỹ đã phải sử dụng nhiều giải pháp đa dạng, trong đó có các giải pháp về pháp lý, để tiến hành công việc lọc nội dung thông tin trên các đường truyền thông tin công cộng

Tóm lại, trên cả phương diện an ninh quốc gia cũng như phương diện an toàn truy nhập Inernet của công dân (đặc biệt đối với trẻ em), nước Mỹ đã triển khai nhiều giải pháp về pháp lý, về khoa học và công nghệ trong việc mở rộng các hình thức lọc Internet Theo đó, nhiều dự án đã được triển khai và nhiều phần mềm đã được phát triển

Trang 13

1.1.2 Tại Việt Nam

Sau khi Nghị định 55/2001/NĐ-CP ra đời Internet ở Việt Nam phát triển mạnh

đã khẳng định lộ trình phổ cập và xã hội hoá Internet của nhà nước đã đi đúng hướng Nhờ những chính sách quản lý hợp lý và phù hợp với xu thế phát triển cũng như với quan điểm rất mới “quản lý phải theo kịp yêu cầu của sự phát triển”, Internet Việt Nam đã phát triển với tốc độ chóng mặt, giá cước Internet liên tục được giảm xuống, số lượng người sử dụng Internet gia tăng ngày càng nhanh đặc biệt là khách hàng thuộc nhóm thuê bao cá nhân hộ gia đình

Theo số liệu thống kê của Trung tâm Thông tin mạng Internet Việt Nam (VNNIC) [ 18 ], tính đến hết tháng 04/2008, số lượng thuê bao Internet Việt Nam

đã đạt con số 5,6 triệu thuê bao, khoảng 19,5 triệu người sử dụng Internet, đạt mật

độ 23,12% Trong đó các điểm truy cập Internet công cộng đã phát triển nhanh chóng, tính riêng ISP VDC đã có tới hơn 20.000 điểm truy cập là đại lý chính thức, chưa tính đến các điểm truy cập không phải là đại lý Tình hình truy cập tại đây rất

tự do, không được quản lý chặt chẽ, các đại lý cũng không thể theo dõi quản lý nội dung truy cập của khách hàng, không tổ chức nào đứng ra đảm bảo về nội dung truy cập ở đây là lành mạnh Tình trạng truy cập tự do như hiện nay ảnh hưởng rất lớn tới tình hình an ninh xã hội

Song hành với sự phát triển của Internet là những vấn đề tiêu cực: các hoạt động phạm pháp trên Internet có ảnh hưởng xấu đến an ninh trật tự, an ninh quốc gia, vi phạm luật pháp và văn hóa Việt nam ngày càng gia tăng

Mặt trái của việc phát triển phổ cập thông tin tại những điểm truy cập công cộng thể hiện ra và đã được xã hội quan tâm, tuy nhiên một mảng khác của Internet cũng đang ảnh hưởng rất lớn tới xã hội đó là các thuê bao cá nhân hộ gia đình Vấn

đề có thể xảy ra đối với người sử dụng cá nhân khi truy cập vào Internet:

o Vô tình tiếp xúc với thông tin độc hại: vào nhầm địa chỉ, virus, spyware,…

o Hạn chế tiếp xúc của con em trong nhà đối với thông tin Internet

o Nhu cầu quản lý sự truy cập thông tin tại các phòng máy: trường học, điểm cung cấp dịch vụ Internet công cộng, cơ quan tổ chức,…

Đa phần người dùng Internet cá nhân tại Việt Nam hiện nay đều không được bảo vệ đúng mức trước các thông tin độc hại khi tiếp xúc với môi trường Internet Đứng trước sự phát triển như vũ bão của Internet như hiện nay, việc quản lý

Trang 14

nội dung truy cập là một vấn đề cấp bách cần được quan tâm xử lý kịp thời Những trang web được coi là trái với luật pháp Việt Nam trên Internet là rất lớn (web

“đen”), đặc biệt là chúng luôn phát triển, thay hình đổi dạng, khiến cho việc đưa ra một chuẩn thế nào là một trang web đen rất khó khăn Việc truy cập web đen, thông tin độc hại, phát tán virus hiện đang không được kiểm soát tại các điểm truy cập internet công cộng, cá nhân hộ gia đình Chỉ với một vài từ khóa qua các công cụ tìm kiếm, hàng nghìn trang web với nội dung trái với pháp luật Việt Nam đã hiển thị ra Số lượng các web đen bằng tiếng Việt thời gian gần đây xuất hiện ngày càng nhiều Các giải pháp kỹ thuật kết hợp với kiểm tra hành chính đã được tiến hành nhưng hiệu quả công việc hiện tại không đạt được như mong muốn Internet là không biên giới, nếu những nội dung đồi trụy, phi đạo đức vi phạm pháp luật được đặt tại các máy chủ ở nước ngoài thì việc xử lý gặp rất nhiều khó khăn, thậm chí là không thể

Do đó, để kiểm soát tốt hơn tình trạng này, cần phải kết hợp việc cải tiến giải pháp kỹ thuật với các công tác hành chính, giáo dục ý thức Trong đó, cải tiến giải pháp kỹ thuật được coi là giải pháp trước nhất Các nhà cung cấp dịch vụ ISP là các đơn vị có trách nhiệm ở đây Nhiều ý kiến cho rằng cần phát triển mạnh hơn nữa các hệ thống lọc web đen ở ngay cổng Internet quốc gia, yêu cầu các nhà cung cấp dịch vụ đường truyền (IXP) và cung cấp dịch vụ Internet (ISP) thiết lập hệ thống tường lửa hữu hiệu Tuy nhiên, các giải pháp đang áp dụng hiện nay vẫn không đủ

để phong tỏa những web độc hại, vốn cực kỳ linh động (thường xuyên đổi địa chỉ tên miền và địa chỉ IP , vượt qua tường lửa) Mặt khác, việc lọc từ cổng quốc gia - nơi tập trung lưu lượng thông tin khổng lồ qua lại - gây ảnh hưởng đến tốc độ của

hệ thống, đối với những hệ thống tường lửa hiện nay việc đầu tư nâng cấp trang thiết bị không đáp ứng kịp với tiến độ phát triển của Internet

1.2 Thực trạng lọc nội dung truy cập hiện nay

Hiện nay do tốc độ phát triển nhanh chóng của Internet với nhiều kết nối băng rộng, nhu cầu đường truyền quốc tế gia tăng, hệ thống tường lửa của các ISP không đáp ứng được yêu cầu và thường xuyên bị quá tải dẫn tới bỏ qua không lọc các trang web độc hại Vấn đề xử lý web đen hiện đang là yêu cầu bức xúc và là mối quan tâm hàng đầu của toàn xã hội

Tại Việt Nam, nhu cầu có một giải pháp phần mềm hỗ trợ cho các vị phụ huynh bảo vệ con em mình khỏi các thông tin độc hại, giúp cho các điểm Internet

Trang 15

công cộng ngăn chặn được các truy cập vào trang web đen, giúp cho người dùng cá nhân tránh vô tình truy cập web đen,… là rất cần thiết Đó là giải pháp tối ưu, tiện dụng, đáp ứng được phần đa nhu cầu cá nhân sử dụng Internet hiện nay trong lúc đợi các nhà cung cấp dịch vụ ISP và Nhà nước xây dựng được một giải pháp tổng thể, thống nhất

Lọc Internet nói chung (lọc nội dung nói riêng) liên quan tới việc hạn chế khả năng thâm nhập Internet của người dùng để ngăn chặn việc truy nhập tới các trang Web có nội dung xấu Việc lọc nội dung về hình thức có vẻ mâu thuẫn với quan niệm tự do khai thác thông tin trên Internet vì vậy việc hạn chế khả năng thâm nhập Internet cần được đảm bảo bằng pháp luật Chính vì lẽ đó, cùng với việc nghiên cứu, phát triển các phương tiện lọc nội dung trên Web, mỗi quốc gia cũng cần xây

dựng một hệ thống văn bản pháp lý đối với việc lọc thông tin nhằm đảm bảo tính

hợp thức của mọi hoạt động cần thiết liên quan

Hành động của nhà nước đối với vấn đề chống truy cập web độc hại

Các cơ quan chức năng rất quan tâm đến tình hình quản lý nội dung truy cập Internet, liên tục đưa ra những qui định về quản lý truy cập Internet Cụ thể hóa sự quan tâm đó là Thông tư 02 (02/2005/TTLT-BCVT-VHTT-CA-KHĐT), có qui định "Quyền và nghĩa vụ của đại lý Internet": các đại lý cần cài đặt chương trình phần mềm quản lý đồng thời thực hiện các giải pháp kỹ thuật đảm bảo ngăn chặn người sử dụng truy cập đến các trang web có nội dung xấu trên Internet Đại lý Internet chỉ được cung cấp nội dung thông tin về người sử dụng cho các cơ quan

Nhà nước có thẩm quyền

Thông tư liên tịch số 02/2005/TTLT-BCVT-VHTT-CA-KHĐT về quản lý đại

lý Internet ra đời tạo điều kiện thúc đẩy phát triển đại lý Internet theo đúng quy định của pháp luật, hướng dẫn tăng cường quản lý việc phát hành, khai thác, sử dụng thông tin qua Internet và các hoạt động khác theo quy định của pháp luật, ngoài ra giúp ngăn ngừa hoạt động vi phạm pháp luật thông qua việc sử dụng dịch

vụ Internet tại các đại lý Internet công cộng Nhiệm vụ đặt ra ở đây cho các cơ quan quản lý là đảm bảo sự phát triển, phát huy tối đa hiệu quả của Internet, mang tri thức nhân loại phục vụ cho sự nghiệp công nghiệp hóa, hiện đại hóa đất nước, đồng thời hạn chế thấp nhất những ảnh hưởng tiêu cực của Internet Văn bản này khi đi vào cuộc sống sẽ có tính hiệu lực và hiệu quả quản lý đại lý Internet rất cao Tuy nhiên với sự phát triển của Internet Việt Nam việc giám sát hoạt động của các đại

Trang 16

lý Internet theo yêu cầu quản lý của cơ quan Nhà nước nếu không có công cụ kỹ thuật hiệu quả thì rất khó khăn

Trong khi các cơ quan chức năng đang xây dựng giải pháp tổng thể xử lý vấn

đề này thì người dùng Internet tìm đến với các công cụ (phần cứng và phần mềm) nhằm ngăn chặn web độc hại Các chương trình này hoạt động theo một số nguyên tắc chung như lọc theo địa chỉ IP, địa chỉ URL, theo từ khóa có trong nội dung của website,

Khái niệm website độc hại

Hiện tại Web độc hại được chia ra làm hai dạng: thứ nhất là những trang web chứa những nội dung bạo lực, khiêu dâm… những nội dung trái với văn hóa của Việt Nam; thứ hai đó là những trang web mang tính chính trị, mang tính chất phá hoại an ninh quốc gia

Như đã trình bày ở trên, việc đánh giá thế nào là một trang web độc hại đang

là vấn đề chưa hoàn toàn rõ ràng Bởi lẽ trên thực tế, nhiều trường hợp rất khó để đánh giá nội dung một trang web có độc hại hay không Ví dụ nhiều trang web có thể là độc hại với đối tượng học sinh nhưng lại không độc hại với những đối tượng khác, có những trang web có tính giáo dục về giới tính lại dễ bị nhầm là trang web đen…

Tuy nhiên những đánh giá mang tính tương đối nếu áp dụng vào thực tế để ngăn chặn cũng có thể hạn chế được đa số các trang web độc hại, với hiệu suất trên 80% có thể coi là đạt yêu cầu quản lý [ 3 ]

Trang 17

Chương 2 - MỘT SỐ NỘI DUNG CƠ BẢN VỀ PHƯƠNG PHÁP

LỌC INTERNET

Để có thể xây dựng được chương trình lọc nội dung truy cập Internet thì trước hết phải hiểu rõ bản chất của nội dung Internet Vì vậy, chương này sẽ tập trung nghiên cứu những nội dung liên quan đến hình thái lọc như biện pháp lọc, phương pháp lọc và vị trí thực hiện Từ đó có thể xây dựng được chương trình lọc nội dung truy cập Internet

2.1 Biện pháp lọc

Căn cứ vào các yêu cầu đặt ra đối với lọc nội dung truy cập Internet, có thể chia biện pháp lọc thành một số loại cụ thể như sau [ 1, 3, 4, 5, 6, 15 ]:

 Lọc cụ thể (inclusion filtering): người dùng chỉ được phép truy cập những thông

tin đã được cho phép, nằm trong một danh sách được hiểu theo nghĩa “danh sách trắng”, thông thường là một danh sách các địa chỉ web được phép truy nhập

Những thông tin nằm ngoài danh sách này đều bị cấm chặn

 Lọc loại trừ (exclusion filtering): người dùng sẽ bị chặn luồng thông tin nằm

trong một danh sách, gọi là “danh sách đen”, thông thường là một danh sách các

địa chỉ web không được phép truy nhập Tất cả những thông tin không liên quan đến danh sách này đều được phép truy cập

 Phân tích nội dung: hạn chế và ngăn chặn người dùng những thông tin chứa

những nội dung cấm theo những tiêu chuẩn đã được đề ra

Chúng ta có thể nhận thấy rằng hai cách tiếp cận đầu cho khả năng thi hành đơn giản nếu cho trước một danh sách trắng hoặc một danh sách đen Tuy nhiên, trong thực tế thì khó khăn gặp phải chính là bài toán xác định chính xác các danh sách như vậy và luôn đưa đến một kết quả hoặc là lọc không đầy đủ (xuất hiện liên tục các trang web “đen” mới trên Internet) hoặc hạn chế miền truy cập thông tin Internet (danh sách “trắng”quá hạn chế, không tương thích với sự tăng trưởng không ngừng của Internet) Cách tiếp cận lọc thông qua phân tích nội dung được tiến hành nhờ các kỹ thuật “hiểu” nội dung của thông tin trên web để ngăn chặn các

Trang 18

thông tin có nội dung xấu Công việc “hiểu” và đánh giá thông tin được tải về cho phép việc lọc Internet có tính công phu và hoàn hảo hơn nhưng lại đòi hỏi khối lượng tính toán lớn để xem xét từng nội dung được tải về Tuy nhiên, do tính chất công phu của cách tiếp cận lọc nội dung và sự tăng trưởng không ngừng về năng lực tính toán mà cách tiếp cận lọc thông qua phân tích nội dung ngày càng được phát triển mạnh

Việc triển khai công nghệ lọc nội dung phụ thuộc rất nhiều vào ngữ cảnh và vị

trí tiến hành Chúng ta có thể chia làm ba mức lọc thông tin chính sau:

 Mức cục bộ: mức này được thể hiện thông qua các phần mềm cài đặt trong các

máy tính cá nhân với một mục đích sử dụng trong một phạm vi nhỏ như gia đình, công ty có quy mô nhỏ v.v (bộ lọc mức này được gọi là client-based filter)

 Mức tổ chức: mức này cần đến những giải pháp lọc nội dung cho một mạng cỡ

vừa, ví dụ như một mạng intranet trong một trường học, một công ty cỡ lớn, v.v (bộ lọc mức này được gọi là server-based filter)

 Mức quốc gia: yêu cầu ở mức này đòi hỏi rất nhiều yếu tố khác nhau về công

nghệ và kỹ thuật để đạt được khả năng lọc nội dung ở mạng xương sống (backbone) của việc truy cập Internet của cả một quốc gia

Phương tiện lọc nội dung được thi hành bằng cả phần cứng lẫn phần mềm,

trong đó nòng cốt là các phương tiện phần mềm Lori Bowen Ayre và ©2005 TopTenREVIEWS, Inc đã cung cấp danh sách các sản phẩm phần mềm lọc Internet

thông dụng nhất Đồng thời, việc thiết đặt cơ chế an ninh mạng, ở mức cao hơn là

cơ chế lọc nội dung Internet, cũng đã được tiến hành trên các thiết bị phần cứng, có

thể kể đến một số thiết bị như Draytek Vigor2900, Planet VRT-311, một số sản

Trang 19

cả các gói và chặn chúng nếu chúng đến từ các trang web bị cấm

Lọc gói tin có thể được thực hiện tại các router bởi các nhà cung cấp dịch vụ ISP, thông qua kiểm soát thông tin về địa chỉ IP nguồn/đích Hiện nay có một số loại router có thể thực hiện lọc gói mà không gây ra bất kỳ hiệu ứng suy thoái đối với công việc định tuyến của nó

Vấn đề chính của cơ chế lọc gói tại ISP là hoạt động dựa vào địa chỉ IP, mỗi địa chỉ IP đại diện cho một máy tính, không phải là một trang web do đó lọc gói bằng cách sử dụng IP có thể chặn một số lượng lớn các trang web lưu trữ trên máy chủ hợp pháp Đã có nhiều trang web cộng đồng bị chặn, chẳng hạn như yahoo bị chặn bởi bản thân yahoo lưu trữ một số forum chứa nội dung không lành mạnh, phản động [ 3 ]

Đồng thời việc lọc gói tại ISP còn có những khó khăn khác nếu như thực hiện trên một quy mô lớn Các router được sử dụng bởi các ISP để liên kết mạng Internet chỉ có giới hạn không gian nhất định cho việc định tuyến nên việc bổ sung các định tuyến lọc địa chỉ IP sẽ làm giảm nhanh chóng năng lực hoạt động của router

Đối với nhà cung cấp dịch vụ Internet thì cần có hạ tầng mạng hoạt động luôn luôn ổn định do đó cơ chế lọc gói không được sử dụng rộng rãi

2.2.2 Lọc địa chỉ URL

Phổ biến và hiệu quả cao hơn lọc gói là hình thức lọc dựa trên các URL, đảm bảo không lọc những trang web hợp pháp nhưng trên cùng một địa chỉ IP Lọc URL có thể được sử dụng với cả hai hình thức bao gồm lọc cụ thể và lọc loại trừ Thực hiện lọc URL có thể được tiến hành đối với từng phần của một website Các thành phần cơ cấu địa chỉ URL của trang Web cho phép lọc truy cập vào toàn

bộ các trang web, hoặc chỉ các phần của trang web

Ngoài nguồn gốc lọc gói và URL, lọc nội dung còn có thể sử dụng phương pháp như các từ khóa tìm kiếm, phân tích hình ảnh

2.2.3 Lọc từ khóa

Quét nội dung truy cập Internet vào máy tính và tìm các từ mà được liệt kê trong một danh sách đen Một trang web bị chặn nếu nó có chứa bất cứ từ nào trong danh sách chặn đó Hình thức lọc từ được áp dụng đối với cả những yêu cầu

Trang 20

(request) được gửi đi từ máy tính để đảm bảo truy cập đối với từ khóa cấm được lọc ngay từ đầu

Các trang web khiêu dâm thương mại cần phải được tìm thấy một cách dễ dàng được tìm thấy bởi các khách hàng tiềm năng và các công cụ tìm kiếm mà họ

sử dụng để lướt web Một trong những cơ chế của các trang web là để thêm một số khả năng tìm kiếm từ khóa để trang Web của họ, thậm chí nếu họ không thực sự hiển thị Những từ này sẽ được chọn của trang Web crawlers, thêm vào danh mục được sử dụng bởi các công cụ tìm kiếm của họ và sau đó có thể được tìm thấy bằng cách web surfers Do đó lọc từ khóa áp dụng triệt để đối với các từ khóa xuất hiện trong trang web tìm kiếm hay thẻ meta của nội dung các trang web truy cập

Một số nhược điểm với lọc từ khóa:

 Họ chỉ kiểm tra nội dung dạng văn bản, không thực hiện kiểm tra đối với các hình ảnh Cụ thể đối với những trang web khiêu dâm như tiếng Nga, tiếng Nhật có

cả những từ nội địa và hình ảnh thực sự cần lọc thì những từ khoá tiếng Anh, tiếng Việt hoàn toàn mất tác dụng

 Khác nữa, lọc từ khóa gặp trường hợp từ khóa cần lọc nằm trong cụm từ có nghĩa khác và trong những bối cảnh khác nhau sẽ có nghĩa không cần phải lọc

2.2.4 Lọc cụm từ

Lọc cụm từ là một trường hợp mở rộng của lọc từ khóa Lọc cụm từ thực hiện kiểm soát nội dung truy cập thông qua một cụm từ, không phải xem xét từng từ một xuất hiện trong cụm từ đó Với biện pháp lọc này đạt kết quả cao hơn nhiều so với lọc từ khóa, hạn chế tối đa trường hợp phát sinh của việc từ khóa có nghĩa khác nhau trong bối cảnh khác nhau

2.2.5 Lọc ảnh

Ảnh là một phần quan trọng của Internet ngày nay Thông kê cho thấy khoảng hơn 70% các trang web có chứa ảnh và trung bình có 19 ảnh trong một trang HTML [ 2 ] Ảnh thường được sử dụng để trang web trở nên hấp dẫn Tuy nhiên ảnh cũng chứa các nội dung độc hại như khiêu dâm, phản động Do đó kỹ thuật lọc ảnh hiệu quả là một phần quan trọng trong giải pháp lọc nội dung trên Internet Nhận thấy giữa các ảnh chứa các vùng da lớn và các ảnh khiêu dâm có mối tương quan với nhau, do đó trong các giải pháp lọc nội dung ảnh thường được chia

Trang 21

2.3 Vị trí thực hiện lọc

Lọc có thể diễn ra trên một máy tính cá nhân, trên một máy chủ của doanh nghiệp, tại một công ty cung cấp dịch vụ internet, hoặc trên một hệ thống lọc của bên thứ ba

2.3.1 Lọc tại cổng Internet quốc gia

Các giải pháp lọc cũng được thiết kế để hoạt động tại ISP nhưng do đặc tính

về đảm bảo hoạt động tại ISP nên hiện nay các giải pháp lọc hiện chỉ thực hiện hạn chế đối với danh sách địa chỉ IP đen

Hình 2.1 Lọc tại cổng Internet quốc gia

Quản trị viên sẽ tiếp nhận danh sách các trang web bị cấm từ các nhà cung cấp

bộ lọc phần mềm hay các cơ quan quản lý Nhà nước, biên soạn cho phù hợp và cập nhật vào hệ thống

Đề xuất đối với giải pháp lọc tại cổng internet quốc gia cần đảm bảo hoạt động đầy đủ chức năng lọc và không ảnh hưởng tới hiệu năng của hệ thống

Lọc tại nhà cung cấp dịch vụ ISP có độ an toàn rất cao do chạy trên một hệ thống an toàn [ 1, 3, 4 ]

2.3.2 Lọc tại cổng Internet mạng LAN

Tương tự như lọc tại cổng Internet quốc gia nhưng quy mô hệ thống nhỏ hơn

Trang 22

rất nhiều Tùy thuộc đối với quy mô hệ thống mạng LAN thành phần phân tải trong phần mềm lọc nội dung được sử dụng, đảm bảo hoạt động truy cập Internet của người sử dụng không ảnh hưởng bởi hệ thống

2.3.3 Lọc thông qua bên thứ ba

Trong trường hợp này, các truy cập Internet sẽ được trao đổi thông qua bên thứ ba, nơi mà các yêu cầu sẽ được kiểm tra đối với một bộ lọc danh sách Để có được điều này, trình duyệt của người sử dụng đầu cuối phải được cấu hình để trỏ đến bên thứ ba và sẽ không thể truy cập vào Internet mà không đi qua bên thứ ba

Hình 2.2 Lọc thông qua bên thứ ba

Hình thức lọc này đòi hỏi hệ thống bên thứ ba thiết kế đặc biệt có thể bao gồm

cả trình duyệt riêng cài đặt trên máy tính người sử dụng [ 4 ]

2.3.4 Lọc tại máy tính cá nhân

Đa số các giải pháp lọc hiện nay được thiết kế để chạy trên các máy tính cá nhân Kỹ thuật lọc thực hiện kết hợp các phương pháp lọc phổ biến trên (mục 1.2)

Bộ luật lọc mới nhất được cập nhật định kỳ từ các nhà cung cấp phần mềm Lọc tại máy tính cá nhân ưu điểm về nguồn lực dư thừa máy tính, thời gian xử

lý thực, tiết kiệm chi phí đầu tư phần cứng

Tuy nhiên, lọc tại máy tính cá nhân là giải pháp ít tin cậy nhất do phần mềm hoạt động trong môi trường không bảo mật, dễ bị vô hiệu hóa

Hình 2.3 Lọc tại máy tính cá nhân

Trang 23

Chương 3 - GIẢI PHÁP LỌC NỘI DUNG INTERNET

Trong chương hai đã trình bày về một số nội dung cơ bản của phương pháp lọc nội dung Internet: biện pháp lọc, phương pháp lọc và vị trí thực hiện lọc Với mỗi nội dung đã trình bày đặc trưng và phân tích về kỹ thuật Đó là cơ sở cho phần tiếp sau, phần trình bày về các giải pháp lọc nội dung Internet tại ba cấp độ khác nhau: cổng Internet quốc gia, cổng Internet cho mạng LAN và tại máy tính cá nhân

3.1 Giải pháp tại cổng Internet quốc gia

3.1.1 Kiến trúc hệ thống

Hệ thống tường lửa tại các ISP hiện tại

Hiện nay các nhà cung cấp dịch vụ Internet tại Việt Nam đều đang sử dụng hệ thống tường lửa để quản lý, kiểm soát luồng dữ liệu vào ra Cơ chế hệ thống tường lửa hiện tại về cơ bản được xây dựng dựa trên kỹ thuật phân tích các luồng thông tin vào/ra tại một cổng Internet thông qua địa chỉ nguồn và địa chỉ đích Tại đó, các danh sách trắng (danh sách các địa chỉ IP không cần lọc) và danh sách đen (danh sách các địa chỉ IP cần lọc), các địa chỉ sẽ được sử dụng trong việc xây dựng tập luật các chính sách liên quan đến việc quản lý các luồng thông tin vào/ra Nếu địa chỉ yêu cầu nằm trong hai danh sách đó, hệ thống tường lửa này sẽ tự quyết định lọc hay không tuỳ thuộc vào địa chỉ đó có nằm trong danh sách đen hay trắng tương ứng [ 1, 3 ]

Trang 24

Hình 3.1 Hệ thống tưởng lửa hiện tại của các ISP

Hệ thống lọc nội dung tại ISP

Việc lọc các truy cập web tại ISP là một giải pháp tổng thể vì nó đảm bảo cho toàn bộ hệ thống mạng hoàn toàn đồng nhất về mặt lọc nội dung truy cập web Với giải pháp lọc tại ISP, mọi sự truy cập vào/ra đều được kiểm soát bởi tường lửa Tuy nhiên các tường lửa ISP hiện chỉ có thể đáp ứng được việc lọc theo địa chỉ IP (tầng Network), mà những trang web đen có thể thay đổi IP thường xuyên và với mức độ tăng trưởng thuê bao như hiện nay thì việc nâng cấp hệ thống tường lửa là không đáp ứng yêu cầu

Do đó cần có giải pháp thay thế cho tường lửa hiện nay tại ISP: khi một gói tin tới sẽ được xác định xem có nằm trong danh sách đen hay trắng không, khi đó hệ thống sẽ thực hiện việc lọc ngay Nếu không, luồng dữ liệu yêu cầu sẽ được định hướng đến hệ thống lọc nội dung để hệ thống này quyết định cơ chế kiểm duyệt thích đáng Sơ đồ quản lý các luồng thông tin được minh họa như hình dưới đây sẽ đảm bảo lọc đầy đủ hơn (URL, IP, nội dung) và dễ dàng thuận tiện trong việc nâng cấp hệ thống khi cần thiết Kiến trúc một hệ thống lọc nội dung tại ISP cơ bản bao gồm các thành phần như sau [ 1, 3, 14, 15, 16, 17 ]:

Tường lửa ISP

Người dùng

BlackList

WhiteList

Trang 25

Hình 3.2 Kiến trúc hệ thống lọc nội dung Internet tại ISP

3.1.2 Hoạt động

Trong quá trình sử dụng Internet, dữ liệu trao đổi giữa người sử dụng và Internet sẽ được truyền tải qua (1) và (2) Dữ liệu được kiểm soát bởi hệ thống tường lửa lọc nội dung của ISP cung cấp dịch vụ

Dữ liệu được tường lửa kiểm soát theo cơ chế sau:

 Gói tin đầu tiên từ người dùng gửi yêu cầu truy cập Internet và ngược lại sẽ được tường lửa xử lý đưa vào nhánh (3):

o Thông tin của gói tin (IP,URL) được thành phần Lọc cụ thể, lọc loại trừ

kiểm tra trong Kho dữ liệu lọc

o Nếu gói tin có thông tin về IP, URL tồn tại trong kho thì thành phần Lọc cụ

thể, lọc loại trừ sẽ gửi kết quả theo nhánh (3) về Bộ quyết định để thực hiện

chặn truy cập (danh sách đen) hoặc chuyển tiếp các gói tin còn lại không qua kiểm soát của tường lửa (danh sách trắng)

o Trong trường hợp ngược lại, gói tin sẽ được chuyển tiếp qua (5) đến thành

phần Proxy cache để tường lửa tiếp tục kiểm soát về mặt nội dung đối với

truy cập này

Trang 26

 Trong trường hợp gói tin thứ nhất có thông tin về IP, URL không tồn tại trong

Kho dữ liệu lọc, từ gói tin thứ 2 trở đi của tiến trình sẽ được tường lửa xử lý đưa

vào nhánh (6):

o Thành phần Proxy cache thực hiện tổng hợp các gói tin và chuyển tiếp qua

(7) tới thành phần Lọc nội dung

o Thành phần Lọc nội dung trên cơ sở dữ liệu đã được tổng hợp thực hiện kiểm

tra nội dung thông qua Tập luật:

o Kiểu dữ liệu: ảnh, text, movie,…

o Từ và cụm từ: bao gồm trọng số

o Biểu thức tính điểm: các từ, cụm từ có trọng số (âm, dương) được đưa vào biểu thức để tính toán với một ngưỡng cho trước

o Căn cứ vào kết quả phân tích thông tin đạt được, thành phần Lọc nội dung

gửi kết quả phân tích về Bộ quyết định qua (9) và căn cứ vào các tiêu chí đặt

ra sẽ bổ sung IP,URL vào Kho dữ liệu lọc qua (10)

 Bộ quyết định:

o Bộ quyết định có thực hiện chuyển tiếp các gói tin vào nhánh (3) hoặc nhánh (6) theo tính chất gói tin đưa vào

o Trên cơ sở kết quả các thành phần Lọc cụ thể, lọc loại trừ và Lọc nội dung

trả ra, Bộ quyết định sẽ quyết định truy cập đang thực hiện được tiếp tục hay

chặn lại Ngoài ra để đảm bảo hệ thống tường lửa đáp ứng thời gian thực, nếu quá ngưỡng cho phép mà chưa có kết quả trả ra từ các thành phần khác

thì Bộ quyết định sẽ tự đưa ra quyết định dựa trên kết quả hiện có và gửi

thông báo cho các thành phần liên quan qua (3), (9)

3.1.3 Phân tích các thành phần

Bộ quyết định

Bộ quyết định là thành phần trung tâm của tường lửa lọc nội dung Hoạt động của các thành phần khác trong tường lửa đều được kiểm soát bởi thành phần này Chức năng chính của Bộ quyết định là đưa ra các quyết định liên quan tới hoạt động của tường lửa, bao gồm:

o Quyết định gói tin có thuộc diện cần tường lửa xử lý hay không

Trang 27

o Quyết định gói tin sẽ được chuyển tiếp cho các thành phần khác (theo nhánh (3) hoặc nhánh (6))

o Quyết định công việc tường lửa phải thực hiện tiếp trên cơ sở kết quả trả về

từ nhánh (3) và nhánh (9): trong đó kết quả trả về từ nhánh (9) là kết quả trực tiếp của các bộ phận trong thành phần Lọc nội dung (bộ phận xử lý về kiểu

Các địa chỉ IP, URL được lưu trữ trong Kho dữ liệu lọc và được phân thành hai loại: danh sách đen và danh sách trắng Mỗi truy cập của người dùng ra Internet

sẽ được kiểm soát một lần bởi thành phần Lọc cụ thể, lọc loại trừ thông qua gói tin đầu tiên đi qua Các kết quả đạt được:

o IP, URL của gói tin nằm trong danh sách đen: truy cập của người dùng bị chặn lại

o IP, URL của gói tin nằm trong danh sách trắng: truy cập của người dùng là hợp pháp, mọi gói tin tiếp theo trong tiến trình truy cập sẽ được chuyển tiếp qua mà không cần phải kiểm soát

o IP, URL của gói tin không nằm trong 2 danh sách: gói tin sẽ được chuyển sang thành phần Lọc nội dung để tiếp tục kiểm soát các gói tin tiếp theo của tiến trình truy cập

Trong trường hợp kết quả đạt được là trường hợp 3: do thông tin IP, URL của các gói tin tiếp theo hoàn toàn giống với gói tin đầu nên việc không cần sử dụng thành phần Lọc cụ thể, lọc loại trừ để kiểm soát sẽ giảm thiểu thời gian bị trì hoãn khi duyệt web của người dùng do hệ thống lọc nội dung gây ra

Trang 28

Kho dữ liệu lọc được bổ sung, cập nhật thường xuyên từ kết quả của thành phần Lọc nội dung

Proxy cache:

Proxy cache là cách gọi tắt của “Web proxy cache”, chức năng chính của nó là thực hiện lưu trữ các trang web được truyền qua nó, và khi có một yêu cầu mới về trang web đó thì sẽ được đáp ứng nhanh hơn Proxy cache đã làm giảm đáng kể về băng thông và thời gian đáp ứng yêu cầu của người dùng khi duyệt web Đây được coi là vấn đề cố hữu trong giải quyết vấn đề lưu lượng Internet Bởi vì trang web lúc này đã được lưu lại trên máy chủ (proxy) cục bộ nên khi có một yêu cầu mới tới trang web nó sẽ được đáp ứng ngay từ máy chủ cục bộ Hiệu năng của máy chủ (proxy) càng được thể hiện rõ nét khi có nhiều trang web được duyệt trên cùng một địa chỉ website Proxy cache có cơ chế lưu trữ các hình ảnh và file con của các trang web đã được duyệt qua, khi người sử dụng chuyển qua duyệt một trang web mới nhưng trên cùng site đó, nếu trong trang web mới có sử dụng lại các hình ảnh

đã có của trang web cũ thì proxy cache sẽ tự động cung cấp tới người sử dụng mà không qua việc lấy lại từ site

Trong hệ thống tường lửa lọc nội dung proxy cache được sử dụng với các mục đích sau:

o Tổng hợp các gói tin thành một trang web có nội dung hoàn chỉnh cung cấp đầu vào cho thành phần lọc nội dung

o Tăng tốc độ trong việc phân tích các trang web khác trên cùng một site: do không phải lấy lại những file đã có

o Giảm thiểu thời gian bị trì hoãn khi duyệt web của người dùng do hệ thống lọc nội dung gây ra

Lọc nội dung:

Thành phần Lọc nội dung là thành phần chính của tường lửa lọc nội dung Một tường lửa thông thường sẽ thực hiện lọc các trang web thông qua thông tin đã biết của trang web đó (IP, URL) Tuy nhiên, số lượng trang web thì rất lớn và không ngừng phát triển nên nhiều trang web đi qua được tường lửa thông thường

mà không được kiểm soát về nội dung Thành phần Lọc nội dung là thành phần bổ sung cho tường lửa thông thường, thực hiện nhiệm vụ kiểm soát những trang web hiện đang chưa có thông tin lưu trữ trong Kho dữ liệu lọc

Trang 29

Đối với tường lửa lọc nội dung thì mọi trang web đều được kiểm duyệt, tuy nhiên những trang web được kiểm duyệt bởi thành phần Lọc nội dung sẽ chỉ mang tính tương đối bởi các thuật toán lọc nội dung hiện nay đều chưa đạt độ chính xác tuyệt đối

Thành phần lọc nội dung bao gồm nhiều thành phần con, mỗi thành phần thực hiện một chức năng riêng biệt: xử lý dữ liệu dạng text, dạng hình ảnh, dạng nén,…

3.2 Giải pháp tại cổng Internet của mạng LAN

3.2.1 Kiến trúc tổng quan

Về cơ bản giải pháp lọc nội dung cho một mạng LAN của một đơn vị (trường học, doanh nghiệp, điểm truy cập Internet công cộng,…) tương tự như hệ thống lọc nội dung tại ISP nhưng có quy mô nhỏ hơn [ 3, 14, 15, 16, 17 ]

Một hệ thống lọc nội dung bao gồm các thành phần:

o Bộ quyết định

o Lọc cụ thể, lọc loại trừ

o Proxy cache

o Lọc nội dung

Hình 3.3 Gateway Filter lọc cho một mạng LAN

3.2.2 Giải thuật và cơ chế hoạt động

Giải thuật lọc nội dung (text/html) cho cổng Internet của một mạng LAN (hiện đang được công ty Điện toán và Truyền số liệu áp dụng triển khai trên 20.000 đại

lý Internet công cộng):

Trang 30

Hình 3.4 Sơ đồ giải thuật lọc cho mạng LAN 1

Trang 31

Module WebFilter sẽ lắng nghe kết nối tại port 8080, nếu nhận được kết nối

và request HTTP từ client thì nó sẽ kiểm tra xem có phải kết nối này tới Proxy (người dùng tự thiết lập thông số Proxy bằng tay, hoặc Firewall tự động chuyển kết nối port 80 sang port 8080) nếu sai thì hủy kết nối, nếu đúng kiểm tra URL Chi tiết giải thuật được mô tả trong hình Các bước chính thực hiện của giải thuật gồm:

o WebFilter thực hiện kiểm tra xác định nhận dạng của người dùng bằng cách thử: xác thực header proxy, NTLM, nhận dạng server

o Kiểm tra URL có chứa nội dung hợp lệ hay không?

o Bộ lọc tạm thời có cho qua hay không?

o IP của client, username, domain request hoặc URL có nằm trong danh sách được phép hay không?

o Có cần quét nội dung trang web tương ứng với URL không?

o Có phải trang web là ngoại lệ hoặc trong chế độ cookie bypass và request không phải là banned hoặc trong chế độ quét nội dung không? Nếu đúng thì chuyển yêu cầu header của client tới proxy, nếu sai thì kiểm tra tiếp: cho phép banner hoặc HTTPS request và không trong chế độ bypass/exception? Nếu đúng thì kiểm tra xem request có phải banned không và kiểm tra HTTPS Nếu sai thì chuyển yêu cầu header của client tới proxy, nhận các header trả lại từ proxy (chuyển sang sơ đồ giải thuật tiếp theo)

Trang 32

Hình 3.5 Sơ đồ giải thuật lọc cho mạng LAN 2

o Có trong chế độ bypass?

o Có trong chế độ exception?

o Kiểm tra MIME type trả lại

o Kiểm tra phần mở rộng trả lại

o Kiểm tra Proxy header

o Chuyển sang sơ đồ giải thuật tiếp theo

Trang 33

Hình 3.6 Sơ đồ giải thuật lọc cho mạng LAN 3

o Kiểm tra: cache URL là enabled và không trong chế độ scanning; hoặc cache URL được quét là enabled Nếu đúng, kiểm tra xem URL có nằm trong clean cache không? Nếu URL nằm trong clean cache thì chuyển sang sơ đồ giải thuật tiếp theo

o Tải body từ Proxy

o Có trong chế độ scanning? Nếu có: thực hiện quét nội dung

o Có trong chế độ bypass hoặc exception? Nếu không: thực hiện lọc nội dung nếu kiểu MIME là plaintext

o Chuyển sang sơ đồ giải thuật tiếp theo

Trang 34

Hình 3.7 Sơ đồ giải thuật lọc cho mạng LAN 4

o Tải phần còn lại của body từ proxy (nếu có)

o Nếu URL không có trong cache, header phù hợp, và nội dung dạng text hoặc caching URL đã được search, thì thêm URL vào cache

o Forward header từ Proxy tới client

o Kiểm tra xem phần body đã được tải xuống và lưu trữ hay chưa Nếu rồi thì gửi cho client phần nội dung bypass Nếu chưa thì forward body từ proxy tới client

3.3 Giải pháp trực tiếp trên máy tính cá nhân

Giải pháp tường lửa lọc nội dung trên máy tính cá nhân là giải pháp triển khai trực tiếp trên từng máy tính, nó thực hiện kiểm soát nội dung truy cập Internet vào/ra trên máy tính đó

Có thể nói đây là giải pháp có tính ‘phân tán’ cao nhất, vì hoạt động quản lý trực tiếp trên một máy tính thay vì cổng Internet mạng LAN, cổng Internet quốc gia Phần mềm lọc nội dung truy cập Internet sẽ được cài đặt trực tiếp trên hệ điều hành của người dùng

Thành phần của tường lửa lọc nội dung cá nhân bao gồm:

Trang 35

o Thành phần Lấy nội dung

có thể chia ra thành những loại sau:

3.3.1 User mode: lấy nội dung từ lớp ứng dụng (Application)

Việc kiểm soát nội dung truy cập Internet của người sử dụng sẽ được thực hiện trực tiếp trên các ứng dụng (trình duyệt) [ 3 ]

Tường lửa lọc nội dung thực hiện lấy các thông tin:

o Địa chỉ truy cập

o Dữ liệu trong thẻ meta

o Nội dung: text, hình ảnh,…

Ngày đăng: 17/02/2014, 20:41

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
1. Cục Công nghệ Tin học nghiệp vụ Bộ Công An (03/2008), “Nghiên cứu, phát triển hệ thống lọc nội dung hỗ trợ quản lý và đảm bảo an toàn – an ninh thông tin trên mạng Internet”, tài liệu kỹ thuật Sách, tạp chí
Tiêu đề: Nghiên cứu, "phát triển hệ thống lọc nội dung hỗ trợ quản lý và đảm bảo an toàn – an "ninh thông tin trên mạng Internet
2. Trường Đại học Công nghệ - ĐHQGHN (2008), “Nghiên cứu, phân tích và đánh giá các giải thuật lọc hình ảnh trên Internet”, tài liệu kỹ thuật Sách, tạp chí
Tiêu đề: Nghiên cứu, phân tích và "đánh giá các giải thuật lọc hình ảnh trên Internet
Tác giả: Trường Đại học Công nghệ - ĐHQGHN
Năm: 2008
3. Công ty Điện toán và Truyền số liệu (12/2006), “Giải pháp ngăn chặn truy cập nội dung Internet độc hại”, tài liệu kỹ thuật.Tiếng Anh Sách, tạp chí
Tiêu đề: “Giải pháp ngăn chặn truy "cập nội dung Internet độc hại”
4. Paul Greenfield, Peter Rickwood, Huu Cuong Tran (2001). Effectiveness of Internet Filtering Software Products. NetAlert and the Australian Broadcasting Authority Sách, tạp chí
Tiêu đề: NetAlert and the Australian
Tác giả: Paul Greenfield, Peter Rickwood, Huu Cuong Tran
Năm: 2001
5. Sara Carro Martínez (2004). POESIA: Public Open-source Environment for a Safer Internet Access (Evaluation of POESIA Beta Release) In Workshop Present and Future of Open-source Content-based Web Filtering, Pisa, Italia Sách, tạp chí
Tiêu đề: Workshop "Present and Future of Open-source Content-based Web Filtering
Tác giả: Sara Carro Martínez
Năm: 2004
6. Yi Zhang (2005). Bayesian Graphical Models for Adaptive Filtering. PhD. Thesis, School of Computer Science, Carnegie Mellon University Sách, tạp chí
Tiêu đề: PhD
Tác giả: Yi Zhang
Năm: 2005

HÌNH ẢNH LIÊN QUAN

Hình 3.1. Hệ thống tưởng lửa hiện tại của các ISP - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 3.1. Hệ thống tưởng lửa hiện tại của các ISP (Trang 24)
Hình 3.2. Kiến trúc hệ thống lọc nội dung Internet tại ISP - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 3.2. Kiến trúc hệ thống lọc nội dung Internet tại ISP (Trang 25)
Hình 3.4.  Sơ đồ giải thuật lọc cho mạng LAN 1 - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 3.4. Sơ đồ giải thuật lọc cho mạng LAN 1 (Trang 30)
Hình 3.5. Sơ đồ giải thuật lọc cho mạng LAN 2 - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 3.5. Sơ đồ giải thuật lọc cho mạng LAN 2 (Trang 32)
Hình 3.6. Sơ đồ giải thuật lọc cho mạng LAN 3 - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 3.6. Sơ đồ giải thuật lọc cho mạng LAN 3 (Trang 33)
Hình 3.7. Sơ đồ giải thuật lọc cho mạng LAN 4 - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 3.7. Sơ đồ giải thuật lọc cho mạng LAN 4 (Trang 34)
Hình 3.9. Sơ đồ giải thuật User mode (lấy nội dung lớp ứng dụng) - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 3.9. Sơ đồ giải thuật User mode (lấy nội dung lớp ứng dụng) (Trang 37)
Hình 3.10. Hook Firewall ở User Mode - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 3.10. Hook Firewall ở User Mode (Trang 40)
Hình 3.11. Sơ đồ giải thuật User mode (lấy nội dung lớp phiên) - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 3.11. Sơ đồ giải thuật User mode (lấy nội dung lớp phiên) (Trang 41)
Hình 3.12. Các chế độ Hook Firewall trên Windows - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 3.12. Các chế độ Hook Firewall trên Windows (Trang 43)
Hình 4.1.  Sơ đồ giải thuật lọc nội dung trực tiếp trên máy tính cá nhân - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 4.1. Sơ đồ giải thuật lọc nội dung trực tiếp trên máy tính cá nhân (Trang 49)
Hình 4.3. Sơ đồ xử lý tổng quát giải pháp lọc nội dung - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 4.3. Sơ đồ xử lý tổng quát giải pháp lọc nội dung (Trang 52)
Hình 4.4. Quy trình ghi log truy cập - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 4.4. Quy trình ghi log truy cập (Trang 52)
Hình 4.15. Tham số Seq và Ack gói tin kế tiếp - nghiên cứu giải pháp lọc nội dung internet tại máy tính cá nhân và xây dựng phần mềm
Hình 4.15. Tham số Seq và Ack gói tin kế tiếp (Trang 60)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w