1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng giải pháp quảng cáo trực tuyến theo ngữ cảnh tiếng việt

26 164 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 26
Dung lượng 1,47 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Luận văn tiến hành thực hiện xây dựng thử nghiệm một hệ thống máy quảng cáo AdCenter cho phép phân phối “động” các quảng cáo trực tuyến trên mạng Internet.. Các trang web nhận đăng quản

Trang 1

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN MINH TRÍ

XÂY DỰNG GIẢI PHÁP QUẢNG CÁO TRỰC TUYẾN

THEO NGỮ CẢNH TIẾNG VIỆT

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2017

Trang 2

Công trình được hoàn thành tại TRƯỜNG ĐẠI HỌC BÁCH KHOA

Người hướng dẫn khoa học: PGS.TS HUỲNH CÔNG PHÁP

Phản biện 1: TS NGUYỄN VĂN HIỆU

Phản biện 2: TS NGUYỄN THIỆN NGHĨA

Luận văn được bảo vệ trước Hội đồng chấm Luận văn tốt nghiệp thạc sĩ kỹ thuật chuyên ngành Khoa học máy tính họp tại Trường Đại học Trà Vinh

vào ngày 16 tháng 09 năm 2017

Có thể tìm hiểu luận văn tại:

- Trung tâm Học liệu, Đại học Đà Nẵng tại Trường Đại học Bách khoa

- Thư viện Khoa Công nghệ thông tin, Trường Đại học Bách khoa – Đại

học Đà Nẵng

Trang 3

MỞ ĐẦU

Công nghệ thông tin ngày càng phát triển, ảnh hưởng mạnh mẽ đến tất cả các lĩnh vực đời sống xã hội Sự xuất hiện của internet đã tạo điều kiện cho khoảng cách thế giới ngày càng thu hẹp lại, xu hướng kết nối cộng đồng chia sẻ thông tin ngày càng hình thành rõ rệt Theo số liệu thống kê, tốc độ tăng trưởng người dùng internet từ năm 2009- 2017 con

số này tăng gần gấp đôi, từ 27% lên đến 52 % dân số ( Đinh Lê Đạt – chuyên gia về Big Data in Advertising, Data-Driven Marketing, AdTechVietnam Evangelist, 2015) Số lượng người dùng internet ngày càng tăng, kéo theo sự thay đổi xu hướng mua sắm hàng hóa, dịch vụ cũng thay đổi theo chiều hướng khác

Theo thống kê của Cục Quảng cáo tương tác (IAB), doanh thu của quảng cáo trực tuyến tại Mĩ đạt $16.9 tỉ trong năm 2006 Năm 2016 doanh thu $72.5 tỉ , tăng hơn 4 lần trong vòng một thập kỷ Chính vì lẽ

đó mà bên cạnh các kênh quảng cáo truyền thống, các quảng cáo ngày nay đang dần chuyển một phần sang kênh thông tin trực tuyến Tại Việt Nam, doanh thu quảng cáo trực tuyến tăng liên tục từ 2010- 2015 Cụ thể: năm 2010 là $26.1 triệu, đến năm 2015 $329 triệu Chứng tỏ sức hút mạnh mẽ của quảng cáo trực tuyến đối với doanh nghiệp Tại thị trường Việt Nam, Vaughan Ryan - CEO Nielsen Vietnam, đã xác định

xu thế tiêu dùng 2016: khả năng tự chủ mua sắm, mua sắm cho bản thân, luôn vận động và nhu cầu kết nối internet cao Tuy nhiên, câu hỏi đặt ra: quảng cáo trực tuyến tại Việt Nam đã được đầu tư đúng mức, có nhiều tiện ích tương xứng với kỳ vọng của người tiêu dùng chưa? Nếu quảng cáo được đặt hợp lý thì hiệu quả quảng cáo sẽ cao hơn trong khi chi phí cũng sẽ giảm đáng kể Bên cạnh đó, người dùng cũng cảm thấy thích quảng cáo hơn vì chúng liên quan đến nội dung mà họ đang tìm kiếm Hình thức quảng cáo theo ngữ cảnh sẽ là giải pháp hiệu quá, góp phần định vị sản phẩm của doanh nghiệp

Luận văn tiến hành thực hiện xây dựng thử nghiệm một hệ thống

máy quảng cáo AdCenter cho phép phân phối “động” các quảng cáo

trực tuyến trên mạng Internet Các trang web nhận đăng quảng cáo của

AdCenter sẽ có các quảng cáo được tự động thay đổi cho phù hợp với

nội dung hiện tại

Luận văn tập trung tìm hiểu quảng cáo trực tuyến, quảng cáo theo ngữ cảnh; kỹ thuật rút trích văn bản trên trang web bất kỳ, kỹ thuật rút trích từ khóa, xây dựng thử nghiệm hệ thống công cụ quảng cáo theo ngữ cảnh Bắng cách sử dụng phương pháp nghiên cứu lý thuyết và thực nghiệm

Trang 4

Luận văn chia thành 3 chương:

Chương 1- Tổng quan về hệ thống quảng cáo theo ngữ cảnh Chương này giới thiệu những vấn đề cơ bản về quảng cáo, quảng cáo trực tuyến, quảng cáo theo ngữ cảnh, mô hình Ad center

Chương 2- Thiết kế và tổ chức nghiên cứu Chương này trình bày

kỹ thuật rút trích nội chung chính của trang web bất kỳ, kỹ thuật rút trích

từ khóa, đề xuất mô hình tiếp cận của luận văn

Chương 3- Thử nghiệm hệ thống quảng cáo trực tuyến, Chương này trình bày thiết kế hệ thống , đánh giá hệ thống

Chương 1 TỔNG QUAN VỀ HỆ THỐNG QUẢNG CÁO THEO

NGỮ CẢNH 1.1 Giới thiệu quảng cáo

Quảng cáo đã có ngay từ buổi đầu lịch sử thành văn

Vào năm 1450 khi Gutenberg chế ra máy in, sự kiện này tạo bước chuyển biến trong lịch sử quảng cáo Văn bản quảng cáo đầu tiên bằng tiếng Anh xuất hiện năm 1478 Năm 1622, việc quảng cáo bùng lên khi

ra đời tờ báo đầu tiên bằng tiếng Anh, tờ The Weekly News Đến thế

kỷ XVII, từ khi xuất hiện các thành thị phương Tây và hoạt động buôn bán phát triển trầm rộ với sự ra đời của áp-phích, quảng cáo đã phổ biến và như những tờ áp-phích cũng được in trên giấy (sơn quét lên vải, lên tường)

Đến năm 1760 lần đầu tiên tờ Gazette đăng quảng cáo về một quyển sách sắp xuất bản

Giữa thế kỷ XIX và bước sang thế kỷ XX, với việc phát minh ra truyền thanh và truyền hình đã đẩy công nghệ quảng cáo tiến xa hơn Trong những năm đầu của thế kỷ XXI với sự phát triển như vũ bão của khoa học công nghệ trong tất cả các lĩnh vực Từ khi Internet xuất hiện

và phát triển thì quảng cáo trên Internet đã trở thành một công nghệ mới hay nói cách khác là tạo ra một cuộc cách mạng về quảng cáo Quảng cáo phát triển mạnh nhất ở Hoa Kỳ Ben Flanklin đã được gọi là cha đẻ của nghề quảng cáo Mỹ với tờ Gazette của ông, xuất bản lần đầu năm 1929

Quảng cáo là những hình thức trình bày gián tiếp và khuyếch trương ý tưởng, sản phẩm hay dịch vụ được người bảo trợ nhất định trả tiền

Ngày nay quảng cáo đã có những bước phát triển mới và được tiến hành thông qua các phương tiện thông tin đại chúng như: truyền hình, báo chí, phát thanh, quảng cáo qua bưu điện và đặc biệt, là quảng cáo trực tuyến qua Internet

Trang 5

1.2 Quảng cáo trực tuyến

Quảng cáo trực tuyến là một loại hình quảng cáo được thể hiện trên Internet và đặc biệt là các trang web

Theo thống kê số lượng người dùng internet từ 2000 đến năm 2015, tăng từ 0.3% đến 47.8% Tạo điều kiện thuận lợi, thúc đẩy quảng cáo trực tuyến phát triển

Quảng cáo trực tuyến cung cấp thông tin, đẩy nhanh tiến độ giao dịch giữa người mua và người bán, khách hàng có thể tương tác với quảng cáo, có thể nhấn vào quảng cáo để lấy thông tin cùng với mẫu mã sản phẩm và khách hàng có thể mua sản phẩm từ các quảng cáo trực tuyến (Cooper và Schindler, 2006) Quảng cáo trực tuyến đã tạo cơ hội cho các nhà quảng cáo nhắm chính xác vào khách hàng của mình, và giúp

họ tiến hành quảng cáo theo đúng với sở thích và thị hiếu của người tiêu dùng Các phương tiện thông tin đại chúng khác cũng có khả năng nhắm chọn, nhưng mạng Internet thì tính định vị sản phẩm đối với khách hàng thể hiện rõ nét

Công nghệ ngày càng phát triển, mở ra nhiều cơ hội mới, rất nhiều hình thức quảng cáo trực tuyến đã xuất hiện Một vài công ty tiến hành quảng cáo thông qua web site bởi những pop-up, như DoubleClick, AdForce và Windwire Họ cung cấp một vài thông tin hình ảnh và trình duyệt web sẽ thực thi một số công việc khi người dùng click vào một quảng cáo

1.2.1 Các đặc điểm của quảng cáo trực tuyến

Những ưu điểm của quảng cáo trực tuyến: khả năng nhắm chọn, khả năng theo dõi, tính tương tác

Hạn chế của quảng cáo trực tuyến: máy tính phải được nối mạng Internet, người dùng phải có kỹ năng duyệt web, các văn bản và chính sách đang trong quá trình hoàn thiện, còn nhiều kẽ hở cho lừa đảo trực tuyến phát triển cũng làm giảm độ tin cậy của quảng cáo trực tuyến Định giá quảng cáo trực tuyến: một số thuật ngữ thông dụng dùng

để tính giá cho quảng cáo như CPM (Cost Per Impression: Trả tiền trên tổng số lần truyền phát quảng cáo) và CPC (Cost per click: trả tiền cho mỗi lần có khách hàng nhấn vào liên kết đến website)

1.2.2 Những hình thức quảng cáo trực tuyến cơ bản

Quảng cáo trực tuyến tại Việt Nam hiện nay thường theo các hình thức sau: thông qua các cỗ máy tìm kiếm., đặt logo hoặc banner tại các website có lượng người truy cập lớn, thông qua hệ thống thư điện tử (email), quảnng cáo đa phương tiện bằng cách ứng dụng công nghệ mới nhất tạo ra các mẩu quảng cáo sản phẩm Phần mềm thông dụng là AdobeFlash

Doanh thu quảng cáo trực tuyến tại Việt Nam, năm 2009 đạt

Trang 6

khoảng 278 tỉ VNĐ, trong đó quảng cáo hiển thị trực tiếp (banner, buttons) chiếm ¾ doanh thu, thị phần của search engine marketing chiếm 8- 10%, trong khi loại hình này ở với các nước phát triển hơn 50% (Úc, Mỹ, Singapore)

Đến năm 2015, thị trường quảng cáo trực tuyến đã có chiều hướng tích cực, theo báo cáo của Nielsen, người tiêu dùng Việt Nam tin tưởng nhiều nhất vào quảng cáo trên các công cụ tìm kiếm, tiếp đó là mạng xã hội, video trực tuyến, banner trực tuyến và thấp nhất là quảng cáo qua thiết bị di động Số liệu thống kê này cũng khá tương quan đối với thị trường khác (Châu Âu, Mĩ) Điều này chứng tỏ, sự tiệm cận và tiếp thu của quảng cáo trực tuyến của Việt Nam so với thế giới đã được cải thiện đáng kể

1.3 Tiếp cận quảng cáo theo ngữ cảnh

Thuật ngữ “quảng cáo theo ngữ cảnh” là một xu thế mới hiện nay

Hệ thống quảng cáo theo ngữ cảnh sẽ quét nội dung trên một trang web

để tìm kiếm các từ khoá và trả lại một danh sách những quảng cáo thích hợp có liên quan tới nội dung đang được xem trên trang web đó Nguyên tắc hoạt động của hệ thống quảng cáo theo ngữ cảnh là sẽ tự động xử lý, phân tích ngữ nghĩa, nội dung bài viết để hiển thị thông điệp của nhà mua quảng cáo đến đúng người đọc

Vì vậy quảng cáo sẽ được thay đổi theo nội dung Điều này giúp các nhà quảng cáo hướng đúng đến đối tượng người dùng của mình hơn, tránh quảng cáo tràn lan, không hiệu quả, và giảm được chi phí

1.4 Mô hình hệ thống quảng cáo theo ngữ cảnh AdCenter

Luận văn đã tiến hành xây dựng thử nghiệm hệ thống quảng cáo AdCenter để phục vụ cho nhu cầu quảng cáo trực tuyến theo mô hình cảm ngữ cảnh này Hệ thống được thiết kế như là một dịch vụ có thể thực hiện phân phối các quảng cáo (đã được đăng ký trước đó trên hệ thống) đến với người dùng Internet thông qua mạng lưới các trang web (các trang tin tức, diễn đàn, blog, v.v…) đồng ý nhận đăng các quảng cáo trực tuyến của hệ thống

Mô hình nghiệp vụ

Hệ thống AdCenter đóng vai trò như là nhà trung gian, tiếp nhận các quảng cáo từ các nhà quảng cáo (tạm gọi là Subcriber) và thực hiện phân phối lại các quảng cáo này trên mạng lưới các trang web thành viên của nó (xem hình 1-3) Các trang web thành viên này là các trang web mà chủ của nó (tạm gọi là Webmaster) muốn đăng quảng cáo để kiếm thêm thu nhập

Nhà quảng cáo không có mối liên hệ trực tiếp với các Webmaster,

họ chỉ liên hệ thông qua hệ thống AdCenter và mọi việc còn lại như chọn lựa trang web thành viên để đặt quảng cáo, tính phí, thời gian lưu

Trang 7

quảng cáo… sẽ do AdCenter tự động thực hiện Mọi quy trình hoạt động trên, bao gồm đăng ký, tiếp nhận quảng cáo, phân phối quảng cáo, v.v… đều được thực hiện tự động trên web thông qua hệ thống AdCenter

ra các quảng cáo có các từ khóa tương đồng Sau cùng nó tải về danh sách các quảng cáo được tìm thấy và hiển thị lên trang web thành viên

Trang 8

phân phối quảng cáo

Mạng lưới các trang web đăng ký thành viên

Website A Website B … Website N

Mô hình quảng cáo thông qua hệ thống trung gian AdCenter

Trang 9

Chương 2 THIẾT KẾ VÀ TỔ CHỨC NGHIÊN CỨU

Để tiếp cận vấn đề nghiên cứu, luận văn thực hiện theo trình tự sau: xác định nội dung chính của trang web bất kỳ Từ đó, xác định kỹ thuật rút trích từ khóa từ nội dung chính đã xác định

2.1 Phương pháp xác định nội dung chính của trang web

2.1.1 Đặt vấn đề

Xuất phát từ thực trạng khối lượng lưu trữ thông tin trên internet ngày càng tăng, nảy sinh yêu cầu khi truy cập vào các web, ta phải xác định được chủ đề (nội dung chính) của trang web

Vấn đề đặt ra là không phải toàn bộ nội dung của trang web đều cần thiết Chúng hay bị “nhiễu” bởi rất nhiều các thông tin khác nhau Nếu chỉ đơn thuần loại các chuỗi script HTML thì nội dung lọc được sẽ rất nhiều lỗi rác không cần thiết

Ngoài ra, trên cùng một trang web cũng có thể chứa nhiều chủ đề khác nhau Do đó, bóc tách khối nội dung chính chỉ có ý nghĩa khi trang web có chứa nội dung thật sự

Một khó khăn nữa là nội dung HTML của các trang web có cú pháp rất

“thân thiện” Có thể có tag mở, nhưng không có tag đóng, các mã HTML có thể bị khai báo sai cú pháp, chồng chéo lên nhau, vẫn được trình duyệt hiển thị bình thường mà không bắt lỗi

2.1.2 Mô hình đề xuất của luận văn

Luận văn sẽ tiếp cận vấn đề này theo hướng phân đoạn trang web bằng mô hình lược đồ (histogram)

Hướng tiếp cận này sẽ dựa trên phân tích cấu trúc cây Document Tree (DOM) của trang web Sử dụng bộ mã nguồn HTMLParser của dự án

mã nguồn mở HtmlAgilityPack để tạo thành cây Document Tree Sau khi phân tích được cấu trúc cây DOM của trang web, dựa trên cấu trúc này chúng ta sẽ thực hiện biểu diễn lại nội dung trang web như là một lược đồ histogram bằng cách rút trích ra các Content node Tiến hành mịn hóa Histogram để loại bỏ các Content node có độ quan trọng thấp

và chống bỏ sót các Content node có độ quan trọng cao Dựa vào nhận xét heuristic rằng “vùng nội dung chính của trang web sẽ là vùng tập trung mật độ văn bản cao nhất”, tiến hành gom nhóm trên histogram này để lọc ra được nhóm có giá trị mật độ ngưỡng cao nhất Đây được xem là nội dung chính của trang web

2.1.3 Biểu diễn nội dung web dưới dạng lược đồ Histogram

Trang web của chúng ta dưới dạng mã HTML, tuy nhiên ta không tập trung thực hiện theo hướng loại bỏ các các tag HTML bằng cách

sử dụng biểu thức chính quy (regular expression) Regular Expression

= “ <[^>]*>" ” để loại bỏ các tag HTML.Vì thực chất nội dung web

Trang 10

không chỉ là các tag HTML mà còn chứa các nội dung rác khác, trong khi đó cách này chỉ có thể áp dụng được cho các đoạn HTML nhỏ và riêng lẻ, không thể áp dụng cho toàn bộ trang web

Thực chất trang web được các trình duyệt hiểu như là một cấu trúc dạng cây, bao gồm các node cha và con có quan hệ với nhau theo một trình bày nhất định nào đó, được gọi là cây DOM (Document Object Model) Sử dụng phương pháp rút trích Text node, bằng cách thực hiện phân tích mã HTML để tạo thành cây biểu diễn nội dung trang web Document tree (DOM), trong đó các node của cây đại diện cho các thành phần khác nhau trong trang web Khi đó, phần văn bản chính sẽ được lấy ra bằng việc nối nội dung các node được đánh dấu với tag là

“TEXT” Tiếp cận theo phương pháp này có thể áp dụng cho toàn bộ trang web và cho kết quả chính xác hơn so với phương pháp loại bỏ các tag HTML Nhưng vẫn không thể khắc phục nhược điểm là không thể lọc nội dung rác để lấy phần nội dung chính mà chỉ đơn thuần là lấy toàn bộ văn bản text của trang web Để giải quyết vấn đề này, có thể tiếp cận theo hướng so sánh khung mẫu, phương pháp rút trích thông tin bằng cách so trùng hai trang web được xây dựng trên nền tảng nhận dạng mẫu cho phép rút trích chính xác vùng thông tin mang nội dung chính được tác giả Vũ Thanh Nguyên và Trang Nhật Quang thực hiện trong việc rút trích thông tin văn bản FSVM trên internet Phương pháp này cho phép so khớp trang web cần rút trích với một trang web mẫu

để xác định khung trình bày chung cho cả hai trang web cần rút trích,

từ đó đi đến rút trích ra nội dung nằm trong phần được xác định chứa nội dung chính trên trang mẫu Phương pháp này không đòi hỏi người

sử dụng phải biết về ngôn ngữ xây dựng hoặc phải chỉ ra khu vực nội dung cần bóc tách khi cách trình bày thay đổi do trang web mẫu có thể lấy trực tiếp từ trang chủ và có cùng cách trình bày với trang cần rút trích Tuy nhiên, đối với mỗi tên miền khác nhau, cần phải xác định được một trang web làm mẫu cho những trang khác Đây cũng là một hạn chế trong quá trình tự động hóa xác định nội dung chính của web Hoặc nghiên cứu tiêu biểu tiếp cận theo hướng phân tích mã HTML

và xử lý ngôn ngữ tự nhiên của Ngô Quốc Hưng, 2008, "Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet", Luận văn Thạc sỹ, tr.5-

10, ĐH KHTN TP.HCM phát triển giải pháp trong luận văn “Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet” Hướng tiếp cận này dựa trên phương pháp bóc tách nội dung nhờ vào phân tích mã HTML theo các bộ mã nguồn HTMLParser của dự án Majestic-12 để tạo thành cây DOM biểu diễn nội dung trang web Từ đó áp dụng các công cụ và kỹ thuật ngôn ngữ để quyết định phần nội dung chính

Cũng có thể tiếp cận theo hướng tổng thể hơn, tiếp cận theo hướng

Trang 11

phân đoạn trang web Ýtưởng chính là dựa trên độ liền mạch của các node trong cấu trúc cây DOM với một số nhận xét heuristic để thực hiện phân đoạn tự động trang web theo khu vực một cách trực quan

Do mỗi trang web được cấu thành từ những phần khác nhau như đầu trang, chân trang, phần nội dung phụ của trang và nhiều phần khác Các công cụ tìm kiếm mất rất nhiều thời gian để quyết định phần nào là quan trọng nhất của trang web Hướng tiếp cận này tiến hành phân đoạn trang web thành các khối (block) riêng biệt theo cách tiếp cận trực quan (vision-based approach), nghĩa là mắt người cảm nhận thấy ra sao thì sẽ phân đoạn như vậy Bằng cách sử dụng giải thuật VIPS (Vision- based Page Segmentation) được phát triển bởi phòng thí nghiệm của Microsoft

Cách đề xuất của luận văn: tiến hành xóa bỏ các node không liên quan, không thể nhìn thấy bởi người dùng trên trình duyệt như các node có tag là script, style, remark,.v.v… Sau đó bóc tách ra các node

là Text node, vì chỉ có những node này mới là node chứa nội dung văn bản thật sự Sau đó tổ chức lại các node này dưới dạng mảng các Text node, cùng với tỷ trọng (weight) của chúng Tỷ trọng của node ở đây được hiểu như là độ đo sự quan trọng của node đó trong trang web, và trong khuôn khổ luận văn này nó được hiểu heuristic như là kích thước của node đó, cụ thể là số ký tự của node đó Chúng ta có thể tùy ngữ cảnh mà cải thiện độ chính xác của giải thuật bằng cách mô tả chính xác hơn độ đo này bằng cách kết hợp thêm các yếu tố khác, ví dụ như

là vị trí của node, định dạng của node, độ liền mạch với các node xung quanh,… Độ đo này càng được thể hiện rõ thì độ chính xác của giải thuật càng cao

Các bước thực hiện được mô tả như trong giải thuật sau:

Giải thuật biểu diễn nội dung web dưới dạng lược đồ histogram

Input

DOM  mã nguồn HTML

Begin

Xóa bỏ các InvisibleNode

Với mỗi node trong cây DOM:

Nếu (node là VirtualTextNode) thì:

Trang 12

Lấy ví dụ với một trang web tin tức của báo Dân Trí đăng ngày

26/6/2017 tại

http://dantri.com.vn/suc-khoe/nhieu-truong-mam-non-bi-dich-tay-chan-mieng-tan-cong-20161013142234823.htm Trang web này

tương tự như vô vàn các trang tin khác trên Internet: có tựa đề, banner, hình ảnh, menu, và quảng cáo chiếm hầu hết khoảng trống, còn nội dung chính của nó thì chỉ được giới hạn ngay ở phần giữa của trang Ở phía cuối trang cũng có các quảng cáo, các liên kết, các nội dung thông tin bản quyền và các thông tin dùng để quản trị khác…

Khi chúng ta tiến hành phân tích trang web này bằng thuật toán trên, ta sẽ xây dựng được mảng các content node, và thu được lược đồ histogram sau:

Dantri.com.vn Histogram

Trang 13

Ở lược đồ histogram trên: Trục X chính là thứ tự của các node trong mảng (cũng chính là thứ tự của node trên cây DOM) Còn trục Y chính là tỷ trọng của node đó (cụ thể ở đây là chiều dài của node)

Vì thế, dựa trên ý tưởng này, ta sẽ tiến hành bóc tách nội dung chính của trang web bằng cách trích xuất nội dung của các node từ 23 đến 67,

là vùng tập trung mật độ cao nhất Tự mình kiểm chứng lại, ta thấy đó thật sự đúng là nội dung chính cần bóc tách của trang web này (các vùng quảng cáo, các menu, các liên kết banner,… đã bị loại bỏ)

Do đó, dựa vào đặc điểm này, ta sẽ thực hiện xác định nội dung chính của trang web bằng cách dựa vào phát biểu Heuristic sau: “ Với mỗi node trong mảng ContentNode, nếu tỷ trọng của node đó càng cao thì khả năng node đó chứa nội dung chính của trang web càng lớn ”

Mịn hóa Histogram

Trước khi tiến hành thực hiện kỹ thuật gom nhóm, chúng ta sẽ tiến hành tiền xử lý để mịn hóa bằng kỹ thuật lọc trung bình trên lược đồ histogram Giúp khử bớt nhiễu và nâng cao chất lượng của histogram + Sử dụng lọc trung bình (mean filter):

Chúng ta sẽ sử dụng lọc trung bình để mịn hóa lược đồ histogram trên Với mỗi phần tử trong histogram, ta sẽ tiến hành tính toán và cập nhật lại giá trị (tỷ trọng) của nó bằng cách dựa vào giá trị trung bình của các phần tử lân cận

Cụ thể ở đây, mỗi phần tử trong lược đồ sẽ được cập nhật lại bằng giá trị trung bình của r phần tử lân cận hai bên

Tính theo công thức sau:

( )

-i k r TEXTNodeArray i e

Với ek là phần tử thứ k trong mảng TEXTNodeArray

Ở trong khuôn khổ luận văn này, ta sẽ chọn bán kính r = 2

Sau khi thực hiện mịn hóa histogram trên bằng lọc trung bình

Ngày đăng: 01/04/2018, 12:28

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w