1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng giải pháp quảng cáo trực tuyến theo ngữ cảnh tiếng việt

71 3 0

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Xây dựng giải pháp quảng cáo trực tuyến theo ngữ cảnh tiếng việt
Tác giả Nguyễn Minh Trí
Người hướng dẫn PGS.TS. Huỳnh Công Pháp
Trường học Đại học Đà Nẵng - Trường Đại học Bách Khoa
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2017
Thành phố Đà Nẵng
Định dạng
Số trang 71
Dung lượng 3,77 MB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Hệ thống quảng cáo theo ngữ cảnh sẽ quét nội dung trên một trang web để tìm kiếm các từ khoá và trả lại một danh sách những quảng cáo thích hợp có liên quan tới nội dung đang được xem tr

Trang 1

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN MINH TRÍ

XÂY DỰNG GIẢI PHÁP QUẢNG CÁO TRỰC TUYẾN

THEO NGỮ CẢNH TIẾNG VIỆT

LUẬN VĂN THẠC SĨ KỸ THUẬT

Đà Nẵng - Năm 2017

Trang 2

ĐẠI HỌC ĐÀ NẴNG

TRƯỜNG ĐẠI HỌC BÁCH KHOA

NGUYỄN MINH TRÍ

XÂY DỰNG GIẢI PHÁP QUẢNG CÁO TRỰC TUYẾN

THEO NGỮ CẢNH TIẾNG VIỆT

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

LUẬN VĂN THẠC SĨ KỸ THUẬT

Người hướng dẫn khoa học: PGS.TS HUỲNH CÔNG PHÁP

Đà Nẵng - Năm 2017

Trang 3

LỜI CAM ĐOAN

Tác giả cam đoan đây là công trình nghiên cứu của tác giả

Các kết quả nghiên cứu và kết luận được thực hiện trên nghiên cứu thực

tế, không sao chép Việc trích dẫn nguồn gốc tài liệu và ghi tài liệu tham khảo được thực hiện theo đúng qui định

Tác giả luận văn

Nguyễn Minh Trí

Trang 4

mô hình có mịn hóa histogram với gom cụm; nghiên cứu kỹ thuật rút trích từ khóa bằng cách xác định độ quan trọng của từ dựa trên cách kết hợp độ phân bố cục bộ χ2 và độ đo toàn cục IDF trên văn bản tiếng Việt; xây dựng một hệ thống thử nghiệm Adcenter dựa trên 3 module chính và các module này phối hợp với nhau để đảm bảo hoạt động của luồng thông tin và dữ liệu trao đổi giữa client và server Kết quả hệ thống được xây dựng gồm: Giao diện Subcriber, Giao diện Webmaster và Hệ thống phân phối quảng cáo Tiến hành cài đặt thử nghiệm trên phạm vi đề xuất và đánh giá kết quả theo các tiêu chí, kết quả: hệ thống hoạt động đúng với mong muốn và đáp ứng được yêu cầu cơ bản của một hệ quảng cáo theo ngữ cảnh tiếng Việt

Từ khóa – quảng cáo trực tuyến, quảng cáo theo ngữ cảnh, adcenter, rút trích nội dung

trang web, rút trích từ khóa

Resolution of contextual advertising that using Vietnamese on the Internet

Internet advertising has become a new trend in business Enterprises exploit the strengths of the Internet to bring products quickly to reach consumers However, the information on internet that reaches to consumer often lack selection Building a contextual online advertising system will provide a viable to solve this problem The contextual online advertising system has been developed by researching and application of a method of automatically identifying the main content of a web page using a histogram model with clustering; Studying the technique of keyword extraction by determining the importance of the word based on the combination of local distribution χ2 and global IDF on the Vietnamese text; from this building an Adcenter testing system based on three main modules and modules that work together to ensure the flow of information and data exchanged between the client and the server The system that was built include: Subcriber Interface, Webmaster Interface and Ad Distribution System Conduct test installation on the proposed scope and evaluate the results according to the criteria and results: the system works properly and meets the basic requirements of a Vietnamese contextual advertising system

Key words – internet advertising, contextual advertising, adcenter, web scraping, keyword

extraction

Trang 5

MỤC LỤC

LỜI CAM ĐOAN i

TÓM TẮT LUẬN VĂN ii

MỤC LỤC iii

DANH MỤC CÁC BẢNG v

DANH MỤC CÁC HÌNH vi

MỞ ĐẦU 1

1 Lí do chọn đề tài 1

2 Mục tiêu 2

3 Đối tượng nghiên cứu 2

4 Phạm vi nghiên cứu 3

5 Phương pháp nghiên cứu 3

6 Ý nghĩa 3

CHƯƠNG 1 TỔNG QUAN VỀ QUẢNG CÁO THEO NGỮ CẢNH 4

1.1 Giới thiệu quảng cáo 4

1.2 Quảng cáo trực tuyến 5

1.2.1 Các đặc điểm của quảng cáo trực tuyến 7

1.2.2 Những hình thức quảng cáo trực tuyến cơ bản 9

1.3 Tiếp cận quảng cáo theo ngữ cảnh 10

1.4 Mô hình hệ thống quảng cáo theo ngữ cảnh AdCenter 11

CHƯƠNG 2 THIẾT KẾ VÀ TỔ CHỨC NGHIÊN CỨU 15

2.1 Các kỹ thuật xác định phần nội dung chính của trang web 15

2.1.1 Đặt vấn đề 15

2.1.2 Mô hình đề xuất của luận văn: 16

2.1.3 Phân tích nội dung trang web dưới dạng lược đồ Histogram 16

2.1.4 Phương pháp mịn hóa Histogram 25

2.1.5 Kỹ thuật gom nhóm trên Histogram 28

2.1.6 Kết quả thử nghiệm 29

2.2 Phương pháp trích xuất từ khóa tự động trên trang web Tiếng Việt 32

2.2.1 Đặt vấn đề 32

2.2.2 Một số nghiên cứu có liên quan 33

2.2.2.1 Hướng tiếp cận dựa trên máy học 33

2.2.2.2 Hướng tiếp cận dựa vào thống kê 33

2.2.3 Mô hình tiếp cận của luận văn 34

2.2.3.1 Tiền xử lý 35

2.2.3.2 Độ đo cục bộ chi-bình phương χ2 37

2.2.3.3 Chọn và gom nhóm các từ khóa phổ biến 37

2.2.3.4 Tính độ phân bố (χ2) của từ: 39

Trang 6

2.2.4 Độ đo toàn cục IDF 40

2.2.5 Độ đo kết hợp 40

2.2.6 Kết quả thử nghiệm 40

CHƯƠNG 3 THỬ NGHIỆM HỆ THỐNG QUẢNG CÁO TRỰC TUYẾN 42

3.1 Đặt vấn đề 42

3.2 Thiết kế hệ thống 42

3.3 Hoạt động của hệ thống 43

3.4 Kết luận chương 47

KẾT LUẬN 48

HƯỚNG PHÁT TRIỂN 48

TÀI LIỆU THAM KHẢO 50 PHỤ LỤC

QUYẾT ĐỊNH GIAO ĐỀ TÀI

BẢN SAO KẾT LUẬN CỦA HỘI ĐỒNG, BẢN SAO NHẬN XÉT CỦA CÁC PHẢN BIỆN

Trang 7

DANH MỤC CÁC BẢNG

2.1 Kết quả thử nghiệm bóc tách nội dung chính bằng phân đoạn trang web với các phép thử khác nhau 31 2.2 So sánh kết quả với phương pháp khác 31 2.3 Danh sách từ tách được cùng với tỷ lệ số lần xuất

2.5 Kết quả thử nghiệm rút trích từ khóa tự động và so

Trang 8

2.5 Lược đồ của trang web

http://dantri.com.vn/suc-khoe/nhieu-truong-mam-non-bi-dich-tay-chan-mieng-tan-cong 24

2.7 Lược đồ sau khi đã xử lý lọc trung bình 26

2.8 So sánh lược đồ trước (a) và sau (b) khi mịn hóa bằng lọc trung

2.9

Lược đồ nhìn lại dưới dạng điểm Phân đoạn trang web bằng cách

gom nhóm các node có tỷ trọng trội gần nhau Trong hình là 3 cụm

được thể hiện bằng 3 màu khác nhau

29

3.2 Nhà quảng cáo đăng nhập để đăng ký quảng cáo 44 3.3 Hệ thống dành cho WebMaster để lấy mã nhúng và tùy chỉnh giao

3.4 Hệ thống dành cho WebMaster để lấy mã nhúng và tùy chỉnh giao

3.5 Quảng cáo của AdCenter xuất hiện trên trang web(A) Tuổi Trẻ 46 3.6 Quảng cáo của Subcriber 2 xuất hiện trên trang web Master 3 46

Trang 9

MỞ ĐẦU

1 Lí do chọn đề tài:

Công nghệ thông tin ngày càng phát triển, ảnh hưởng mạnh mẽ đến tất cả các lĩnh vực đời sống xã hội Cùng với sự bùng nổ của thế giới công nghệ thì xu hướng tiếp cận và khai thác thông tin đã và đang được phát triển theo hướng hiện đại, khai thác hiệu quả thế mạnh của khoa học công nghệ Các cách tiếp cận từ sách, báo, tạp chí, phát thanh, truyền hình… dần thay đổi sang hình thức mới, phong phú hơn, đa dạng hơn đó là Internet Sự xuất hiện của internet đã tạo điều kiện cho khoảng cách thế giới ngày càng thu hẹp lại,

xu hướng kết nối cộng đồng chia sẻ thông tin ngày càng hình thành rõ rệt Internet

đã và đang chứng tỏ sức hút mạnh mẽ của mình trên rất nhiều lĩnh vực của đời sống

xã hội từ văn hóa, y học, giáo dục, kinh tế… Internet không còn là khái niệm xa lạ

và xa xỉ đối với hầu hết chúng ta như chục năm về trước Theo số liệu thống kê, tốc

độ tăng trưởng người dùng internet từ năm 2009- 2017 con số này tăng gần gấp đôi,

từ 27% lên đến 52 % dân số ( Đinh Lê Đạt – chuyên gia về Big Data in Advertising, Data-Driven Marketing, AdTechVietnam Evangelist, 2015) Số lượng người dùng internet ngày càng tăng, kéo theo sự thay đổi xu hướng mua sắm hàng hóa, dịch vụ cũng thay đổi theo chiều hướng khác Bắt kịp xu thế thay đổi hành vi của người dùng, trước đây ta thường hay đọc quảng cáo trên sách báo, tạp chí Gần hơn nữa

ta xem quảng cáo trên truyền hình hoặc nghe trên sóng phát thanh Và ngày nay, với Internet băng thông rộng, các quảng cáo đang dần thay đổi, người tiêu dùng đang có xu hướng chuyển sang xem quảng cáo trực tuyến Chiến lược tiếp thị của các công ty, doanh nghiệp cũng đang dần thay đổi để quảng bá sản phẩm đến người tiêu dùng hiệu quả hơn nhờ Inetrnet Việc thay đổi cách thức truyền thông nhằm tác động đến quyền chọn mua sản phẩm của người tiêu dùng ngày càng được chú ý đầu

tư và khai thác Hiệu quả từ internet mang lại chỉ tính riêng trong lĩnh vực kinh doanh, góp phần tăng doanh thu hiệu quả

Theo thống kê của Cục Quảng cáo tương tác (IAB), doanh thu của quảng cáo trực tuyến tại Mĩ đạt $16.9 tỉ trong năm 2006 Năm 2016 doanh thu $72.5 tỉ , tăng hơn 4 lần trong vòng một thập kỷ Chính vì lẽ đó mà bên cạnh các kênh quảng cáo truyền thống, các quảng cáo ngày nay đang dần chuyển một phần sang kênh thông tin trực tuyến

Tại Việt Nam, doanh thu quảng cáo trực tuyến tăng liên tục từ 2010- 2015 Cụ thể: năm 2010 là $26.1 triệu, đến năm 2015 $329 triệu Chứng tỏ sức hút mạnh mẽ của quảng cáo trực tuyến đối với doanh nghiệp Hình thức quảng cáo trực tuyến ngày càng thể hiện tính ưu việt của mình đối với kinh doanh Tại thị trường Việt Nam, Vaughan Ryan - CEO Nielsen Vietnam, đã xác định xu thế tiêu dùng 2016: khả năng tự chủ mua sắm, mua sắm cho bản thân, luôn vận động và nhu cầu kết nối internet cao (Hội nghị CEO thường niên “Kinh Tế Việt Nam – Triển Vọng

Trang 10

Năm 2016”, 11/2015) Như vậy, xu hướng tiêu dùng tại Việt Nam đang theo hướng tiếp cận với mua sắm trực tuyến Vì vậy, lĩnh vực thương mại điện tử nói chung và xét riêng quảng cáo trực tuyến sẽ chuyển biến theo hướng tích cực, được khai thác đầu tư Tuy nhiên, câu hỏi đặt ra: quảng cáo trực tuyến tại Việt Nam đã được đầu

tư đúng mức, có nhiều tiện ích tương xứng với kỳ vọng của người tiêu dùng chưa? Hay quanh quẩn vẫn chỉ là các quảng cáo được phân phối trên các trang web dưới dạng hình ảnh, banner Chính vì tính phổ biến và chia sẻ của internet, thông tin sản phẩm đến với người dùng rất đa dạng và thiếu chọn lọc Các quảng cáo dạng hình ảnh, banner hoàn toàn “tĩnh”, nghĩa là cho dù bạn vào trang web đó vào lúc nào đi nữa, bạn có thích chúng hay không, thì bạn sẽ luôn thấy chúng (nếu chưa bị gỡ xuống), cho dù nội dung của trang web có thay đổi ra sao đi nữa Quảng cáo dạng này rất không hiệu quả vì thông tin đến khách hàng bị nhiễu, không tập trung Mục tiêu của nhà quảng cáo là quảng cáo sản phẩm đến đúng khách hàng mình mong muốn Ví dụ như nếu muốn quảng cáo về xe máy thì nên đăng các quảng cáo của mình trên những trang web liên quan đến mua bán ô tô hoặc xe

cộ Điều này giúp các nhà quảng cáo hướng đúng đến phân khúc đối tượng người dùng của mình hơn, tránh quảng cáo tràn lan, không hiệu quả Nếu quảng cáo được đặt hợp lý thì hiệu quả quảng cáo sẽ cao hơn trong khi chi phí cũng sẽ giảm đáng kể Bên cạnh đó, người dùng cũng cảm thấy thích quảng cáo hơn vì chúng liên quan đến nội dung mà họ đang tìm kiếm Vì vậy, việc xác định khách hàng mục tiêu trong chiến lược quảng cáo rất quan trọng Hình thức quảng cáo theo ngữ cảnh sẽ là giải pháp hiệu quá, góp phần định vị sản phẩm của doanh nghiệp Đây chính là phương pháp quảng cáo “động” theo nội dung ngữ cảnh, cũng

là xu hướng quảng cáo mới trên thế giới

Từ nhu cầu thực tế trên, luận văn tiến hành thực hiện xây dựng thử nghiệm

một hệ thống máy quảng cáo AdCenter cho phép phân phối “động” các quảng

cáo trực tuyến trên mạng Internet Các trang web nhận đăng quảng cáo của

AdCenter sẽ có các quảng cáo được tự động thay đổi cho phù hợp với nội dung

hiện tại

2 Mục tiêu:

- Tìm hiểu quảng cáo trực tuyến, công cụ quảng cáo trực tuyến, quảng cáo theo

ngữ cảnh

- Tìm hiểu kỹ thuật rút trích văn bản trên trang web bất kỳ

- Tìm hiểu kỹ thuật rút trích từ khóa

- Xây dựng thử nghiệm hệ thống công cụ quảng cáo theo ngữ cảnh

3 Đối tượng nghiên cứu: quảng cáo trực tuyến, phương pháp đọc và bóc tách

nội dung chính của trang web, phương pháp rút trích từ khóa, quảng cáo theo ngữ cảnh

Trang 11

4 Phạm vi nghiên cứu:

Trong khuôn khổ của luận văn thuộc loại nghiên cứu và ứng dụng, tôi chỉ giới hạn nghiên cứu các vấn đề sau:

- Phương pháp tự động xác định phần nội dung chính của trang web theo hướng

phân đoạn trang web bằng mô hình lược đồ Histogram

- Kỹ thuật rút trích từ khóa trên văn bản tiếng Việt sẽ đi theo hướng tiếp cận

thống kê có bổ sung: kết hợp giữa độ đo cục bộ chi bình phương (χ2) với độ đo

toàn cục IDF

- Hệ thống chỉ ứng dụng được trên các trang web tiếng Việt

5 Phương pháp nghiên cứu:

Phương pháp lý thuyết

- Tiến hành thu thập và nghiên cứu các tài liệu có liên quan đến đề tài

- Nghiên cứu tổng quan về hệ thống quảng cáo trực tuyến theo ngữ cảnh

- Nghiên cứu phương pháp tự động xác định phần nội dung chính của một trang

web

- Nghiên cứu kỹ thuật rút trích từ khóa trên văn bản tiếng Việt

- Nghiên cứu các giải pháp thiết kế bộ công cụ quảng cáo trực tuyến theo ngữ

Trang 12

Chương 1 TỔNG QUAN VỀ QUẢNG CÁO THEO NGỮ CẢNH

1.1 Giới thiệu quảng cáo

Lịch sử quảng cáo:

Quảng cáo đã có ngay từ buổi đầu lịch sử thành văn Những nhà khảo cổ ở các

xứ quanh Địa Trung Hải đã đào được những dấu hiệu thông báo về các sự kiện và mời chào gì đó Những bức tường kẻ chữ ở La Mã thông báo những cuộc giác đấu những bức họa của xứ Phoenicia trên những tảng đá lớn dọc đường đi Đơn giản hơn họ chỉ viết tên đồ vật muốn bán lên cửa, lên các cột ngoài đường, một hình thức tiên phong của quảng cáo ngoài trời thời nay

Một hình thức quảng cáo cổ xưa khác là mõ rao (town crier) Trong thời Hoàng kim ở Hy Lạp, những người gõ mõ này đi khắp trong Athens thông báo về việc bán

nô lệ, trâu bò và các hàng khác

Một hình thức quảng cáo cổ xưa nữa là những dấu hiệu của người thợ thủ công ghi trên sản phẩm của mình, như đồ gốm chẳng hạn Khi uy tín người thợ đã lan truyền rộng, người mua sẽ tìm hàng có dấu hiệu riêng của họ giống như ngày nay ta tìm nhãn hiệu và tên hiệu của món hàng vậy

Vào năm 1450 khi Gutenberg chế ra máy in, sự kiện này tạo bước chuyển biến trong lịch sử quảng cáo Người quảng cáo không cần phải làm những dấu hiệu bằng tay nữa Văn bản quảng cáo đầu tiên bằng tiếng Anh xuất hiện năm 1478

Năm 1622, việc quảng cáo bùng lên khi ra đời tờ báo đầu tiên bằng tiếng Anh, tờ The Weekly News

Đến thế kỷ XVII, từ khi xuất hiện các thành thị phương Tây và hoạt động buôn bán phát triển trầm rộ với sự ra đời của áp-phích, quảng cáo đã phổ biến và như những tờ áp-phích cũng được in trên giấy (sơn quét lên vải, lên tường)

Đến năm 1760 lần đầu tiên tờ Gazette đăng quảng cáo về một quyển sách sắp xuất bản

Giữa thế kỷ XIX và bước sang thế kỷ XX, với việc phát minh ra truyền thanh

và truyền hình đã đẩy công nghệ quảng cáo tiến xa hơn Điều đó đã đưa quảng cáo đến từng nhà, từng người, từng ngành cho dù họ có muốn hay không

Trong những năm đầu của thế kỷ XXI với sự phát triển như vũ bão của khoa học công nghệ trong tất cả các lĩnh vực Những thành tựu rực rỡ của ngành công nghệ thông tin đã mở ra một thời kỳ phát triển mới của nền kinh tế Từ khi Internet xuất hiện và phát triển thì quảng cáo trên Internet đã trở thành một công nghệ mới hay nói cách khác là tạo ra một cuộc cách mạng về quảng cáo

Quảng cáo phát triển mạnh nhất ở Hoa Kỳ Ben Flanklin đã được gọi là cha đẻ của nghề quảng cáo Mỹ với tờ Gazette của ông, xuất bản lần đầu năm 1929 Nhiều yếu tố khiến Hoa Kỳ trở thành cái nôi của ngành quảng cáo Thứ nhất, Hoa Kỳ tiến

Trang 13

thuyết phục khách hàng mua nhiều hơn Thứ hai, mạng lưới giao thông phát triển tốt khiến việc chuyên chở hàng hóa và mở rộng phương tiện quảng cáo trở nên dễ dàng Thứ ba, việc áp dụng cưỡng bách giáo dục từ 1813 làm tăng số người biết chữ và khiến báo chí phát triển Việc phát minh radio và TV sau này cũng tạo thành hai phương tiện truyền thông cực kỳ thuận lợi cho quảng cáo

Định nghĩa quảng cáo:

Theo Robert Leduc “Quảng cáo là tất cả những phương tiện thông tin và thuyết phục quần chúng mua một món hàng hay một dịch vụ"

Hiệp Hội Tiếp Thị Hoa Kỳ AMA (American Marketing Association) để định nghĩa quảng cáo như sau:

1 Quảng cáo là một hoạt động tốn tiền (paid form)

2 Dựa vào môi thể, không dựa vào con người (non personal)

3 Để loan báo, chào mời về một ý kiến, sản phẩm hay dịch vụ (goods / servives)

4 Do một người cậy quảng cáo có danh tánh rõ ràng (identified sponsor) Quảng cáo là những hình thức trình bày gián tiếp và khuyếch trương ý tưởng, sản phẩm hay dịch vụ được người bảo trợ nhất định trả tiền

Ngày nay quảng cáo đã có những bước phát triển mới và được tiến hành thông qua các phương tiện thông tin đại chúng như: truyền hình, báo chí, phát thanh, quảng cáo qua bưu điện và đặc biệt, là quảng cáo trực tuyến qua Internet

1.2 Quảng cáo trực tuyến

Quảng cáo trực tuyến là một loại hình quảng cáo được thể hiện trên Internet

và đặc biệt là các trang web

Quảng cáo trực tuyến ngày càng đóng vai trò quan trọng trong kỷ nguyên công nghệ thông tin, đặc biệt là trong bối cảnh công nghệ web phát triển như vũ bão như hiện nay

Với các cỗ máy tìm kiếm ngày càng hoàn thiện, hệ thống email, website tích hợp nhiều tiện ích, công nghệ mới và nhiều dịch vụ hấp dẫn ra đời, Internet đang thuyết phục hàng triệu người trở thành một phần của mạng lưới đầy quyền lực này mỗi ngày

Theo thống kê số lượng người dùng internet từ 2000 đến năm 2015, tăng từ 0.3% đến 47.8% Tạo điều kiện thuận lợi, thúc đẩy quảng cáo trực tuyến phát triển

Trang 14

Quảng cáo trực tuyến cung cấp thông tin, đẩy nhanh tiến độ giao dịch giữa người mua và người bán, khách hàng có thể tương tác với quảng cáo, có thể nhấn vào quảng cáo để lấy thông tin cùng với mẫu mã sản phẩm và khách hàng có thể mua sản phẩm từ các quảng cáo trực tuyến (Cooper và Schindler, 2006) Quảng cáo trực tuyến đã tạo cơ hội cho các nhà quảng cáo nhắm chính xác vào khách hàng của mình, và giúp họ tiến hành quảng cáo theo đúng với sở thích và thị hiếu của người tiêu dùng Các phương tiện thông tin đại chúng khác cũng có khả năng nhắm chọn, nhưng mạng Internet thì tính định vị sản phẩm đối với khách hàng thể hiện rõ nét

Trang 15

Năm 1994, quảng cáo trực tuyến bắt đầu xuất hiện trên trình duyệt web thương mại đầu tiên, Netscape Navigator 1.0, dưới hình thức là các banner quảng cáo Những quảng cáo đầu tiên trên web là những nội dung tĩnh hay logo của các công ty Chúng thường xuất hiện ở đầu mỗi trang web vì đó thường là nơi dễ được quan sát nhất

Khi công nghệ ngày càng phát triển, mở ra nhiều cơ hội mới, rất nhiều hình thức quảng cáo trực tuyến đã xuất hiện Một vài công ty tiến hành quảng cáo thông qua web site bởi những pop-up, như DoubleClick, AdForce và Windwire Họ cung cấp một vài thông tin hình ảnh và trình duyệt web sẽ thực thi một số công việc khi người dùng click vào một quảng cáo

1.2.1 Các đặc điểm của quảng cáo trực tuyến

Những ưu điểm của quảng cáo trực tuyến:

Khả năng nhắm chọn: Nhà quảng cáo trên mạng có rất nhiều khả năng nhắm chọn mới Họ có thể nhắm vào các công ty, các quốc gia hay khu vực địa lý cũng như họ có thể sử dụng cơ sở dữ liệu để làm cơ sở cho tiếp thị trực tiếp Họ cũng có thể dựa vào sở thích cá nhân và hành vi của người tiêu dùng để nhắm vào đối tượng thích hợp

Khả năng theo dõi: Các nhà tiếp thị trên mạng có thể theo dõi hành vi của người sử dụng đối với nhãn hiệu của họ và tìm hiểu sở thích cũng như mối quan tâm của những khách hàng triển vọng Ví dụ, một hãng sản xuất xe hơi có thể theo dõi hành vi của người sử dụng qua website của họ và xác định xem có nhiều người quan tâm đến quảng cáo của họ hay không? Các nhà quảng cáo cũng có thể xác định được

Trang 16

hiệu quả của một quảng cáo (thông qua số lần quảng cáo được nhấn, số người mua sản phẩm, và số lần tiến hành quảng cáo,…) nhưng điều này rất khó thực hiện đối với kiểu quảng cáo truyền thống như trên tivi, báo chí và bảng thông báo Tính linh hoạt và khả năng phân phối: Một quảng cáo trên mạng được truyền tải 24/24 giờ một ngày, cả tuần, cả năm Hơn nữa, chiến dịch quảng cáo có thể được bắt đầu cập nhật hoặc huỷ bỏ bất cứ lúc nào Nhà quảng cáo có thể theo dõi tiến độ quảng cáo hàng ngày, xem xét hiệu quả quảng cáo ở tuần đầu tiên và có thể thay thế quảng cáo ở tuần thứ hai nếu cần thiết Điều này khác hẳn kiểu quảng cáo trên báo chí, chỉ có thể thay đổi quảng cáo khi có đợt xuất bản mới, hay quảng cáo tivi với mức chi phí rất cao cho việc thay đổi quảng cáo thường xuyên

Tính tương tác: Mục tiêu của nhà quảng cáo là gắn khách hàng triển vọng với nhãn hiệu hoặc sản phẩm của họ Điều này có thể thực hiện hiệu quả trên mạng, vì khách hàng có thể tương tác với sản phẩm, kiểm tra sản phẩm và nếu thoả mãn thì có thể mua Ví dụ, một quảng cáo cho phần mềm máy tính có thể đưa khách hàng tới nơi trưng bày sản phẩm để lấy thông tin và kiểm tra trực tiếp Nếu khách hàng thích phần mềm đó, họ có thể mua trực tiếp Không có loại hình thông tin đại chúng nào lại có thể dẫn khách hàng từ lúc tìm hiểu thông tin đến khi mua sản phẩm mà không gặp trở ngại nào như mạng Internet

Hạn chế của quảng cáo trực tuyến:

Khác với các phương tiện quảng cáo khác, để tiếp cận được với quảng cáo trực tuyến đối tượng tiềm năng của bạn phải có máy tính và máy tính phải được nối mạng Internet

Người dùng phải có kỹ năng duyệt web Ở các nước phát triển, việc tin tưởng vào quảng cáo và mua hàng trực tuyến đang rất phổ biến, còn ở nước ta, đây mới chỉ là

xu hướng và chỉ thực sự có hiệu lực cho một số ngành nghề phù hợp

Các văn bản và chính sách đang trong quá trình hoàn thiện, còn nhiều kẽ hở cho lừa đảo trực tuyến phát triển cũng làm giảm độ tin cậy của quảng cáo trực tuyến

Định giá quảng cáo trực tuyến:

Khi quảng cáo trực tuyến mới ra đời, việc tính giá quảng cáo trên mạng chưa có khuôn mẫu Nhưng ngày càng có nhiều mô hình mới kéo theo nhiều cấu trúc định giá

ra đời Ngày nay, các mô hình định giá có đủ loại từ giá cố định theo điểm ảnh (pixel), đến tính giá theo số lần xem một mục quảng cáo, tính giá theo số người nhấn vào quảng cáo, tính theo số lần quảng cáo truyền phát được, tính phổ quát của từ khoá, số hàng được mua

Một số thuật ngữ thông dụng dùng để tính giá cho quảng cáo như CPM (Cost Per Impression: Trả tiền trên tổng số lần truyền phát quảng cáo) và CPC (Cost per click: trả tiền cho mỗi lần có khách hàng nhấn vào liên kết đến website)

Trang 17

1.2.2 Những hình thức quảng cáo trực tuyến cơ bản

Quảng cáo trực tuyến tại Việt Nam hiện nay thường theo các hình thức sau: Thông qua các cỗ máy tìm kiếm Khi người sử dụng Internet gõ một từ khóa (keyword) đã được “mua” bởi một nhãn hàng, website của nhãn hàng đó sẽ hiện ra trong phần nhà tài trợ nằm bên trên hoặc bên tay phải của kết quả tìm thấy Từ đó cơ hội khách hàng ghé thăm website, nắm thông tin và muốn mua sản phẩm hoặc dịch vụ

Quảng cáo đa phương tiện bằng cách ứng dụng công nghệ mới nhất tạo ra các mẩu quảng cáo sản phẩm Phần mềm thông dụng là AdobeFlash Hình thức này đòi hỏi đầu tư cao về ý tưởng, thiết kế mỹ thuật Bù lại, các thành phẩm đặc biệt sáng tạo, cuốn hút và có khả năng xác định chính xác đối tượng khách hàng Hiện tại, đây là hình thức quảng cáo trực tuyến hiệu quả nhất

Doanh thu quảng cáo trực tuyến tại Việt Nam, năm 2009 đạt khoảng 278 tỉ VNĐ, trong đó quảng cáo hiển thị trực tiếp (banner, buttons) chiếm ¾ doanh thu, thị phần của search engine marketing chiếm 8- 10%, trong khi loại hình này ở với các nước phát triển hơn 50% (Úc, Mỹ, Singapore) Quảng cáo bằng banner theo kiểu Việt Nam còn lạc hậu ở chỗ tính định hướng của nó rất thấp, theo nhận định của giới chuyên gia quảng cáo Các banner chỉ được "treo" lên cố định ở một chỗ, theo từng chuyên mục của website và nằm yên đó, không thay đổi dù nhiều khi bài viết nằm dưới nó liên quan rất ít, thậm chí chẳng liên quan gì đến sản phẩm được quảng cáo Nhược điểm này đã được các công nghệ quảng cáo quốc tế khắc phục từ rất lâu Chẳng hạn công nghệ AdSense của Google có thể "đọc" thông tin trên trang web và đưa lại các quảng cáo có liên quan đến nội dung của trang Chỉ cần một đoạn mã duy nhất, nhưng khi dán lên các trang khác nhau nó sẽ đem lại các quảng cáo khác nhau

Một yếu tố khác khiến quảng cáo trực tuyến Việt Nam còn hạn chế là sự nghèo nàn, đơn điệu về hình thức Ngoài banner và pop-up, hầu như không thể tìm thấy loại hình quảng cáo nào khác Trong khi đó trên thế giới, nguồn thu chính trong quảng cáo trực tuyến lại là dịch vụ tìm kiếm

Đến năm 2015, thị trường quảng cáo trực tuyến đã có chiều hướng tích cực, theo báo cáo của Nielsen, người tiêu dùng Việt Nam tin tưởng nhiều nhất vào quảng cáo trên các công cụ tìm kiếm, tiếp đó là mạng xã hội, video trực tuyến, banner trực tuyến và thấp nhất là quảng cáo qua thiết bị di động Số liệu thống kê này cũng khá tương quan đối với thị trường khác (Châu Âu, Mĩ) Điều này chứng tỏ, sự tiệm cận và

Trang 18

tiếp thu của quảng cáo trực tuyến của Việt Nam so với thế giới đã được cải thiện đáng kể

1.3 Tiếp cận quảng cáo theo ngữ cảnh

Khác với các loại hình quảng cáo khác, thuật ngữ “quảng cáo theo ngữ cảnh” là một xu thế mới hiện nay Hệ thống quảng cáo theo ngữ cảnh sẽ quét nội dung trên một trang web để tìm kiếm các từ khoá và trả lại một danh sách những quảng cáo thích hợp có liên quan tới nội dung đang được xem trên trang web đó Chẳng hạn, một trang web có nội dung về thể thao có thể tự động được cung cấp các quảng cáo

về các dụng cụ thể thao hoặc những sự kiện thể thao

Nguyên tắc hoạt động của hệ thống quảng cáo theo ngữ cảnh là sẽ tự động xử

lý, phân tích ngữ nghĩa, nội dung bài viết để hiển thị thông điệp của nhà mua quảng cáo đến đúng người đọc

Các quảng cáo lúc này sẽ chỉ được đăng trên những trang web có nội dung phù hợp với đối tượng sử dụng của sản phẩm cần quảng cáo mà thôi Khi ấy nhà quảng cáo sẽ quảng cáo trên đúng đối tượng phù hợp của mình, ngược lại người sử dụng cũng cảm thấy dễ chịu và chú ý hơn đến những sản phẩm có liên quan đến nội dung

mà mình đang đọc, đang tìm kiếm

Vì vậy quảng cáo sẽ được thay đổi theo nội dung Điều này giúp các nhà quảng cáo hướng đúng đến đối tượng người dùng của mình hơn, tránh quảng cáo tràn lan, không hiệu quả, và giảm được chi phí

Quảng cáo theo nội dung web

Trang 19

1.4 Mô hình hệ thống quảng cáo theo ngữ cảnh AdCenter

Vì những lý do nêu trên, luận văn đã tiến hành xây dựng thử nghiệm hệ thống quảng cáo AdCenter để phục vụ cho nhu cầu quảng cáo trực tuyến theo mô hình cảm ngữ cảnh này Hệ thống được thiết kế như là một dịch vụ có thể thực hiện phân phối các quảng cáo (đã được đăng ký trước đó trên hệ thống) đến với người dùng Internet thông qua mạng lưới các trang web (các trang tin tức, diễn đàn, blog, v.v…) đồng ý nhận đăng các quảng cáo trực tuyến của hệ thống

Mô hình nghiệp vụ:

Hệ thống AdCenter đóng vai trò như là nhà trung gian, tiếp nhận các quảng cáo từ các nhà quảng cáo (tạm gọi là Subcriber) và thực hiện phân phối lại các quảng cáo này trên mạng lưới các trang web thành viên của nó (xem Hình 1.3) Các trang web thành viên này là các trang web mà chủ của nó (tạm gọi là Webmaster) muốn đăng quảng cáo để kiếm thêm thu nhập Để quảng cáo có thể hiển thị trên trang web của mình thì Webmaster phải thực hiện đăng ký là thành viên với hệ thống AdCenter trước Để cho các Webmaster có thể nhận đăng quảng cáo thì chúng ta phải chia một phần lợi nhuận thu được từ quảng cáo cho họ

Nhà quảng cáo không có mối liên hệ trực tiếp với các Webmaster, họ chỉ liên

hệ thông qua hệ thống AdCenter và mọi việc còn lại như chọn lựa trang web thành viên để đặt quảng cáo, tính phí, thời gian lưu quảng cáo… sẽ do AdCenter tự động thực hiện Các mẩu quảng cáo đều theo định dạng sẵn cho trước bao gồm các

thông tin: tiêu đề, nội dung quảng cáo, đường link đến trang chủ, và tập từ khóa

đại diện cho quảng cáo Các thông tin này đều do nhà quảng cáo cung cấp Bên

cạnh đó, thời gian lưu quảng cáo sẽ phụ thuộc vào chi phí mà nhà quảng cáo chi trả Chi phí cho quảng cáo sẽ được tính theo độ đo CPC (Cost Per Click), nghĩa là quảng cáo sẽ chỉ bị tính phí khi và chỉ khi có ai đó click vào xem quảng cáo mà thôi, cho dù xuất hiện bao nhiêu lần đi nữa Khi bị trừ hết tiền thì quảng cáo sẽ ngưng xuất hiện

Mọi quy trình hoạt động trên, bao gồm đăng ký, tiếp nhận quảng cáo, phân phối quảng cáo, v.v… đều được thực hiện tự động trên web thông qua hệ thống AdCenter

Mô hình hoạt động:

Hệ thống cho phép các nhà quảng cáo đăng ký các mẩu quảng cáo Các mẩu quảng cáo được đại diện bởi một số từ khóa do nhà quảng cáo tự xác định Sau đó, các quảng cáo này sẽ được hệ thống phân phối và hiển thị trên mạng lưới các trang web thành viên đồng ý nhận đăng quảng cáo thông qua một đoạn mã nhúng javascript Đoạn mã nhúng này sẽ tự động phân tích nội dung hiện tại của trang web để tìm kiếm các từ khóa đại diện, sau đó sẽ tiến hành tìm kiếm trong hệ thống

để lấy ra các quảng cáo có các từ khóa tương đồng Sau cùng nó tải về danh sách các quảng cáo được tìm thấy và hiển thị lên trang web thành viên

Trang 20

Hình 1.2 Mô hình quảng cáo truyền thống

Liên hệ đặt quảng cáo

Trang 21

phân phối quảng cáo

Mạng lưới các trang web đăng ký thành viên

Website A Website B … Website N

Hình 1.3 Mô hình quảng cáo thông qua hệ thống trung gian AdCenter

Trang 22

Để hệ thống có thể thực hiện phân phối các quảng cáo đến mạng lưới các trang web một cách hợp lý, chúng ta phải đối mặt với các vấn đề như: bóc tách nội dung văn bản chính của trang web bất kỳ, kỹ thuật rút trích từ khóa tự động từ văn bản có sẵn

Chương tiếp theo chúng ta sẽ bàn chi tiết hơn về các vấn đề này

Trang 23

Chương 2 THIẾT KẾ VÀ TỔ CHỨC NGHIÊN CỨU

Để tiếp cận vấn đề nghiên cứu, luận văn thực hiện theo trình tự sau: xác định nội dung chính của trang web bất kỳ Từ đó, xác định kỹ thuật rút trích từ khóa từ nội dung chính đã xác định

2.1 Các kỹ thuật xác định phần nội dung chính của trang web

2.1.1 Đặt vấn đề

Xuất phát từ thực trạng khối lượng lưu trữ thông tin trên internet ngày càng tăng, nảy sinh yêu cầu khi truy cập vào các web, ta phải xác định được chủ đề (nội dung chính) của trang web Trang web ở đây được hiểu là trang web bất kỳ, nghĩa là cấu trúc của trang web không được biết trước

Bài toán đặt ra cho các nhà nghiên cứu là phải xử lý khối lượng dữ liệu thông

tin khổng lồ này sao cho hiệu quả và nhanh chóng nhất Một số ứng dụng như Search Engine, RSS, Feedback, tóm tắt văn bản, tìm kiếm song ngữ… rất cần để rút trích được các thông tin chính xác, gọn gẽ, có ý nghĩa từ kho dữ liệu trên

Vấn đề đặt ra là không phải toàn bộ nội dung của trang web đều cần thiết Chúng hay bị “nhiễu” bởi rất nhiều các thông tin khác nhau Nếu chỉ đơn thuần loại các chuỗi script HTML thì nội dung lọc được sẽ rất nhiều lỗi rác không cần thiết

Ví dụ: phần thông tin quảng cáo, tin mới cập nhật, nội dung tin ngắn, menu những nội dung như thế này thường cần phải bỏ qua trong quá trình bóc tách nội dung chính của trang web Cụ thể hơn, nội dung của các các trang web được tổ chức theo dạng dữ liệu HTML với cấu trúc theo dạng tag, node… Những tag này chỉ

có ý nghĩa với trình duyệt để hiển thị tài liệu, văn bản theo một bố cục và trình diễn cho trước, và hoàn toàn không có ngữ nghĩa nào đối với người duyệt web Bên cạnh

đó, do tính phong phú của Internet nên nội dung trang web thường chứa nhiều thông tin khác nhau bên cạnh các nội dung chính Ví dụ như các trang web thường chứa các thanh thực đơn (menu) ngang hoặc dọc, các danh sách đường dẫn (link) dùng để định hướng cho người sử dụng có thể dễ dàng truy xuất tới nội dung mà mình cần Các quảng cáo dạng banner, các đoạn phim Flash, các hiệu ứng âm thanh, hình ảnh, các định dạng stylesheet (css), mã kịch bản javascript, cũng như các đoạn văn bản (text) không liên quan khác đã làm cho nội dung web giống như một ma trận

dữ liệu khá phức tạp

Ngoài ra, trên cùng một trang web cũng có thể chứa nhiều chủ đề khác nhau

Do đó, bóc tách khối nội dung chính chỉ có ý nghĩa khi trang web có chứa nội dung thật sự

Một khó khăn nữa là nội dung HTML của các trang web có cú pháp rất “thân thiện” Có thể có tag mở, nhưng không có tag đóng, các mã HTML có thể bị khai báo sai cú pháp, chồng chéo lên nhau, vẫn được trình duyệt hiển thị bình thường mà không bắt lỗi

Trang 24

Tất cả các vấn đề trên đã làm cho nội dung web bị “lệch” khá nhiều, đặt ra một thách thức không nhỏ trong việc định dạng nội dung chính của nó

Luận văn sẽ tiếp cận vấn đề này theo hướng phân đoạn trang web bằng mô hình lược đồ (histogram)

Hướng tiếp cận này sẽ dựa trên phân tích cấu trúc cây Document Tree (DOM) của trang web Sử dụng bộ mã nguồn HTMLParser của dự án mã nguồn mở HtmlAgilityPack để tạo thành cây Document Tree Sau khi phân tích được cấu trúc cây DOM của trang web, dựa trên cấu trúc này chúng ta sẽ thực hiện biểu diễn lại nội dung trang web như là một lược đồ histogram bằng cách rút trích

ra các Content node Tiếp đến, chúng ta tiến hành mịn hóa Histogram để loại bỏ các

Content node có độ quan trọng thấp và chống bỏ sót các Content node có độ quan trọng cao Sau cùng, dựa vào nhận xét heuristic rằng “vùng nội dung chính của trang web sẽ là vùng tập trung mật độ văn bản cao nhất”, chúng ta tiến hành gom nhóm trên histogram này để lọc ra được nhóm có giá trị mật độ ngưỡng cao nhất Đây được xem là nội dung chính của trang web

2.1.3 Phân tích nội dung trang web dưới dạng lược đồ Histogram

Trang web của chúng ta dưới dạng mã HTML, tuy nhiên ta không tập trung thực hiện theo hướng loại bỏ các các tag HTML bằng cách sử dụng biểu thức chính quy (regular expression) Regular Expression = “ <[^>]*>" ” để loại bỏ các tag HTML.Vì thực chất nội dung web không chỉ là các tag HTML mà còn chứa các nội dung rác khác, trong khi đó cách này chỉ có thể áp dụng được cho các đoạn HTML nhỏ và riêng lẻ, không thể áp dụng cho toàn bộ trang web

Thực chất trang web được các trình duyệt hiểu như là một cấu trúc dạng cây, bao gồm các node cha và con có quan hệ với nhau theo một trình bày nhất định nào đó, được gọi là cây DOM (Document Object Model) Sử dụng phương pháp rút trích Text node, bằng cách thực hiện phân tích mã HTML để tạo thành cây biểu diễn nội dung trang web Document tree (DOM), trong đó các node của cây đại diện cho các thành phần khác nhau trong trang web Khi đó, phần văn bản chính sẽ được lấy ra bằng việc nối nội dung các node được đánh dấu với tag là “TEXT” Tiếp cận theo phương pháp này có thể áp dụng cho toàn bộ trang web và cho kết quả chính xác hơn so với phương pháp loại bỏ các tag HTML Nhưng vẫn không thể khắc phục nhược điểm là không thể lọc nội dung rác để lấy phần nội dung chính mà chỉ đơn thuần là lấy toàn bộ văn bản text của trang web Để giải quyết vấn đề này, có thể tiếp cận theo hướng so sánh khung mẫu, phương pháp rút trích thông tin bằng cách so trùng hai trang web được xây dựng trên nền tảng nhận dạng mẫu cho phép rút trích chính xác vùng thông tin mang nội dung chính được tác giả Vũ Thanh

Trang 25

FSVM trên internet Phương pháp này cho phép so khớp trang web cần rút trích với một trang web mẫu để xác định khung trình bày chung cho cả hai trang web cần rút trích, từ đó đi đến rút trích ra nội dung nằm trong phần được xác định chứa nội dung chính trên trang mẫu Phương pháp này không đòi hỏi người sử dụng phải biết về ngôn ngữ xây dựng hoặc phải chỉ ra khu vực nội dung cần bóc tách khi cách trình bày thay đổi do trang web mẫu có thể lấy trực tiếp từ trang chủ và có cùng cách trình bày với trang cần rút trích Tuy nhiên, đối với mỗi tên miền khác nhau, cần phải xác định được một trang web làm mẫu cho những trang khác Đây cũng là một hạn chế trong quá trình tự động hóa xác định nội dung chính của web

Hoặc nghiên cứu tiêu biểu tiếp cận theo hướng phân tích mã HTML và xử lý ngôn ngữ tự nhiên của Ngô Quốc Hưng, 2008, "Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet", Luận văn Thạc sỹ, tr.5-10, ĐH KHTN TP.HCM phát triển giải pháp trong luận văn “Tìm kiếm tự động văn bản song ngữ Anh-Việt từ Internet” Hướng tiếp cận này dựa trên phương pháp bóc tách nội dung nhờ vào phân tích mã HTML theo các bộ mã nguồn HTMLParser của dự án Majestic-12 để tạo thành cây DOM biểu diễn nội dung trang web Từ đó áp dụng các công cụ và kỹ thuật ngôn ngữ

để quyết định phần nội dung chính

Phương pháp này dựa trên tiền đề là trang web đã được phân tích các tag HTML để xây dựng nên cây Document Tree Từ cây này chúng ta đi xác định node nào ở trên cây chứa nội dung chính của trang WEB Phương pháp cho điểm các node dựa vào kết quả xử lý ngôn ngữ tự nhiên trên nội dung mà nó chứa bên trong đó

Một số quy tắc cho điểm được áp dụng:

+ Chỉ cho điểm cho những NODE có tag là TEXT Vì chỉ có những node này mới là node chứa nội dung thực sự Các node khác tổng hợp từ node này

+ Cho điểm NODE TEXT dựa vào số câu của nội dung chứa bên trong node đó Càng nhiều câu thì node có điểm càng cao

+ Node được cho điểm phải chứa tối thiểu một đoạn văn (Tuy nhiên việc xác định như thế nào là một đoạn văn vẫn chỉ là một heuristic)

+ Điểm của các node cha sẽ bằng điểm của các node con cộng lại

Trang 26

Hình 2.1 Node chứa nội dung chính trên cây văn bản

Xác định node nội dung: Để xác định node nội dung chính mà không chứa các nội dung không cần thiết chính là đi xác định node sâu nhất trên cây có điểm cao nhất Bằng việc xác định node nội dung như vậy, hệ thống có thể tự động xác định nội dung trang web mà không cần biết trước khung mẫu cũng như nguồn gốc của trang web đó

Hướng tiếp cận này cho kết quả rất khả quan, tuy nhiên cách này có thể bị

bỏ sót nội dung nếu nội dung chính được nằm phân tán trên các node độc lập khác nhau trong cây Document Tree

Cũng có thể tiếp cận theo hướng tổng thể hơn, tiếp cận theo hướng phân đoạn trang web Ý tưởng chính là dựa trên độ liền mạch của các node trong cấu trúc cây DOM với một số nhận xét heuristic để thực hiện phân đoạn tự động trang web theo khu vực một cách trực quan Do mỗi trang web được cấu thành từ những phần khác nhau như đầu trang, chân trang, phần nội dung phụ của trang và nhiều phần khác Các công cụ tìm kiếm mất rất nhiều thời gian để quyết định phần nào là quan trọng nhất của trang web Hướng tiếp cận này tiến hành phân đoạn trang web thành các khối (block) riêng biệt theo cách tiếp cận trực quan (vision-based approach), nghĩa là

Trang 27

giải thuật VIPS (Vision- based Page Segmentation) được phát triển bởi phòng thí

nghiệm của Microsoft

Hình 2.2 Thuật toán VIPS, phân đoạn trang web dựa trên cấu trúc cây DOM

Thuật toán VIPS sơ lược gồm 3 bước chính:

o Bước 1: Tách các khối chính (Block Extraction)

+ Tiến hành phân tách các node của cây DOM ra thành các khối lớn bằng cách: lần lượt chia tách các node chứa đựng (container node - là node có khả năng chứa các node khác, ví dụ như node có tag là <table>, <p>,…) cho đến khi không còn các container node nào Từ đó xây dựng được cây chỉ bao gồm các container node trên, gọi là cây Visual Block 1 (VB1), biểu diễn các khối chính của trang web

+ Từ cây VB1 này, ta tiến hành xem xét xem các node nào trong cây nên bị chia tách tiếp hay không bằng một số luật Heuristic như sau:

• Dựa vào tag: những tag ví dụ như <hr>, … thường dùng để chia tách các chủ

đề khác nhau, do đó nếu node là những tag này thì tiến hành chia tách tiếp

• Dựa vào màu sắc (color): giả sử như nếu màu nền của node cha khác với một trong các node con của nó thì tiến hành chia tách tiếp vì nếu màu sắc khác nhau thì thường thể hiện nội dung của các chủ đề khác nhau

• Dựa vào văn bản (text): nếu node là text node thì không chia tách tiếp

• Dựa vào kích thước (size): Nếu độ sai biệt về kích thước của node cha và các node con lớn hơn một ngưỡng cho trước thì tiến hành chia tách node đó tiếp + Tới đây, ta thu được cây mới, tạm gọi là cây VB2

Trang 28

o Bước 2: Xác định các đường phân cách (Seperator Detection)

+ Các block trong cây VB2 được đưa vào một pool để xác định ranh giới phân tách (seperator) Các đường phân tách được định nghĩa như đường ngang hoặc dọc trong trang web mà không chứa block nào trong pool

+ Từ đó xác định tiếp trọng số của các seperator Các trọng số này sẽ được xác định dựa vào các tiêu chí Heuristic sau:

• Khoảng cách: trọng số sẽ càng cao nếu khoảng cách, khoảng trống xung quanh Seperator càng nhiều

• Tag: Nếu Seperator nằm cùng vị trí với các tag dạng phân cách (ví dụ như

+ Quá trình gom block này sẽ được thực hiện cho đến khi gặp được Seperator

có trọng lượng lớn nhất Tiếp tục xác định độ đo liền mạch (DoC) của block vừa gom được

+ Sau đó mỗi block sẽ được kiểm tra xem độ đo DoC của nó có lớn hơn ngưỡng cho trước hay không? Nếu thõa yêu cầu ngưỡng thì dừng, nếu chưa thì tiếp tục quay lại Bước 1 để tiếp tục tách block

Sau khi chạy thuật giải VIPS, trang Web sẽ được phân đoạn thành các khối riêng biệt Ta tiếp tục tiến hành xác định khối nào là khối chứa nội dung chính của trang Web bằng cách xét độ quan trọng từng khối trong trang Web

Trang 29

Hình 2.3 Ước lượng độ quan trọng của từng khối phân đoạn

Độ quan trọng của mỗi khối có thể được xác định bằng cách sử dụng một

số độ đo heuristic để xác định dựa vào các đặc trưng của khối: như tần suất xuất hiện các liên kết (link) trong khối, chiều dài của đoạn văn bản trong khối, màu nền, màu chữ của các đoạn văn bản, kích thước của khối Bên cạnh đó, có thể tiếp cận xây dựng một mô hình học có giám sát bằng mạng Neuron với đầu vào là các đặc trưng trên để xác định khối nội dung chính

Đây là cách tiếp cận mạnh và hiệu quả nhất, tuy nhiên rất phức tạp và khó khăn trong cài đặt trên thực tế nếu đầu vào chỉ là những mã văn bản HTML mà không

có sự hỗ trợ đặc biệt của trình duyệt

Cách đề xuất của luận văn: tiến hành xóa bỏ các node không liên quan, không thể nhìn thấy bởi người dùng trên trình duyệt như các node có tag là script, style, remark,.v.v… Sau đó bóc tách ra các node là Text node, vì chỉ có những node này mới là node chứa nội dung văn bản thật sự Sau đó tổ chức lại các node này dưới dạng mảng các Text node, cùng với tỷ trọng (weight) của chúng Tỷ trọng của node ở đây được hiểu như là độ đo sự quan trọng của node đó trong trang web, và trong khuôn khổ luận văn này nó được hiểu heuristic như là kích thước của node đó, cụ thể là số

ký tự của node đó Chúng ta có thể tùy ngữ cảnh mà cải thiện độ chính xác của giải thuật bằng cách mô tả chính xác hơn độ đo này bằng cách kết hợp thêm các yếu tố

Trang 30

khác, ví dụ như là vị trí của node, định dạng của node, độ liền mạch với các node xung quanh,… Độ đo này càng được thể hiện rõ thì độ chính xác của giải thuật càng

cao

Các bước thực hiện được mô tả như trong giải thuật sau:

Bảng 2.1 Giải thuật biểu diễn nội dung web dưới dạng lược đồ histogram

Input

DOM  mã nguồn HTML

Begin

Xóa bỏ các InvisibleNode

Với mỗi node trong cây DOM:

Nếu (node là VirtualTextNode) thì:

+ InvisibleNode:

Chính là các node không thể nhìn thấy được bởi người dùng, nó chỉ được hiểu bởi trình duyệt để tô vẽ thêm cho trang web (ví dụ các node có tag là SCRIPT>, <STYLE>, <COMMENT>,…) Nó cũng có thể là các node mà chúng ta không cần quan tâm nhiều khi tiến hành bóc tách nội dung (như các node có nội dung rỗng, các node xuống hàng, line break…)

+ InlineNode

Là node không gây ảnh hưởng gì nhiều đến nội dung của văn bản Chúng chỉ ảnh hưởng đến định dạng của các chuỗi văn bản mà không gây ra sự xuống hàng hoặc khoảng phân cách nào đáng kể (Ví dụ như các node có tag là <B>,

Trang 31

+ TextNode:

Là node có tag là TEXT, chỉ đơn giản chứa văn bản thuần túy, không chứa

mã hoặc tag HTML (Ví dụ như “tôi đi học ở Trà Vinh”là một text node)

+VirtualTextNode:

Là dạng mở rộng của TextNode, nhưng nội dung node có thể chứa các

InlineNode

VirtualTextNode được định nghĩa một cách đệ quy như sau:

Một node được gọi là VirtualTextNode nếu:

- Node có các node con đều là InlineNode hoặc TextNode thì là VirtualTextNode

- Node có các node con đều là InlineNode hoặc TextNode hoặc VirtualTextNode thì là VirtualTextNode

Việc xác định một node là VirtualTextNode rất quan trọng vì nếu xác định

không đúng sẽ làm mất mát các node có nội dung ngắn, làm ảnh hưởng đến sự liền mạch của kết quả bóc tách được

Ghi chú: Do có cùng ý nghĩa nên để ngắn gọn, từ đây chúng ta sẽ gọi

chung VirtualTextNode và TextNode là ContentNode

Từ giải thuật này, chúng ta sẽ xây dựng được một mảng các ContentNode chứa nội dung văn bản từ trang web Từ mảng này, ta sẽ biểu diễn được lược đồ histogram theo tỷ trọng của node

Lấy ví dụ với một trang web tin tức của báo Dân Trí đăng ngày 26/6/2017 tại

cong-20161013142234823.htm Trang web này tương tự như vô vàn các trang tin

http://dantri.com.vn/suc-khoe/nhieu-truong-mam-non-bi-dich-tay-chan-mieng-tan-khác trên Internet: có tựa đề, banner, hình ảnh, menu, và quảng cáo chiếm hầu hết khoảng trống, còn nội dung chính của nó thì chỉ được giới hạn ngay ở phần giữa của trang Ở phía cuối trang cũng có các quảng cáo, các liên kết, các nội dung thông tin bản quyền và các thông tin dùng để quản trị khác…

Trang 32

Hình 2.4 Trang web dantri.com.vn dùng để minh họa việc xác định nội dung chính

Khi chúng ta tiến hành phân tích trang web này bằng thuật toán trên, ta sẽ xây dựng được mảng các content node, và thu được lược đồ histogram sau:

Hình 2.5 Lược đồ của trang web

http://dantri.com.vn/suc-khoe/nhieu-truong-mam-non-bi-dich-tay-chan-mieng-tan-cong

Dantri.com.vn Histogram

Trang 33

Ở lược đồ histogram trên: Trục X chính là thứ tự của các node trong mảng (cũng chính là thứ tự của node trên cây DOM) Còn trục Y chính là tỷ trọng của node đó (cụ thể ở đây là chiều dài của node)

Phân tích kỹ lược đồ trên, chúng ta nhận thấy rằng vùng có chứa tỷ trọng cao chính là vùng chứa nội dung chính của trang web (vùng chứa các node nằm từ vị trí thứ 23 đến 67 trong Hình 2.3 tương ứng với phần nội dung chính trong trang web ở Hình 2.2, là phần văn bản chính ở bên trái) Thử nghiệm trên một số trang web khác, ta cũng có nhận xét tương tự như vậy

Vì thế, dựa trên ý tưởng này, ta sẽ tiến hành bóc tách nội dung chính của trang web bằng cách trích xuất nội dung của các node từ 23 đến 67, là vùng tập trung mật độ cao nhất (xem Hình 2.5) Tự mình kiểm chứng lại, ta thấy đó thật sự đúng là nội dung chính cần bóc tách của trang web này (các vùng quảng cáo, các menu, các liên kết banner,… đã bị loại bỏ)

Do đó, dựa vào đặc điểm này, ta sẽ thực hiện xác định nội dung chính của trang web bằng cách dựa vào phát biểu Heuristic sau:

“Với mỗi node trong mảng ContentNode, nếu tỷ trọng của node đó càng

cao thì khả năng node đó chứa nội dung chính của trang web càng lớn ”

Dựa vào đây, ta sẽ tập trung chuyển sang tiến hành lọc ra các node nội dung quan trọng bằng cách thực hiện gom nhóm trên lược đồ

2.1.4 Phương pháp mịn hóa Histogram

Trước khi tiến hành thực hiện kỹ thuật gom nhóm, chúng ta sẽ tiến hành tiền

xử lý để mịn hóa bằng kỹ thuật lọc trung bình trên lược đồ histogram Việc xử lý này sẽ giúp cho ta tránh được việc mất mát các node quan trọng như là các node chứa các nội dung tiêu đề, các nội dung ngắn cần thiết,… có thể bị mất trong quá trình gom cụm, giúp tăng tính liền mạch của các node và cũng giúp ta loại bỏ được các node thật sự chứa nội dung dư thừa không cần thiết do cách xa vùng nội dung chính ngay từ đầu Nói cách khác, nó giúp khử bớt nhiễu và nâng cao chất lượng của histogram

Lấy ví dụ trang web dantri.com.vn trong Hình 2.4 ở trên, ta thấy rằng câu tựa

đề và một vài câu bên trong nội dung chính khá ngắn, nếu không tiến hành mịn hóa

để cân đối lại tỷ trọng của node chứa các câu này thì khả năng mất nội dung của các câu này khi thực hiện gom cụm theo tiêu chí Heuristic trên là khá cao

+ Sử dụng lọc trung bình (mean filter):

Chúng ta sẽ sử dụng lọc trung bình để mịn hóa lược đồ histogram trên Với mỗi phần tử trong histogram, ta sẽ tiến hành tính toán và cập nhật lại giá trị (tỷ trọng) của

nó bằng cách dựa vào giá trị trung bình của các phần tử lân cận

Trang 34

Hình 2.6 Thuật toán lọc trung bình

Cụ thể ở đây, mỗi phần tử trong lược đồ sẽ được cập nhật lại bằng giá trị trung

bình của r phần tử lân cận hai bên

Tính theo công thức sau:

( )

i k r k

i k r

TEXTNodeArray i e

r (2.1)

Với ek là phần tử thứ k trong mảng TEXTNodeArray

Ở trong khuôn khổ luận văn nầy, ta sẽ chọn bán kính r = 2

Sau khi thực hiện mịn hóa histogram trên bằng lọc trung bình, ta thu được kết quả như sau:

Hình 2.7 Lược đồ sau khi đã xử lý lọc trung bình

So sánh lại với lược đồ ban đầu :

Dantri.com.vn Smooth Histogram

Trang 35

Hình 2.8 a

Hình 2.8 b

Hình 2.8 So sánh lược đồ trước (a) và sau (b) khi mịn hóa bằng lọc trung bình

Ngưỡng trung bình là giá trị trung bình của tất cả các phần tử trong histogram Ngưỡng trung bình được thể hiện bằng đường ngang màu đỏ trong các lược đồ histogram trên Kết quả ban đầu (Hình 2.8 a) có ngưỡng trung bình tính được là 26.6

và kết quả sau khi mịn hóa (Hình 2.8 b) có ngưỡng trung bình tính được là 26.4

Dantri.com.vn Smooth Histogram Dantri.com.vn Histogram

Ngày đăng: 27/04/2021, 11:07

Nguồn tham khảo

Tài liệu tham khảo Loại Chi tiết
[1] Tim Weninger and William H. Hsu (2008), “Text Extraction from the Web via Text-to-Tag Ratio”, 2008 19th International Conference on Database and Expert Systems Application, pp. 23 – 28 Sách, tạp chí
Tiêu đề: Text Extraction from the Web via Text-to-Tag Ratio”, "2008 19th International Conference on Database and Expert Systems Application
Tác giả: Tim Weninger and William H. Hsu
Năm: 2008
[2] Ying Li, Arun C.Surendran, and Dou Shen (2007), “Data Mining and Audience Intelligence for Advertising”, Microsoft adCenter Lab, Redmond, WA 98074 USA Sách, tạp chí
Tiêu đề: Data Mining and Audience Intelligence for Advertising
Tác giả: Ying Li, Arun C.Surendran, and Dou Shen
Năm: 2007
[3] Y.MATSUO (2003), “Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information”, National Institute of Advanced Industrial Science and Technology Sách, tạp chí
Tiêu đề: Keyword Extraction from a Single Document using Word Co-occurrence Statistical Information
Tác giả: Y.MATSUO
Năm: 2003
[4] Hoang Kiem, Do Phuc (2005), “Extracting main ideas in Vietnamese Documents Supporting Content Summarization” Sách, tạp chí
Tiêu đề: Extracting main ideas in Vietnamese Documents Supporting Content Summarization
Tác giả: Hoang Kiem, Do Phuc
Năm: 2005
[5] Deng Cai, Shipeng Yu, Ji-Rong Wen, Wei-Ying Ma (2004), “VIPS: a Vision- based Page Segmentation Algorithm”, Microsoft Research, Redmond, WA Sách, tạp chí
Tiêu đề: VIPS: a Vision- based Page Segmentation Algorithm
Tác giả: Deng Cai, Shipeng Yu, Ji-Rong Wen, Wei-Ying Ma
Năm: 2004
[6] Ruihua Song, Haifeng Liu, Ji-Rong Wen, Wei-Ying Ma (2004), “Learning Block Importance Models for Web Pages”, Microsoft Research Asia Sách, tạp chí
Tiêu đề: Learning Block Importance Models for Web Pages
Tác giả: Ruihua Song, Haifeng Liu, Ji-Rong Wen, Wei-Ying Ma
Năm: 2004
[7] Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh (2008), “A Hybrid Approach to Word Segmentation of Vietnamese Texts”, Language and Automata Theory and Applications, pp. 240 – 249 Sách, tạp chí
Tiêu đề: A Hybrid Approach to Word Segmentation of Vietnamese Texts”, "Language and Automata Theory and Applications
Tác giả: Le Hong Phuong, Nguyen Thi Minh Huyen, Azim Roussanaly, Ho Tuong Vinh
Năm: 2008
[8] Vibhanshu Abhishek (2007), “Keyword Generation for Search Engine Advertising using Semantic Similarity between Terms”, Fair Isaac Corporation, Bangalore, India Sách, tạp chí
Tiêu đề: Keyword Generation for Search Engine Advertising using Semantic Similarity between Terms
Tác giả: Vibhanshu Abhishek
Năm: 2007
[9] H.P. Luhn (1958), “The automatic creation of literature abstracts”, IBM Journal, pp. 159 – 165 Sách, tạp chí
Tiêu đề: The automatic creation of literature abstracts
Tác giả: H.P. Luhn
Năm: 1958
[10] A. Tombros and M. Sanderson (1998), “Advantages of query biased summaries in information retrieval”, In SIGIR98, Melbourne, pp. 2 – 10 Sách, tạp chí
Tiêu đề: Advantages of query biased summaries in information retrieval
Tác giả: A. Tombros and M. Sanderson
Năm: 1998
[11] Suhit Gupta, Gail Kaiser (2005), “Extracting Content From Accessible Web Pages”, In proceedings of the 2005 International Cross-Disciplinary Workshop on Web Accessibility, Chiba, Japan, pp. 26 – 30 Sách, tạp chí
Tiêu đề: Extracting Content From Accessible Web Pages”, In proceedings of the 2005 International Cross-Disciplinary" Workshop on Web Accessibility
Tác giả: Suhit Gupta, Gail Kaiser
Năm: 2005
[12] H.R.Kim, P.K.Chan (2003), “Learning implicit user interest hierarchy for context in personalization”, In proceedings of the 8 th international conference on Intelligent user interfaces, Miami, Florida, USA, pp. 101 – 108 Sách, tạp chí
Tiêu đề: Learning implicit user interest hierarchy for context in personalization”, "In proceedings of the 8th international conference on Intelligent user interfaces
Tác giả: H.R.Kim, P.K.Chan
Năm: 2003
[13] D. S. Hirschberg (1977), “Algorithms for the Longest Common SubSequence Problem”, Journal of ACM, vol 24, no. 4, pp. 664 – 675 Sách, tạp chí
Tiêu đề: Algorithms for the Longest Common SubSequence Problem”, "Journal of ACM
Tác giả: D. S. Hirschberg
Năm: 1977
[14] Ho Ngoc Duc, Nguyen Thi Thao, “Towards Building a WordNet for Vietnamese”, Ha Noi University of Technology, Viet Nam Sách, tạp chí
Tiêu đề: Towards Building a WordNet for Vietnamese
[15] P S Hiremath, S S Benchalli, Siddu P Algur, Renuka V Udapudi (2005), “MiningData Regions from Web Pages”, International Conference on Management of Data Sách, tạp chí
Tiêu đề: MiningData Regions from Web Pages
Tác giả: P S Hiremath, S S Benchalli, Siddu P Algur, Renuka V Udapudi
Năm: 2005
[16] Ian H.Witten, Gordon W.Paynter, Eibe Frank, Carl Gutwin, Craig G.Nevill- Manning (1999), “KEA: Practical Automatic Keyphrase Extraction”, Proc of Digital Libraries, pp. 254 – 256 Sách, tạp chí
Tiêu đề: KEA: Practical Automatic Keyphrase Extraction”, "Proc of Digital Libraries
Tác giả: Ian H.Witten, Gordon W.Paynter, Eibe Frank, Carl Gutwin, Craig G.Nevill- Manning
Năm: 1999
[17] Yang and Pedersen (1997), “A Comparative Study On Feature Selection In Text Categorization”, ICML97 Sách, tạp chí
Tiêu đề: A Comparative Study On Feature Selection In Text Categorization”
Tác giả: Yang and Pedersen
Năm: 1997
[18] A.Hulth (2003), “Improved Automatic Keyword Extraction given more Linguistic Knowledge”, Proc of EMNLP03 Sách, tạp chí
Tiêu đề: Improved Automatic Keyword Extraction given more Linguistic Knowledge”
Tác giả: A.Hulth
Năm: 2003
[19] Taeho Jo, Malrey Lee, Thomas M.Gatton (2006), “Keyword Extraction from Documents Using a Neural Network Model”, Proceedings of the 2006 International Conference on Hybrid Information Technology, pp. 194 – 197.Tiếng Việt Sách, tạp chí
Tiêu đề: Keyword Extraction from Documents Using a Neural Network Model”, "Proceedings of the 2006 International Conference on Hybrid Information Technology
Tác giả: Taeho Jo, Malrey Lee, Thomas M.Gatton
Năm: 2006
[20] Trần Việt Cường, Nguyễn Văn Tuấn, Nguyễn Hoàng Tú Anh, “Rút trích từ khóa tiếng Việt tự động dựa vào sự đồng hiện của từ”, khoa CNTT, ĐHQG TPHCM Sách, tạp chí
Tiêu đề: Rút trích từ khóa tiếng Việt tự động dựa vào sự đồng hiện của từ

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w