1. Trang chủ
  2. » Luận Văn - Báo Cáo

Nghiên cứu xây dựng công cụ quảng cáo theo ngữ cảnh

19 510 2
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Tiêu đề Nghiên cứu xây dựng công cụ quảng cáo theo ngữ cảnh
Tác giả Đặng Hữu Hải
Trường học Học viện Công nghệ Bưu chính Viễn thông
Chuyên ngành Khoa học máy tính
Thể loại Luận văn thạc sĩ
Năm xuất bản 2013
Thành phố Hà Nội
Định dạng
Số trang 19
Dung lượng 613,71 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Trong đề tài này, luận văn tìm hiểu và đề xuất hướng giải quyết cho 1 số vấn đề như: bóc tách nội dung văn bản web, phân lớp văn bản vào các chủ đề cho trước… Đề tài tập trung tìm hiểu

Trang 1

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

-

Đặng Hữu Hải

NGHIÊN CỨU XÂY DỰNG CÔNG CỤ QUẢNG CÁO THEO NGỮ CẢNH

Chuyên ngành: Khoa học máy tính

Mã số: 60.48.01.01

TÓM TẮT LUẬN VĂN THẠC SĨ

HÀ NỘI - 2013

Trang 2

Luận văn được hoàn thành tại:

HỌC VIỆN CÔNG NGHỆ BƯU CHÍNH VIỄN THÔNG

Người hướng dẫn khoa học: ………

(Ghi rõ học hàm, học vị)

Phản biện 1: ……… Phản biện 2: ………

Luận văn sẽ được bảo vệ trước Hội đồng chấm luận văn thạc sĩ tại Học viện Công nghệ Bưu chính Viễn thông

Vào lúc: giờ ngày tháng năm

Có thể tìm hiểu luận văn tại:

- Thư viện của Học viện Công nghệ Bưu chính Viễn thông

Trang 3

MỞ ĐẦU

Với sự phát triển không ngừng của Internet, quảng cáo trực tuyến thực sự đã trở thành “mỏ vàng” của các nhà sản xuất và cung cấp, các công ty muốn truyền thông sản phẩm của mình Vài năm gần đây đã bắt đầu xuất hiện một loại hình quảng cáo trực tuyến mới : quảng cáo theo ngữ cảnh Ở Việt Nam, mặc dù đã bắt đầu xuất hiện nhưng đa phần quảng cáo trên các trang web vẫn là dạng quảng cáo “tĩnh”, chưa có tính chất

“động” của quảng cáo theo ngữ cảnh

Các nhà quảng cáo đã nhận ra rằng quảng cảo dạng “tĩnh” sẽ kém hiệu quả hơn rất nhiều các quảng cáo dạng “động” theo ngữ cảnh Các nhà quảng cáo và các đơn vị có nhu cầu quảng cáo mong muốn thông tin về sản phẩm đến với các đối tượng phù hợp, đó

là xu hướng quảng cáo mới trên thế giới: đưa quảng cáo đến với tập khách hàng có tiềm năng nhất, là những người có khả năng sẽ mua sản phẩm cao nhất, việc này phải được thực hiện một cách hoàn toàn tự động

Từ nhu cầu thực tế trên, luận văn tiến hành nghiên cứu lý thuyết và xây dựng thử nghiệm một hệ thống máy quảng cáo (tạm gọi là AdSense) AdSense cho phép phân phối động các quảng cáo đến các trang web nhận đăng quảng cáo sao cho phù hợp với nội dung của trang hiện tại

Trong đề tài này, luận văn tìm hiểu và đề xuất hướng giải quyết cho 1 số vấn đề như: bóc tách nội dung văn bản web, phân lớp văn bản vào các chủ đề cho trước…

Đề tài tập trung tìm hiểu thực trạng quảng cáo trực tuyến ở Việt Nam và trên thế giới, trong đó đi sâu và hình thức quảng cáo theo ngữ cảnh mới xuất hiện gần đây và các phương pháp phân lớp, so sánh dữ liệu , để từ đó ứng dụng xây dựng 1 công cụ quảng cáo theo ngữ cảnh đơn giản

Luận văn sẽ trình bày về vấn đề phân loại một văn bản web vào một trong các chủ

đề có sẵn, từ đó có cơ sở để xác định các quảng cáo phù hợp cho trang web

Trong luận văn cũng có phần trình bày ứng dụng các nghiên cứu ở trên để xây dựng thử nghiệm một hệ thống quảng cáo AdSense đơn giản và các kết quả đạt được

Trang 4

Nội dung chính của luận văn được trình bày theo cấu trúc như sau:

Chương 1: Luận văn sẽ trình bày sơ lược về quảng cáo trực tuyến cũng như quảng

cáo theo ngữ cảnh nội dung Tiếp đến là phần sơ lược về hệ thống quảng cáo theo ngữ cảnh AdSense mà luận văn sẽ xây dựng ở mức độ thử nghiệm

Chương 2: Luận văn sẽ trình bày về vấn đề làm mịn nội dung văn bản web và giới

thiệu một số hướng tiếp cận vấn đề phân lớp văn bản, trên cơ sở đó sẽ xác định mô hình được áp dụng trong Luận văn

Chương 3: Luận văn sẽ đi vào phân tích và xây dựng thử nghiệm một hệ thống

quảng cáo theo ngữ cảnh với những tính năng cơ bản nhất và đánh giá kết quả hoạt động của hệ thống này dựa trên một tập dữ liệu đã thu thập được từ các bài báo trên Internet Phần cuối của luận văn sẽ là tổng kết đánh giá và hướng phát triển đề tài

Trang 5

Chương 1 GIỚI THIỆU VỀ BÀI TOÁN QUẢNG CÁO THEO

NGỮ CẢNH 1.1 Giới thiệu về quảng cáo trực tuyến

Tiềm năng của quảng cáo trực tuyến trên internet

Tỷ lệ người dân sử dụng internet để tìm kiếm thông tin về các sản phẩm họ quan tâm ngày càng tăng theo xu hướng chung trên toàn cầu, các nghiên cứu gần đây cho thấy Internet đã trở thành kênh truyền thông phổ biến thứ 2, chỉ sau truyền hình

Quảng cáo trực tuyến

Quảng cáo trên Web khác hẳn quảng cáo trên các phương tiện thông tin đại chúng khác, nó giúp người tiêu dùng có thể tương tác với quảng cáo Khách hàng có thể nhấn vào quảng cáo để lấy thông tin hoặc mua sản phẩm cùng mẫu mã trên quảng cáo đó, thậm chí họ còn có thể mua cả sản phẩm từ các quảng cáo trực tuyến trên website

1.2 Các đặc điểm của quảng cáo trực tuyến

Những ưu điểm của quảng cáo trực tuyến:

- Khả năng nhắm chọn

- Khả năng theo dõi

- Tính linh hoạt và khả năng phân phối

- Tính tương tác

Hạn chế của quảng cáo trực tuyến:

- Khác với các phương tiện quảng cáo khác, để tiếp cận được với quảng cáo trực tuyến đối tượng tiềm năng của bạn phải có máy tính và máy tính phải được nối mạng Internet

- Người dùng phải có kỹ năng duyệt web

- Ở các nước phát triển, việc tin tưởng vào quảng cáo và mua hàng trực tuyến đang rất phổ biến, còn ở nước ta, đây mới chỉ là xu hướng và chỉ thực sự có hiệu lực cho một

số ngành nghề phù hợp

- Các văn bản và chính sách đang trong quá trình hoàn thiện, còn nhiều kẽ hở cho lừa đảo trực tuyến phát triển cũng làm giảm độ tin cậy của quảng cáo trực tuyến

Trang 6

1.3 Những hình thức quảng cáo trực tuyến cơ bản

Quảng cáo trực tuyến tại Việt Nam hiện nay thường theo các hình thức sau:

- Thông qua các cỗ máy tìm kiếm

- Đặt logo hoặc banner tại các website có lượng người truy cập lớn

- Thông qua hệ thống thư điện tử (email)

- Quảng cáo đa phương tiện

1.4 Tiếp cận quảng cáo theo ngữ cảnh

Hệ thống quảng cáo theo ngữ cảnh sẽ quét nội dung trên một trang web để tìm kiếm các từ khoá và trả lại một danh sách những quảng cáo thích hợp có liên quan tới nội dung đang được xem trên trang web đó

1.5 Mô hình hệ thống quảng cáo theo ngữ cảnh AdSense

Mô hình nghiệp vụ:

Hệ thống AdSense đóng vai trò như là nhà trung gian, tiếp nhận các quảng cáo từ các nhà quảng cáo (tạm gọi là Subcriber) và thực hiện phân phối lại các quảng cáo này trên mạng lưới các trang web thành viên của nó

Mô hình hoạt động

Hệ thống cho phép các nhà quảng cáo đăng ký các mẩu quảng cáo Các mẩu quảng cáo được đại diện bởi một số từ khóa do nhà quảng cáo tự xác định Sau đó, các quảng cáo này sẽ được hệ thống phân phối và hiển thị trên mạng lưới các trang web thành viên đồng ý nhận đăng quảng cáo thông qua một đoạn mã nhúng javascript Đoạn mã nhúng này sẽ tự động phân tích nội dung hiện tại của trang web để tìm kiếm các từ khóa đại diện, sau đó sẽ tiến hành tìm kiếm trong hệ thống để lấy ra các quảng cáo có các từ khóa tương đồng Sau cùng nó tải về danh sách các quảng cáo được tìm thấy và hiển thị lên trang web thành viên

Trang 7

Hình 1.3: Mô hình quảng cáo thông qua hệ thống trung gian AdSense

1.6 Kết luận chương

Trong chương này luận văn đã bước đầu giới thiệu và tìm hiểu về các đặc điểm cơ bản của một hệ thống quảng cáo trực tuyến, đồng thời cũng nêu ra đề xuất về mô hình cho một hệ thống quảng cáo theo ngữ cảnh với tên gọi AdSense Dựa trên các phác thảo

về mô hình nghiệp vụ và mô hình hoạt động của hệ thống AdSense này, luận văn sẽ đi sâu vào phân tích về mặt lý thuyết các giải pháp kỹ thuật để hiện giải quyết các bài toán thuộc phạm vi hệ thống, đồng thời sẽ phân tích thiết kế và xây dựng thử nghiệm một hệ thống quảng cáo nhằm hiện thực hóa các nội dung lý thuyết ở trên

Trang 8

Chương 2 PHƯƠNG PHÁP PHÂN LỚP VĂN BẢN WEB 2.1 Giới thiệu về các phương pháp phân lớp văn bản

Hiện nay cĩ nhiều thuật tốn phân lớp văn bản, dưới đây là một số thuật tốn tiêu biểu:

+ SVM

+ K-means (KNN)

+ Nạve Bayes

2.2 Một số phương pháp xác định phần nội dung chính của văn bản web

Tại sao cần phải bĩc tách nội dung chính? Khối lượng thơng tin lưu trữ trên Internet ngày càng tăng theo thời gian Từ đây đã làm nảy sinh các nhu cầu nghiên cứu,

xử lý trên khối lượng dữ liệu thơng tin này sao cho hiệu quả và nhanh chĩng nhất

2.3 Một số nghiên cứu gần đây về bĩc tách nội dung trang web

2.3.1 Tiếp cận theo hướng loại bỏ các tag HTML

2.3.2 Tiếp cận theo hướng rút trích các Text node

2.3.3 Tiếp cận theo hướng so sánh khung mẫu

2.3.4 Tiếp cận theo hướng phân tích mã HTML và xử lý ngơn ngữ tự nhiên 2.3.5 Tiếp cận theo hướng phân đoạn trang web

2.4 Các hướng tiếp cận vấn đề phân lớp văn bản

2.4.1 Hướng tiếp cận dựa vào thống kê

Hướng tiếp cận này thường sử dụng thơng tin thống kê tần số xuất hiện để từ đĩ chọn ra các từ khĩa (key word) quan trọng trong văn bản, các từ khĩa này được sử dụng

để làm cơ sở cho việc dự đốn xem văn bản thuộc về lớp nào Hướng tiếp cận này cĩ ưu điểm là cĩ thể áp dụng dễ dàng cho nhiều ngơn ngữ

Thơng tin thống kê thường bao gồm 2 độ đo quan trọng: độ đo cục bộ và độ đo tồn cục Độ đo cục bộ là độ đo thống kê của một từ trong nội bộ văn bản cần phân lớp, cịn độ đo tồn cục là độ đo thống kê của từ đĩ trong một tập hợp nhiều văn bản khác nhau cho trước

Trang 9

2.4.2 Hướng tiếp cận dựa trên máy học

Theo cách tiếp cận này, một quá trình xử lý quy nạp chung (cũng được gọi là quá trình học) xây dựng tự động một phân lớp cho một loại ci bằng quan sát các đặc trưng của tập hợp các tài liệu đã được phân bằng tay vào ci hay c i bởi chuyên gia về lĩnh vực này, từ đĩ, quá trình qui nạp thu lượm các đặc trưng để phân lớp một tài liệu mới (khơng nhìn thấy) vào ci

Một số thuật tốn dựa trên tiếp cận máy học được sử dụng phổ biến hiện nay gồm: Cây quyết định, K-Nearest Neighbor, Support Vector Machine, thuật tốn Nạve Bayes, Neural Network

2.5 Mơ hình tiếp cận của luận văn

2.5.1 Cơ sở lý thuyết

a Ba giai đoạn xây dựng hệ thống phân loại

Ta cĩ thể nhận ra ba giai đoạn khác nhau trong việc thiết kế hệ thống phân loại văn bản: biểu diễn tài liệu, xây dựng bộ phân loại, đánh giá bộ phân loại

b Các vấn đề mà hệ thống phân loại cần phải quan tâm và giải quyết

- Độ chính xác: Dựa vào phần trăm của văn bản đúng so với văn bản đưa

vào phân loại Tỉ lệ càng cao thì hệ thống sẽ được đánh giá là tốt

- Tốc độ:Một hệ thống cĩ tốc độ phân loại nhanh nhưng độ chính xác thấp

hoặc hệ thống cĩ tốc độ thấp nhưng độ chính xác cao thì khơng được cho là

hệ thống tốt vì vậy phải đảm bảo tính tốc độ và chính xác cho hệ thống

- Dễ hiểu: Một hệ thống phân loại dễ hiểu sẽ tạo cho người sử dụng tin

tưởng hơn vào hệ thống, đồng thời cũng giúp cho người sử dụng tránh được việc hiểu lầm kết quả của một luật được đưa ra bởi hệ thống

- Thời gian để học: Yêu cầu hệ thống phải học rất nhanh một luật phân lớp

hoặc nhanh chĩng điều chỉnh một luật đã được học cho phù hợp với thực tế

Trang 10

2.5.2 Xác định ngữ cảnh quảng cáo dựa trên việc phân lớp văn bản vào các chủ đề cho trước

Sau khi cĩ được kết quả phân lớp văn bản web, tức là đã biết được trang web đĩ thuộc về chủ đề nào, ta tiến hành lấy ra các quảng cáo tương ứng với chủ đề đĩ và trả về

để hiển thị trên trang web

Trong khuơn khổ luận văn, việc sắp xếp các quảng cáo vào các chủ đề tương ứng được thực hiện thủ cơng bằng tay qua hệ thống quản trị, sau đĩ ở phía máy chủ xử lý làm nhiệm vụ gửi quảng cáo về ta tiến hành lấy ngẫu nhiên 1 hoặc 1 nhĩm các quảng cáo thuộc chủ đề đĩ để hiển thị trên trang web

Việc gửi về các đoạn quảng cáo và vị trí được thực hiện bởi 1 ngơn ngữ nào đĩ như Javascript…

2.5.3 Áp dụng thuật tốn Nạve Bayes trong phân lớp văn bản

Ý tưởng:

Ý tưởng cơ bản của cách tiếp cận Nạve Bayes là sử dụng xác suất cĩ điều kiện giữa

từ và chủ đề để dự đốn xác suất chủ đề của một văn bản cần phân loại Điểm quan trọng của phương pháp này chính là ở chỗ giả định rằng sự xuất hiện của tất cả các từ trong văn bản đều độc lập với nhau Giả định đĩ làm cho việc tính tốn NB hiệu quả và nhanh chĩng hơn các phương pháp khác vì khơng sử dụng việc kết hợp các từ để đưa ra phán đốn chủ đề Kết quả dự đốn bị ảnh hưởng bởi kích thước tập dữ liệu, chất lượng của khơng gian đặc trưng…

Cài đặt thuật tốn:

Mơ tả vector đặc trưng của văn bản: Là vector cĩ số chiều là số đặc trưng trong tồn tập dữ liệu, các đặc trưng này đơi một khác nhau Nếu văn bản cĩ chứa đặc trưng đĩ sẽ cĩ giá trị 1, ngược lại là 0

Thuật tốn gồm 2 giai đoạn huấn luyện và phân lớp:

Huấn luyện: tính và

Đầu vào:

Trang 11

 Các vector đặc trưng của văn bản trong tập huấn luyện (Ma trận MxN, với M là số vector đặc trưng trong tập huấn luyện, N là số đặc trưng của vector)

 Tập nhãn/lớp cho từng vector đặc trưng của tập huấn luyện

Đầu ra:

 Các giá trị xác suất và

Công thức tính đã làm trơn Laplace[8]

Trong đó:

 |docsi|: số văn bản của tập huấn luyện thuộc phân lớp i

 |total docs|: số văn bản trong tập huấn luyện

 m số phân lớp

Cài đặt:

 Khởi tạo mảng A, B có kích thước m

 Duyệt qua các văn bản trong tập dữ liệu, đếm số văn bản trong mỗi phân lớp lưu vào A

 Tính xác suất cho từng phân lớp theo công thức trên và lưu vào mảng B

Công thức tính đã làm trơn Laplace [4]:

Trong đó:

 : Số văn bản trong trong phân lớp i có đặc trưng thứ k mang giá trị xk (hay số văn bản trong lớp i, có xuất hiện/không xuất hiện đặc trưng k)

 : Số văn bản của tập huấn luyện thuộc phân lớp i

 Số giá trị có thể có của đặc trưng thứ k

Cài đặt:

Trang 12

 Với vector đặc trưng như mô tả bên trên, dk ở đây mang giá trị là 2, tương ứng với xuất hiện và không xuất hiện Do chỉ có 2 giá trị, ta có thể tính nhanh xác suất không xuất hiện theo công thức

 Khởi tạo mảng 3 chiều C, chiều 1 có kích thước là m (số phân lớp), chiều 2 có kích thước là N (số đặc trưng), chiều 3 có kích là 2 (dk) để lưu các giá trị

 Duyệt qua các văn bản trong tập dữ liệu, tiến hành thống kê các chỉ số cần thiết để tính xác suất theo công thức trên và lưu vào mảng C

Phân lớp:

Đầu vào:

 Vector đặc trưng của văn bản cần phân lớp

 Các giá trị xác suất và

Đầu ra:

 Nhãn/lớp của văn bản cần phân loại

Công thức tính xác suất thuộc phân lớp i khi biết trước mẫu X

Dựa vào vector đặc trưng của văn bản cần phân lớp, áp dụng công thức trên tính xác suất thuộc từng phân lớp cho văn bản, và chọn ra lớp có xác suất cao nhất

2.6 Kết luận chương

Trong chương 2 này luận văn đã giới thiệu một số hướng tiếp cận cho 3 bài toán chính của hệ thống quảng cáo thử nghiệm mà luận văn sẽ xây dựng, đó là bài toán làm mịn văn bản web, bài toán tách từ tiếng Việt và bài toán phân lớp văn bản Với mỗi bài toán trên luận văn đã đề xuất phương pháp mà hệ thống AdSense sẽ áp dụng để giải quyết, cụ thể: với bài toán làm mịn văn bản sẽ sử dụng thư viện của dự án Jsoup, với bài toán tách từ tiếng Việt sẽ sử dụng lại kết quả của dự án VnTokenizer Đại học quốc gia

Trang 13

HCM, và cuối cùng là thuật toán phân lớp Bayes được sử dụng để phân lớp văn bản ở giai đoạn cuối

Chương 3 THỬ NGHIỆM HỆ THỐNG QUẢNG CÁO TRỰC

TUYẾN 3.1 Đặt bài toán

Luận văn sẽ tiến hành xây dựng thử nghiệm một hệ thống quảng cáo trực tuyến dựa trên ngữ cảnh đơn giản, được đặt tên là AdSense Hệ thống có các chức năng chính sau:

- Cho phép lưu trữ dữ liệu huấn luyện trong Database

- Cho phép quản lý các nội dung quảng cáo

- Có module nhúng để hiển thị nội dung quảng cáo trên các trang web đã đăng

ký trước

- Có khả năng bóc tách, làm mịn nội dung của các trang web

- Có module xử lý việc tính toán và trả về quảng cáo phù hợp cho từng ngữ cảnh yêu cầu của mỗi trang web đã gắn module nhúng

3.2 Kiến trúc tổng quan hệ thống

Hệ thống được thiết kế với 5 module chính và các module này phối hợp với nhau để đảm bảo hoạt động của luồng thông tin và dữ liệu trao đổi giữa client và server

Ngày đăng: 17/02/2014, 09:01

HÌNH ẢNH LIÊN QUAN

Hình 1.3: Mô hình quảng cáo thông qua hệ thống trung gian AdSense - Nghiên cứu xây dựng công cụ quảng cáo theo ngữ cảnh
Hình 1.3 Mô hình quảng cáo thông qua hệ thống trung gian AdSense (Trang 7)
Hình 3.1: Tổng quan hệ thống AdSense - Nghiên cứu xây dựng công cụ quảng cáo theo ngữ cảnh
Hình 3.1 Tổng quan hệ thống AdSense (Trang 14)
Bảng 3.2: Danh sách các chủ đề phân lớp - Nghiên cứu xây dựng công cụ quảng cáo theo ngữ cảnh
Bảng 3.2 Danh sách các chủ đề phân lớp (Trang 15)

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm

w