1. Trang chủ
  2. » Luận Văn - Báo Cáo

Xây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dung (tt)

18 944 3
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

Tài liệu hạn chế xem trước, để xem đầy đủ mời bạn chọn Tải xuống

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 18
Dung lượng 240,16 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Xây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dungXây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dung

Trang 1

PHẦN MỞ ĐẦU

Ngày nay, ngành thương mại điện tử tăng trưởng mạnh và các nhà đầu tư, doanh nghiệp cũng đã và đang gặp khó khăn trong việc kinh doanh trực tuyến vì các mặt hàng, dịch vụ đa dạng và phong phú tăng dần hình thành một khối dữ liệu lớn (Big Data) dẫn đến khó khăn trong việc tìm kiếm và lọc các mặt hàng, dịch vụ phù hợp để giới thiệu đến khách hàng

Do đó, việc phát triển hệ thống gợi ý (Recommender System) là cần thiết nhằm hỗ trợ cho việc lọc và tìm kiếm dữ liệu hiệu quả, phù hợp với từng khách hàng cụ thể, giúp khách hàng tiết kiệm thời gian và công sức trong việc tìm kiếm sản phẩm mà mình

có thể quan tâm, cùng hướng đến sự tiện lợi của khách hàng và hướng đến lợi nhuận của công ty, doanh nghiệp

Hệ thống gợi ý là một đề tài nghiên cứu có ảnh hưởng đến chiến lược kinh doanh của công ty, tổ chức, tập đoàn

Dữ liệu sẽ được thu thập từ các nguồn như tiki.vn, fahasa book để chuẩn bị dữ liệu cho việc phân tích cho hệ thống Thu thập bình luận của cộng đồng người dùng từ nguồn vnexpress trên mạng

xã hội facebook.com, sau đó tiến hành xử lý ngôn ngữ tự nhiên để phân tích cảm xúc người dùng phục vụ cho việc xây dựng hệ thống

Ngoài phần Mở đầu, Phần kết luận và các Phụ lục, nội dung luận văn gồm có 4 chương chính:

Chương 1 – Tổng quan Nội dung chương giới thiệu về lợi ích nghiên cứu và ứp dụng hệ thống gợi ý vào kinh doanh, phân tích lợi ích giữa doanh nghiệp và khách hàng sử dụng dịch vụ Giới thiệu

Trang 2

tổng quan về hệ thống gợi ý và các hướng tiếp cận phổ biến hiện nay

Chương 2 – Cơ sở lý thuyết Nội dung chương trình bày các khái niệm, định nghĩa, thuật toán, các yếu tố, thành phần liên quan đến hệ thống gợi ý

Chương 3 – Kỹ thuật thực hiện Nội dung chương trình bày mô hình xây dựng hệ thống gợi ý, các thành phần và công nghệ được sử dụng Chương 4 – Phần mềm và kết quả thực nghiệm Nội dung chương trình bày kết quả thực nghiệm Hệ thống gợi ý theo hướng tiếp cận nội dung

Trang 3

PHẦN NỘI DUNG CHƯƠNG 1 – TỔNG QUAN 1.1 Tính cấp thiết của đề tài

Ngày nay, ngành thương mại điện tử tăng trưởng mạnh và các nhà đầu tư, doanh nghiệp cũng đã và đang gặp khó khăn trong việc kinh doanh trực tuyến vì các mặt hàng, dịch vụ đa dạng và phong phú hình thành một khối dữ liệu lớn dẫn đến khó khăn trong việc tìm kiếm và lọc các mặt hàng, dịch vụ phù hợp để giới thiệu đến khách hàng

Do đó, việc phát triển hệ thống gợi ý là cần thiết nhằm hỗ trợ cho việc lọc và tìm kiếm dữ liệu hiệu quả, phù hợp với từng khách hàng cụ thể, giúp khách hàng tiết kiệm thời gian và công sức trong việc tìm kiếm sản phẩm mà mình quan tâm, cùng hướng đến sự tiện lợi của khách hàng và hướng đến lợi nhuận của công ty, doanh nghiệp

1.2 Tổng quan về vấn đề nghiên cứu

Ở nước ta ngành thương mại điện tử đang trên đà phát triển, ngày một tăng nhanh Rất nhiều doanh nghiệp đã và đang phát triển, kinh doanh cách hệ thống thương mại ở mọi lĩnh vực như: Giáo dục, Giải trí, Dịch vụ, Thương mại… Bên cạnh đó ta thấy những hệ thống

đó đang gặp vấn đề về dữ liệu quá lớn gây khó khăn trong việc tìm kiếm và lọc thông tin, lọc dữ liệu để có thể phù hợp với khách hàng, phù hợp với mong muốn của người dùng Với những lý do đó, đòi hỏi phải thay đổi, nâng cấp hệ thống sao cho có thể hỗ trợ người

Trang 4

dùng tìm đến những thông tin, sản phẩm, dịch vụ mà phù hợp với mong muốn của họ Do đó xây dựng hệ thống dự đoán gợi ý là cần thiết, hệ thống gợi ý áp dụng các bộ lọc dữ liệu thông minh có thể phân tích, rút trích và dự đoán dữ liệu cần thiết, giúp cho mọi người đều có thể tìm kiếm được thông tin ưng ý với mình Với mục đích kinh doanh ngày một tăng lợi nhuận hơn

Với những khó khăn và chiến lược kinh doanh trực tuyến được nói đến ở trên, luận văn này sẽ phân tích và đưa ra giải pháp

“Xây dựng hệ thống gợi ý dựa trên phân tích sở thích của người dùng theo hướng tiếp cận lọc trên nội dung”

Dữ liệu sẽ được thu thập về từ các nguồn như tiki.vn, fahasa.com để chuẩn bị dữ liệu cho việc phân tích cho hệ thống Thu thập dữ liệu của cộng đồng người dùng từ fanpage tiki, fahasa trên mạng xã hội facebook.com, sau đó tiến hành rút trích các đặc trưng sản phẩm dựa trên tập luật định trước phục vụ cho việc xây dựng hệ thống Để đo độ tương tự sản phẩm, độ đo Jaccard được sử dụng để phù hợp cho việc đo đạc với kiểu dữ liệu phân loại Bài toán hướng tới việc xây dựng hệ thống trên nền hệ thống phân tán Hadoop và sử dụng các kỹ thuật xử lý dữ liệu lớn

Kết quả đạt được sẽ là một hệ thống gợi ý các sản phẩm và dịch vụ phù hợp với người dùng mà có thể họ quan tâm, ưng ý

1.3 Mục đích nghiên cứu

Xây dựng hệ thống gợi ý có thể hỗ trợ khách hàng tìm được những sản phẩm yêu thích thông qua lịch sử yêu thích hoặc lịch sử mua sắm của họ, có thể phân tích sở thích của người dùng, dự đoán

Trang 5

gợi ý các mặt hàng và dịch vụ đến khách hàng mà có thể họ quan tâm, nhằm thu hút khách hàng và tăng doanh thu

Mục tiêu nghiên cứu: Thu thập dữ liệu chuẩn bị cho việc phân tích và dự đoán sản phẩm, dịch vụ Xây dựng bộ lọc dựa trên nội dung (Content-based filtering [1]) để tích hợp vào hệ thống gợi ý sản phẩm, dịch vụ dựa vào các thuật toán máy học Triển khai Hadoop MapReduce và tích hợp bộ lọc Content-based vào hệ thống Hadoop để phân tích và xử lý dữ liệu sau đó trainning để được tập dữ liệu gợi ý Xây dựng hệ thống website dựa trên tập dữ liệu thu thập

và hệ thống Hadoop Sau cùng là thử nghiệm và phân tích và kiểm chứng kết quả

1.4 Đối tƣợng và phạm vi nghiên cứu

Nghiên cứu chiến lược kinh doanh trực tuyến ở Việt Nam, xây dựng và ứng dụng hệ thống gợi ý vào việc kinh doanh sản phẩm, dịch vụ trực tuyến

Nghiên cứu và phân tích các chi tiết đặc trưng của sản phẩm dịch vụ, tìm hiểu mối quan hệ giữ các sản phẩm và dịch vụ với nhau, phân tích hành vi của khách hàng tác động lên sản phẩm và dịch vụ, phân tích sở thích của khách hàng đối với các mặt hàng và dịch vụ

Nghiên cứu hướng tiếp cận lọc dựa trên nội dung để xây dựng hệ thống gợi ý, giúp cho khách hàng dễ dàng tìm kiếm được sản phẩm mà họ có thể ưng ý

1.5 Hệ thống gợi ý

Hệ thống gợi ý là một hệ thống được áp dụng những công nghệ và giải thuật lọc dữ liệu một cách thông minh, giúp cho người dùng có

Trang 6

thể tìm kiếm được những sản phẩm, dịch vụ mà họ ưng ý

1.6 Các hướng tiếp cận

1.6.1 Lọc dựa trên nội dung

Hướng tiếp cận lọc trên nội dung, trả lời cho câu hỏi “Tôi muốn xem nhiều hơn các sản phẩm và dịch vụ khác tương tự như những sản phẩm dịch vụ mà tôi đã xem, yêu thích hoặc mua, hãy gợi

ý cho tôi những sản phẩm và dịch vụ phù hợp với tôi.”

1.6.2 Lọc cộng tác

Hướng tiếp cận lọc cộng tác, trả lời cho câu hỏi “Tôi muốn xem những sản phẩm và dịch vụ phổ biến nhất đang được cộng đồng quan tâm và phù hợp với tôi Bạn có gợi ý cho tôi không?”

1.6.3 Lọc kết hợp giữa cộng tác và nội dung

Hướng tiếp cận này là sự kết hợp giữa hướng tiếp cận lọc dựa trên nội dung và hướng tiếp cận lọc cộng tác Hướng tiếp cận Hybrid kết hợp giữa kỹ thuật A và B, sử dụng điểm mạnh của A để khác phục cải tiến điểm yếu của B Ví dụ: CF có điểm yếu về vấn đề item mới, phương pháp CF không thể gợi ý những item chưa được đánh giá (rating) nhưng điều này hướng tiếp cận CB có thể giải quyết được, CB dự đoán dựa vào những đặc tính của item để gợi ý

1.7 Ứng dụng của hệ thống gợi ý

Hệ thống gợi ý đã được ứng dụng thành công ở các lĩnh vực như:

- Hệ thống giới ý giới thiệu sản phẩm: Amazon, Ebay

- Hệ thống giải trí gợi ý phim ảnh: Youtube, Netflix

Trang 7

- Hệ thống gợi ý bài viết, tin tức: Google news, Yahoo news…

- Hệ thống gợi ý cho các trang xã hội: Facebook, Twitter

1.8 Kết luận chương 1

Nội dung chương 1 trình bày về vấn đề khó khăn gặp phải trong việc kinh doanh trực tuyến ngày nay, đưa ra lý do và lợi ích cho khách hàng và doanh nghiệp khi ứng dụng hệ thống gợi ý vào việc kinh doanh của họ, giới thiệu tổng quan về hệ thống gợi ý và các hướng tiếp cận phổ biến hiện nay

CHƯƠNG 2 – CƠ SỞ LÝ THUYẾT

2.1 Đối tượng phục vụ của hệ thống

Hệ thống phục vụ 2 loại khách hàng: khách hàng thân thuộc

và khách hàng vãng lai

Khách hàng thân thuộc là khách hàng đã có hồ sơ thông tin

cá nhân, đã có lịch sử mua sắm và thường xuyên đến thăm viếng website của chúng ta Ví dụ: anh Nguyễn quan tâm đến các thiết bị công nghệ như điện thoại, máy tính bảng,… Nguyễn đã từng đánh giá các sản phẩm, yêu thích các sản phẩm và mua sản phẩm Nguyễn

là khách hàng thân thuộc và đã có hồ sơ cá nhân Gần đây, anh Nguyễn quay lại website để tìm kiếm mua những phụ kiện liên quan đến chiếc điện thoại mà anh ta mua cách đây vài hôm Từ những thông tin trên, hệ thống phân tích, xây dựng chiến lược để dự đoán

và giới thiệu các phụ kiện hoặc những sản phẩm mới tương tự dựa

Trang 8

vào từ khóa và sản phẩm mà anh ta đã tìm kiếm hoặc thanh toán trước đó

Khách hàng vãng lai là khách hàng chưa có hồ sơ thông tin

cá nhân, chưa hoặc ít mua sắm và ít khi đến thăm viếng website của chúng ta Ví dụ: chị Hà là người dùng mới, không có hồ sơ cá nhân, lần đầu đến thăm viếng website của chúng ta Hệ thống dựa vào kho lịch sử mua sắm, lịch sử yêu thích của các sản phẩm trong những tuần qua để phân tích và chọn ra top sản phẩm được người dùng quan tâm cũng như được công đồng mua sắm gần đây để hiển thị giới thiệu cho Hà Sau đó Hà chọn xem sản phẩm, hệ thống sẽ phân tích và dự đoán sở thích của chị Hà, từ đây hệ thống tận dụng thông tin để thực hiện gợi ý những sản phẩm mới đến Hà và có thể được ưng ý

2.2 Định nghĩa Item và User

Hệ thống gợi ý bao gồm 2 đối tượng: Item, user Item và User có mối quan hệ mật thiết với nhau

Item là đối tượng sẽ được gợi ý đến user như: sản phẩm, dịch vụ, bài hát, bài báo, clip… cũng có thể là một user Item có những đặc trưng và metadata như: chủ đề, mô tả, nôi dung, từ khóa, dung lượng, kích thước… Những đặc trưng này sẽ được hệ thống xử

lý dự đoán và gợi ý những item tương tự đến user

User là đối tượng phục vụ của hệ thống như: khách hàng đến mua sản phẩm, người dùng viếng thăm website để xem phim, đọc tin tức, nghe nhạc

2.3 Định nghĩa User profile và Item profile

Trang 9

Hệ thống sẽ gợi ý những items phù hợp nhất dựa trên nội dung đặc trưng và profile của user

Item profile là tập các nội dung đặc trưng quan trọng mô tả

về một item Ví dụ như: một tập phim ta có thể xây dựng profile như: danh sách viễn viên, danh sách đạo diễn, năm phát hành, thể loại

User profile là tập các item profile của người dùng thông qua lịch sử mua sắm, yêu thích… Profile thể hiện sự yêu thích của người dùng quan tâm đến sản phẩm

2.4 Định nghĩa về dữ liệu

Trong hệ thống gợi ý sẽ có 2 loại dữ liệu được phân tích được tạo ra thông qua các hàng động của khách hàng tác động lên sản phẩm, dịch vụ Ví dụ như: đánh giá, yêu thích, mua sắm,…

Dữ liệu tường minh là những dữ liệu sau được tạo bởi người như: dữ liệu log khách hàng đánh giá sản phẩm, dịch vụ; dữ liệu log yêu thích sản phẩm, dịch vụ; dữ liệu log bình luận về sản phẩm, dịch vụ; dữ liệu log mua sắm sản phẩm, dịch vụ

Dữ liệu không tường minh là những dữ liệu sau được tạo bởi người dùng như: dữ liệu log xem trang về sản phẩm, dịch vụ; dữ liệu log tìm kiếm

2.5 Quan hệ giữa Item và User

2.6 Đo khoảng cách (Distance Measure)

Như chúng ta đã biết, thuật toán gom cụm phụ thuộc và ảnh hưởng vào phương thức tính khoảng cách Tùy thuộc vào từng bài toán, cấu trúc dữ liệu mà chúng ta quyết định lựa chọn phương pháp

Trang 10

tính khoảng cách phù hợp Ví dụ: để gom nhóm tài liệu, bài báo chúng ta chọn phương pháp tính khoảng cách là Cosine

2.7.1 Gom cụm (Cluster analysis hoặc Clustering)

2.7.2 Thuật toán K-mode

Tương tự như K-mean, thuật toán K-mode là phiên bản cải tiến của thuật toán K-means Do việc xử lý gom cụm các sản phẩm, dịch vụ trong bài toán không phù hợp với thuật toán K-means nên chúng ta cải tiến K-means thành K-mode

Thuật toán K-mode dùng để phân nhóm, với trung tâm của từng nhóm được xác định bằng giá trị khoảng cách nhỏ nhất của tất

cả các đối tượng trong cùng nhóm

2.8 Kết luận chương 2

Nội dung chương 2 trình bài lý thuyết về hệ thống gợi ý, các khái niệm liên quan đến hệ thống gợi ý như: user, item, mối quan hệ giữa user với item, khái niệm về dữ liệu tường minh Cơ sở lý thuyết làm nền tảng để giải quyết bài toán gợi ý: độ đo khoảng cách, gom nhóm và cuối cùng là ví dụ minh họa

Trang 11

CHƯƠNG 3 – GIẢI PHÁP THỰC HIỆN

3.1 Framework hệ thống gợi ý

Hệ thống gợi ý gồm có 5 thành phần xử lý chính:

Xử lý feedback: module sẽ kiểm soát các hành động của người dùng tác động lên sản phẩm, lưu dữ liệu log khi người dùng thể hiện sự quan tâm đối với sản phẩm qua các thao tác như: yêu thích, chia sẽ, đánh dấu, bình chọn hoặc comment

Rút trích đặc trưng: module phân tích nội dung mô tả item từ

dữ liệu thô không cấu trúc (như text), sau đó rút trích các đặc tính của sản phẩm, dịch vụ và xây dựng thông tin có cấu trúc cho sản phẩm, dịch vụ

Xây dựng User preference: module sẽ tổng hợp dữ liệu về các hành động của người dùng thể hiện sự yêu thích quan tâm đối với sản phẩm qua lịch sử thao tác của người dùng lên sản phẩm và được xây dựng thông qua kỹ thuật máy học như: gom nhóm, phân lớp

Clustering: module sẽ thực hiện gom nhóm các item dựa vào đặt trưng, phục vụ cho việc dự đoán các sản phẩm và dịch vụ phù hợp với khách hàng

Xử lý lọc: module sẽ tận dụng dữ liệu user preference để gợi

ý những sản phẩm phù hợp qua việc phân tích, kết hợp với dữ liệu gom nhóm và item profile để đưa ra tập dữ liệu gợi ý

Trang 12

3.2 Cơ sở dữ liệu lưu trữ

Hệ thống gợi ý sử dụng 3 hệ cơ sở dữ liệu sau:

- Mysql CSDL chính dùng để lưu trữ thông tin quan trọng của

hệ thống như sản phẩm, dịch vụ, khách hàng

- Mongodb CSDL dùng để crawler thu thập dữ liệu, chuẩn bị cho việc xử lý

- Hbase CSDL dùng để xử lý tính toán gom cụm trên môi trường Hadoop

3.3 Xây dựng mối quan hệ giữa user và item

Mỗi khách hàng đến viếng thăm website, họ sẽ xem các sản phẩm nếu sản phẩm đấy làm họ hài lòng có thể họ sẽ nhất vào nút

“like” trên giao diện website để thể hiện sự yêu thích của mình đối với sản phẩm Khi đó ta có được quan hệ giữa user đối với item

3.4 Thu thập dữ liệu

Dữ liệu phân tích được thu thập từ nguồn tiki.vn, fahasa.com

và fanpage của tiki, fahasa từ cộng đồng facebook

3.4.1 Thu thập bài post từ fanpage trên facebook

Dữ liệu bài post ta thu thập được clawer từ nguồn fanpage của facebook phục vụ cho việc rút trích đặc trưng, xây dựng hồ sơ người dùng và hồ sơ item Dữ liệu thu thập được lưu trữ vào Hệ CSDL MongoDB

3.4.2.Thu thập dữ liệu thông tin sản phẩm từ trang chính

Ngày đăng: 18/12/2016, 00:11

TỪ KHÓA LIÊN QUAN

TÀI LIỆU CÙNG NGƯỜI DÙNG

TÀI LIỆU LIÊN QUAN

🧩 Sản phẩm bạn có thể quan tâm