DỰNG một hệ THỐNG TIN tức OFFLINE
Trang 1MỤC LỤC
Trang
Lời cảm ơn
Mục lục
Danh sách các từ viết tắt
Danh sách các hình
CHƯƠNG 1: PHÁT BIỂU BÀI TOÁN 6
1.1 Đặt vấn đề 6
1.2 Mục đích của đề tài 7
1.3 Kết quả mong đợi 7
CHƯƠNG 2: GIỚI HẠN BÀI TOÁN 8
CHƯƠNG 3: MỘT SỐ LỢI ÍCH NẾU ĐỀ TÀI THÀNH CÔNG 9
CHƯƠNG 4: MỘT SỐ THÔNG TIN CƠ BẢN CÓ LIÊN QUAN ĐẾN CHƯƠNG TRÌNH 10
4.1 Tìm hiểu RSS 10
4.2 Tìm hiểu về CMS (Wordpress) 25
CHƯƠNG 5: PHÂN TÍCH 35
5.1 Vấn đề cần giải quyết 35
5.2 Qui trình hoạt động của hệ thống đề xuất 39
5.3 Công nghệ cần chọn 41
CHƯƠNG 6: THIẾT KẾ 42
6.1 Thiết kế sơ đồ hoạt động của chương trình 42
Trang 26.2 Các giải pháp cho qui trình đã thiết kế 42
6.3 Giải thích các chức năng 44
CHƯƠNG 7 CHƯƠNG TRÌNH 56
7.1 Sơ đồ lớp 56
7.2 Mô hình dữ liệu quan hệ 56
7.3 Thiết kế giao diện .57
7.4 Cài đặt 67
CHƯƠNG 8 HẠN CHẾ VÀ HƯỚNG PHÁT TRIỂN 68
CHƯƠNG 9 TÀI LIỆU THAM KHẢO 69
CHƯƠNG 10 PHỤ LỤC 70
PHỤ LỤC A: CHUẨN W3C ĐƯA RA ĐỐI VỚI RSS 70
PHỤ LỤC B: CÁCH CÀI ĐẶT WAMP5 82
Trang 3DANH SÁCH CÁC TỪ VIẾT TẮT
- RSS: Really Simple Syndication
(Dịch vụ cung cấp thông tin cực kì đơn giản )
- XML: Extensible Markup Language
(Ngôn ngữ đánh dấu mở rộng)
- URL: Uniform Resource Locator
( Địa chỉ định vị tài nguyên đồng nhất )
- CMS: Content Management System
(Hệ thống quản lý nội dung)
- CSDL: Từ viết tắt của Cơ sở dữ liệu
Trang 4DANH SÁCH CÁC HÌNH
Hình 1: Trang chính của Website Tuổi trẻ ( http://www.tuoitre.com.vn ) 17
Hình 2: Trang chính của Website Dân trí ( http:// www.dantri.com.vn ) 18
Hình 3: Website bbc tại: http://news.bbc.co.uk/ 19
Hình 4: Website bbc tại: http://news.bbc.co.uk/ 20
Hình 5: Website CNN với: http://edition.cnn.com 21
Hình 6: Website CNN với: http://edition.cnn.com 22
Hình 7: New York Times: http://www.nytimes.com 23
Hình 8: Hình minh hoạ file RSS 24
Hình 9: Hướng dẫn cài đặt Wordpress 27
Hình 10: Bước thứ nhất của việc cài đặt Wordpress 27
Hình 11: Bước thứ hai của việc cài đặt Wordpress 28
Hình 12: Cài đặt Wordpress đã hoàn thành 29
Hình 13: Điền đầy đủ thông tin để đăng nhập vào Wordpress 30
Hình14: Trang chính của Wordpress sẽ hiển thị nếu đăng nhập thành công 31
Hình 15: Màn hình post bài trong Wordpress 33
Hình 16: Màn hình Wordpress sau khi post bài thành công 34
Hình 17: : Trang tin Tuổi trẻ minh hoạ các description của một channel 36
Hình 18: Trang tin chi tiết: (Trích 1 tin tức về Đại dịch virus Việt từ báo Tuổi Trẻ Online) 37
Hình 19: Minh hoạ Item trong file RSS 38
Hình 20: Sơ đồ mô tả quá trình hoạt động 42
Trang 5Hình 21: Lược đồ Usecase 44
Hình 22 : Bảng các Usecase – Actor 45
Hình 23: Sơ đồ Sequence Diagram cho Usecase Xemtin 53
Hình 24: Sơ đồ Sequence Diagram cho Usecase Laytin 53
Hình 25: Sơ đồ Sequence Diagram cho Usecase Dinhnghialuat 54
Hình 26: Sơ đồ Sequence Diagram cho Usecase Quanlykenhtin 55
Hình 27: Sơ đồ Sequence Diagram cho Usecase Dinhnghiakichban 55
Hình 28: Sơ dồ lớp 56
Hình 29: Mô hình cơ sở dữ liệu 56
Hình 30: Trang chính của hệ thống 57
Hình 31: Màn hình lấy tin theo kênh 58
Hình 32: Trang thêm trang tin theo URL của RSS chính 59
Hình 33: Trang chọn Channel cho website vừa thêm có URL RSS chính 60
Hình 34: Trang Thêm Tin tự do 61
Hình 35: Trang thêm, xóa Channel 62
Hình 36: Màn hình thêm, xoá thẻ (Rule) 63
Hình 37: Màn hình chỉ đường link cho chức năng tìm kiếm 64
Hình 38:Màn hình in một trang nội dung 66
Hình 39: Trang hướng dẫn cài đặt Wamp5 82
Hình 40:Trang chấp nhận cài đặt Wamp5 83
Hình 41: Cài đặt Wamp5 đã hoàn thành 83
Hình 42:Hướng dẫn khởi động Wamp5 84
Trang 6CHƯƠNG 1: PHÁT BIỂU BÀI TOÁN
1 Đặt vấn đề.
Trong những năm gần đây ngành Công nghệ thông tin phát triển rất mạnh, ngày càng gần gũi và phổ dụng trong đời sống chúng ta Để đáp ứng với nhu cầu cuộc sống ngày càng cao của con người không những giới hạn trong công việc: kinh tế, chính trị, xã hội… mà còn mở rộng sang các lĩnh vực khác như nhu cầu về giải trí, tinh thần… hàng lọat công nghệ mới, chương trình phần mềm mới vô cùng tối ưu nhanh chóng ra đời và được đưa vào ứng dụng
Với thời đại Công nghệ luôn phát triển và thay đổi không ngừng, không thể không nhắc đến Internet - một lĩnh vực rất hết sức gần gũi và thân thuộc đã làm bùng nổ sự khao khát thông tin của con người Tinh thần luôn học hỏi, mong muốn
mở rộng kiến thức và tiếp cận các công nghệ mới đòi hỏi con người phải thường xuyên cập nhật thông tin Nhưng do hạn chế về thời gian mà chúng ta không thể tiếp thu cùng một lúc quá nhiều thông tin (rất đa dạng, từ nhiều nguồn khác nhau trên Internet) Tuy nhiên những thông tin từ các nguồn đó trong một khoảng thời gian nhất định sẽ bị mất đi Nếu chúng ta quan tâm và cần lưu giữ để phục vụ cho nhu cầu tham khảo, nghiên cứu thì đòi hỏi người dùng phải thực hiện chức năng lấy tin và lưu trữ Nghe có vẻ đơn giản nhưng thật vô cùng phức tạp nếu làm việc với
số lượng lớn thông tin theo cách thủ công “save as” Và một yêu cầu đặt ra là làm thế nào để lấy và lưu trữ những tài liệu đó có hệ thống để truy xuất nhanh nhất, phục vụ cho nhu cầu xem tin, nghiên cứu hiệu quả cùng nhiều mục đích khác?
Nhằm tiết kiệm thời gian truy xuất, tìm kiếm và lưu trữ các thông tin chọn lọc từ Internet để phục vụ mục đích nghiên cứu hiệu quả hơn, mang lại sự tiện lợi hơn cho người sử dụng trong việc lấy và đọc tin Hệ thống tin tức Offline dựa trên
cơ sở của các công nghệ web kết hợp với các kỹ thuật khác để phân tích, đọc, hiểu
Trang 7tài liệu RSS và một số kỹ thuật khác liên quan đến XML (Extensible Markup Language – Ngôn ngữ đánh dấu mở rộng) đã phần nào đáp ứng được các yêu cầu đó.
3. Kết quả mong đợi
• Đề xuất qui trình và công nghệ sử dụng để xây dựng một hệ thống tin tức Offline
• Một hệ thống tin tức Offline cụ thể mới được xây dựng dựa trên qui trình và công nghệ đã đề xuất
Trang 8CHƯƠNG 2: GIỚI HẠN BÀI TOÁN
Trong giới hạn về thời gian thực hiện luận văn, một số giới hạn được đã được đặt ra để đảm bảo chất lượng và khả năng hoàn thành Cụ thể như sau:
• Nghiên cứu công nghệ RSS, các website có hỗ trợ RSS và các công
cụ xây dựng ứng dụng hệ thống tin tức Offline
• Tìm hiểu một số CMS có hỗ trợ chức năng RSS
• Xây dựng một hệ thống tin tức Offline hỗ trợ chức năng lấy và lưu trữ tin tức (gồm cả nội dung mô tả và nội dung chi tiết của tin)
• Bổ sung chức năng định nghĩa phương thức lấy tin có chọn lọc
• Cho hiển thị thông tin đã lưu trữ
• Tìm kiếm, thống kê thông tin đã lưu trữ
• Nghiên cứu đặc điểm một số website trực tuyến có hỗ trợ RSS cụ thể
là Tuổi trẻ, Thanh niên, Dân trí, Tiền Phong, Người Lao Động và áp dụng thử nghiệm chương trình trên các website này
• Xây dựng module giúp người dùng tự định nghĩa (phạm vi sử dụng chương trình cho các website trên)
Trang 9CHƯƠNG 3: Ý NGHĨA CỦA VIỆC THỰC HIỆN ĐỀ
TÀI
Hệ thống tin tức Offline dự kiến xây dựng cho các trang web sử dụng công nghệ RSS thành công sẽ đem lại khá nhiều lợi ích cho người sử dụng:
• Làm chủ thông tin cần thiết từ các nguồn khác nhau trên Internet
• Tiết kiệm thời gian và chi phí so với việc đọc tin trực tiếp Online
• Tổ chức lưu trữ kho thông tin offline một cách có hệ thống nhằm phục vụ mục đích tìm kiếm và nghiên cứu hiệu quả, tiết kiệm thời gian và chia sẻ thông tin cho nhiều người khác
• Giao diện xem tin có thể được tùy biến linh động để tạo tính gần gũi, quen thuộc theo sở thích người dùng
• Tạo không gian thoải mái có thể truy cập tin tức trong mọi lúc, mọi nơi không cần hệ thống mạng Internet
Trang 10CHƯƠNG 4: MỘT SỐ THÔNG TIN CƠ BẢN LIÊN
QUAN ĐẾN CHƯƠNG TRÌNH
1 Tìm hiểu RSS
1.1 RSS là gì?
RSS (Really Simple Syndication) là một chuẩn tựa XML dành cho
việc phân tán và khai thác nội dung thông tin Web (ví dụ như các tiêu đề tin tức) Là một danh sách lựa chọn các item đã được định nghĩa trên một site RSS dùng để tổ chức một site nội dung, chia sẻ, xem tiêu đề và nội dung Các file RSS tự động cập nhật và cho phép cá nhân hoá việc xem các site khác nhau Sử dụng RSS, các nhà cung cấp nội dung Web có thể dễ dàng tạo và phổ biến các nguồn dữ liệu ví dụ như các link tin tức, tiêu đề và tóm tắt
Khi khối lượng website tin tức ngày càng nhiều, việc duyệt Web để tìm những thông tin cần thiết ngày càng mất nhiều thời gian Liệu có tốt hơn không nếu các thông tin và dữ liệu mới nhất được gởi đến , thay vì phải tự
dò tìm thông tin từ trang web này đến trang web khác Giờ đây tiện ích này được sử dụng thông qua một dịch vụ cung cấp thông tin mới gọi là RSS
Có nhiều ý kiến xung quanh vấn đề giải thích từ viết tắt RSS có nghĩa gì? Tuy nhiên đa số đồng ý rằng đây là từ viết tắt của Really Simple Syndication - Dịch vụ cung cấp thông tin cực kì đơn giản Nói ngắn gọn dịch vụ này cho phép tìm kiếm thông tin cần quan tâm và đăng kí để được gửi thông tin đến trực tiếp Dịch vụ này giúp giải quyết vấn đề về tính cập nhật của thông tin bằng việc cung cấp những thông tin mới nhất mà người dùng đang quan tâm
Trang 111.2 Các phiên bản RSS - Lịch sử phát triển
• RSS được phát hành dưới nhiều hình thức khác nhau
− RSS 0.90 được phát triển bởi NestCapse, hỗ trợ định dạng sriptingNews Đây là dạng XML đơn giản với một RDF Header
− ScriptingNews 2.0b1 được phát triển bởi Dave Winer tại UserLand Trong phiên bản này chứa đặc điểm RSS 0.9 của NestCapse
− RSS 0.91 là sự cố gắng của NestCapse nhằm đưa ra một định dạng chuẩn hơn và chứa hầu hết các đặc điểm của ScriptingNews 2.0b1 nhưng bỏ đi RSS Header
− Phiên bản kĩ thuật RSS 0.91 chính thức phát hành từ UserLand
− RSS 1.0 được phát triển bởi nhóm đứng đầu Rafael Dornfest ở O’Reilly Đây là định dạng sử dụng PDF và namespace Tên của
nó thường gây rắc rối như là một phiên bản mới của RSS 0.91 nhưng nó là một định dạng mới hoàn chỉnh mà không liên quan tới RSS 0.91
− RSS 0.92 được phát triển bởi Dave Winer tại UserLand và bao gồm những thành phần lựa chọn
− RSS 2.0 được thiết kế bởi Dave Winer tại UserLand và phiên bản
kĩ thuật được phát hành thông qua đại học Harvard dưới giấy phép Creative Commons
• Các chuẩn của RSS
− Không có một chuẩn chính thức nào cho RSS cả, nhưng khoảng 50% tất cả các RSS feed sử dụng định dạng RSS 0.91 Khoảng 25% người dùng sử dụng RSS 1.0 và 25% còn lại sử dụng những định dạng khác giữa 0.9x và 2.0
− RSS 0.91 và 2.0 dễ dàng hiểu nhất, RSS 1.0 phức tạp hơn để học
và mất nhiều thời gian và bandwidth hơn để xử lí Article của chúng ta sẽ dựa trên RSS 2.0
Trang 12Ví dụ: RSS phiên bản 2.0
1.3 Tìm hiểu cấu trúc file RSS được xây dựng như thế nào?
Một RSS document là một <rss> element, với thuộc tính bắt buộc phải có là version Một <rss> element chỉ đơn giản là một <channel> element, chứa thông tin của channel Sau đây là ví dụ biểu diễn cấu trúc của file RSS:
Để dễ hiểu chúng ta xem lại ví dụ về RSS 2.0
Dòng đầu tiên trong tài liệu: việc công bố XML, định nghĩa phiên bản XML
và kí tự encoding được sử dụng trong tài liệu Trong trường hợp này tài liệu tuân theo chuẩn XML và sử dụng tập encoding ISO-8859-1 (Latin1 European)
Trang 13Dòng tiếp theo mô tả thành phần rss của tài liệu.
Dòng kế tiếp mô tả thành phần channel của tài liệu
Ba dòng kế tiếp mô tả thành phần con của channel (<title>, <link>,
<description>)
Thành phần item bao gồm những thông tin (<title>, <link>, <description>,
….)
Hai dòng cuối là đóng channel và rss
Tuy nhiên đây chỉ là ví dụ đơn giản nhất để dễ hiểu, trong thực tế một file RSS có 1 channel nhưng có thể có đến hàng chục item theo kèm tương ứng với hàng chục tin cần theo dõi Ví dụ tham khảo 1 file RSS thuộc trang báo nước ngoài New York Times:
Trang 14<?xml version="1.0" encoding="iso-8859-1" ?>
<rss version="2.0">
<channel>
<title>NYT > Art and Design</title>
<link>http://www.nytimes.com/pages/arts/design/index.html?partner=rssnyt</link>
<description />
<copyright>Copyright 2006 The New York Times Company</copyright>
<language>en-us</language>
<lastBuildDate>Mon, 27 Feb 2006 02:05:01 EST</lastBuildDate>
<image>
<url>http://graphics.nytimes.com/images/section/NytSectionHeader.gif</url>
<title>NYT > Art and Design</title>
<link>http://www.nytimes.com/pages/arts/design/index.html</link>
<author>ALAN RIDING</author>
<pubDate>Mon, 27 Feb 2006 00:00:00 EDT</pubDate>
<guid isPermaLink="false">http://www.nytimes.com/2006/02/27/arts/design/27goth.html
<description>A number of new shows tell us very different things about the reception
in the West of a cultural category called "Islam."</description>
<author>HOLLAND COTTER</author>
<pubDate>Sun, 26 Feb 2006 00:00:00 EDT</pubDate>
<guid isPermaLink="false">http://www.nytimes.com/2006/02/26/arts/design/26cott.html
<author>LINDA YABLONSKY</author>
<pubDate>Sun, 26 Feb 2006 00:00:00 EDT</pubDate>
<guid isPermaLink="false">http://www.nytimes.com/2006/02/26/arts/design/26yabl.html
Trang 15<guid isPermaLink="false">http://www.nytimes.com/2006/02/24/arts/design/24goya.html
<author>ROBERTA SMITH</author>
<pubDate>Fri, 24 Feb 2006 00:00:00 EDT</pubDate>
<guid isPermaLink="false">http://www.nytimes.com/2006/02/24/arts/design/24sick.html
<author>GRACE GLUECK</author>
<pubDate>Fri, 24 Feb 2006 00:00:00 EDT</pubDate>
<guid isPermaLink="false">http://www.nytimes.com/2006/02/24/arts/design/24robi.html
1.4.2 Giới hạn
Trang 16RSS hấp dẫn và được phổ biến là ở khả năng cung cấp thông tin đơn giản Thực ra RSS về cơ bản chỉ cung cấp thông tin một chiều Trong khi đó để giải quyết vấn đề chia sẻ thông tin phức tạp, chúng ta cần phải cung cấp và đồng bộ thông tin hai chiều Do đó sử dụng RSS cho mục đích đồng bộ hóa không còn là tùy chọn nữa.
1.5 Tầm quan trọng RSS trong tương lai
• RSS sẽ có mặt mọi nơi, hàng ngày trên các site và nhiều người hiểu được tính hữu dụng của nó
• Bằng việc sử dụng RSS, thông tin trên web trở nên dễ dàng được tìm thấy và các web-developer có thể chia sẻ thông tin của họ dễ dàng hơn
• Các phiên bản RSS tương lai sẽ chứa những file mà thậm chí có thể dễ dàng chia đề mục và chia sẻ
1.6 Giới thiệu một số trang web có hỗ trợ RSS và cách nhận biết của nó
** Giới thiệu một số trang web có hỗ trợ RSS: một số website Việt Nam có
hỗ trợ RSS hiệu quả như: Tuổi trẻ, Dân trí, Thanh niên,…
Trang 17Hình 1: Trang chính của Website Tuổi trẻ ( http://www.tuoitre.com.vn )
Hình 2: Trang chính của website Dân trí ( http:// www.dantri.com.vn )
Trang 18Bên cạnh các website Việt Nam có sử dụng ứng dụng RSS ngày càng mở rộng thì việc hỗ trợ RSS của các website nước ngoài rất phong phú và đa dạng Sau đây chúng ta tham khảo một số website nước ngoài:
Trang 19
Hình 3: Website BBC tại: http://news.bbc.co.uk/
Hình 4: Website BBC tại: http://news.bbc.co.uk/
Trang 20Hình 5: Website CNN với: http://edition.cnn.com
Trang 21Hình 6: Website CNN với: http://edition.cnn.com
Trang 22Hình 7: Website New York Times tại: http://www.nytimes.com
Các website nước ngoài không chỉ phong phú về số lượng mà hình thức sử dụng RSS trong các website cũng rất đa dạng và phức tạp Vậy qua phần giới thiệu website có hỗ trợ RSS trên thì dấu hiệu nhận biết các website đó có sử dụng là:
** Dấu hiệu nhận biết khi tham khảo một số website có chứa RSS:
- Sau khi khảo sát một số website của Việt Nam có hỗ trợ RSS thì trên trang chính của website đó có nút RSS ( ) Nếu muốn xem các file RSS thì chọn nút trên trang chính của website đó để sang trang tiếp theo
- Trang này sẽ thể hiện tất cả các tiêu đề (title) của mỗi kênh, nếu muốn xem nội dung file RSS của kênh nào thì chọn nút RSS của kênh đó Sau khi chọn RSS của kênh nào đó thì lập tức file RSS của kênh đó được hiển thị
Trang 23dạng file XML đã trình bày ở trên.(xem tham khảo file RSS trên website New York Times).
- Đó là những kết luận khi khảo sát các website của Việt Nam có hỗ trợ RSS, nhưng với những website nước ngoài thì có khác một vài điểm Dấu hiệu nhận biết RSS của các website không chỉ đơn thuần trang đó có chứa nút mà có thể là nút …
Hình 8: Hình minh hoạ file RSS
Trang 242 Tìm hiểu CMS
2.1 CMS là gì?
• Hệ thống quản lý nội dung là một hệ thống quản lý các thành phần làm nên nội dung của một Website Tuy nhiên “nội dung” là một khái niệm rất rộng Do vậy, khi nhắc đến CMS(Content Management System) người ta phải nhắc đến các yếu tố cấu thành nội dung nằm trong phạm vi
mà hệ CMS đề cập tới cũng như các đặc điểm trong các chu trình quản lý nội dung đó
• Một cách chính xác hơn, CMS là hệ thống quản lý việc khởi tạo nội dung, quá trình xử lý nội dung đó cho đến khi nó được xuất bản, phân phối tới người dùng cuối
• CMS = + Khởi tạo nội dung
+ Quản lý quá trình xử lý nội dung đó + Phân phối nội dung tới người dùng cuối
2.2 Các chức năng cơ bản của một hệ thống CMS
• Cung cấp công cụ phục vụ quá trình soạn thảo, biên tập, chỉnh lý nội dung
• Cung cấp hệ thống quản lý quá trình xử lý nội dung thông tin
• Có khả năng kết xuất thông tin đầu ra tự động từ hệ thống quản lý lưu trữ nội dung dùng chung
2.3 Giới thiệu một số CMS có hỗ trợ RSS
Một số CMS hỗ trợ RSS hiệu quả như: Joomla, WordPres, PostNuke
2.4 Tìm hiểu WordPress:
2.4.1 Khái quát chung về WordPress
WordPress là hệ thống làm web được viết bằng ngôn ngữ PHP và sử dụng cơ sở dữ liệu là MySQL, quản lí việc cập nhật nội dung web đặc biệt là weblog Nó được phân bổ dưới GNU General Public License và là phần mềm miễn phí
Trang 25Hiện tại WordPress hỗ trợ một weblog hoặc site cho mỗi cài đặt, nhưng có thể cho nhiều người dùng Ngay cả trên một WordPress thông thường, một người dùng có nhiều hơn một blog trên cùng một server và cùng một database với những file trên nhiều thư mục con khác nhau.2.4.2 Cách cài đặt WordPress
a WorkPress yêu cầu cài đặt Apache, PHP, Mysql Tuy nhiên khi cài đặt ba chương trình này, cấu hình cho chúng hiểu nhau và làm việc được với nhau thì đó là một quá trình khá rắc rối và phức tạp
Để đơn giản hơn và không phải mất nhiều thời gian cho việc cấu hình nên cài biến môi trường là Wamp5 (Cài đặt Wamp5 xem phần phụ lục)
b Cài đặt WordPress
Gói cài đặt WordPress:
− Có thể tải gói WordPress tại địa chỉ:
http://codex.workpress.org
− Giai nen file wordpress-2[1][1].0.4.tar.gz, vao folder wordpress-2[1][1].0.4 copy toàn bộ các file có trong wordpress vào thư mục www trong C:\wamp vừa cài đặt ở trên
Tìm và sửa tên file wp-config-sample.php trong C:\wamp\www thành wp-config.php, sau đó tiếp tục sửa đổi nội dung trong file này
− Khởi động wamp, click phải lên biểu tượng hiện trên thanh taskbar
Các bước cơ bản của quá trình cài đặtSau khi hòan tất công việc trên ta khởi động, khởi động wamp, click phải lên wamp chọn localhost để tiến hành việc cài đặt
Trang 26Hình 9: Hướng dẫn cài đặt Wordpress
+ chọn install.php để thực hiện quá trình cài đặt B1: Chọn FistStep để qua bước tiếp theo
Hình 10: Bước thứ nhất của việc cài đặt Wordpress
Trang 27B2: Điền đầy đủ thông tin vào trong form Chọn Continue to Second Step
Hình 11: Bước thứ hai của cài đặt Wordpress
Sau khi cài đặt xong B2 thì user là admin và password phát sinh ngẫu nhiên Chọn login có màu xanh dạng link để tới bước tiếp theo
Trang 28Hình 12: Cài đặt Wordpress đã hoàn thành
B3: Điền đầy đủ thông tin vào trong form và chọn nút Login để đăng nhập Tuy nhiên khi đã đăng nhập thành công, nếu như không thích password cũ thì có thể thay đổi nó
Trang 29Hình 13: Điền đầy đủ thông để đăng nhập vào Wordpress
Sau khi đã đăng nhập thành công, thì hệ thống sẽ cho phép làm việc trên nó
Trang 30Hình 14:Trang chính Wordress sẽ hiển thị nếu đăng nhập thành công
2.4.3 Cách sử dụng WordPress
Khi chúng ta thực hiện thành công việc cài đặt công cụ xuất bản cá nhân lên Internet, lúc đó ta lại nghĩ bằng cách nào để chia sẻ những ý nghĩ, ý tưởng của ta đây? Vì thế đây là mục đích của WordPress – chia sẻ thông tin với người khác Và bắt đầu công việc với “writting”
Write Post
Tiến trình làm việc trong WordPress rất đơn giản:
1 Login vào WordPress
2 Click vào tab Write, chọn Write Post
3 Điền đầy đủ tất cả thông tin trong form
4 Sau thời gian viết và chỉnh sửa, khi thật sự ưng ý bài viết của mình, nhấn Publish để xuất bản
Công việc đơn giản chỉ có thế, nhưng có phải đấy là tất cả mong muốn chúng ta? Phần chi tiết được đề cập sau phải thực hiện cấu hình bằng tay
Writing a Post – Step by Step
WordPress có hai cách biên tập Post bài: basic (cơ bản) và advanced (phát triển)
− Basic Post Editing Screen:
Có thể là những từ hay cụm từ nào đó Tuy nhiên chúng ta cần tránh nhập title trùng lặp nhau, vì thế sẽ sinh ra nhiều vấn đề Có thể sử dụng dấu phẩy (,), dấu nháy (nháy đơn ‘, nháy đôi “) , dấu gạch ngang (-) hay nhiều
kí tự kiểu khác trong Post như "My Site - Here's Lookin' at You, Kid"
o Post Editing Area: khung trống lớn là nơi ta nhập vào đoạn văn bản, các đường link, các link tới hình ảnh, và những thông tin muốn hiển thị trên site của chúng ta Phần này gọi là Post Editing Area hay editing box
o Quicktags: đây là những nút nằm trên vùng biên soạn tin Post (Post editing textarea box) Những nút này phát sinh thẻ HTML in đậm, in nghiêng,
Trang 31gạch xóa nội dung ghi, định dạng đoạn văn bản, định dạng vị trí, … kể cả cho phép ta xem lại thông tin đoạn mã HTML đã đựơc phát sinh từ vùng soạn thảo Post.
o Thêm vào đó có thể post thêm hình hoặc file mong muốn lên trên đoạn tin của mình bằng cách chọn Browser đến file chỉ định.Cần sao lưu trước khi Publish tin (có thể sao lưu tạm thời trong quá trình làm)
o Nút Save and Continue Editing: nếu nút này được chọn thì phần Post sẽ được lưu vào cơ sở dữ liệu nhưng vẫn có thể tiếp tục thực hiện công việc biên soạn Trong màn hình Post Preview cho phép nhìn thấy nội dung bài vừa biên soạn Tuy nhiên nếu sử dụng nút này, phần biên soạn đề cập vẫn chưa được publish trừ phi Publish được chọn trong phần mở rộng Post Status
o Nút Save: nếu nói về lý thuyết thì khi click vào nút này bài của chúng ta sẽ được lưu Tuy nhiên nó sẽ lưu theo điều kiện được chỉ định Trong phần
mở rộng Post Status, nếu chọn Draft phần soạn thảo sẽ được lưu như một Draft (bài nháp) Nếu chọn Publish phần soạn thảo được lưu và publish lên site Còn nếu là Private thì phần soạn thảo đó lưu ở dạng private post, chỉ cho phép sử dụng bởi tác giả viết (user/author) và điều tất nhiên là không
được publish Một khi click chọn Save, màn hình Write Post sẽ trở về
định dạng ban đầu (trống) và sẵn sàng cho phép add thêm bài mới
o Nút Publish: nút này sẽ publish bài chúng ta lên site
Trang 32Hình 15: Màn hình post bài trong Wordpress
− Advanced Post Editing Screen
o Post Status: gồm 3 phần lựa chọn được đè cập phần trên
o Post Author, Post Timestampt: trong quá trình làm nếu tác giả, hệ thống ngày tháng mặc không mong muốn vẫn cho phép chúng ta chỉnh sửa theo mục đích riêng của mình
o Send trackbacks to trong phần Trackbacks: Trackbacks cho phép blogs khác biết chúng ta tham khảo đến một trong số bài báo của họ Để gửi trackbacks từ Post này nhập vào URL hoặc địa chỉ website trong hộp, mỗi điạ chỉ phân cách nhau bởi dấu phẩy (,)
o WordPress bookmarklet: “Press It bookmarklet” là một link rất thuận tiện có thể đặt trong danh sách browser’s bookmark Nó cho phép mở nhanh đến cửa sổ browser hiển thị toàn bộ nội dung của website tạo trong bài viết ở khung post khi click chọn bookmark đó
Trang 33Hình 16: Màn hình Wordpress sau khi post bài thành công
Trang 34CHƯƠNG 5: PHÂN TÍCH
1 Vấn đề cần giải quyết
Trong thời đại công nghệ mới – thời đại công nghệ và thông tin ngày nay, song song với nhiều thông tin khoa học – kĩ thuật mới mẻ, biết bao tin tức nóng bỏng luôn được “ra lò” một cách thường xuyên thông qua nhiều phương tiện đại chúng như báo chí, đài truyền thanh, truyền hình,… Đặc biệt phải kể đến một công nghệ mới xuất hiện cách đây không lâu nhưng rất gần gũi và quen thuộc với hầu hết mọi người đó là mạng internet Không thể tưởng tượng được lượng thông tin khổng lồ trên mạng đa dạng và phong phú
cỡ nào Khó ai có thể nói số lượng website hiện nay có thể đếm được Tuy nhiên mỗi website có mỗi cách thức trình bày và phục vụ mục đích riêng Mỗi website sử dụng một công nghệ khác nhau không website nào giống website nào để thể hiện nội dung trình bày của mình Và một điều lưu ý rằng không phải thông tin trên các website có thể tồn tại mãi theo thời gian
Đôi khi đứng trước lượng thông tin quá khổng lồ như vậy không khỏi làm cho con người ta lúng túng Vậy làm thế nào khắc phục điều ấy mà vẫn
có thể xem tin bình thường, những tin luôn được cập nhật thường xuyên theo các trang báo yêu thích? Những thông tin quan trọng lưu trữ cẩn thận phục
vụ cho mục đích tìm tòi và nghiên cứu? Chúng ta cần có một hệ thống xử lý như thế nào?
Chính vì mỗi website sử dụng mỗi công nghệ riêng cho trình bày của mình như đã nói trên nên khó có thể xây dựng một hệ thống toàn diện phục
vụ mục đích lấy tin được Vì vậy hệ thống này chỉ xây dựng dựa trên sự ứng dụng công nghệ mới RSS từ các website cung cấp thông tin Ở đây chúng tôi
sẽ giới thiệu một số website sử dụng công nghệ này là: Tuổi trẻ, Dân trí, Thanh niên…
Giới thiệu một trang tin tổng quát: (trang chính báo Tuổi trẻ)
Trang 35Hình 17: Trang tin Tuổi trẻ minh hoạ các description của một channel
Trang 36Hình 18: Trang tin chi tiết: (Trích 1 tin tức về Đại dịch virus Việt từ báo
Tuổi Trẻ Online)
Cấu trúc tổng quát của hệ thống website tin tức:
• Website (Tuổi trẻ) có nhiều channel (kênh tin): Nhịp sống số, Thế giới,…
• Channel (Nhịp sống số) có nhiều item (tin tức): Đại dịch virus Việt, Điện thoại di động toàn cầu,…
• Mỗi item có các thông tin như: title (tiêu đề), description (phần
mô tả), pubDate (ngày đưa tin), content (nội dung chi tiết),…Đối với các website có hỗ trợ chức năng RSS, mỗi khi tin tức mới được cập nhật thì RSS cũng được tự động phát sinh Trong RSS sẽ lưu thông tin mô tả về tin tức và đường dẫn tới nội dung chi tiết của tin
Trang 37Hình 19: Minh hoạ Item trong file RSS
Hệ thống dự kiến xây dựng sẽ thực hiện việc lấy thông tin của tin về tổ chức lưu trữ, quản lý tin theo ngày, kể cả lấy tin và hỗ trợ cho người dùng xem lại các tin
đã lưu trữ từ cơ sở dữ liệu offline Như vậy, để xem được tin, hệ thống phải bắt đầu lấy tất cả các thông tin có từ các website hỗ trợ RSS về thông qua dữ liệu đầu vào là địa chỉ URL của RSS Sau khi đọc, parser RSS, hệ thống phân tích nội dung RSS và nội dung chi tiết của từng tin (item) Tùy vào mục đích người lấy tin phục vụ cho nhu cầu của mình mà người sử dụng chỉ định cho hệ thống dừng lại ở việc lấy tin theo description (tức là tin chỉ lấy ở mức độ hệ thống phân tích được ở nội dung RSS) hay lấy tin theo chi tiết từng tin được parser từ file HTML Sau đó tin đã lấy được lưu vào kho lưu trữ theo từng phân mục cấp rõ ràng: kênh (Channel), thông tin mô tả của tin (Item) và thông tin chi tiết (Content Item) Hệ thống lấy ngày mặc định là ngày trên máy đang sử dụng
Trang 38Sau đó hệ thống sẽ hiển thị tin cần xem đã được lấy về từ kho lưu trữ cho người dùng Việc xem tin từ hệ thống này cũng được quản lý chặt chẽ Muốn xem tin của báo nào, theo ngày nào thì cũng phải lựa chọn.
2 Qui trình hoạt động của hệ thống đề xuất:
2.1 Lấy nội dung tin tức: (nhận yêu cầu lấy tin từ người dùng)
i Sử dụng RssReader: Hệ thống tiến hành lấy tất cả các thông tin của Item (bằng cách parser nội dung file RSS) Thông qua
đó cũng cho ta biết được hết nội dung thông tin của Channel
Đầu vào: truyền URL của file RSS gốc chẳng hạn như:
ii Sử dụng HtmlParser: Ứng với từng Item đã parser ở bước trước, thông qua HtmlParser hệ thống tiến hành lấy thêm nội dung chi tiết của từng Item đó
Trang 39- Đầu vào: nhận vào URL của từng tin (URL của Item) lấy được ở bước parse bước i).
- Đầu ra: dựa vào HtmlParser và căn cứ thẻ sử dụng ở từng trang web, lấy được nội dung chi tiết của từng tin tức từ file HTML được chỉ định bởi URL nhận vào (chỉ lấy nội dung chi tiết của tin, cắt bỏ đi các nội dung quảng cáo, những phần thông tin trùng lặp với nội dung mô tả lấy ở bước i, …
2.2 Lưu trữ nội dung tin tức: (hệ thống tự động lưu trữ tin vào kho lưu trữ sau khi đã lấy được tin ở bước parser 2.1)
Sau khi tất cả các thông tin đã được lấy về, hệ thống sẽ tự động lưu trữ vào kho lưu trữ hay gọi cách khác là lưu vào cơ sở dữ liệu (CSDL) Có thể chỉ đơn giản lưu những thông tin lấy về ở cuối bước i của 2.1 , cũng có thể lưu tất cả thông tin chi tiết đã lấy về được
ở cuối bước i và ii Những thông tin này sẽ được lưu trữ vào CSDL, chỉ cập nhật thông tin mới mà không lưu lại thông tin trùng lặp đã có trong CSDL
2.3 Hiển thị nội dung tin tức: (hiển thị các nội dung tin theo chủ đề hoặc tin tức được chỉ định)
Tùy theo mức độ yêu cầu xem tin của người sử dụng: chỉ xem lướt nội dung trang tin hay đi sâu vào nội dung cụ thể mà hệ thống sẽ phản hồi đáp ứng nhu cầu người dùng
Nếu là xem lướt trang tin thì hệ thống sẽ hiển thị thông tin những Channel và các thông tin miêu tả của Item lấy từ bước i được lưu
Nếu là xem nội dung chi tiết của từng tin thì hệ thống sẽ truy vấn và trình bày dưới hình thức tin chi tiết (không cần kết nối internet)
3 Các công nghệ sử dụng
Trang 40- Website muốn lấy tin phải có ứng dụng RSS.
- Chương trình được xây dựng trên giao diện web, cho phép nhiều người dùng có thể thao tác và cùng chia sẻ một cơ sở dữ liệu nhất quán Ngôn ngữ Java và hệ quản trị cơ sở dữ liệu Microsoft SQL được chọn để phát triển ứng dụng
- Ngôn ngữ web gồm JSP, Java Script, HTML …
- Công cụ cài đặt, thiết kế, phân tích hệ thống gồm: Borland Jbuilder 2006 Enterprise, MS SQL Server 2000, RationalRose 2003,