Đại hạc Công Nghệ Xuân ăn cuỗi khỏa ĐẺ TẢI: Xây dựng ứng dụng rao đổi dữ Hện đa phương tiện theo chuẩn NewsMIŒG2 ứng dung tai Thông tấn xã Việt Nam HỆ THỐNG QUẦN LÝ ẢNH CỦA THÔNG TẤ
Trang 1
DAI HOC QUOC GIA HA NOI TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYEN KHAC MINH
Xây dựng ứng dụng trao đổi dữ liệu đa phương
tiện theo chuẩn NewsML G2 ứng dụng tại
Thông tấn xã Việt Nam
LUẬN VĂN THẠC SĨ CÔNG NGHỆ THÔNG TIN
TIA NOI- 2015
Trang 2
ĐẠT HỌC QUỐC GIA HÀ NOT
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ
NGUYÊN KHẮC MINH
Xây dựng ứng dụng trao đỗi dữ liệu đa phương tiện
theo chuẩn NewsML G2 ứng dụng tại
Thông tấn xã Việt Nam
Trang 3Đại hạc Công Nghệ Xuân ăn cuỗi khỏa
LOY CAM DOAN
~_Tôi xin cam đoạn rằng luận văn của tôi là công trình nghiên cứu của bản thân Luận văn hoàn toàn không phải là bản sao chép công trình nghiên cứu của một người khác, nó mang tỉnh độc lập nhất định với tất cả các công trình nghiền cứu trước đây
"Tắt cả các tài liều tham kháo đều có xuất xứ rõ ràng và được trích dần hợp phap
- Néu có vi pham gị, tôi xin hoàn toàn chịu trách nhiệm
Hà Nài, ngày 29 tháng 0Š năm 2015
Học viên Nguyễn Khắc Minh
Trang 4Đại hạc Công Nghệ Xuân ăn cuỗi khỏa
LỜI CẢM UN
- ĐỂ hoàn thành bài luận văn này và có kiển thúc như ngày hôm tay, đầu
xin gửi lời cảm ơn đến cản bộ hướng dẫn khoa học PGS.Nguyễn Hải Châuđã tận tỉnh hướng dẫn, quan tảm và động viên tôi trong quả trình tìm hiển, nghiền cứu, xây dựng
và hoàn thành luận văn này
- Tôi xin gửi lời cảm ơn đến Ban Giám Hiệu cùng toàn thể thày cô khoa Công, nghệ thông tin - Trường Đại học Cổng nghệ - Đại học Quốc gia là Nội đã tận tình
giảng dạy, truyền đại kiến [hức cũng như những kinh tt củng
toàn thể các học viên cao học khỏa 19 trong suốt quả trình học tập và nghiên cửu tại
trường
- 'Tôi xin bày tỏ lòng biết ơn sâu sắc đến Ban Lãnh Dao cimg toan thé anh chi em
dông nghiệp Phỏng Quản trị hệ thống-Trung tâm kỹ thuật thông tân xã Việt Nam dã
cho phép và tạo mợi điều kiện ủng hộ và giúp đỡ tôi trong suốt khỏa học Thạc sĩ này
- Tôi cñng xin chân thành cảm ơn những người thân trong gia đỉnh, bạn bê đã đông viên và tao mọi điều kiện giúp tôi trong quả trình học tập, công tác cũng như
trong cuộc sống
- Mặc đủ cô gắng hoàn thành luận văn nhưưng đo thời gian và khá rằng còn nhiều hạn chỗ nên luận văn khó tránh khỏi những sai sót nhất định, rất mong được sự thông cảm cũng như sư chỉ dẫn, góp ý của thầy có và bản bè để Mận văn được hoàn thiện
Trang 5Đại hạc Công Nghệ Xuân ăn cuỗi khỏa
ĐẺ TẢI:
Xây dựng ứng dụng rao đổi dữ Hện đa phương tiện theo chuẩn NewsMIŒG2
ứng dung tai Thông tấn xã Việt Nam
HỆ THỐNG QUẦN LÝ ẢNH CỦA THÔNG TẤN XÃ VIỆI NAM 7
1.12 Mô tá chỉ Hết các luồng thông lim nhận ãnh quốc tế 7
1.1.3 Mô tá chỉ tiết các luồng thông tin nhận ảnh Trơng nước `
L2 Quy trình Biên tập ảnh của Thông tản xã Việt Nam 1U
CHUAN NEWSML-G2 HH rrrrerrirrrrirrrrrrirrrrrrrrrrrrrrore T3 2.1 Các chuẩn G2 Standards IPTC eeeeerorreaooo T3
2.12 ChuẩnIPTC7901 Định đạng truyền tái văn bàn 13
2.1.3 Chuan Dinh dang van ban tin tức XITE
2.4.1 Siêu đữliệu nhứng seecsecseesseeneeeaseiueenseasenen D2
`“ nnố ố.ẻẽẻ DỊCH VỤWEH uc nnhhHhhahhkenreeroraaraaeo.3f
Trang 6Đại hạc Công Nghệ Xuân ăn cuỗi khỏa
3.1 Tổng quan weh services
3.1.2 Đặc diễm cúa Web serviee
3.13 Ưu và nhược điểm
3.2 Kiẩn trúc của Dịch vụ Web
3.2.1 Mô hình hoạt đông
3.3.2 Kiển trúc của Dịch vụ Web
3.3 Cáo thành phân của web serviee
3.3.1 XML—Ngôn ngữ đánh dâu mở rộng
332 WSDL —Ngén ngit mé ta dich vụ web
3.3.3 ƯDDI - Tích hợp, khám phả và mô tả da nẵng, 3.3.4 SOAP Giao thức truy cập dối tượng đơn giản
Chương 4:
XÂY DỰNG CHƯƠNG TRÌNH UNG DUNG VA KET QUA THU NGHIEM
AL Thực trang can giải quyết
42
4.2.1 Xây dựng chương trình bỏe ánh theo chuẩn XML
4.2.2 Xây dựng chương trình phát nh theo chuẩn XML
4.2.3 Xây dựng địch vụ web
443 K&tludn va hung phat tién "
TÀI LIỆU THAM KHẢO
PLU LUC
30
30
Ö31 mà
Trang 7Đại hạc Công Nghệ Xuân ăn cuỗi khỏa
ĐANH MỤC CÁC KỶ HIỂU VIỆT TÁ+
1 Tree International Hội đông bảo chỉ Viễn thông Quốc
Telecommunication Press | té
Couneil
2 TM Information Interchange) Traa déi hông tỉn mẫu
Model
3 NITF News Industry Text Format | Chun Dinh dang vin ban tn tie
4 IPTC7901 | 1990s by IPTC Information | Dinh dang truyén tai van ban
Interchange Model
Trang 8Đại hạc Công Nghệ Xuân ăn cuỗi khỏa
DANH MỤC HÌNH VẼ ĐÒ THỊ Hình 1.1: Mô hình nhận ảnh của Thông tấn xã Việt Nam
Hình 1.5: Quy trình Biên tập ảnh của thông tân xã Việt Nara „11
Hinh 3.3: Câu trúc NewsML-(72 text của hãng AFP „18
Hình 3.5: Kiến trúc của địch vu web 34
Hình 4.3: Chương trình phát ảnh Despatehes NEWSML-G2 43
Hình 47 Các địch vụ
thoại nđd web rETETCE c eset?
Hình 4.10: Giao diện dãng nhập thành công 48
Trang 9Đại học Công Nghệ Luận văn cuỗi khóa
Chương I:
HE THONG QUAN LY ANH CUA THONG TAN XA VIỆT NAM
1.1 Quy nhận ảnh của Thông tân xã Việt Nam
“Thu tin Se xin
Thu tin én Kyoad, }$_-—————
Ảnh trong nước:Phóng viên
Đầu vào là ảnhipg; được chương trình Datans đọc dữ liệu metadata của anh,
insertthông tin vao database Photostore
1.1.2 Mô tả chỉ tiết các luồng thông tin nhận ảnh quốc tế
a, Anh AFP
Trang 10Đại học Công Nghệ Luận văn cuỗi khóa
Hình 1.2: Mô hình nhân ảnh AFP của Thông tân xã Việt Nam
~ ˆ Quy trình thu: Ảnh thu tir vé tinh qua Angten vé May thu tin ảnh afp Ảnh thu
về lưu tại thư mục: D:\MediaServer\MSE02416\Database\Photo\yyyy-MM-dd
(1) Anh AFP; AFF sé duoc ftp tir may chủ Thu tin anh AFP sang
F:\ingInputNEWAFP(máy chủ application) Tiên trình ftp ảnh tự động được bên AFP config
(2) Trén may chi app 172.16.60.167, chương trình datains sẽ quét ảnh trong F:\ImgInput\NEWAFP dé:
© Doc thong tin metadata anh, insert dit liéu vao database Photostore
© Ftp anh lên thư muc F:\ImgStore\yyyy\MM\dd (server Photo)
b Xinhua
~_ Quy trình thu tin: Ảnh thu từ vệ tinh qua Angten, dau thu đến máy thu ảnh
Xinhua Ảnh thu về lưu tại thư mục: D:\data\enmlWnput\photo\ yyyyMMDD
(1) Ảnh Xinhua sẽ được fñp tir may chi Thu anh Xinhua sang may chủ
Application F:\ImgInput\ XIN Tién trinh fip anh tw dng duge bén Xinhua config
(2) Trên may chủ Application, chuong trình datains sẽ quét
anhF:\Imginput\XIN dé
© Doc thong tin metadata anh, insert dit ligu vao database Photostore
© Ftp anh lên thư mục E:\IngStore\yyyy\MMIdd (server Photo)
œ Kyodo
Trang 11Đại học Công Nghệ Luận văn cuỗi khóa
Hình 1.3: Mô hình nhận ảnh KYODO của Thông tân xã Việt Nam
- Quy trinh thutin:
(1) Ảnh KYODO sẽ được Rp về máy chủ Application F:\mglnput\ KYODO,
Tiền trình fp ảnh tự đông được bên KYODO conñg
(2).Trén may chi Application, chương trình datains sẽ quét ảnh trongthư mục
F:\lmgInput\ KYODO để
® Doc thong tin metadata anh, insert dit liéu vao database Photostore
¢ Ftp anh lén thu muc F:\ImgStore\yyyy\MM\dd (server Photo)
1.1.3 Mô tả chỉ tiết các luồng thông tin nhận ảnh Trong nước
Trang 12Đại học Công Nghệ Luận văn cuỗi khóa
anhttw@vnanet.vn Chương trình bóc mail Chương trình,
'VNA MailReceiver Phold= Dataing PhotoStore
Phong viên
PXNN
ae Gửi anh,
TIệ tác nghiệp ánh,
Hình 1.4: Mô hình nhận ảnh của thông tấn xã Việt Nam
Phóng viên gửi ảnh vào hệ thông bằng 2 cách:
-_ Cách 1: Qua đường mail:
+ Phóng viên gửi ảnh vào địa chỉ mail anhttx@vnanet.vn
+ Chương trinh bỏc mail tự động sẽ download ảnh về máy chủ Application
+ _ Trên máy chủ Applieation, chương trình đatains sẽ quét ảnh trong thư mục
F:\ImgInput\VNA dé:
© Doe thong tin metadata anh, insert dit liu vao database Photostore
® Ftp anh lén thy muc F:\ImgStore\yyyy\MM\dd (server Photo)
= Cach2: Anh nhap qua hé tac nghiệp ảnh
+ Phong vién dang nhap vao hé théng tac nghigp anhhttp:/tntt.vnanet.vn
+ _ Upload ảnh lên hệ thông tác nghiệp sharepoint Ảnh sau khi được chuẩn hóa
sẽ được lưu trữ trên máy chủ Photostore
1.2 Quy trình Biên tập ảnh của Thông tắn xã Việt Nam
~_ Quy trình tác nghiệp từ lúc gửi ảnh cho đến khi phát ảnh cho khách hàng thông qua phần mềm hệ tác nghiệp ảnh hoặc Biên tập ảnh Qua từng khâu trong quy
trình đều được ghí lại các trạng thải liên quan đến từng mốc thay đổi và nội dung thay
đổi
10
Trang 13Đại học Công Nghệ Luận văn cuỗi khỏa
Hinh 1.5; Quy trinh Bién tap anh ciia thong tan xã Việt Nam
- _ Hệ tác nghiệp ảnh: Xây đựng trên nên tâng web sharepoint của TTXVN (phục
vụ cho phóng viên cơ động)
-_ Biên tập ảnh: Xây dựng trên nên tảng visual studio 2003, ngôn ngữ VB Phục
Trang 14Đại hạc Công Nghệ Xuân ăn cuỗi khỏa
I_ Biên tập: Ảnh được phóng viên biên tập, chỉnh sủa nội dung trong metadata, + Chờ Duyệt Ảnh đã được phóng viên gửi lên để cán bộ phông xót đuyệt và nội dung metadata, chất lượng ảnh
+ Duyệt: Ảnh đã sang trạng thái gửi cho các khách hàng
= Chuang tinh Photo Despath sẽ xem trọng thái ảnh đã duyệt lrơng dtabase photostore đễ gửi đi cho khảch hàng, Ảnh gửi đi dưới dạng JPG
Trang 15Đại hạc Công Nghệ Xuân ăn cuỗi khỏa
Chuong 2:
CHUẢNNEWSMT.G2 2.1 Các chuẩn G2 Standards IPTC
- Hội đông báo chí Viễn thông Quốc tẾTTPC) có trụ sở tại Londen, Vương quốc Anh IPTC được thành lập vào năm 1963 bởi một nhóm các tổ chức tin tire [én nay có hơn 50 công ty và các tổ chức từ các ngành công nghiệp tìn tức đều là thành viên của IPTC như Associated Press (AP), Agence [Tance-Presse (AFP), Deutsche Presse-Agontun (DPA), BBC, Golly Images, Higp hdi Bao chi (PA), Reuters vi The New York Times
= ITPC phat tidn và thiết kế các tiêu chuẩn công nghiệp cho việc quản lý và trao đổi thông tin giữa các nhà cưng cấp nội đung, trung gian và người tiêu đừng IPTC
cam kết các tiêu chuẩn mở và làm cho tất cả các tiêu chuẩn tự do có sẵn cho các thành
viên và công đồng rộng lớn hơn
2.1.1 Chuẩn ITM
- IPTC và Iiiệp hội Bao chi My (NAA) da bat dau hop tác cùng nhau vào năm
1990 nhằm thiết kế ruột mô hình khả đụng trên loàn cầu cho lất cả oác lơại đữ hệu KếL
quả của nỗ lực này là vào năm 1991, "mồ hình trao đổi théng tin - LIM" phién bản I đã dược chấp thuận và tiếp tục phót triễn kể từ đó Sau sự ra đời của các công nghệ mới
để tiêu diễn dữ liệu - chủ yêu là XML - việc phát triển LIM đã bị ngửng lại vào năm
1997, chỉ cỏ một thay đổi nhỏ được ứng dung trong nim 2014
-_ IIM là một cấu trúc tập tin và thiết lập các thuộc tính siêu đữ liệu Trơng file ánh kỳ thuật sỏ,các tỉmộc tính siêu đữ Hiệu của IIM dang khá nỗi tiếng là "IPTC ñalds” trong "IPTC Header" Adobe Systems Inc di phat minh ra co ché riéng để chẻn cáccần
trúc siêu dữ liệu vào Pholoshop, JPEG và các ñlc TIEE songchdp nhận câu trúc đữ liệu
của IIMI và một số yên tô siều đữ liều của nó Cơ chế chẻn siêu đít liệu này ciing được
thực hiện bởi các nhà cưng cấp phần mềm khác, do đỏ nhiễn chương trình thư viện
hinh ảnh có thể đọc và viết những "IPTC Header”
-_ Bên cạnh đỏ, IIM còn được thiết kế để cung cấp cho truyền thông phố biến lưu trữ tất cã các loại đữ liệu, trong đỏ có văn bản, hình ảnh, đỗ hoa Một cơ chế được
cùng cấp để sử dụng các định đạng Tiện có trong quả trình chuyển đổi
- UM già định rằng người gửi mong muốn chuyển một đổi tứơng dữ liên, như
một hình ảnh, văn bản hoặc có thể một sự kết hợp của nhiều loại Một phong bì được
cung cấp để bọc đối tượng thông tin như loại đữ hện và định dạng le Thông tin bỗ
sung, chẳng hạn như chủ thích, thể loại tin tức hoặc thời hạn cũng được bao gồm Đôi tượng tự nó được chuyển giao, cùng với thông tin vẻ kích thước của dữ liệu Vì vậy
bất kỳ hình thức dữ liệu máy tỉnh cỏ thễ được chuyển giao, cùng với biển tập thích hợp
va các Thông tin kỹ thuật
2.1.2 ChuẩnIPTC7901 Định dạng truyền tải vin ban
- TPTC đã đụø ra khuyến nghị 7901 để sử dụng trong việc truyền lỗi các tin
nhân vẫn bản đến các tờ bảo, cơ quan thông tán và các địa chỉ khác Phiên bản đầu tiên
13
Trang 16Đại hạc Công Nghệ Xuân ăn cuỗi khỏa
xuất hiện trong những năm đầu thập miên 80 và được cập nhật thường xuyên, phiên
bản 5 cuối cùng đã được phề duyệt vào năm 1995 Kể từ đó sự phát triển của IPTC
“901 bị ngừng lại bắt châp sự thật là nó vẫn được sử đựng rông rãi ở nhiều nước
-_ Mặc đà chủ yếu được thiết kể nhằm xử lý thông tín máy tỉnh, khuyển nghị
7901 cũng phủ hợp để truyền tái tới những người nhận không được trang bi may tính Khuyến nghị đã bị ảnh hưởng bới "Highspeed Wire Service Transmission Guidelines” được đưa ra trong Thông cáo 1312 và sửa đổi bổ sưng của Liệp hội Báo chí Mỹ (NAA), trước đây là Hiệp hội Báo clú xuất bản Hơn Kÿ (ANPA),
2.1.3 Chuẩn Định dang van bin tin tire NITE
= NITF dya uén eXtensible Mukup Language(XML) dé y
cầu trúc của các bài báo Do siêu dữ liên được ủng đụng trong suối nội dưng tín tức,
các tải liệu NITF có thể tìm kiểm và hữu ích hơn các trang HTML
-_ Hằng cách sử dụng NIIE, cáe nhà xuất bản có thể đưa cái nhìn, cảm nhận và
tương tác của các vẫn bản vào bằng thông, thiết bị, và các nhú cầu cá nhản của các
thuê bao của họ Những tài liệu này có thể được dịch sang ITTML, WML (cho các thid
muốn
-_ NTTF dược phát triển bởi IPTC Nó là mội tiều chuẩn mở, công khai, đã dược
minh chứng, sứ đụng tốt, mang tính tài liệu tốt hỗ trợ tốt
2.1.4 Chudn NewsML 1
- NewsML 1 1a một tiêu chuẩn XML một giải pháp cho việc trao đổi thông tin
da phương tiện được dong goi NewsML I thiết kế để cung cấp một dạng phương tiện
truyền thông độc lập, khung câu trúc cho tin tức đa phương tiện Ngoài việc trao đổi
các mục đơn lẻ nó cũng có thể truyền tải thiểu rnục trong cùng 1 bản câu trúc
-_ NewsML 1 một nhãn hiệu đăng ký của IPJC Nó cũng đã được thông qua như
là tiêu chuẩn Công nghiệp Nhật Bản (JIS) 7201: 2005 dưới tên NewsML gốc
2.1.5 Chuẩn EventsML-G2
- _ EverftsML-G2 la một tiêu chuẩn cho việc truyền thông sự kiện trong mét méi trường công nghiệp tín tửc và xây dựng đựa trèn XMIL Nó tôi tru hỏa việc chia sẽ thong tin sự kiện như cấu buổi hợp, các sự kiện thể thao, cà cuộc bầu cử, thậm chí phóng tên lửa một cách đễ các cơ quan tin tức để chia sẻ thẳng tín sư kiện của riêng
của ho Các sự kiện không cần phải cổ dịnh bắt dâu hoặc kết trúc ngày EventsML-G2
có thể chứa đủ metadata để mô †ä hầu hết mọi hoạt động
- _ Đặc biệt EvensML-G3 có thê được sử dụng dễ:
¡_ Nhận được tắt cả sự thật về một sự kiện tử các nhà tô chức sự kiện
| ‘Xuat ban tat od sự thật về một sự kiện cụ thê của một nhà cung cấp tin tic,
¡_ Xuất bản toàn bộ hay chí một tập hợp cơn của các sự kiện của mớt đân nhiều
sự kiện bởi danh sách sự kiên
+ Lưu trữ sự kiện về các sự kiện có kiến thức trong tài liệu lưn trữ
e định nội dụng và
bị không đây),RTF (cho in ấn), hoặc bÃt kỳ định dang nao wa nhà xuất bản mớng,
Trang 17Đại học Công Nghệ Luận văn cuỗi khỏa
2.1.6 Chuẩn Sport ML-G2
- SportsML là một giải pháp cho việc chia sẻ đữ liệu thẻ thao và xây dựng dựa
trên XML của IPTC, Hội đồng Báo chí Viễn thông quốc tế Được thiết kế để được như
để hiểu, để thực hiện cảng tốt, SportsML cho phép trao đổi các kết quả thể thao, lịch trình, bảng xếp hạng vả số liệu thông kê cho một loạt các cuộc thi dau thé thao
2.1.7 Chuan NewsML-G2
- Tử đầu năm 2008 một phiên bản tiếp theo của NewsML co sin ra déi
NewsML~-G2 Các tiêu chuẩn NewsML~-G2 định đạng XML siêu đữ liệu để kết hợp các chức năng phong phú, đễ sử dụng nhỏ gọn vả khả năng tương thích với Semantic Web
= Cac tin tức chuyển tải đưới dạng văn ban, hinh anh, 46 hoa, video, am thanh
hoặc các loại phương tiện truyền thông khác, nó được dùng để xây dựng nội dung đa phương tiện
2.2 Giới thiệu Chuẩn NewsML-G2:
‘New liem: nơi chúa đụng
‘bao gém nội dung của
_vanu bản, hình ảnh, ấm:
thanh, video
‘Planning Item: noi oes dia cá tý Concept Item: noi clita : sót ch
chủa đựng quản lý „„
éi đựng các thông tin vẻ sac th liệu tham
tê nhờ BA, con người, địa điển eae
_ Concsplliem CRuog ôm,
Hình 2.1: Các kiểu Item NewsML-G2
- Cau tric co bản của một dữ liệu NewsML-G2 Item chưng cho tất cả ứng
dụng Các kiểu cỏ sẵn của G2 Item bao gồm:
+ News Item: ding xác định mô tá, nội dung tin tức báo chí như văn bản, hình
ảnh âm thanh, video trọn gói
+ Package Item: thu thập, đóng gói các nội dung tin của hãng tin Một trong
những ứng dụng là thường xuyên là tổng hợp cho các sản phẩm tin tức Ví dụ Tổng
hop top 10 tin méi nhất
+ _ Concept Item: Mô tả các khải niệm, kiến thức hiểu biết về một đổi tượng
‘New Item: nơi chứa
đựng các nội dung
tham khảo cho các
myc
Knowledge Item : nơi chứa các khái cniện thãnh một tập
Trang 18Đại học Công Nghệ Luận văn cuỗi khỏa
+ Knowledge Item: Mue dich la dé phan loai tin tire da dang cang tot va dé xac định những người, tô chức, địa điểm và các đơn vị khác trước khi gửi cho khách hàng,
nhằm tăng giá trị và tính hữu dụng của nó
+ Planning Item: trao đổi thông tin về phạm vi và việc thực hiện tin tức,
+ Catalog Item: quan lý các tham chiều đối với các từ vựng được kiểm soát
Hình 2.2: Câu trúc Item NewsML-G2
Mỗi loại NewsML-G2 có các thẻ khác nhau cho nội dung khác nhau
a Root element:
Mỗi một chuẩn G2 đều có một phần tử gốc root Phân tử gốc chứa các thuộc tỉnh
‘bao gồm:
+ Item Identifier: Tat ca chuan G2 đều cỏ guid đính danh thời gian IPTC sẽ
đăng kỷ một tên miền không gian ƯRN mục đích tạo ra Guid bằng cách sử dụng một
kỹ thuật dựa trên RFC3085 Củ pháp Guid:
Guid=“urn:newsml:[Providerld]:[Dateld]:[NewsltemId]”
16
Trang 19Dai hoc Cong Nghé Luận van cudi khéa
+ Các thông tin Catalog là cần thiết để giải quyết QCodes, một tính năng cơ
bản của NewsML-G2 cho phép các đối tác để đảm bảo rằng mã sử là duy nhất trên
toàn câu
+ Category sử dụng Codes như là bộ nhớ ngắn, là tính năng thiết lập trong việc
trao đổi tin tức QCodes là cơ chẻ NewsML-G2 cho phép các đối tác trong trao đôi tin
tức để đảm bảo rằng mã là duy nhất News Iem <catalog> cho phép một bộ xử lý G2
để giải quyết QCodes, và đảm bảo tính độc đảo đỏ, bằng cách ảnh xạ mã cho một URI
duy nhất Đỏ là khuyến cáo rằng URI này nằm một nguồn tài nguyên web
+ _ IPTC xác định ý định kinh doanh của Item Đổi với một News Item, chương
trình này là News Item Thiên nhiên, với một bí danh được đẻ nghị của "ninat" Giá trí
từ chương trình này bao gồm "ninat: Text" và "ninat: image"
Cho phép các nhà xuất bản để khẳng định thông đã được xử ly va lam mịn vẻ nội
dung, ban quyén <tightsInfo>chtra thong tinvà cách sử dụngthời han bản quyền, chẳng
hạn như sau:
Vi du:
<rightsInfo>
<copyrightHolder uri="htte://ww example cam/about.html#copyright” >
<name>Example Enews LLP</name>
Trang 20Đại hạc Công Nghệ Xuân ăn cuỗi khỏa
| Ttem Metadata Chứa các siêu dữ liệu về các diều khoản cân tuân theo Các
quy định này cho phép các nhà xuất bản để diễn tả siêu dữ liệu về các phần cụ thể cửa nội dụng <eontentMEela>, <parIMela>
+ Các thuộc tỉnh bài buộc: <ilemMela> phần có bốn yếu lỗ bắt buộc, hiện [heo
trình tự sau:
© Item Class: mô tả các loại nội dưng được truyển đạt bởi cac Item Néi dung
này bao gồm "ninat: hình én”, "ninat: video" va "nínat: âm thanh”
SitemClass qeode=“ninaf:text”2>
© _ Provider IP'C khuyên cào sử dung một QCode bai nha cưng câp đã đăng kỷ
dể nghị Alias "uprov"
“provider qcode=“nprov:ELFTERS” />
© Version Created: Nay hién thi ngay, pié va mii gid ring phiên bản này của
NewsML-G? tao ra Gia trị phải dược thể hiện như: YYYY-MM-ddThh: mm: ss = hh:
mm
<versionCreated> 20 13-11-21716:25:32-05:00</versi
* Publication Status: M&i G2 Tier phai ed md1 eGng b} tng thi; “usable”
có thể str dung<pubStatus qeode:
dụngbởi hầu hết cáccơ quan báo chí,bởi vikhả năngđể thông bảomệt cách rõ ràngtinh
trạng củaHin tứclà điều cần thiệt '1rạng thải s†art có các giá trị khác được phép
v“_ Statcancelsd.Điều này có nghĩarằngcácnội dungcúanewaltemkhỏng dược sử
<firstCreated>2010-10-18T 13:12:21-05:00</firstCreated>
| Embargoed: Cac té chute tin tức thường xuyên sử dựng một lệnh cảm vận dễ
phát hành thông tin trước, trên sự hiểu biết nghiêm ngặt rằng nó có thễ không được
phát hành vào phạm vi còng công cho đến sau thới gian cấm vin
‘statusable” /:> Publication status sé duoc str
+ Service: Cac
SJservice>
f Noi dung Metadata <cenientMeta>:
-_ Các thuộc tính nội đưng cân miêu tả:
+ Timestamps: Mà tả thời gian của thông tin bắt đầu điễn ra, hoặc thời gian
chính sửa lại thông tin.
Trang 21Đại học Công Nghệ
Luận văn cuỗi khóa
Located: Nơi xảy ra thông tin
Creator: Tae gia, nha van, nha nhiép anh tạo ra thông tin
Information Source: Nguén théng tin
Subject: chủ đề nội dung
+ Headline: Tom tat, tiéu dé néi dung
2.3 NewsML-G2 văn bản
~ _ Một trong những nhu cầu cơ bản nhất của một tổ chức tin tức 1a để xử lý văn bản Chương này bao gồm các vấn đề cơ bản của một NewsML-G2 News Iem có
chứa nội dung van ban
- Cau tric NewsML-G? của hãng AFP chúng ta có thể tham khảo:
Header
Detar
Information about the message or the transmission process:
l Contains ene ens tam
Hinh 2.3: Cau tric NewsML-G? text ctia hang AFP
- Vi du vé thong tin van bản của Aeme tin vả Truyền thông (ANM) có nội
Categories ‘economy, finance, business, central bank, monetary policy
Headline Fed to halt QE to avert “bubble”
Location/Date | Washington
Body Text Et, sent luptat luptat, commy mim zznureet vendreetue modo dolenis ex euisisnosto et lan ullandit lum doloreet vulla feugiam
19
Trang 22Đại học Công Nghệ Luận văn cuỗi khóa
coreet, cons eleniam il ute facinveril et aliquis ad minis et lor sum
del iriwe dit la feugiamcommy nostud minullapat
velislduisismodip ero dipit nit utpatum sandrer cipisim nit lortis
augiat nulla faccum at am, quam velenis nulput la auguerostrud magna commolore eliquatie exerate facilis modiamconsed dion
henisse quipit at Ut la feu facilla feu faccumsanecte modoloreet
2.3.1 Cấu trúc tài liệu
~_ Các khôi xây dựng của các tải liệu văn bản trên bao gồm <newsltem> yếu tô
gốc, với các yêu tô bổ sung cho gói siêu đữ ligu ve News Item (itemMeta), siêu dữ liệu
vẻ các nội đung (contentMeta) và các nội dung chính nó (contentSet)
a._ Yếu tố cấp cao nhat (root):
<news tren xmilns="http: //ipEc.oarq/std/nar /2006-10-01/”
guide" DRA SACRE L31121:U§-FTNANCE~FED "
<copyr ightHolder uri="http://ww acmienews com/about.htnl#copyright” >
Acme News and Media LUC</name>
+ Item Class: định dang thông tin
+ Provider: nha cung cap dịch vụ
+ Version Created: théi gian
+ Ngoai ra con cé <pubStatus> trạng thái của tin có được công bố sử dụng hay không
20
Trang 23Đại học Công Nghệ Luận văn cuỗi khóa
d N6i dung Metadata <contentMeta>:
- N6i dung Metadata <contentMeta> bao gồm các thông tin:
+ _ Thời gian tạo, chỉnh sửa văn bản là
<contentCreated>2013-11-21T15:21:06-05 :00</contentCreated>
<contentModi fi ed>2013-11-21T16: 22: 45-05 :00</contentModi Fied>
+ Địa điểm tạo ra nội dung, đây la nơi câu truyện được viết chứ không phải nơi
mà chủ đề câu truyện được điễn ra:
+ Nguồn thông tin cho tác giả được cung cấp bởi người hay bên cung cấp
thông tin <mfoSource>:
<infoSource qcode= "7sz4"+
<name>Associated Press</name>
</infoSource>
+ Ngôn ngữ mặc định nôi dung U.S English:
| <language tag= “en-us” />
+ Cae thuéc tinh Subject sir dung QCodes trong tử vựng có kiểm soát chủ đẻ
2.3.2 Nội dung văn bản
~ Nồi dung của tài liệu NewsML-G2 được bao bọc bởi các <contentSet> được
thể hiện một trong hai cách:
+ Inline XML: IPTC sir dung NITF (News Industry Text Format) dé dinh dang nội dung văn bản, là một chuẩn XML, nỏ được chứa trong môi <inlineXMIL> phần tử
con của <contentSet>, và sử dụng thuộc tính contenttype đề biểu thị các tiêu chuẩn dựa trên XML, sử dụng kiểu IANA MIME
21
Trang 24Đại học Công Nghệ Luận văn cuỗi khóa
2.4 NewsML-G2 hinh anh
~_ Nội đung hình ảnh, bao gồm cả hình ảnh và đồ họa, có thể được chuyển tải
trong mgt tài liệu NewsML-G2 chuẩn Nhà cung cập hình ảnh và người tiêu đủng cần
có một vôn từ vựng phong phú cho các siêu dữ liệu mỏ tả và kỹ thuật, và cho siêu dữ
liệu cũng như quyền vả điêu khoản sử dụng Ngoải ra còn có sử dụng siêu dữ liệu
nhúng, chẳng han như các IPTC / IIM Fields trong JPEG va cac tập tin TIFF
~_ Trong này phần này là mô tả đơn gian nhung day di cho thay lam thé nao dé thực hiện trong NewsML-G2 nhu cầu sử dụng thường xuyên của một công việc hinh
ảnh chuyên nghiệp
2.4.1 Siêu đữ liệu nhúng
~_ Những năm 1990 Siêu đữ liệu nhủng trong JPEG và các định đạng tap tin khác đã được một tiêu chuẩn facto Standard Trong thực tế,lược đồ siêu đữ liệu được hãng Adobe Systems Ine thể hiện hộp thoai "File Info" trong Photoshop được dựa trên
trao đổi thông tin mẫu IPTC (IIM) Các thuộc tính nhủng IIM_ hình ảnh được gọi là
"IPTC Fields" hoac "IPTC Header"
22
Trang 25Đại học Công Nghệ Luận văn cuỗi khỏa
WTC PTEEvdewen Camera Data
IPTC Content
| firefighter wal peat the remains oF amitary jet that crashed into homes inthe University City tnegtborhaod of San Diego
(A fefighte ina flame retardant aut oaks past the reins oF 2 mit the Universty Cty neighborhood of Sen Diego, Calflora December, 2008 The miltary F-12 jet crashed on Monday into the California neighborhood near San Dleyo after the pit ected, igniting at Reynorde: velba: GPIESC8INI7O2
@ Semicolers or commas can be ved to seperate mite valves IPTC Subject Code:
@ subject Codes are defined at http:/fin.nensecodes.org, semicolons or cornas can be used to separate multe Values Description Writer: |FG/CK
IPTC Status
Tithe USA-CRASHAVLTTARY
Hinh 2.4: IPTC Fields
- Vao khoảng năm 2001, nhằm khắc phục một số hạn chẽ vẻ kỹ thuật Adobe đã
giới thiệu Công nghệ (Extended Metadata Platform) XMP, cho bộ phần mềm của ứng
dụng bao gồm Photoshop Adobe cũng đã làm việc với các IPTC để đi chuyển các thuộc tính của "IPTC Header" vào XMP.Mặc đù được phát triển bởi Adobe, XMP là
một công nghệ mở nó dựa trên IIM, vả đã được được thông qua bởi các nhả cung cấp
phần mềm khác và các nhà sản xuât
- Hầu hết các đặc tính siêu dữ liệu IIM dựa trên nguyên bản bây giờ được chứa
trong Core Schema IPTC cho XMP NewsML-G2 có sẵn trong lược đồ IPTC
Extension cho XMP
- IIM được tổ chức thành Records và DataSet The DataSet được nhúng trong
tap tin hình ảnh DataSet IIM do duoc ap dung IPTC Core (XMP) Anh Metadata Mỗi
DataSet được hiển thị với tên IIM của nó, tương đương Name IPTC XMP Core và tương ứng G2
- Bang map các thông tín giữa IIM và NewsML-G2
23
Trang 26Đại học Công Nghệ Luận văn cuỗi khỏa
IPTC Core DataSet | IM Name Name (XMP) | NewsML-G2 Property Note
Title or Document
2:05 | Object Name Title (XMP) itemMeta/title
2:10 | Urgency Deprecated contentMeta/urgency The original IM
2:18 | Category Deprocatod contønIMeta/eubject properties have no
2:20 | Category Deprecated contentMeta/subject for XMP-
2:25 | Keywords Subject | contentMota/keyword New in NewsMLG2 2.4
2:40 | Instruction Instructions: itemMeta/edNote rightslnÍo/usageTerms
2:85 | DateCreated — | Date Created conteniMeta/contentCreated
ifpresent, merge with 2:60 | Time Created ` Dale Created contentMeta/conteniCreated | Date Created
2:80 | By-Line Creator [conteniMeta/creator/name
2:85 | By-line Title Creator's Jobtitle | contentMeta/creator/related
2:101 | Location Name Country
Original I the reference is a Job Transmission Transmission ID use itemMeta/
2:103 | Reference Reference itemMeta/attld | memberOt
IPTC Core
Headline | Headline ] itentMeta/headline
{ Credit Credit | contentMeta/creditiine
Source: Source rightsInfo/copyrightHolder
| Copyright Notice | Copyright Notice | rightsinfo/copyrightNotice
Caption/Abstract | Description contentMeta/descriplion
A @role should be
2:129 | Writer/Editor Caption Writer | contentMeta/contributor | added to contributor
2.4.2 Cầu trúc
-_ Các khối xây dựng của các tài liêu NewsML-G2 là <newsltem> yêu tô gốc,
với các yêu tô bổ sung cho gỏi siêu đữ liêu về News Item (itemMeta), siéu dit ligu vé
các nội dung (contentMeta) và các nội dung chính nó (contentSet)
- Item Metadata <itemMeta>
~_ <IemClass> sử dụng thuộc tinh Qcode dé biéu thi rang Item truyén tai mot hinh anh
24
Trang 27Đại học Công Nghệ Luận văn cuỗi khóa
- Content Metadata <contentMeta>: dit ligu nhúng được vào NewsML-G2 dựa
trên giản đồ IPTC Core tương đương
- IPTC Core Schema: Date Created
<contentCreated> được sử dụng đểcung cấp cho cácngày tạocủa hình ảnh:
<description>: Mô tả dung thông tin trong bức ảnh
<headline>Variety Of Recessionary Forces Leave Las Vegas
<descoiprion roles “dro?scapeion’sA general view of part of downtown,
‘including Las Vegas Boulevard, on October 20, 2010 in Las Vegas,
Nevada Nevada once had anong the louest unep]oyment rates in the United states at 3.8 percent but has since fallen on difficult times, bas Vegas) the gaming capital of Anerica, has been especially hard hit with Unemployment currently at 14.7 percent and the highest
foreclosure rate in the nation Among the sparkling hotels and
casinos downtown are dozens of dormant construction projects and hotels offering rock bottom rates As the rest of the country slowly begins to see sone economic progress, Las vegas is still in the midst
of the economic downturn (Photo by Spencer Platt/cetty images)
</description>
2.4.3 Dữ liệu hình ảnh
-_ Dữ liệu nhị phân được chuyên tải trong NewsML-G2 <contentSet> bởi một hoặc nhiều <remoteContent>, cho phép thay thể của một bức tranh trong củng một Item
- Các <remoteContent> tham chiếu đổi tượng tồn tại độc lập với hiện tại
NewsML-G? Item
25
Trang 28- Mét thr vién hình ảnh được cung cap cho khách hàng trong ba kich cỡ
+ Một hình ảnh lớn đành cho đô phân giải cao
+ Một hình ảnh vừa đề sử dụng web
+ Một hình ảnh nhỏ để sử dụng như một hình ảnh thu nhỏ hoặc biểu tượng
~_ Đây là ba hình ảnh thế thay thế của các hinh ảnh tương tự và có thể được chứa
trong một tài liệu NewsML-G2 đơn
- Cac thuộc tỉnh tài nguyên:
+ Hyperlink (@lreÐ: để nhận dạngvàxác định vị tricácnôi dung
| <reroteContent href= “£ÿ18:/⁄/.//GVT0062134533-web jpg”
+ Content Type:dang tai nguyén
~ _ Khi công nghệ phát triển, mợi người giờ xem trực tiếp trên Web Các tỗ chức
về "phương tiên truyền thông" cần phải có khả nâng xử lý âm thanh va video 'NewsML-G2 cho phép tật cả các tổ chức truyền thong truy cập vả trao đổi âm thanh và
video trong mét quy trình làm việc chuyên nghiệp, bằng cách cung cấp các tính năng
26
Trang 29Đại học Công Nghệ Luận văn cuỗi khỏa
và các điểm mở rông mà cho phép các định dạng độc quyền để được "ảnh xa" để
Newsml-G2 đề đạt được tự do trao đôi giữa một vỏng tròn của các đôi tác thông tin
- Cac khôi xây dựng của G2 Item là <newsltem> yêu tô gốc, với các yêu tô gói
cho siêu dữ liệu về News Item (itemMeta), siêu dữ liệu về các nội dung (contentMeta)
và các nội dung chính nó (contentSet)
href= "hetn://uime iptc org/std/cats log/catalog, 1hTC-G2-Standards-22.xal /»
<catalogref href= "hetp://cv.atp com/std/catalog/catalog AFP-IPTC-G2_3.xo!" />
27