1. Trang chủ
  2. » Công Nghệ Thông Tin

Các bước chuyển kiểu chữ potx

4 260 0
Tài liệu đã được kiểm tra trùng lặp

Đang tải... (xem toàn văn)

THÔNG TIN TÀI LIỆU

Thông tin cơ bản

Định dạng
Số trang 4
Dung lượng 56,5 KB

Các công cụ chuyển đổi và chỉnh sửa cho tài liệu này

Nội dung

Thuật toõn: • Đầu vỏo: chuỗi văn bản cần chuyển đổi kiểu • Đầu ra: Chuỗi văn bản đọ được chuyển về định dạng unicode vn6909 • Nội dung: o Nhận diện kiểu chữ của đoạn văn bản đưa vỏo 1 o

Trang 1

1 Thuật toõn chuyển đổi kiểu chữ

Thuật toõn nỏy nhận diện vỏ chuyển đổi một văn bản Tiếng Việt từ cõc kiểu nhập văn bản (VN6909, VN1258, VNI, TCNV3, VIETWARE) sang định dạng unicode vn6909

Thuật toõn:

• Đầu vỏo: chuỗi văn bản cần chuyển đổi kiểu

• Đầu ra: Chuỗi văn bản đọ được chuyển về định dạng unicode vn6909

• Nội dung:

o Nhận diện kiểu chữ của đoạn văn bản đưa vỏo (1)

o Chuyển sang định dạng unicode vn6909 (2)

Thuật toõn (1)

• Đầu vỏo: chuỗi văn bản cần nhận dạng

• Đầu ra: Kiểu gử của chuỗi văn bản đụ

• Nội dung:

o Khai bõo mảng cõc chuỗi ký tự đặc biệt sử dụng khõc nhau của cõc loại kiểu gử đọ được nhận diện như trởn

o Đếm tần xuất trỳng của văn bản so với cõc bảng mọ đọ khai bõo

o Mọ được nhận diện lỏ mọ cụ số ký tự trỳng nhiều nhất với bảng mọ

đọ khai bõo

Vợ dụ mảng khai bõo sau đóy dỳng để nhận dạng kiểu nhập văn bản theo TCVN3

string [] tcvn3 ={

"Ế", "ả", "•", "Ì", "Ỉ", "Í", "Ị", "½", "¾", "ầ"

, "ẹ", "ò", "ổ", "ỗ", "ũ", "ứ", "ự", "Ứ", "ì", "ị"

, "Þ", "þ", "AẾ", "Aả", "A•", "AÌ", "AỈ", "âÍ", "âỊ"

, "â½", "â¾", "âặ", "đầ", "đẩ", "đẫ", "đấ", "đậ", "Eè"

, "Eẽ", "Eé", "EÐ", "Eẹ", "êề", "êể", "êễ", "êế", "êệ"

, "Oò", "Oõ", "Oó", "Oọ", "Oồ", "ôổ", "ôỗ", "ôố", "ôộ"

, "ôờ", "ơở", "ơỡ", "ơớ", "ơợ"\, "ơù", "Uủ", "Uũ", "Uú" , "Uụ", "Uừ", "Ặử", "Ặữ", "Ặứ", "Ặự", "Ặỳ", "IỨ", "Iì"

, "Iị", "IÝ", "IÞ", "Yỷ", "Yỹ", "Yý", "Yý", "Yþ", "Ẫ"

, "Ẩ", "à", "Ẽ", "Ậ", "È","", "đ", "â", "ê", "ư", "ô"

, "ơ","Ặ"

Trang 2

Thuận toán (2)

• Đầu vào: chuỗi văn bản cần chuyển mã và mã của văn bản đã được nhận dạng từ thuật toán (1)

• Đầu ra: Chuỗi văn bản đã được chuyển mã

• Nội dung:

o Khai báo mảng các ký tự mã nguồn (theo nhận diện) và mã đích (vn6909)

o Lặp lại tất cả từng ký tự trong văn bản gốc

o Thay thế ký tự ở mã nguồn bằng ký tự ở mã đích

o Trả về kết quả là mã đã chuyển

Ví dụ mảng ký tự mã nguồn của TCVN3

private char [] TCVN3_CHAR = {

'\u00FC', '\u00FB', '\u00FE', '\u00FA',

'\u00F9', '\u00F7', '\u00F6', '\u00F5', '\u00F8', '\u00F1', '\u00F4', '\u00EE', '\u00EC', '\u00EB', '\u00EA', '\u00ED', '\u00E9', '\u00E7', '\u00E6', '\u00E5', '\u00E8', '\u00E1', '\u00E4', '\u00DE', '\u00D8', '\u00D6', '\u00D4', '\u00D3', '\u00D2', '\u00D5', '\u00CF', '\u00CE', '\u00D1', '\u00C6', '\u00BD', '\u00BC', '\u00AB', '\u00BE', '\u00CB', '\u00C9', '\u00C8', '\u00C7', '\u00CA', '\u00B6', '\u00B9', '\u00AD', '\u00A6', '\u00AC', '\u00A5', '\u00F2', '\u00DC', '\u00AE', '\u00A8', '\u00A1', '\u00F3', '\u00EF', '\u00E2', '\u00BB', '\u00E3', '\u00DF', '\u00DD', '\u00D7', '\u00AA', '\u00D0', '\u00CC', '\u00B7', '\u00A9', '\u00B8', '\u00B5', '\u00A4', '\u00A7', '\u00A3', '\u00A2'

};

2 Trích lọc văn bản từ các định dạng khác nhau

Việc trích lọc nội dung văn bản phụ thuộc vào định dạng tệp tin mà người dùng định nghĩa cho phép nhận diện Các tệp tin này phải được khai báo trước và có cách đọc cũng như trích lọc khác nhau Ứng dụng này định hướng để đọc nội dung

từ các loại văn bản sau đây:

• Tệp tin văn bản Microsoft Word với các phiên bản 2003 và 2007 tương đương với phần mở rộng doc và docx

Trang 3

• Tệp tin văn bản Microsoft Power Point với các phiên bản 2003 và 2007 tương đương với phần mở rộng ppt và pptx

• Tệp tin văn bản Microsoft Excel với các phiên bản 2003 và 2007 tương đương với phần mở rộng xls và xlsx

• Tệp tin văn bản với định dạng pdf

• Tệp tin html với các phần mở rộng html, htm và nội dung html từ địa chỉ web

Thuật toán trích lọc văn bản từ tệp tin có định dạng HTML

• Đầu vào: Tệp tin văn bản với định dạng HTML

• Đầu ra: văn bản hoàn toàn gồm các kí tự

• Nội dung:

o Đọc nội dung văn bản đưa về định dạng chuỗi các ký tự

o Hủy bỏ dòng trắng không được hiển thị trên HTML

o Hủy bỏ khoảng trắng tab

o Hủy bỏ các ký tự trắng liên tiếp trong HTML

o Hủy bỏ thẻ HEAD

o Hủy bỏ tất cả JavaScript

o Thay thế các ký tự đặc biệt như &, <, >, "…

o Kiểm tra xem có ngắt dòng (<br>) hoặc khoản (<p>)

o Bước cuối cùng, loại bỏ tất cả các thẻ HTML và trả về hoàn toàn là các

ký tự

Thuật toán chuyển từ tệp tin văn Microsoft Word về dạng văn bản

• Đầu vào: Tệp tin văn bản với định dạng doc, docx

• Đầu ra: văn bản hoàn toàn gồm các kí tự

• Nội dung:

o Khai báo đối tượng Microsoft.Office.Interop.Word.Document

o Sử dụng phương thức ActiveWindow.Selection.WholeStory() để đọc nội dung của văn bản

Trang 4

o Nội dung văn bản text sẽ được khai thác qua thuộc tính Content.Text; Thuật toán chuyển từ tệp tin văn Microsoft Power Point về dạng văn bản

• Đầu vào: Tệp tin văn bản với định dạng ppt, pptx

• Đầu ra: văn bản hoàn toàn gồm các kí tự

o Khai báo đối tượng Microsoft.Office.Interop.PowerPoint.Presentation

o Duyệt qua từng trang trình diễn

 Duyệt qua từng đối tượng textbox trang

 Lấy nội dung văn bản thêm vào dữ liệu đã lấy

o Trả lại kết quả đã trích xuất được

Thuật toán chuyển từ nội dung từ địa chỉ URL về dạng văn bản

• Đầu vào: nội dung của văn bản được lưu trên web thông qua địa chỉ URL

• Đầu ra: văn bản hoàn toàn gồm các kí tự

o Khai báo đối tượng WebClient dùng để khai thác dữ liệu qua các trang web

o Tải nội dung HTML từ địa chỉ web về và lưu vào một chuỗi ký tự

o Xử lý loại bỏ các ký tự định dạng HTML như phần trích lọc HTML

o Trả lại kết quả đã được loại bỏ định dạng

Thuật toán đọc hình ảnh từ văn bản Microsoft Word

• Đầu vào: Tệp tin văn bản với định dạng doc, docx

• Đầu ra: mảng các hình ảnh

o Khai báo đối tượng Document dùng để đọc nội dung văn bản Word

o Duyệt qua tất cả các hình vẽ có trên tệp tin đã đọc

 Khai báo đối tượng Clipboard để chép nội dung hình ảnh đã được đọc rồi sau đó ghi vào đối tượng hình ảnh Bitmap

 Lưu dữ liệu vào mảng các hình ảnh

o Trả lại kết quả là mảng các hình ảnh

Ngày đăng: 09/07/2014, 05:20

TỪ KHÓA LIÊN QUAN

w