Thuật toõn: • Đầu vỏo: chuỗi văn bản cần chuyển đổi kiểu • Đầu ra: Chuỗi văn bản đọ được chuyển về định dạng unicode vn6909 • Nội dung: o Nhận diện kiểu chữ của đoạn văn bản đưa vỏo 1 o
Trang 11 Thuật toõn chuyển đổi kiểu chữ
Thuật toõn nỏy nhận diện vỏ chuyển đổi một văn bản Tiếng Việt từ cõc kiểu nhập văn bản (VN6909, VN1258, VNI, TCNV3, VIETWARE) sang định dạng unicode vn6909
Thuật toõn:
• Đầu vỏo: chuỗi văn bản cần chuyển đổi kiểu
• Đầu ra: Chuỗi văn bản đọ được chuyển về định dạng unicode vn6909
• Nội dung:
o Nhận diện kiểu chữ của đoạn văn bản đưa vỏo (1)
o Chuyển sang định dạng unicode vn6909 (2)
Thuật toõn (1)
• Đầu vỏo: chuỗi văn bản cần nhận dạng
• Đầu ra: Kiểu gử của chuỗi văn bản đụ
• Nội dung:
o Khai bõo mảng cõc chuỗi ký tự đặc biệt sử dụng khõc nhau của cõc loại kiểu gử đọ được nhận diện như trởn
o Đếm tần xuất trỳng của văn bản so với cõc bảng mọ đọ khai bõo
o Mọ được nhận diện lỏ mọ cụ số ký tự trỳng nhiều nhất với bảng mọ
đọ khai bõo
Vợ dụ mảng khai bõo sau đóy dỳng để nhận dạng kiểu nhập văn bản theo TCVN3
string [] tcvn3 ={
"Ế", "ả", "•", "Ì", "Ỉ", "Í", "Ị", "½", "¾", "ầ"
, "ẹ", "ò", "ổ", "ỗ", "ũ", "ứ", "ự", "Ứ", "ì", "ị"
, "Þ", "þ", "AẾ", "Aả", "A•", "AÌ", "AỈ", "âÍ", "âỊ"
, "â½", "â¾", "âặ", "đầ", "đẩ", "đẫ", "đấ", "đậ", "Eè"
, "Eẽ", "Eé", "EÐ", "Eẹ", "êề", "êể", "êễ", "êế", "êệ"
, "Oò", "Oõ", "Oó", "Oọ", "Oồ", "ôổ", "ôỗ", "ôố", "ôộ"
, "ôờ", "ơở", "ơỡ", "ơớ", "ơợ"\, "ơù", "Uủ", "Uũ", "Uú" , "Uụ", "Uừ", "Ặử", "Ặữ", "Ặứ", "Ặự", "Ặỳ", "IỨ", "Iì"
, "Iị", "IÝ", "IÞ", "Yỷ", "Yỹ", "Yý", "Yý", "Yþ", "Ẫ"
, "Ẩ", "à", "Ẽ", "Ậ", "È","", "đ", "â", "ê", "ư", "ô"
, "ơ","Ặ"
Trang 2Thuận toán (2)
• Đầu vào: chuỗi văn bản cần chuyển mã và mã của văn bản đã được nhận dạng từ thuật toán (1)
• Đầu ra: Chuỗi văn bản đã được chuyển mã
• Nội dung:
o Khai báo mảng các ký tự mã nguồn (theo nhận diện) và mã đích (vn6909)
o Lặp lại tất cả từng ký tự trong văn bản gốc
o Thay thế ký tự ở mã nguồn bằng ký tự ở mã đích
o Trả về kết quả là mã đã chuyển
Ví dụ mảng ký tự mã nguồn của TCVN3
private char [] TCVN3_CHAR = {
'\u00FC', '\u00FB', '\u00FE', '\u00FA',
'\u00F9', '\u00F7', '\u00F6', '\u00F5', '\u00F8', '\u00F1', '\u00F4', '\u00EE', '\u00EC', '\u00EB', '\u00EA', '\u00ED', '\u00E9', '\u00E7', '\u00E6', '\u00E5', '\u00E8', '\u00E1', '\u00E4', '\u00DE', '\u00D8', '\u00D6', '\u00D4', '\u00D3', '\u00D2', '\u00D5', '\u00CF', '\u00CE', '\u00D1', '\u00C6', '\u00BD', '\u00BC', '\u00AB', '\u00BE', '\u00CB', '\u00C9', '\u00C8', '\u00C7', '\u00CA', '\u00B6', '\u00B9', '\u00AD', '\u00A6', '\u00AC', '\u00A5', '\u00F2', '\u00DC', '\u00AE', '\u00A8', '\u00A1', '\u00F3', '\u00EF', '\u00E2', '\u00BB', '\u00E3', '\u00DF', '\u00DD', '\u00D7', '\u00AA', '\u00D0', '\u00CC', '\u00B7', '\u00A9', '\u00B8', '\u00B5', '\u00A4', '\u00A7', '\u00A3', '\u00A2'
};
2 Trích lọc văn bản từ các định dạng khác nhau
Việc trích lọc nội dung văn bản phụ thuộc vào định dạng tệp tin mà người dùng định nghĩa cho phép nhận diện Các tệp tin này phải được khai báo trước và có cách đọc cũng như trích lọc khác nhau Ứng dụng này định hướng để đọc nội dung
từ các loại văn bản sau đây:
• Tệp tin văn bản Microsoft Word với các phiên bản 2003 và 2007 tương đương với phần mở rộng doc và docx
Trang 3• Tệp tin văn bản Microsoft Power Point với các phiên bản 2003 và 2007 tương đương với phần mở rộng ppt và pptx
• Tệp tin văn bản Microsoft Excel với các phiên bản 2003 và 2007 tương đương với phần mở rộng xls và xlsx
• Tệp tin văn bản với định dạng pdf
• Tệp tin html với các phần mở rộng html, htm và nội dung html từ địa chỉ web
Thuật toán trích lọc văn bản từ tệp tin có định dạng HTML
• Đầu vào: Tệp tin văn bản với định dạng HTML
• Đầu ra: văn bản hoàn toàn gồm các kí tự
• Nội dung:
o Đọc nội dung văn bản đưa về định dạng chuỗi các ký tự
o Hủy bỏ dòng trắng không được hiển thị trên HTML
o Hủy bỏ khoảng trắng tab
o Hủy bỏ các ký tự trắng liên tiếp trong HTML
o Hủy bỏ thẻ HEAD
o Hủy bỏ tất cả JavaScript
o Thay thế các ký tự đặc biệt như &, <, >, "…
o Kiểm tra xem có ngắt dòng (<br>) hoặc khoản (<p>)
o Bước cuối cùng, loại bỏ tất cả các thẻ HTML và trả về hoàn toàn là các
ký tự
Thuật toán chuyển từ tệp tin văn Microsoft Word về dạng văn bản
• Đầu vào: Tệp tin văn bản với định dạng doc, docx
• Đầu ra: văn bản hoàn toàn gồm các kí tự
• Nội dung:
o Khai báo đối tượng Microsoft.Office.Interop.Word.Document
o Sử dụng phương thức ActiveWindow.Selection.WholeStory() để đọc nội dung của văn bản
Trang 4o Nội dung văn bản text sẽ được khai thác qua thuộc tính Content.Text; Thuật toán chuyển từ tệp tin văn Microsoft Power Point về dạng văn bản
• Đầu vào: Tệp tin văn bản với định dạng ppt, pptx
• Đầu ra: văn bản hoàn toàn gồm các kí tự
o Khai báo đối tượng Microsoft.Office.Interop.PowerPoint.Presentation
o Duyệt qua từng trang trình diễn
Duyệt qua từng đối tượng textbox trang
Lấy nội dung văn bản thêm vào dữ liệu đã lấy
o Trả lại kết quả đã trích xuất được
Thuật toán chuyển từ nội dung từ địa chỉ URL về dạng văn bản
• Đầu vào: nội dung của văn bản được lưu trên web thông qua địa chỉ URL
• Đầu ra: văn bản hoàn toàn gồm các kí tự
o Khai báo đối tượng WebClient dùng để khai thác dữ liệu qua các trang web
o Tải nội dung HTML từ địa chỉ web về và lưu vào một chuỗi ký tự
o Xử lý loại bỏ các ký tự định dạng HTML như phần trích lọc HTML
o Trả lại kết quả đã được loại bỏ định dạng
Thuật toán đọc hình ảnh từ văn bản Microsoft Word
• Đầu vào: Tệp tin văn bản với định dạng doc, docx
• Đầu ra: mảng các hình ảnh
o Khai báo đối tượng Document dùng để đọc nội dung văn bản Word
o Duyệt qua tất cả các hình vẽ có trên tệp tin đã đọc
Khai báo đối tượng Clipboard để chép nội dung hình ảnh đã được đọc rồi sau đó ghi vào đối tượng hình ảnh Bitmap
Lưu dữ liệu vào mảng các hình ảnh
o Trả lại kết quả là mảng các hình ảnh