report Restaurant Menu Expert Quá Trình Xử lí Pipeline Ảnh Kĩ Thuật Số Để Làm Tăng Độ Chính Xác Của Tăng Độ Chính Xác Của Thuật Toán OCR

Trong dự án này chúng tôi sẽ giải quyết vấn đề này bằng việc cung cấp một hệ thống tự động hiển thị hình ảnh của các món khi nó được truy vấn tên.. Zhang đã nghiên cứu các thuật toán để

Trang 1

Restaurant Menu Expert Quá Trình Xử lí Pipeline Ảnh Kĩ Thuật Số Để Làm Tăng Độ Chính

Xác Của Thuật Toán OCR GVHD: TS CHẾ VIẾT NHẬT ANH

SVTH: 1 Nguyễn Văn Đông – 41200800

2 Nguyễn Viết Sĩ -41203133

3 Lầu Lưu Đường – 41200814

4 Nguyễn Phúc Nhật Huy – 41201373

5 Nguyễn Hữu Đông – 41200797

I GIỚI THIỆU:

Một trong những thách thức lớn nhất khi đi du lịch là

rào cản ngôn ngữ Nó là một vấn đề lớn khi ta đặt món ăn

tại nhà hàng Bởi vì sự độc đáo về tên các món ăn, họ

thường có ý nghĩ riêng biệt về tên của từng món ăn Nó

thường khó tưởng tượng Bởi nếu chỉ đọc bằng văn bản

trên thực đơn Mặc dù nhiều người có thể hiểu một cách

cơ bản về tên của món ăn Nhưng những món ăn có thể

khác so với những gì họ nghĩ do sự khác biệt về văn hóa

Trong trường hợp đó trình bày tên món ăn bằng hình ảnh

thay vì tên của món ăn có thể giúp ích cho mọi người để đưa ra những quyết định hợp lí cho những gì họ mong muốn đặt món ăn ở nhà hàng

Lấy cảm hứng về ý tưởng có thể giúp mọi người vượt qua rào cản này Trong dự án này chúng tôi sẽ giải quyết vấn đề này bằng việc cung cấp một hệ thống tự động hiển thị hình ảnh của các món khi nó được truy vấn tên Với ứng dụng này người ta đơn giản là đặt một thực đơn trước camera để máy ảnh chụp hình ảnh của thực đơn chương trình xử lí nhận dạng kí tự trong thực đơn và xuất trình

Trang 2

hình ảnh của các món ăn trên mặt bên của tên món ăn để

giúp người sử dụng có thể hiểu hơn về món ăn mà họ

quan tâm

II CÔNG VIỆC LIÊN QUAN:

Có rất nhiều vấn đề liên quan đến chủ đề này, điều đã

cho chúng ta một cái nhìn sâu sắc tuyệt vời và cảm hứng

khi định hình ý tưởng của chúng tôi A Heng mô tả một

ứng dụng iPhone mà được thiết kế để nhanh chóng và dễ

dàng tách ra một hóa đơn nhà hàng giữa một nhóm người

trong tạp chí của ông ứng dụng sử dụng các thiết bị

Tesseract OCR để đọc ký tự từ hóa đơn, sau đó thực hiện

xử lý văn bản để xác định các mục trên biên lai Ứng dụng

này hiệu quả trong việc giảm thời gian tính ra một người

phải trả bao nhiêu trong một nhóm Dựa vào việc quan sát

thì có thể nhận thấy rằng hóa đơn giấy là không thể thay

thế và không dễ dàng để biến đổi nó thành định dạng điện

tử mặc dù tồn tại nhiều hệ thông thánh toán điện tử tiên

tiến C N Nshuti đã thảo luận trong tờ tạp chí của ông ấy

cách để nhận ra cách số hóa tờ hóa đơn và phát triển một

đường ống để biểu diễn OCR từ ảnh của một tập tài liệu

được chụp từ điện thoại Vì vậy, có rất nhiều ứng dụng

hướng đến việc nhận diện ký tự nước ngoài Dựa trên

những vấn đề này mà tồn tại nhiều OCR gần như không

làm việc tốt trên một số ngôn ngữ như Trung Quốc và

Nhật Bản Zhang đã nghiên cứu các thuật toán để nhận ra

rằng chức năng SIFT và phương pháp RSNSSAC rất

mạnh và hiệu quả để nhận diện chứ Trung Quốc, và sau

đó ứng dụng nó vào thực đon của nhà hàng Trung Quốc

và sáng tạo ra một ứng dụng di động mới dịch hình ảnh của các mục trong thực đơn nhà hàng người Trung Quốc trở thành những hình ảnh món ăn trong thực tế Kết quả

là thí nghiệm của họ rất được hưởng ứng: phương pháp này có thể thực thi nhanh chóng những kí tự Trung Quốc

và tìm được món ăn khớp với hình ảnh trong vòng 5 đến 6 giây với độ tin cậy lên tới 91% với hình ảnh rõ và nét Nghiên cứu của chúng tôi tập trung vào việc phát triển các phương pháp khác nhau đẻ tăng độ tin cậy cho thuật toán OCR, và sau đó xây dựng một hệ thống dịch thực đơn tiếng anh tốt và tức thời cho người không nói tiếng Anh Chúng tôi xây dựng một cở sở dữ liệu cho một hệ thống định sẵn những món ăn thường được thấy trên thế giới Hệ thống thì chống nhiễu tốt, kể cả xoay và có nhiều phông chữ khác nhau Chúng tôi thực hiện một vài công nghệ được học trong lớp, bao gồm ngưỡng giãn nở, ăn mòn, phân khúc và kết hợp,… Tiếp cận kỹ thuật đường ống (pipeline) được mô tả trong phần 3 Chúng tôi quan tâm đến hiệu ứng của những công nghệ xử lý khác nhau Như là, chúng tôi thực hiện việc so sánh những kết quả được mô tả trong phần 4 Trong phần 5, chúng ta thảo luận một phân khúc và toàn bộ việc thực hiện hệ thống nhận dạng thực đơn của chúng tôi nằm trong khả năng cho kết quả khả quan với những thông số hệ thông, Trong chương 6, chúng tô so sánh hệ thống của chúng tôi với nhũng phần khác trong những phần liên quan và thảo luận

về ưu và nhược điểm của hệ thống Trong chương 7 chúng

Trang 3

tôi đúc kết được những kinh nghiệm có giá trị với dự án

này và nhận thấy một viễn cảnh đến công việc trong tương

lại

III PHƯƠNG PHÁP TIẾP CẬN VỀ MẶT KỸ

THUẬT:

Ứng dụng đường ống có 6 thủ tục chính: nhận vào

hình ảnh của menu, thực hiện tiền xử lý hình ảnh nhận vào

và quá trình này bao gồm hai phần: với xoay và phân khúc

chuỗi, thực hiện nhận dạng ký tự quang học (OCR) trên

nội dung của menu, khớp chuỗi với cơ sở dữ liệu, và cuối

cùng là hiển thị kết quả

A Hình ảnh ngõ vào

Giai đoạn nhận dữ liệu vào khá đơn giản: người dùng

chụp một bức ảnh của menu bằng máy ảnh, sau đó chúng

ta đưa ra một giao diện để người dùng có thể tùy chỉnh

vùng hình ảnh mà người dùng quan tâm (ROI) để tìm ra

hình ảnh của món ăn trên menu

Những bức ảnh được chụp tự nhiên có sự đa dạng lớn, dẫn đến khó khăn trong việc nhận dạng các ký tự Ví dụ, các ký tự trong những hình ảnh khác nhau có thể có kích thước, màu sắc, phông chữ và góc chụp khác nhau Có nhiều hiệu ứng có thể xảy ra như hiệu ứng mờ hoặc ảnh được chụp ngoài khoảng lấy nét của máy ảnh Đây là một vấn đề thách thức chúng ta, nhưng chúng ta sẽ giả sử rằng người chụp ảnh có thể kiểm soát được chất lượng hình ảnh khi chụp, do đó chúng ta sẽ không cần tập trung vào những nhược điểm nói trên

B Không có tính năng xoay:

Sau khi người dùng xác định được vùng ROI, chúng ta

sẽ tự động tìm góc quay dựa trên cấu trúc vốn có của menu, hầu hết văn bản đều được sắp xếp theo chiều ngang Để làm được như vậy, đầu tiên chúng ta áp dụng ngưỡng Otsu toàn bộ và cho giãn nở một hình tròn nhỏ đường kính 5 pixel Các chữ sau khi giãn sẽ tạo thành các thành phần kết nối giữa các đối tượng và như vậy chúng ta

có thể dễ dàng xác định được các thành phần được kết nối

và tìm ra khu vực hình chữ nhật nhỏ nhất chứa các thành phần được kết nối đó Với những vùng bao chứa các thành phần kết nối với nhau này, chúng ta sẽ tính tỷ lệ giữa chiều rộng và chiều cao của các vùng bao này tại mỗi 100 bắt đầu từ -900 đến 900, với sự tinh chỉnh mỗi 10 để xác định góc quay Từ các thiết lập này của phép quay, chúng

Trang 4

ta sẽ tự động tìm ra tỷ lệ lớn nhất, và điều đó cũng chỉ ra

vùng bao lớn nhất tại góc quay đó Chúng ta sẽ giới hạn

góc quay từ -900 đến 900, theo như chúng ta đã giả sử rằng

người dùng sẽ sử dụng đường ống phát hiện menu trong

khoảng này

C Phân khúc tên món ăn

Để tạo điều kiện và cải thiện độ chính xác từ thiết bị

trong việc nhận diện từ theo sau, chúng tôi tái tổ chức lại

hình ảnh bởi phạm vi nhận diện cho mỗi tên món ăn trong

ROI và phân khúc ra tên món ăn và thông qua thiết bị

OCR

Đáp ứng cho mục đích của chúng tôi, chúng tôi đã giữ

toàn bộ tên món ăn ở trong một phạm vi đường bao, như

vậy sau đường ống OCP có thể sử dụng thông tin như vậy

Để làm như vậy, chúng tôi đã tạo thành phần kết nối bởi

những món ăn được kéo dãn với một cấu trúc đường kẻ

ngang trên ảnh được mã hóa nhị phân Otsu Với cấu trúc

như vậy, tất cả những đoạn chữ trong một đường kẻ sẽ

thành một thành phần kết nối đơn và vì vậy thành một

đường bao

Để cho phép những biến đổi nhỏ trong đoạn văn và

nhiễu, chúng tôi đã xác nhận ngưỡng trên đường bao bên

ngoài hệ số tỷ lệ và khu vực và kết hợp gần những đường

bao với nhau để tạo thành một đường bao Ngưỡng này và

công nghệ hợp nhất thì giống như là sự bổ sung cơ bản của việc nhận thấy Canny Edge, nơi không thể nén cực đại

và canh liên kết thì được ứng dụng để giảm nhiễu

D Nhận diện kí tự quang học

Sau khi chúng tôi nhận phân khúc văn bản của tên món

ăn vào một đường bao, chúng tôi chọn việc thực hiện MATLAB thuật toán Tesseract, một nguồn mở của thiết bị OCR ban đầu phát triển là phòng thí nghiệm HP và được quản lý bởi Google, trong dự án của chúng tôi để thực hiện nhận diện ký tự Nguồn gốc cơ bản của Tesseract OCR là như sau: Đầu tiên, ký tự bên ngoài thì được trích

và được tập hợp lại cùng nhau thông qua Blobs bởi việc thực hiện kết nối phân tích thành phần Sau đường văn bản, đường được thực hiện bởi Bobs, là tách ra thành những từ riêng rẽ phụ thuộc vào khoảng cách giữa mỗi ký

tự Giai đoạn sau đó là nhận biết thông qua nhận diện ký

tự, việc này được thực hiện thông qua 2 giai đoạn Trong mỗi từ đầu tiên là nhân biết theo hướng Một lần là một từ được nhận biết, điều đó có thể được chứa vào một loại tương thích và được sử dụng như là một dữ liệu đào tạo Trong giai đoạn 2 từ không được nhận diện thành công thì được nhận diện lại bởi dữ liệu đào tạo được lấy từ phần đầu tiên Cuối cùng, một chuỗi từ sẽ được xuất ra

E Tên món ăn phù hợp với cơ sở dữ liệu

Trang 5

Tên món ăn phù hợp được trả về sau khi OCR trả về

kết quả dạng chuỗi ở giai đoạn này, chúng ta có thể mong

đợi một số lỗi chính tả đến từ các kết quả OCR, và chúng

ta phải sửa chữa chúng để tìm được cái tên phù hợp với cơ

sở dữ liệu hình ảnh của chúng ta Ở đây, chúng tôi sử

dụng các thuật toán tìm kiếm chỉnh sữa khoảng cách tối

thiểu Với số một lượng kí tự không phù hợp chấp nhận

được, hệ thống của chúng tôi có thể sữa chữa kết quả từ

máy OCR, thứ mà làm tăng tỉ lệ thành công chung của tra

cứu hình ảnh Nhưng mức độ phức tạp lại cao đối với việc

tim kiếm chỉnh sữa khoảng cách tối thiểu mới là vấn đề

chính mà chúng ta phải đối phó với nó Các phân tích liên

quan và sự cải thiện sẽ được trình bày trong phần IV

F Hiển thị kết quả cuối cùng

Sau khi có được hình ảnh trong cơ sở dữ liệu, chúng

tôi thay đổi kích thước hình ảnh món ăn theo vị trí của

bounding box cùng chiều rộng/chiều cao của nó Và dán

chúng vào vị trí quan sát trên thực đơn ảnh ROI Đối với

những chuỗi OCR không phù hợp với bất kì tên món ăn

nào, sẽ không có hình ảnh nào được dán Điều này có thể

làm giảm cơ hội hiển thị hình ảnh không hợp lí do lỗi

OCR không thể đoán trước được dữ liệu đầu vào của thực

đơn

IV TỔNG KẾT:

Trong phần này, chúng tôi sẽ trình bày kết quả thực nghiệm của chúng tôi về hệ thống đường dẫn và thảo luận

về những điểm mạnh và cải tiến có thể để cải thiện hiệu suất

A kết quả của toàn bộ đường dẫn

Ảnh trên cho chúng ta thấy kết quả từng bước trong đườg dẫn của chúng tôi, từng bước điều chỉnh các yếu tố đầu vào của công nghệ OCR và sửa các lỗi từ kết quả OCR để hiển thị các hình ảnh cuối cùng bên cạnh tên món

ăn

B Nếu không có xoay điều chỉnh và có xoay điều chỉnh

Chúng tôi so sánh kết quả giữa việc OCR theo phân đoạn ở trên với góc quay ban đầu mà không có sự điều

chỉnh xoay được đề xuất

Trang 6

Từ hình trên , chúng ta thấy rằng hệ thống sẽ nhanh

hơn khi điều chỉnh góc xoay so với không điều chỉnh góc

xoay Lúc đầu , chúng tôi dự kiến độ chính xác nên góc

xoay nằm trong khoảng +/- 20 độ với một độ giảm ổn định

chính xác và một độ tăng chính xác Tuy nhiên , đây

không phải là một trường hợp duy nhất mà lý do chính là

do sự sụt giảm độ phân giải của hình ảnh khi chúng tôi

tiến hành chỉnh góc xoay Ở góc độ nào đó , góc xoay là

một hoạt động ngẫu nhiên nên do đó công nghệ OCR tiếp

theo sẽ không chính xác như đã nói

C Đi qua hình ảnh đầy đủ và hình ảnh được phân tách

OCR

Chúng tôi so sánh kết quả giữa đi qua hình ảnh đầy đủ đến OCR và hình ảnh được phân tách vào OCR và xem kết quả chính xác

Từ hình ảnh trên , ta thấy việc đi qua hình ảnh phân tách tốt hơn so với hình ảnh đầy đủ ngoại trừ với phần cà phê Việc giảm độ chính xác đối với thực đơn là cà phê

có thể được điều chỉnh ở thiết lập OCR trên Matlab , được tìm thấy ở đầu trang khi tìm google : “ thuật toán Tesseract” Khi chương trình chạy thuật toán Tesseract thì hình ảnh sẽ được truy vấn 2 lần , lần đầu để chương trình phân loại và ghi nhớ hình ảnh và lần thứ 2 sẽ truy vấn hình ảnh đó từ cơ sở dữ liệu ban đầu và thông tin hình ảnh từ tất cả các từ được tìm thấy trong vòng chạy đầu

Trang 7

tiên bằng cách phân chia tên của các món ăn , chúng ta đã

mất lợi ích như thế khi sử dụng cơ cấu phân loại khác

Tuy nhiên , chúng tôi đã chỉ ra rằng trong những trường

hợp khác , việc bỏ qua chạy chương trình lần đầu của

phân loại có thể tăng độ chính xác của OCR

D Thực hiện OCR sử dụng kĩ thuật khoảng cách tối

thiểu

Sau khi sử dụng OCR cho một số hộp hình ảnh , kết

quả ghi nhận chứa một số lỗi do hình ảnh bị mờ , nhiễu ,

ước tính sai … Để tối đa hóa tỉ lệ thành công phù hợp với

cơ sở dữ liệu hình ảnh chúng tôi thực hiện OCR sử dụng

kĩ thuật khoảng cách tối thiểu

Để sửa lỗi , chúng tôi tìm những món ăn phù hợp nhất

để đặt tên và sắp xếp dự trên khoảng cách Levenshtein cho tên mỗi món ăn xác định bởi OCR chúng tôi thực hiện phép toán với các thông số chỉnh sửa tối đa khoảng cách, hay gọi là khoảng cách cắt Như thể hiện ở trong hình trên , tỷ lệ thành công của một lần chạy chương trình chính xác thấp hơn 50% Nhưng với việc chỉnh sửa khoảng cách tỷ lệ thành công tăng lên 80% và cuối cùng bão hòa là 90%

E Thời gian thực hiện

Từ những con số dưới đây, chúng ta có thể thấy tổng thời gian thực hiện của hệ thống một cách tổng thể Phân đoạn tốn thời gian nhất trong hệ thống là chỉnh OCR Phần còn lại của quá trình chỉ chiếm ít hơn 15% tổng thời gian thực hiện Để nâng cao hơn nữa hiệu suất thời gian cho thời gian thực hiện mục đích , chúng tôi đã đưa ra một

số phương pháp nâng cao để tiết kiệm thời gian thực hiện

của việc chỉnh OCR

Phương pháp đầu tiên là để sửa đổi các thay đổi khoảng cách nhỏ chức năng, hơn là tạo ra đệ quy để so sánh của mỗi nkí tự, chúng ta lặp qua những so sánh kí tự cho đến khi gặp trường hợp không phù hợp, sau đó chia thành 3 tiến trình đệ quy (xóa,chèn, thay thế) Điều này làm giảm sự phức tạp đáng kể như tiết kiệm được phóng đại bởi độ dài của danh sách tên món ăn trong cơ sở dữ liệu, số lượng các chuỗi công nhận từ OCR, và thậm chí

độ dài trung bình của các tên món ăn

Trang 8

Khái niệm cải tiến thứ 2 đến từ hệ thống lượt xem

Một khi chúng ta tìm thấy một tên trên danh sách tên món

ăn là hoàn toàn phù hợp với các chuỗi phù hợp từ OCR,

sau đó chúng ta có thể dừng lại đi qua phần còn lại của

danh sách tên món ăn Nhìn chung, chiến lược này không

thể hưởng lợi nhiều nhất trong các trường hợp đặc biệt,

nhưng nó giúp rất nhiều các trường hợp thông thường và

làm cho tổng thời gian thực hiện ngắn

V ĐÁNH GIÁ THÔNG SỐ CỦA HỆ THỐNG:

Trong phần này, chúng ta sẽ cùng thảo luận về tác

động cục bộ và toàn cục của một số thông số của hệ thống

lên hệ thống nhận dạng menu Cụ thể, chúng ta sẽ cùng

thảo luận về tác động của việc lựa chọn các kích thước

khác nhau của các cấu trúc thành phần trong quá trình xoay điều chỉnh và ở phân khúc tên món ăn

A Thay đổi kích thước khi xoay điều chỉnh

Đối với việc xoay điều chỉnh, đầu tiên ta thực hiện giãn nỡ hình ảnh để kết nối các kí tự lại với nhau theo dạng kí tự trong khi vẫn giữ được đường viền chung của các kí tự Trong quá trình xử lí, chúng ta muốn tìm kiếm góc xoay lớn nhất, có nghĩa là tỉ lệ trênđường bao của hộp trên mỗi phần tử kết nối Như những thành phần kết nối là văn bản tiếng anh được liên kết theo chiều ngang Do đó,

ta sẽ sử dụng một disk có đường kính 5 pixels để thực hiến nhiệm vụ đó Để kiểm tra độ nhạy kích thước của các cấu trúc thành phần, chúng ta cần vượt qua được góc xoay

100 và phân tích những ảnh hưởng khác nhau của kích thước các cấu trúc thành phần

Trang 9

Ở hình phía trên, chúng ta có thêt thấy không có bất kì

sự giãn nở nào, góc xoay nhận dạng có lẽ là không đáng

kể từ góc xoay thực tế, đó là bởi vì hiện tại có rất nhiều kí

tự được xem như một thành phần được kết nối; do đó, giả

sử rằng đó là tỉ lệ lớn nhất khi xoay hình ảnh quay trở lại

hóc quay thực tế là không có nhiều giá trị

Chúng ta cũng có thể nhìn thấy rằng khi đường kính

của cấu trúc thiệt bị là quá lớn ( trong trường hợp này là

25 pixels) thì góc xoay nhận diện là không chính xác Đó

là bởi vì tất cả các từ trong menu và đường biên của menu

được nhóm lại thành một thành phần kết nối duy nhất và

do đó tỉ lệ này không thêt đại diện cho một bounding box

xung quanh một từ tiếng anh đơn lẻ, và do đó giả sử của

chúng ta cũng không thành công trong trường hợp này

B Thay đổi đường kính cấu trúc cho phân khúc tên

Giống như xoay điều chỉnh, phân khúc tên món ăn

cũng phụ thuốc rất nhiều vào kích thước của cấu trúc các

thành phần Trong trường hợp này, chúng ta chọn các

thành phần có cấu trúc hàng ngang để nhóm tất cả các từ ở

tên món ăn đến một thành phần kết nối duy nhất Chungs

tôi đã thử nghiệm trên những dòng có độ rộng khác nhau

và thu được kết quả như hình bên dưới:

Ở hình trên, chúng ta thấy rằng chúng chỉ có thể đạt được 100% độ chính xác khi nhận diện chính xác bounding box xung quanh tên của món ăn cho những thành phần cấu trúc có độ dài nằm giữa 31 và 51 pixels Lí

do chính dẫn đến độ chính xác thấp ở những thành phần

có chiều dài thấp hơn là vì vượt quá phân khúc tương ứng, những kí tự đặc biệt từ món ăn duy nhất là không giống như bounding box Mặt khác, khi hàng của cấu trúc thành phần là quá dài, sau đó thì các đối tượng sẽ giãn ra làm che mất đường biên, làm cho đường biên và một văn bản giản ra được kết nối với các thành phần khác, kết quả là bouding box không còn chính xác nữa

VI SO SÁNH VỚI PHƯƠNG PHÁP THAY THẾ:

Trang 10

Nó có thể được nhìn thấy từ các kết quả của thí

nghiệm mà những project pipelined của chúng tôi có thể là

một lợi thế so với những cách triển khai khác Quan trọng

nhất là nó cho thấy tính khả thi của mình, với khả năng

chống lại nhiễu, xoay, fonts chữ khác nhau hay nhiều tác

động khác Bằng cách áp dụng Tesseract OCR và thực

hiện một vài kĩ thuật xử lí trước và sau quá trình xử lí, bao

gồm hành động xoay bình thường, các phân khúc văn bản

và chỉnh sửa tối thiểu khoảng cách văn bản một cách

chính xác OCR là một cách nhận diện một cách chính xác

kí tự nhanh hơn những phương pháp như SIFT bởi vì kí tự

có rất nhiều đặc tính Chúng tôi phát triển các đặc tính

xoay thông thường và các phân khúc văn bản và sử dụng

chúng trước khi nhận dạng kí tự trong project của mình

Project của chúng tôi đã chứng minh được rằng có thể cải

thiện tính năng nhận diện toàn cục một cách hiệu quả

Hơn nữa, cách nhận diện truyền thống thiếu sự linh hoạt

trong việc kết hợp cac kí tự riêng lẻ Chúng tôi thực hiện

việc này bằng cách sử dụng thuật toán để chỉnh sửa

khoảng cách tối thiểu để thực hiện điều chỉnh Sauk hi

thiết lập dung sai tối đa các chỉnh sửa với khoảng cách là

9, tỷ lệ có thể đạt được trên 90% ROI không chỉ cho phép

người dùng lựa chọn các món ăn mà họ đang quan tâm,

sau đó người dùng sẽ nhận được bản dịch tương ứng với

nội dung mà họ mong muốn thay vì bản dịch của toàn bộ

menu, mà theo đó làm tăng trải nghiệm người dùng,

nhưng cũng làm giảm không gian tìm kiếm và nhiễu, do

đó dẫn đến kết quả tốt hơn

Tuy nhiên, nó vẫn có một số khía cạnh cần phải được cải thiện Một thách thức lớn nhất là làm thế nào để giảm bớt thời gian chạy Chúng ta biết từ kết quả cho thấy phần lớn thời gian tiêu thụ ở phần OCR là chính xác Chúng ta cần phải nhanh hơn trong việc kết hợp tên món

ăn với hình ảnh tương ứng trong cơ sở dữ liệu để đáp ứng thời gian thực yêu cầu thực hiện Điều này đặc biệt đúng khi hệ thống phát triển và có một cơ sở dữ liệu khổng lồ Một vấn đề khác là làm thế nào để tăng độ chính xác Kết quả của việc xoay điều chỉnh và tên phân đoạn có liên quan đến yếu tố kích thước của thành phần cấu trúc được

sử dụng trong quá trình giãn nở đến một mức độ nào đó

Cả hai yếu tố cấu trúc quá nhỏ và quá lớn sẽ dẫn đến việc nhận dạng nhầm lẫn Tuy nhiên, chúng tôi không có ý tưởng một cách rõ ràng để cho kết quả tốt nhất trong trường hợp liên quan đến kích thước của trường kí tự Trong phần tiếp theo, chúng ta sẽ thảo luận về khả năng cải tiến mà có thể được thực hiện trong các nghiên cứu để giảm những yếu kém và nâng cao hiệu suất tổng thể của

hệ thống chúng tôi

VII THẢO LUẬN VÀ CÔNG VIỆC TƯƠNG LAI:

Định dạng
Số trang	11
Dung lượng	766,59 KB