Trong dự án này chúng tôi sẽ giải quyết vấn đề này bằng việc cung cấp một hệ thống tự động hiển thị hình ảnh của các món khi nó được truy vấn tên.. Zhang đã nghiên cứu các thuật toán để
Trang 1Restaurant Menu Expert Quá Trình Xử lí Pipeline Ảnh Kĩ Thuật Số Để Làm Tăng Độ Chính
Xác Của Thuật Toán OCR GVHD: TS CHẾ VIẾT NHẬT ANH
SVTH: 1 Nguyễn Văn Đông – 41200800
2 Nguyễn Viết Sĩ -41203133
3 Lầu Lưu Đường – 41200814
4 Nguyễn Phúc Nhật Huy – 41201373
5 Nguyễn Hữu Đông – 41200797
I GIỚI THIỆU:
Một trong những thách thức lớn nhất khi đi du lịch là
rào cản ngôn ngữ Nó là một vấn đề lớn khi ta đặt món ăn
tại nhà hàng Bởi vì sự độc đáo về tên các món ăn, họ
thường có ý nghĩ riêng biệt về tên của từng món ăn Nó
thường khó tưởng tượng Bởi nếu chỉ đọc bằng văn bản
trên thực đơn Mặc dù nhiều người có thể hiểu một cách
cơ bản về tên của món ăn Nhưng những món ăn có thể
khác so với những gì họ nghĩ do sự khác biệt về văn hóa
Trong trường hợp đó trình bày tên món ăn bằng hình ảnh
thay vì tên của món ăn có thể giúp ích cho mọi người để đưa ra những quyết định hợp lí cho những gì họ mong muốn đặt món ăn ở nhà hàng
Lấy cảm hứng về ý tưởng có thể giúp mọi người vượt qua rào cản này Trong dự án này chúng tôi sẽ giải quyết vấn đề này bằng việc cung cấp một hệ thống tự động hiển thị hình ảnh của các món khi nó được truy vấn tên Với ứng dụng này người ta đơn giản là đặt một thực đơn trước camera để máy ảnh chụp hình ảnh của thực đơn chương trình xử lí nhận dạng kí tự trong thực đơn và xuất trình
Trang 2hình ảnh của các món ăn trên mặt bên của tên món ăn để
giúp người sử dụng có thể hiểu hơn về món ăn mà họ
quan tâm
II CÔNG VIỆC LIÊN QUAN:
Có rất nhiều vấn đề liên quan đến chủ đề này, điều đã
cho chúng ta một cái nhìn sâu sắc tuyệt vời và cảm hứng
khi định hình ý tưởng của chúng tôi A Heng mô tả một
ứng dụng iPhone mà được thiết kế để nhanh chóng và dễ
dàng tách ra một hóa đơn nhà hàng giữa một nhóm người
trong tạp chí của ông ứng dụng sử dụng các thiết bị
Tesseract OCR để đọc ký tự từ hóa đơn, sau đó thực hiện
xử lý văn bản để xác định các mục trên biên lai Ứng dụng
này hiệu quả trong việc giảm thời gian tính ra một người
phải trả bao nhiêu trong một nhóm Dựa vào việc quan sát
thì có thể nhận thấy rằng hóa đơn giấy là không thể thay
thế và không dễ dàng để biến đổi nó thành định dạng điện
tử mặc dù tồn tại nhiều hệ thông thánh toán điện tử tiên
tiến C N Nshuti đã thảo luận trong tờ tạp chí của ông ấy
cách để nhận ra cách số hóa tờ hóa đơn và phát triển một
đường ống để biểu diễn OCR từ ảnh của một tập tài liệu
được chụp từ điện thoại Vì vậy, có rất nhiều ứng dụng
hướng đến việc nhận diện ký tự nước ngoài Dựa trên
những vấn đề này mà tồn tại nhiều OCR gần như không
làm việc tốt trên một số ngôn ngữ như Trung Quốc và
Nhật Bản Zhang đã nghiên cứu các thuật toán để nhận ra
rằng chức năng SIFT và phương pháp RSNSSAC rất
mạnh và hiệu quả để nhận diện chứ Trung Quốc, và sau
đó ứng dụng nó vào thực đon của nhà hàng Trung Quốc
và sáng tạo ra một ứng dụng di động mới dịch hình ảnh của các mục trong thực đơn nhà hàng người Trung Quốc trở thành những hình ảnh món ăn trong thực tế Kết quả
là thí nghiệm của họ rất được hưởng ứng: phương pháp này có thể thực thi nhanh chóng những kí tự Trung Quốc
và tìm được món ăn khớp với hình ảnh trong vòng 5 đến 6 giây với độ tin cậy lên tới 91% với hình ảnh rõ và nét Nghiên cứu của chúng tôi tập trung vào việc phát triển các phương pháp khác nhau đẻ tăng độ tin cậy cho thuật toán OCR, và sau đó xây dựng một hệ thống dịch thực đơn tiếng anh tốt và tức thời cho người không nói tiếng Anh Chúng tôi xây dựng một cở sở dữ liệu cho một hệ thống định sẵn những món ăn thường được thấy trên thế giới Hệ thống thì chống nhiễu tốt, kể cả xoay và có nhiều phông chữ khác nhau Chúng tôi thực hiện một vài công nghệ được học trong lớp, bao gồm ngưỡng giãn nở, ăn mòn, phân khúc và kết hợp,… Tiếp cận kỹ thuật đường ống (pipeline) được mô tả trong phần 3 Chúng tôi quan tâm đến hiệu ứng của những công nghệ xử lý khác nhau Như là, chúng tôi thực hiện việc so sánh những kết quả được mô tả trong phần 4 Trong phần 5, chúng ta thảo luận một phân khúc và toàn bộ việc thực hiện hệ thống nhận dạng thực đơn của chúng tôi nằm trong khả năng cho kết quả khả quan với những thông số hệ thông, Trong chương 6, chúng tô so sánh hệ thống của chúng tôi với nhũng phần khác trong những phần liên quan và thảo luận
về ưu và nhược điểm của hệ thống Trong chương 7 chúng
Trang 3tôi đúc kết được những kinh nghiệm có giá trị với dự án
này và nhận thấy một viễn cảnh đến công việc trong tương
lại
III PHƯƠNG PHÁP TIẾP CẬN VỀ MẶT KỸ
THUẬT:
Ứng dụng đường ống có 6 thủ tục chính: nhận vào
hình ảnh của menu, thực hiện tiền xử lý hình ảnh nhận vào
và quá trình này bao gồm hai phần: với xoay và phân khúc
chuỗi, thực hiện nhận dạng ký tự quang học (OCR) trên
nội dung của menu, khớp chuỗi với cơ sở dữ liệu, và cuối
cùng là hiển thị kết quả
A Hình ảnh ngõ vào
Giai đoạn nhận dữ liệu vào khá đơn giản: người dùng
chụp một bức ảnh của menu bằng máy ảnh, sau đó chúng
ta đưa ra một giao diện để người dùng có thể tùy chỉnh
vùng hình ảnh mà người dùng quan tâm (ROI) để tìm ra
hình ảnh của món ăn trên menu
Những bức ảnh được chụp tự nhiên có sự đa dạng lớn, dẫn đến khó khăn trong việc nhận dạng các ký tự Ví dụ, các ký tự trong những hình ảnh khác nhau có thể có kích thước, màu sắc, phông chữ và góc chụp khác nhau Có nhiều hiệu ứng có thể xảy ra như hiệu ứng mờ hoặc ảnh được chụp ngoài khoảng lấy nét của máy ảnh Đây là một vấn đề thách thức chúng ta, nhưng chúng ta sẽ giả sử rằng người chụp ảnh có thể kiểm soát được chất lượng hình ảnh khi chụp, do đó chúng ta sẽ không cần tập trung vào những nhược điểm nói trên
B Không có tính năng xoay:
Sau khi người dùng xác định được vùng ROI, chúng ta
sẽ tự động tìm góc quay dựa trên cấu trúc vốn có của menu, hầu hết văn bản đều được sắp xếp theo chiều ngang Để làm được như vậy, đầu tiên chúng ta áp dụng ngưỡng Otsu toàn bộ và cho giãn nở một hình tròn nhỏ đường kính 5 pixel Các chữ sau khi giãn sẽ tạo thành các thành phần kết nối giữa các đối tượng và như vậy chúng ta
có thể dễ dàng xác định được các thành phần được kết nối
và tìm ra khu vực hình chữ nhật nhỏ nhất chứa các thành phần được kết nối đó Với những vùng bao chứa các thành phần kết nối với nhau này, chúng ta sẽ tính tỷ lệ giữa chiều rộng và chiều cao của các vùng bao này tại mỗi 100 bắt đầu từ -900 đến 900, với sự tinh chỉnh mỗi 10 để xác định góc quay Từ các thiết lập này của phép quay, chúng
Trang 4ta sẽ tự động tìm ra tỷ lệ lớn nhất, và điều đó cũng chỉ ra
vùng bao lớn nhất tại góc quay đó Chúng ta sẽ giới hạn
góc quay từ -900 đến 900, theo như chúng ta đã giả sử rằng
người dùng sẽ sử dụng đường ống phát hiện menu trong
khoảng này
C Phân khúc tên món ăn
Để tạo điều kiện và cải thiện độ chính xác từ thiết bị
trong việc nhận diện từ theo sau, chúng tôi tái tổ chức lại
hình ảnh bởi phạm vi nhận diện cho mỗi tên món ăn trong
ROI và phân khúc ra tên món ăn và thông qua thiết bị
OCR
Đáp ứng cho mục đích của chúng tôi, chúng tôi đã giữ
toàn bộ tên món ăn ở trong một phạm vi đường bao, như
vậy sau đường ống OCP có thể sử dụng thông tin như vậy
Để làm như vậy, chúng tôi đã tạo thành phần kết nối bởi
những món ăn được kéo dãn với một cấu trúc đường kẻ
ngang trên ảnh được mã hóa nhị phân Otsu Với cấu trúc
như vậy, tất cả những đoạn chữ trong một đường kẻ sẽ
thành một thành phần kết nối đơn và vì vậy thành một
đường bao
Để cho phép những biến đổi nhỏ trong đoạn văn và
nhiễu, chúng tôi đã xác nhận ngưỡng trên đường bao bên
ngoài hệ số tỷ lệ và khu vực và kết hợp gần những đường
bao với nhau để tạo thành một đường bao Ngưỡng này và
công nghệ hợp nhất thì giống như là sự bổ sung cơ bản của việc nhận thấy Canny Edge, nơi không thể nén cực đại
và canh liên kết thì được ứng dụng để giảm nhiễu
D Nhận diện kí tự quang học
Sau khi chúng tôi nhận phân khúc văn bản của tên món
ăn vào một đường bao, chúng tôi chọn việc thực hiện MATLAB thuật toán Tesseract, một nguồn mở của thiết bị OCR ban đầu phát triển là phòng thí nghiệm HP và được quản lý bởi Google, trong dự án của chúng tôi để thực hiện nhận diện ký tự Nguồn gốc cơ bản của Tesseract OCR là như sau: Đầu tiên, ký tự bên ngoài thì được trích
và được tập hợp lại cùng nhau thông qua Blobs bởi việc thực hiện kết nối phân tích thành phần Sau đường văn bản, đường được thực hiện bởi Bobs, là tách ra thành những từ riêng rẽ phụ thuộc vào khoảng cách giữa mỗi ký
tự Giai đoạn sau đó là nhận biết thông qua nhận diện ký
tự, việc này được thực hiện thông qua 2 giai đoạn Trong mỗi từ đầu tiên là nhân biết theo hướng Một lần là một từ được nhận biết, điều đó có thể được chứa vào một loại tương thích và được sử dụng như là một dữ liệu đào tạo Trong giai đoạn 2 từ không được nhận diện thành công thì được nhận diện lại bởi dữ liệu đào tạo được lấy từ phần đầu tiên Cuối cùng, một chuỗi từ sẽ được xuất ra
E Tên món ăn phù hợp với cơ sở dữ liệu
Trang 5Tên món ăn phù hợp được trả về sau khi OCR trả về
kết quả dạng chuỗi ở giai đoạn này, chúng ta có thể mong
đợi một số lỗi chính tả đến từ các kết quả OCR, và chúng
ta phải sửa chữa chúng để tìm được cái tên phù hợp với cơ
sở dữ liệu hình ảnh của chúng ta Ở đây, chúng tôi sử
dụng các thuật toán tìm kiếm chỉnh sữa khoảng cách tối
thiểu Với số một lượng kí tự không phù hợp chấp nhận
được, hệ thống của chúng tôi có thể sữa chữa kết quả từ
máy OCR, thứ mà làm tăng tỉ lệ thành công chung của tra
cứu hình ảnh Nhưng mức độ phức tạp lại cao đối với việc
tim kiếm chỉnh sữa khoảng cách tối thiểu mới là vấn đề
chính mà chúng ta phải đối phó với nó Các phân tích liên
quan và sự cải thiện sẽ được trình bày trong phần IV
F Hiển thị kết quả cuối cùng
Sau khi có được hình ảnh trong cơ sở dữ liệu, chúng
tôi thay đổi kích thước hình ảnh món ăn theo vị trí của
bounding box cùng chiều rộng/chiều cao của nó Và dán
chúng vào vị trí quan sát trên thực đơn ảnh ROI Đối với
những chuỗi OCR không phù hợp với bất kì tên món ăn
nào, sẽ không có hình ảnh nào được dán Điều này có thể
làm giảm cơ hội hiển thị hình ảnh không hợp lí do lỗi
OCR không thể đoán trước được dữ liệu đầu vào của thực
đơn
IV TỔNG KẾT:
Trong phần này, chúng tôi sẽ trình bày kết quả thực nghiệm của chúng tôi về hệ thống đường dẫn và thảo luận
về những điểm mạnh và cải tiến có thể để cải thiện hiệu suất
A kết quả của toàn bộ đường dẫn
Ảnh trên cho chúng ta thấy kết quả từng bước trong đườg dẫn của chúng tôi, từng bước điều chỉnh các yếu tố đầu vào của công nghệ OCR và sửa các lỗi từ kết quả OCR để hiển thị các hình ảnh cuối cùng bên cạnh tên món
ăn
B Nếu không có xoay điều chỉnh và có xoay điều chỉnh
Chúng tôi so sánh kết quả giữa việc OCR theo phân đoạn ở trên với góc quay ban đầu mà không có sự điều
chỉnh xoay được đề xuất
Trang 6Từ hình trên , chúng ta thấy rằng hệ thống sẽ nhanh
hơn khi điều chỉnh góc xoay so với không điều chỉnh góc
xoay Lúc đầu , chúng tôi dự kiến độ chính xác nên góc
xoay nằm trong khoảng +/- 20 độ với một độ giảm ổn định
chính xác và một độ tăng chính xác Tuy nhiên , đây
không phải là một trường hợp duy nhất mà lý do chính là
do sự sụt giảm độ phân giải của hình ảnh khi chúng tôi
tiến hành chỉnh góc xoay Ở góc độ nào đó , góc xoay là
một hoạt động ngẫu nhiên nên do đó công nghệ OCR tiếp
theo sẽ không chính xác như đã nói
C Đi qua hình ảnh đầy đủ và hình ảnh được phân tách
OCR
Chúng tôi so sánh kết quả giữa đi qua hình ảnh đầy đủ đến OCR và hình ảnh được phân tách vào OCR và xem kết quả chính xác
Từ hình ảnh trên , ta thấy việc đi qua hình ảnh phân tách tốt hơn so với hình ảnh đầy đủ ngoại trừ với phần cà phê Việc giảm độ chính xác đối với thực đơn là cà phê
có thể được điều chỉnh ở thiết lập OCR trên Matlab , được tìm thấy ở đầu trang khi tìm google : “ thuật toán Tesseract” Khi chương trình chạy thuật toán Tesseract thì hình ảnh sẽ được truy vấn 2 lần , lần đầu để chương trình phân loại và ghi nhớ hình ảnh và lần thứ 2 sẽ truy vấn hình ảnh đó từ cơ sở dữ liệu ban đầu và thông tin hình ảnh từ tất cả các từ được tìm thấy trong vòng chạy đầu
Trang 7tiên bằng cách phân chia tên của các món ăn , chúng ta đã
mất lợi ích như thế khi sử dụng cơ cấu phân loại khác
Tuy nhiên , chúng tôi đã chỉ ra rằng trong những trường
hợp khác , việc bỏ qua chạy chương trình lần đầu của
phân loại có thể tăng độ chính xác của OCR
D Thực hiện OCR sử dụng kĩ thuật khoảng cách tối
thiểu
Sau khi sử dụng OCR cho một số hộp hình ảnh , kết
quả ghi nhận chứa một số lỗi do hình ảnh bị mờ , nhiễu ,
ước tính sai … Để tối đa hóa tỉ lệ thành công phù hợp với
cơ sở dữ liệu hình ảnh chúng tôi thực hiện OCR sử dụng
kĩ thuật khoảng cách tối thiểu
Để sửa lỗi , chúng tôi tìm những món ăn phù hợp nhất
để đặt tên và sắp xếp dự trên khoảng cách Levenshtein cho tên mỗi món ăn xác định bởi OCR chúng tôi thực hiện phép toán với các thông số chỉnh sửa tối đa khoảng cách, hay gọi là khoảng cách cắt Như thể hiện ở trong hình trên , tỷ lệ thành công của một lần chạy chương trình chính xác thấp hơn 50% Nhưng với việc chỉnh sửa khoảng cách tỷ lệ thành công tăng lên 80% và cuối cùng bão hòa là 90%
E Thời gian thực hiện
Từ những con số dưới đây, chúng ta có thể thấy tổng thời gian thực hiện của hệ thống một cách tổng thể Phân đoạn tốn thời gian nhất trong hệ thống là chỉnh OCR Phần còn lại của quá trình chỉ chiếm ít hơn 15% tổng thời gian thực hiện Để nâng cao hơn nữa hiệu suất thời gian cho thời gian thực hiện mục đích , chúng tôi đã đưa ra một
số phương pháp nâng cao để tiết kiệm thời gian thực hiện
của việc chỉnh OCR
Phương pháp đầu tiên là để sửa đổi các thay đổi khoảng cách nhỏ chức năng, hơn là tạo ra đệ quy để so sánh của mỗi nkí tự, chúng ta lặp qua những so sánh kí tự cho đến khi gặp trường hợp không phù hợp, sau đó chia thành 3 tiến trình đệ quy (xóa,chèn, thay thế) Điều này làm giảm sự phức tạp đáng kể như tiết kiệm được phóng đại bởi độ dài của danh sách tên món ăn trong cơ sở dữ liệu, số lượng các chuỗi công nhận từ OCR, và thậm chí
độ dài trung bình của các tên món ăn
Trang 8Khái niệm cải tiến thứ 2 đến từ hệ thống lượt xem
Một khi chúng ta tìm thấy một tên trên danh sách tên món
ăn là hoàn toàn phù hợp với các chuỗi phù hợp từ OCR,
sau đó chúng ta có thể dừng lại đi qua phần còn lại của
danh sách tên món ăn Nhìn chung, chiến lược này không
thể hưởng lợi nhiều nhất trong các trường hợp đặc biệt,
nhưng nó giúp rất nhiều các trường hợp thông thường và
làm cho tổng thời gian thực hiện ngắn
V ĐÁNH GIÁ THÔNG SỐ CỦA HỆ THỐNG:
Trong phần này, chúng ta sẽ cùng thảo luận về tác
động cục bộ và toàn cục của một số thông số của hệ thống
lên hệ thống nhận dạng menu Cụ thể, chúng ta sẽ cùng
thảo luận về tác động của việc lựa chọn các kích thước
khác nhau của các cấu trúc thành phần trong quá trình xoay điều chỉnh và ở phân khúc tên món ăn
A Thay đổi kích thước khi xoay điều chỉnh
Đối với việc xoay điều chỉnh, đầu tiên ta thực hiện giãn nỡ hình ảnh để kết nối các kí tự lại với nhau theo dạng kí tự trong khi vẫn giữ được đường viền chung của các kí tự Trong quá trình xử lí, chúng ta muốn tìm kiếm góc xoay lớn nhất, có nghĩa là tỉ lệ trênđường bao của hộp trên mỗi phần tử kết nối Như những thành phần kết nối là văn bản tiếng anh được liên kết theo chiều ngang Do đó,
ta sẽ sử dụng một disk có đường kính 5 pixels để thực hiến nhiệm vụ đó Để kiểm tra độ nhạy kích thước của các cấu trúc thành phần, chúng ta cần vượt qua được góc xoay
100 và phân tích những ảnh hưởng khác nhau của kích thước các cấu trúc thành phần
Trang 9Ở hình phía trên, chúng ta có thêt thấy không có bất kì
sự giãn nở nào, góc xoay nhận dạng có lẽ là không đáng
kể từ góc xoay thực tế, đó là bởi vì hiện tại có rất nhiều kí
tự được xem như một thành phần được kết nối; do đó, giả
sử rằng đó là tỉ lệ lớn nhất khi xoay hình ảnh quay trở lại
hóc quay thực tế là không có nhiều giá trị
Chúng ta cũng có thể nhìn thấy rằng khi đường kính
của cấu trúc thiệt bị là quá lớn ( trong trường hợp này là
25 pixels) thì góc xoay nhận diện là không chính xác Đó
là bởi vì tất cả các từ trong menu và đường biên của menu
được nhóm lại thành một thành phần kết nối duy nhất và
do đó tỉ lệ này không thêt đại diện cho một bounding box
xung quanh một từ tiếng anh đơn lẻ, và do đó giả sử của
chúng ta cũng không thành công trong trường hợp này
B Thay đổi đường kính cấu trúc cho phân khúc tên
Giống như xoay điều chỉnh, phân khúc tên món ăn
cũng phụ thuốc rất nhiều vào kích thước của cấu trúc các
thành phần Trong trường hợp này, chúng ta chọn các
thành phần có cấu trúc hàng ngang để nhóm tất cả các từ ở
tên món ăn đến một thành phần kết nối duy nhất Chungs
tôi đã thử nghiệm trên những dòng có độ rộng khác nhau
và thu được kết quả như hình bên dưới:
Ở hình trên, chúng ta thấy rằng chúng chỉ có thể đạt được 100% độ chính xác khi nhận diện chính xác bounding box xung quanh tên của món ăn cho những thành phần cấu trúc có độ dài nằm giữa 31 và 51 pixels Lí
do chính dẫn đến độ chính xác thấp ở những thành phần
có chiều dài thấp hơn là vì vượt quá phân khúc tương ứng, những kí tự đặc biệt từ món ăn duy nhất là không giống như bounding box Mặt khác, khi hàng của cấu trúc thành phần là quá dài, sau đó thì các đối tượng sẽ giãn ra làm che mất đường biên, làm cho đường biên và một văn bản giản ra được kết nối với các thành phần khác, kết quả là bouding box không còn chính xác nữa
VI SO SÁNH VỚI PHƯƠNG PHÁP THAY THẾ:
Trang 10Nó có thể được nhìn thấy từ các kết quả của thí
nghiệm mà những project pipelined của chúng tôi có thể là
một lợi thế so với những cách triển khai khác Quan trọng
nhất là nó cho thấy tính khả thi của mình, với khả năng
chống lại nhiễu, xoay, fonts chữ khác nhau hay nhiều tác
động khác Bằng cách áp dụng Tesseract OCR và thực
hiện một vài kĩ thuật xử lí trước và sau quá trình xử lí, bao
gồm hành động xoay bình thường, các phân khúc văn bản
và chỉnh sửa tối thiểu khoảng cách văn bản một cách
chính xác OCR là một cách nhận diện một cách chính xác
kí tự nhanh hơn những phương pháp như SIFT bởi vì kí tự
có rất nhiều đặc tính Chúng tôi phát triển các đặc tính
xoay thông thường và các phân khúc văn bản và sử dụng
chúng trước khi nhận dạng kí tự trong project của mình
Project của chúng tôi đã chứng minh được rằng có thể cải
thiện tính năng nhận diện toàn cục một cách hiệu quả
Hơn nữa, cách nhận diện truyền thống thiếu sự linh hoạt
trong việc kết hợp cac kí tự riêng lẻ Chúng tôi thực hiện
việc này bằng cách sử dụng thuật toán để chỉnh sửa
khoảng cách tối thiểu để thực hiện điều chỉnh Sauk hi
thiết lập dung sai tối đa các chỉnh sửa với khoảng cách là
9, tỷ lệ có thể đạt được trên 90% ROI không chỉ cho phép
người dùng lựa chọn các món ăn mà họ đang quan tâm,
sau đó người dùng sẽ nhận được bản dịch tương ứng với
nội dung mà họ mong muốn thay vì bản dịch của toàn bộ
menu, mà theo đó làm tăng trải nghiệm người dùng,
nhưng cũng làm giảm không gian tìm kiếm và nhiễu, do
đó dẫn đến kết quả tốt hơn
Tuy nhiên, nó vẫn có một số khía cạnh cần phải được cải thiện Một thách thức lớn nhất là làm thế nào để giảm bớt thời gian chạy Chúng ta biết từ kết quả cho thấy phần lớn thời gian tiêu thụ ở phần OCR là chính xác Chúng ta cần phải nhanh hơn trong việc kết hợp tên món
ăn với hình ảnh tương ứng trong cơ sở dữ liệu để đáp ứng thời gian thực yêu cầu thực hiện Điều này đặc biệt đúng khi hệ thống phát triển và có một cơ sở dữ liệu khổng lồ Một vấn đề khác là làm thế nào để tăng độ chính xác Kết quả của việc xoay điều chỉnh và tên phân đoạn có liên quan đến yếu tố kích thước của thành phần cấu trúc được
sử dụng trong quá trình giãn nở đến một mức độ nào đó
Cả hai yếu tố cấu trúc quá nhỏ và quá lớn sẽ dẫn đến việc nhận dạng nhầm lẫn Tuy nhiên, chúng tôi không có ý tưởng một cách rõ ràng để cho kết quả tốt nhất trong trường hợp liên quan đến kích thước của trường kí tự Trong phần tiếp theo, chúng ta sẽ thảo luận về khả năng cải tiến mà có thể được thực hiện trong các nghiên cứu để giảm những yếu kém và nâng cao hiệu suất tổng thể của
hệ thống chúng tôi
VII THẢO LUẬN VÀ CÔNG VIỆC TƯƠNG LAI: