Из этого руководства вы узнаете как распознать текст на изображении с помощью трех строк Python кода.
Шаг 1. Установим оболочку для Tesseract-OCR Engine
pip install pytesseract
Шаг 2. Загрузим и установить Tesseract на Windows по следующей ссылке:
https://digi.bib.uni-mannheim.de/tesseract/
Поставим галочку для загрузки дополнительного языка, в нашем случае "Russian".
Шаг 3. Запустим код, и посмотрим результат. Для примера попробуем распознать текст с картинки ниже.
import pytesseract
config = r'--tessdata-dir "C:\Program Files\Tesseract-OCR\tessdata" -l rus --oem 1 --psm 3'
result = pytesseract.image_to_string('1.jpg', config=config)
print(result)
Вывод
Таким образом реализация намеченных
плановых заданий позволяет оценить
значение новых предложений.
Следующее изображение
Вывод
ДЕРЖИСЬ ПОДАЛЬШЕ ОТ СЕРВЕРНОЙ