Распознование текста накладных (OCR)

Clarion, Clarion 7

Модератор: Дед Пахом

Правила форума
При написании вопроса или обсуждении проблемы, не забывайте указывать версию Clarion который Вы используете.
А так же пользуйтесь спец. тегами при вставке исходников!!!
Ответить
Аватара пользователя
finsoftrz
✯ Ветеран ✯
Сообщения: 5544
Зарегистрирован: 06 Ноябрь 2014, 12:48
Благодарил (а): 18 раз
Поблагодарили: 78 раз

Распознование текста накладных (OCR)

Сообщение finsoftrz »

Хотел поинтересоваться, кто-нибудь использует такое из Clarion?

Насколько я понял, есть распространенный опенсорсный проект tesseract, который позволяет вызовом из командной строки вытаскивать тексты из jpeg в текстовый файл. А затем этот текстовый файл можно уже обработать в своем приложении.
Есть еще разные бесплатные и платные сервисы, которые задействуют ИИ для обучения разбору разных вариантов полученного при распознавании текста.
C6/C12, ШВС, tps/btrieve.
Аватара пользователя
Игорь Столяров
Ветеран движения
Сообщения: 8246
Зарегистрирован: 07 Июль 2005, 10:19
Откуда: г. Ростов-на-ДоМу
Благодарил (а): 34 раза
Поблагодарили: 105 раз

Распознование текста накладных (OCR)

Сообщение Игорь Столяров »

ДД !

Если говорить конкретно о применении распознования текста в бизнесе и торговле, то там это направление
сейчас уже не востребовано. Нет задач. Документы, вроде накладных или УПД, передаются в пакетах открытых
форматов как ЭДО или XLSX 1С - откуда их значительно проще, надёжней и быстрее загрузить в БД.

А всякие там договора с подписями и печатями / паспорта и т.д. загружаются в БД как отсканированные
(а зачастую сфотографированные смарфоном) картинки. Вот и всё. Нечего и незачем рапозновать. 🤷‍♀️

Но если Вы ищите возможность натянуть Tesseract на софт - то конечно можно что-нибудь придумать. :D
За теми, кто отстал, не возвращаться ! 🏴‍☠️ Кодекс
Аватара пользователя
finsoftrz
✯ Ветеран ✯
Сообщения: 5544
Зарегистрирован: 06 Ноябрь 2014, 12:48
Благодарил (а): 18 раз
Поблагодарили: 78 раз

Распознование текста накладных (OCR)

Сообщение finsoftrz »

Не все так просто с накладными. У нас с начала года продуктовая торговая сеть перешла на ндс. Товары доставляются, в основном, напрямую в магазины, там же и вводятся оператором или управляющим, потом передаются в основную базу данных в центральном офисе. Поставщиков несколько сотен, магазинов около 30. Соответственно, много приходов каждый день.
Поставщиков, работающих через эдо, около половины. Это те, кого обязали с эдо, то есть, у кого маркированные товары. Остальные это примерно 75% плательщики ндс, 25% без ндс. Поскольку с ндс надо вести учет аккуратно, в магазинах поставили сканеры, сканируют первичку, а в центральном офисе 3 человека сидят на сверках. Все равно, ошибки вылезают.
По документам из эдо сделали загрузку в центральную базу данных (итоговые суммы и pdf файлы от оператора эдо), автоматическую сверку с данным по учету. Надо что-то решить с бумажными накладными. Загрузка из xls файлов у нас давно есть. Но это не решает вопрос автоматической сверки с первичкой и это имеет организационные трудности. Договориться со всеми поставщиками, чтобы присылали файлы по электронной почте на так просто, так как у каждого поставщика, кроме магазинов данной сети, еще множество других покупателей.
В 1С активно рекламируют автоматическое распознавание первички, у них эта фишка давно есть. Хотя на эдо будет со временем будет переходить все больше организаций, видимо, увеличение количества плательщиков с ндс снова увеличила рост запросов на такой функционал. А со следующего года ожидается новый всплеск.

Я вчера попробовал tesseract. Дистрибутив весит примерно 20 мб, в развернутом виде около 80 мб. Запускается с набором ключей из командной строки, на выходе получаем текстовый файл. Накладную, созданную в кларионовской программе после сохранения в pdf и конвертации в jpeg, распознал достаточно хорошо. Надо, конечно, затем этот текстовый файл обрабатывать, чтобы определить, что какой текст значит. Накладные от разных поставщиков могут отличаться. А реальный скан в магазинах сохраняют в pdf. После конвертации в jpeg (ocr напрямую не работает с pdf, нужна конвертация) распознать не получилось, плохое качество. Видимо, надо со сканера сразу сохранять в jpeg или png. Заодно и можно просматривать из кларионовской программы.
C6/C12, ШВС, tps/btrieve.
Аватара пользователя
Игорь Столяров
Ветеран движения
Сообщения: 8246
Зарегистрирован: 07 Июль 2005, 10:19
Откуда: г. Ростов-на-ДоМу
Благодарил (а): 34 раза
Поблагодарили: 105 раз

Распознование текста накладных (OCR)

Сообщение Игорь Столяров »

finsoftrz писал(а): 27 Октябрь 2025, 9:21 у них эта фишка давно есть.
Вот именно. Точнее она давно там появилась.
Лет 20-25 назад был бум систем OCR, даже я на работе такую покупал (ABBYY если не ошибаюсь).
Там фантазии были огромные. Выпускались потоковые сканеры для обработки пачек документов и т.д. :D

Всё сдохло. Абсолютно нет смысла. Если для ввода каких-то текстов точность распознования 98% - это хорошо,
то для документов с привязкой к БД - категорически неприемлемо. Всё приходилось перепроверять и оказалось
что намного проще и быстрей просто вручную вводить (если уж нельзя без этого). :D

Системы OCR имеют право на жизнь. Например для первичной сортировки корреспонденции, где ошибки не критичны.
Но не для ввода товарно-списочных и финансовых документов ...

Помните, что где-то там же, пытались вводить печать большого квадратного штрих-кода (не QR !) для ввода платёжек в банке ?
Именно по той же причине - OCR системы не давали гарантии точного ввода. Нолик пропустили и писец ! :D
За теми, кто отстал, не возвращаться ! 🏴‍☠️ Кодекс
Аватара пользователя
finsoftrz
✯ Ветеран ✯
Сообщения: 5544
Зарегистрирован: 06 Ноябрь 2014, 12:48
Благодарил (а): 18 раз
Поблагодарили: 78 раз

Распознование текста накладных (OCR)

Сообщение finsoftrz »

Если погуглить, то вполне себе народ рекламирует и сейчас. Подцепили OCR к ИИ, говорят, что неплохо получается.
А как Вы предлагаете сверять накладные с первичкой? Не держать же целый отдел бухгалтеров, который за эти следит. А многие так и делают. В магазинах накладные вводят не бухгалтера, за ними присмотр нужен, могут косячить.
C6/C12, ШВС, tps/btrieve.
Аватара пользователя
Игорь Столяров
Ветеран движения
Сообщения: 8246
Зарегистрирован: 07 Июль 2005, 10:19
Откуда: г. Ростов-на-ДоМу
Благодарил (а): 34 раза
Поблагодарили: 105 раз

Распознование текста накладных (OCR)

Сообщение Игорь Столяров »

finsoftrz писал(а): 27 Октябрь 2025, 12:00 Если погуглить, то вполне себе народ рекламирует и сейчас
У нас если форум погуглить - то тоже много чего рекламируют. :idied:
Вопрос в том, что из этого реально используют. Пробуйте ! :D
За теми, кто отстал, не возвращаться ! 🏴‍☠️ Кодекс
Аватара пользователя
finsoftrz
✯ Ветеран ✯
Сообщения: 5544
Зарегистрирован: 06 Ноябрь 2014, 12:48
Благодарил (а): 18 раз
Поблагодарили: 78 раз

Распознование текста накладных (OCR)

Сообщение finsoftrz »

То есть, Вы за то, чтобы набрать отдел бухгалтеров для контроля за ндс? :D
C6/C12, ШВС, tps/btrieve.
Аватара пользователя
Игорь Столяров
Ветеран движения
Сообщения: 8246
Зарегистрирован: 07 Июль 2005, 10:19
Откуда: г. Ростов-на-ДоМу
Благодарил (а): 34 раза
Поблагодарили: 105 раз

Распознование текста накладных (OCR)

Сообщение Игорь Столяров »

Неть ! Я за пути решения вопроса приносящие результат, а не проблемы ! :D
Тисеракт - это хорошо, но нужно идти к людям и внедрять средства электронного документооборота.
Что в общем-то сейчас и происходит ...
За теми, кто отстал, не возвращаться ! 🏴‍☠️ Кодекс
Ответить