Хотел поинтересоваться, кто-нибудь использует такое из Clarion?
Насколько я понял, есть распространенный опенсорсный проект tesseract, который позволяет вызовом из командной строки вытаскивать тексты из jpeg в текстовый файл. А затем этот текстовый файл можно уже обработать в своем приложении.
Есть еще разные бесплатные и платные сервисы, которые задействуют ИИ для обучения разбору разных вариантов полученного при распознавании текста.
Распознование текста накладных (OCR)
Модератор: Дед Пахом
Правила форума
При написании вопроса или обсуждении проблемы, не забывайте указывать версию Clarion который Вы используете.
А так же пользуйтесь спец. тегами при вставке исходников!!!
При написании вопроса или обсуждении проблемы, не забывайте указывать версию Clarion который Вы используете.
А так же пользуйтесь спец. тегами при вставке исходников!!!
- Игорь Столяров
- Ветеран движения
- Сообщения: 8243
- Зарегистрирован: 07 Июль 2005, 10:19
- Откуда: г. Ростов-на-ДоМу
- Благодарил (а): 34 раза
- Поблагодарили: 105 раз
Распознование текста накладных (OCR)
ДД !
Если говорить конкретно о применении распознования текста в бизнесе и торговле, то там это направление
сейчас уже не востребовано. Нет задач. Документы, вроде накладных или УПД, передаются в пакетах открытых
форматов как ЭДО или XLSX 1С - откуда их значительно проще, надёжней и быстрее загрузить в БД.
А всякие там договора с подписями и печатями / паспорта и т.д. загружаются в БД как отсканированные
(а зачастую сфотографированные смарфоном) картинки. Вот и всё. Нечего и незачем рапозновать.
Но если Вы ищите возможность натянуть Tesseract на софт - то конечно можно что-нибудь придумать.
Если говорить конкретно о применении распознования текста в бизнесе и торговле, то там это направление
сейчас уже не востребовано. Нет задач. Документы, вроде накладных или УПД, передаются в пакетах открытых
форматов как ЭДО или XLSX 1С - откуда их значительно проще, надёжней и быстрее загрузить в БД.
А всякие там договора с подписями и печатями / паспорта и т.д. загружаются в БД как отсканированные
(а зачастую сфотографированные смарфоном) картинки. Вот и всё. Нечего и незачем рапозновать.
Но если Вы ищите возможность натянуть Tesseract на софт - то конечно можно что-нибудь придумать.
За теми, кто отстал, не возвращаться !
Кодекс
- finsoftrz
- ✯ Ветеран ✯
- Сообщения: 5542
- Зарегистрирован: 06 Ноябрь 2014, 12:48
- Благодарил (а): 18 раз
- Поблагодарили: 78 раз
Распознование текста накладных (OCR)
Не все так просто с накладными. У нас с начала года продуктовая торговая сеть перешла на ндс. Товары доставляются, в основном, напрямую в магазины, там же и вводятся оператором или управляющим, потом передаются в основную базу данных в центральном офисе. Поставщиков несколько сотен, магазинов около 30. Соответственно, много приходов каждый день.
Поставщиков, работающих через эдо, около половины. Это те, кого обязали с эдо, то есть, у кого маркированные товары. Остальные это примерно 75% плательщики ндс, 25% без ндс. Поскольку с ндс надо вести учет аккуратно, в магазинах поставили сканеры, сканируют первичку, а в центральном офисе 3 человека сидят на сверках. Все равно, ошибки вылезают.
По документам из эдо сделали загрузку в центральную базу данных (итоговые суммы и pdf файлы от оператора эдо), автоматическую сверку с данным по учету. Надо что-то решить с бумажными накладными. Загрузка из xls файлов у нас давно есть. Но это не решает вопрос автоматической сверки с первичкой и это имеет организационные трудности. Договориться со всеми поставщиками, чтобы присылали файлы по электронной почте на так просто, так как у каждого поставщика, кроме магазинов данной сети, еще множество других покупателей.
В 1С активно рекламируют автоматическое распознавание первички, у них эта фишка давно есть. Хотя на эдо будет со временем будет переходить все больше организаций, видимо, увеличение количества плательщиков с ндс снова увеличила рост запросов на такой функционал. А со следующего года ожидается новый всплеск.
Я вчера попробовал tesseract. Дистрибутив весит примерно 20 мб, в развернутом виде около 80 мб. Запускается с набором ключей из командной строки, на выходе получаем текстовый файл. Накладную, созданную в кларионовской программе после сохранения в pdf и конвертации в jpeg, распознал достаточно хорошо. Надо, конечно, затем этот текстовый файл обрабатывать, чтобы определить, что какой текст значит. Накладные от разных поставщиков могут отличаться. А реальный скан в магазинах сохраняют в pdf. После конвертации в jpeg (ocr напрямую не работает с pdf, нужна конвертация) распознать не получилось, плохое качество. Видимо, надо со сканера сразу сохранять в jpeg или png. Заодно и можно просматривать из кларионовской программы.
Поставщиков, работающих через эдо, около половины. Это те, кого обязали с эдо, то есть, у кого маркированные товары. Остальные это примерно 75% плательщики ндс, 25% без ндс. Поскольку с ндс надо вести учет аккуратно, в магазинах поставили сканеры, сканируют первичку, а в центральном офисе 3 человека сидят на сверках. Все равно, ошибки вылезают.
По документам из эдо сделали загрузку в центральную базу данных (итоговые суммы и pdf файлы от оператора эдо), автоматическую сверку с данным по учету. Надо что-то решить с бумажными накладными. Загрузка из xls файлов у нас давно есть. Но это не решает вопрос автоматической сверки с первичкой и это имеет организационные трудности. Договориться со всеми поставщиками, чтобы присылали файлы по электронной почте на так просто, так как у каждого поставщика, кроме магазинов данной сети, еще множество других покупателей.
В 1С активно рекламируют автоматическое распознавание первички, у них эта фишка давно есть. Хотя на эдо будет со временем будет переходить все больше организаций, видимо, увеличение количества плательщиков с ндс снова увеличила рост запросов на такой функционал. А со следующего года ожидается новый всплеск.
Я вчера попробовал tesseract. Дистрибутив весит примерно 20 мб, в развернутом виде около 80 мб. Запускается с набором ключей из командной строки, на выходе получаем текстовый файл. Накладную, созданную в кларионовской программе после сохранения в pdf и конвертации в jpeg, распознал достаточно хорошо. Надо, конечно, затем этот текстовый файл обрабатывать, чтобы определить, что какой текст значит. Накладные от разных поставщиков могут отличаться. А реальный скан в магазинах сохраняют в pdf. После конвертации в jpeg (ocr напрямую не работает с pdf, нужна конвертация) распознать не получилось, плохое качество. Видимо, надо со сканера сразу сохранять в jpeg или png. Заодно и можно просматривать из кларионовской программы.
C6/C12, ШВС, tps/btrieve.
