История продукта «ОКО-Скан»: от идеи до создания уникального продукта по обработке документов в collection

28
Дата публикации: 23 сентября 2024

ОКО-Скан – это наш продукт, созданный для классификации кредитных досье и извлечения данных из судебных и исполнительных документов. Он состоит из двух сервисов: «Классификация» и «Извлечение», реализованных на основе технологий машинного обучения и оптического распознавания текста.

Решение создать такой продукт мы приняли, когда увидели потребность рынка взыскания в автоматизации работы с судебными документами. Классификацией кредитных досье должников перед подачей в суд сотрудники компаний занимались вручную, извлечением данных из документов из суда и ФССП для дальнейшей работы - преимущественно тоже.  

Как создавался ОКО-Скан, с какими трудностями пришлось столкнуться, какими были первые тесты и что получилось создать по итогу? Рассказываем в этой статье.

Зачаток идеи

Чтобы помочь компаниям избавиться от долгой и сложной ручной обработки документов, нужен был такой продукт, который был бы полезен на досудебной и судебной стадиях взыскания, и помогал бы заносить информацию из судебных документов в ERP-системы и collection-системы.

Мы выявили 2 ключевые бизнес-потребности клиентов — потребность в автоматизации процессов классификации кредитного досье и потребность в извлечении определенных атрибутов из судебных и исполнительных документов. Классификация и извлечение зачастую не связаны между собой, ведь обработка кредитного досье происходит на досудебной стадии, а извлечение нужно на судебной и исполнительной стадиях.

Однако мы увидели, что у клиентов есть потребности, затрагивающие как оба сервиса по отдельности, так и вместе. Поэтому было принято решение создать продукт, внутри которого два разных сервиса смогут работать и по отдельности, и вместе, образуя синергию.

Ход разработки продукта

Началась разработка продукта, и мы приступили к подбору нужных алгоритмов машинного обучения и настройке гиперпараметров. Последнее было нужно, чтобы подобрать максимально универсальные настройки под разные виды входящих документов досье с разным качеством.

Аналогичный процесс был при выборе, дообучении и использования алгоритмов распознавания фотографий и изображений нейронных сетей. О каких именно нейронных сетях идет речь? ОКО-Скан использует в работе три стадии распознавания текста: машинное распознавания текста, обработка естественного языка и сверточная нейронная сеть. К примеру, для сверточной нейросети мы одно время искали нужные параметры свертки, ядра и размера изображения.

В конце тестов мы остановились на использовании уникального алгоритма, который с одной стороны давал качество в 95-99% точного распознавания документов кредитного досье, а с другой стороны мог обучаться на новый тип документов в течении 1-2 дней.

В тестированиях нам помогала наша партнерская компания АСВ (Агентство судебного взыскания). Коллеги выступили своего рода песочницей, где мы проверяли гипотезы. По ходу дела вносилось много правок в продукт: как со стороны его функций, так и изменений самих алгоритмов классификации. Помимо «Агентства судебного взыскания», ряд близких ему компаний из сегментов МФО, МКК, ЖКХ предоставляли нам свои кредитные досье в разных формах, которые мы успешно обрабатывали нашим классификатором.  

После проведения тестов и сбора обратной связи мы расширили обучающие и тестовые выборки судебных и исполнительных документов с 100 000 страниц до 1 млн. страниц разных судебных документов, с разным качеством этих документов и разным общим видом. Это дало рост качества отдельных атрибутов документов до 100%.

На протяжении всего пути мы руководствовались принципами продуктового подхода, и благодаря нему получилось быстро создать MVP на основании собранной обратной связи с рынка, и пытались внедрять его в процессы наших клиентов.

Ненужный функционал постепенно отсеивался, а нужный – создавался, и после проделанной работы пришло время выпускать продукт в свет. На нашем пути были и трудности, их было не избежать при создании такого сложного и масштабного продукта.

Трудности, с которыми пришлось столкнуться

Основные трудности возникали при выборе подходящих технологий и их эффективном взаимодействии. Мы протестировали около 5-7 различных алгоритмов и моделей машинного обучения, а также примерно 10 видов нейросетей, прежде чем добились коммерчески значимых результатов. Также было сложно определить конкретные бизнес-требования, так как у разных клиентов было множество разнообразных документов. Кроме того, сам продукт был достаточно сложным: некоторые его части были монолитными, а в других использовались микросервисы.

Однако все проблемы удалось преодолеть и на выходе получился сложный, но качественно работающий продукт с множественной каскадной архитектурой.

Итоги работы: как сейчас выглядит ОКО-Скан?

Мы продолжаем активно развивать ОКО-Скан, и последними большими обновлениями для него были улучшение интеграции по API, добавление обработки нескольких кредитных досье параллельно и считывания статистики по каждому заданию, а также теперь сервис принимает досье в виде архива, берет в классификацию и отдает результат в collection-систему. Ранее это было доступно только через SFTP.

Помимо этого, мы начали работу по классификации и подготовке документов для работы с электронной исполнительной надписью нотариуса. Процесс там такой же, как и при классификации досье для подачи в суд, но виды документов немного отличаются.

Также, мы продолжаем расширять пул документов, доступных для обработки и развиваем продукт в сторону гибкой настройки под запросы клиентов. А именно, мы уже дообучали программу под извлечение уникальных атрибутов, создавали возможности для создания индивидуальных названий файлов и перевода ФИО из падежа в документе в именительный падеж. И в скором времени планируется обучить сервис «Извлечение» для распознавания рукописного текста.

ОКО-Сканом можно воспользоваться уже сейчас – в личном кабинете Youristo.online, или по API и с помощью SFTP-сервера. И кейсы наших клиентов показывают, что финансовые затраты на обработку документов при использовании сервиса снижаются до 60%, а временные – до 80%.

Похожие статьи и новости