История продукта «ОКО-Скан»: от идеи до создания уникального продукта по обработке документов в collection
ОКО-Скан – это наш продукт, созданный для классификации кредитных досье и извлечения данных из судебных и исполнительных документов. Он состоит из двух сервисов: «Классификация» и «Извлечение», реализованных на основе технологий машинного обучения и оптического распознавания текста.
Решение создать такой продукт мы приняли, когда увидели потребность рынка взыскания в автоматизации работы с судебными документами. Классификацией кредитных досье должников перед подачей в суд сотрудники компаний занимались вручную, извлечением данных из документов из суда и ФССП для дальнейшей работы - преимущественно тоже.
Как создавался ОКО-Скан, с какими трудностями пришлось столкнуться, какими были первые тесты и что получилось создать по итогу? Рассказываем в этой статье.
Зачаток идеи
Чтобы помочь компаниям избавиться от долгой и сложной ручной обработки документов, нужен был такой продукт, который был бы полезен на досудебной и судебной стадиях взыскания, и помогал бы заносить информацию из судебных документов в ERP-системы и collection-системы.
Мы выявили 2 ключевые бизнес-потребности клиентов — потребность в автоматизации процессов классификации кредитного досье и потребность в извлечении определенных атрибутов из судебных и исполнительных документов. Классификация и извлечение зачастую не связаны между собой, ведь обработка кредитного досье происходит на досудебной стадии, а извлечение нужно на судебной и исполнительной стадиях.
Однако мы увидели, что у клиентов есть потребности, затрагивающие как оба сервиса по отдельности, так и вместе. Поэтому было принято решение создать продукт, внутри которого два разных сервиса смогут работать и по отдельности, и вместе, образуя синергию.
Ход разработки продукта
Началась разработка продукта, и мы приступили к подбору нужных алгоритмов машинного обучения и настройке гиперпараметров. Последнее было нужно, чтобы подобрать максимально универсальные настройки под разные виды входящих документов досье с разным качеством.
Аналогичный процесс был при выборе, дообучении и использования алгоритмов распознавания фотографий и изображений нейронных сетей. О каких именно нейронных сетях идет речь? ОКО-Скан использует в работе три стадии распознавания текста: машинное распознавания текста, обработка естественного языка и сверточная нейронная сеть. К примеру, для сверточной нейросети мы одно время искали нужные параметры свертки, ядра и размера изображения.
В конце тестов мы остановились на использовании уникального алгоритма, который с одной стороны давал качество в 95-99% точного распознавания документов кредитного досье, а с другой стороны мог обучаться на новый тип документов в течении 1-2 дней.
В тестированиях нам помогала наша партнерская компания АСВ (Агентство судебного взыскания). Коллеги выступили своего рода песочницей, где мы проверяли гипотезы. По ходу дела вносилось много правок в продукт: как со стороны его функций, так и изменений самих алгоритмов классификации. Помимо «Агентства судебного взыскания», ряд близких ему компаний из сегментов МФО, МКК, ЖКХ предоставляли нам свои кредитные досье в разных формах, которые мы успешно обрабатывали нашим классификатором.
После проведения тестов и сбора обратной связи мы расширили обучающие и тестовые выборки судебных и исполнительных документов с 100 000 страниц до 1 млн. страниц разных судебных документов, с разным качеством этих документов и разным общим видом. Это дало рост качества отдельных атрибутов документов до 100%.
На протяжении всего пути мы руководствовались принципами продуктового подхода, и благодаря нему получилось быстро создать MVP на основании собранной обратной связи с рынка, и пытались внедрять его в процессы наших клиентов.
Ненужный функционал постепенно отсеивался, а нужный – создавался, и после проделанной работы пришло время выпускать продукт в свет. На нашем пути были и трудности, их было не избежать при создании такого сложного и масштабного продукта.
Трудности, с которыми пришлось столкнуться
Основные трудности возникали при выборе подходящих технологий и их эффективном взаимодействии. Мы протестировали около 5-7 различных алгоритмов и моделей машинного обучения, а также примерно 10 видов нейросетей, прежде чем добились коммерчески значимых результатов. Также было сложно определить конкретные бизнес-требования, так как у разных клиентов было множество разнообразных документов. Кроме того, сам продукт был достаточно сложным: некоторые его части были монолитными, а в других использовались микросервисы.
Однако все проблемы удалось преодолеть и на выходе получился сложный, но качественно работающий продукт с множественной каскадной архитектурой.
Итоги работы: как сейчас выглядит ОКО-Скан?
Мы продолжаем активно развивать ОКО-Скан, и последними большими обновлениями для него были улучшение интеграции по API, добавление обработки нескольких кредитных досье параллельно и считывания статистики по каждому заданию, а также теперь сервис принимает досье в виде архива, берет в классификацию и отдает результат в collection-систему. Ранее это было доступно только через SFTP.
Помимо этого, мы начали работу по классификации и подготовке документов для работы с электронной исполнительной надписью нотариуса. Процесс там такой же, как и при классификации досье для подачи в суд, но виды документов немного отличаются.
Также, мы продолжаем расширять пул документов, доступных для обработки и развиваем продукт в сторону гибкой настройки под запросы клиентов. А именно, мы уже дообучали программу под извлечение уникальных атрибутов, создавали возможности для создания индивидуальных названий файлов и перевода ФИО из падежа в документе в именительный падеж. И в скором времени планируется обучить сервис «Извлечение» для распознавания рукописного текста.
ОКО-Сканом можно воспользоваться уже сейчас – в личном кабинете Youristo.online, или по API и с помощью SFTP-сервера. И кейсы наших клиентов показывают, что финансовые затраты на обработку документов при использовании сервиса снижаются до 60%, а временные – до 80%.
- Как мы обрабатываем адреса для определения подсудности и отдела судебных приставов
- IT-технологии в Legal Collection: исследование уровня автоматизации процессов на судебной стадии взыскания
- Наш опыт применения AI-технологий для классификации документов для подачи в суд
- 3 решения, сделавшие наши it-продукты лучше в 2024 году
- Конференция НАПКА: Рассказали как автоматизированная обработка кредитного досье влияет на прибыль и риски
- История продукта «ОКО-Скан»: от идеи до создания уникального продукта по обработке документов в collection
- Продуктовый подход, Agile и Scrum в разработке Legal Tech решений. Наш опыт внедрения и обратная связь сотрудников