Разработать ML-пайплайн для автоматизированной сортировки и разметки шаблонных документов по охране труда
Основные шаги:
1. Преобразование списка шаблонов в формат для обучения и разметки
- Приведение списка шаблонов к единому формату
- Автоматизация конвертации.
2. Интеграция существующей онтологии
- Подключение онтологии для разметки.
- Проверка маппинга онтологии на шаблоны.
- Доработка механизма разметки (при необходимости).
3. Классификация документов
- Разработка модели классификации (акт, приказ, инструкция и т. д.).
- Классификация по видам деятельности (образование, медицина и т. д.).
- Обучение моделей и тестирование.
4. NER-модель для извлечения переменных
- Название компании, должность, дата, ответственные лица и др.
- Интеграция NER-модели (spaCy, Transformers).
5. Связь документов с нормативными актами
- Разработка API-интерфейса для связи с законодательной базой.
- Возможность загрузки своих документов в векторное представление.
6. Связь с юридическими штрафами
- Подключение базы данных юридических штрафов.
- Разработка алгоритма связи.
Выходной продукт:
1. Получает ввод от пользователя (описание деятельности).
2. Предлагает список необходимых документов.
3. Показывает массив полей для заполнения.
4. Настроенная инфраструктура для обучения и рекомендации.
5. Инструмент разметки документов и размеченные документы (разметка своими специалистами - для теста 100 шаблонов).
6. Инструмент Haystack или LangChain работа с юридическими документами.