Эффективность компьютерного анализа в криминалистике и правоохранительной деятельностиВ финансах и трейдинге «слепые пятна» стоят денег. Там, где вы не видите корреляцию, кто-то другой её уже арбитражит. В полицейской аналитике цена «слепого пятна» — не упущенная прибыль, а нераскрытое преступление или ложный приговор. Традиционная статистика преступности опирается на структурированные данные: дата, адрес, статья УК, пол фигуранта. Но за этими сухими строчками теряется контекст: кто кому угрожал, какие слова звучали, что предшествовало вызову. И этот контекст — тот самый неструктурированный текст — остаётся невостребованным просто потому, что его никто не умеет читать в больших объёмах.

Автор следующего текста — не полицейский и не прокурор. Он аналитик, который смотрит на ведомственные данные как на задачу машинного обучения. Объясняет, почему нейросети и NLP полезны не только для чат-ботов, но и для прогнозирования преступности, выявления «домашнего насилия в текстах протоколов» и соединения разрозненных баз данных разных ведомств. Материал предоставлен внешним автором, редакция за содержание не отвечает. Но для тех, кто интересуется, как big data меняет правоохранительную систему, — вполне.
Как это устроено?
Полицейские данные широко используются для различных целей, от расследований преступлений и прогнозирования настроений населения, до разработки политики общественной безопасности. Наборы данных обычно состоят из структурированных административных записей (дата, время, адрес, классификация преступления, половая принадлежность фигурантов и т.д.) и неструктурированных (т.е. текстовых) описаний, в которых приводятся контекстные и хронологические детали различных типов событий (например, ДТП, кража, грабёж, посягательство на жизнь, домашнее насилие и подобных).
Полицейское ведомство и другие силовые органы почти всех государств регулярно используют структурированные данные для составления национальной статистики преступности, для принятия эффективных решений на будущие периоды. Однако, такая статистика может неточно отражать истинную динамику и классификацию преступности в сообществах из-за предвзятости в отчётности, скрытых трансформаций в правоохранительной и отчётной политике, а также изменения численности приезжих (туристов или иммигрантов).
Тем не менее, на сегодняшний день использование структурированной информации остаётся наиболее распространённым подходом к аналитике, поскольку исключает необходимость дополнительного сбора данных, с последующей сложной их обработкой, при которой необходимо задействовать, по утверждению одного из тематических сайтов, дополнительные вычислительные мощности серверов дата-центров и специфических моделей искусственного интеллекта. Но при этом, неструктурированные нарративы остаются в значительной степени неиспользованными, несмотря на то, что предлагают богатые контекстные детали для глубокого анализа. Такое происходит из-за их огромного объёма, разрозненности, строгих протоколов доступа, конфиденциальности и отсутствия технологической экспертизы.
Кроме того, даже разработка структурированной полицейской информации обычно включает в себя специфические процедуры обработки или кодирования, которые часто не поддаются независимой проверке из-за ограниченного доступа круга допущенных к ней лиц. Чрезмерная зависимость от этих факторов уменьшает ширину охвата в контексте и снижает прозрачность в представлении более широкой картины, особенно когда возникают тонкие, специфические для конкретной темы расследований, вопросы. Ещё надо заметить, что случаи недооценки и недостаточной представленности порой происходят при рассмотрении случаев домашнего насилия или мелких правонарушений. Хотя такие моменты не являются исключительными и для сферы правосудия в целом.
Использование исключительно структурированных данных может привести к появлению «слепых пятен», когда важные закономерности или возникающие проблемы могут быть упущены, что способствует недооценке преступности и искажению доказательной базы, влияющей на юридические решения. Это подчёркивает открывающиеся возможности использования вычислительного анализа текста — набора методов, предназначенных для систематического и автоматического извлечения информации из неструктурированных данных, предлагающих мощный инструмент для выявления закономерностей, тем и сигналов, которые могли быть упущены.
Подобная интеллектуальная компьютерная обработка текстовых массивов включает в себя такие методы, как интеллектуальный анализ текста, обработка естественного языка (NLP), тематическое моделирование и машинное обучение. В комплексе они автоматизируют извлечение информации из повествовательных описаний и протоколов, без необходимости значительных ручных усилий. Эти методы уже широко применяются в различных областях, таких как юриспруденция, здравоохранение, информатика и бизнес.
Адаптивность методик компьютерного анализа текста предполагает, что автоматизированные подходы могут быть применены к более широкому спектру преступных действий или инцидентов (уголовные, экономические, имущественные преступления, в сфере незаконного оборота наркотиков или мошенничеством) с потенциально многообещающими результатами. Интересным моментом ещё является тот факт, что для нейросетей ИИ меньший набор данных с подробными описаниями может представлять даже большую аналитическую ценность, чем гораздо больший набор данных с краткой или скудной текстовой информацией.
Несмотря на то, что методы компьютерного анализа текста применяются в самых разных задачах (например, извлечение информации, идентификация, классификация, прогнозирование), они в значительной степени зависят от конкретных целей, алгоритмов и наборов данных. Однако нельзя утверждать, что одна модель превосходит другую, поскольку контекстуальные различия, включая страну, юрисдикцию, набор данных, язык, задачу и подход к моделированию, затрудняют прямую оценку пригодности их методов. С другой стороны, их использование в таких чувствительных областях, как правоохранительная деятельность, вызывает серьёзные опасения, связанные с безопасностью данных, непрозрачностью моделей и потенциальными нарушениями конфиденциальности. «Чёрный ящик» многих приложений, при котором внутренние процессы принятия решений в значительной степени непостижимы, может быть проблематичным, когда прозрачность и подотчётность имеют первостепенное значение. Объяснимый искусственный интеллект (XAI) может помочь смягчить эту проблему с помощью интерпретируемых моделей, которые могли бы объяснить, как те приходят к своим прогнозам, но для улучшения XAI по-прежнему необходимы надёжные метрики оценки, а также участие эксперта-человека.
Проактивное выявление инцидентов, связанных с психическим здоровьем, на основе полицейских отчётов является критически важным делом — сейчас сотрудники правоохранительных органов вручную анализируют и идентифицируют такие обращения. Трудоёмкий процесс ручного анализа занимает много времени и требует значительных усилий, которые могли бы быть направлены на более важные задачи полицейских на местах. Между тем, необходимость раннего выявления и вмешательства в случаях, связанных с психическим здоровьем, становится всё более актуальной. А уникальным и недостаточно используемым ресурсом в этом направлении является обширная информация, содержащаяся в более ранних полицейских записях. Эффективное их использование предоставляет возможность потенциально предотвратить повторение инцидентов, способствуя разработке альтернативных стратегий реагирования, нежели «разгребание последствий» уже произошедшего.
Хорошо поставленная аналитика, особенно при налаженном обмене информацией между разными подразделениями или ведомствами, может помочь не только определить, на какие преступные группы следует нацелиться, но и, в условиях нехватки ресурсов, отсортировать случаи с меньшим риском. Такой подход помогает предотвратить «слепые пятна» в установлении связей, когда информация, доступная в одной юрисдикции, недоступна в других. Нейросети также могут помочь в предотвращении дублирования усилий, когда несколько подразделений одновременно проводят расследование в отношении одного и того же лица или группы, зачастую мешая друг другу. Сейчас же, из-за подобной несогласованности, оперативные данные о преступной деятельности организаций или лиц могут храниться в нескольких разрозненных БД, куда доступ сотрудникам других ведомств ограничен/запрещён. Правильно выстроенные модели, анализируя полный корпус информации из всех БД, могут, ориентируясь на определённые маркеры и не раскрывая секретных сведений, упомянуть в какое ведомство следует обратиться за консультацией, прежде, чем действовать.
Текст как улика: почему полиции не хватает не только цифр, но и слов
В мире, где data science уже предсказывает отток клиентов в телекоме и отмену рейсов в авиации, полицейская аналитика часто живёт в прошлом веке. Огромные массивы протоколов, заявлений, свидетельских показаний — это не «бумажная волокита», это неструктурированные данные, которые хранят связи, мотивы и предвестники преступлений. Но их не анализируют, потому что читать терабайты текста вручную невозможно, а автоматизировать — нет ни бюджета, ни компетенций, ни, что важнее, доверия к алгоритмам.
Автор правильно подмечает парадокс: нейросети могут давать больше инсайтов на малом, но качественном тексте, чем на огромной таблице с галочками. Потому что в слове «угрожал» больше информации, чем в поле «статья 119 УК». И ещё он честно пишет про риски: «чёрный ящик» непрозрачных моделей в правоохранительной системе — это не баг, а потенциальный кошмар. Если ИИ ошибётся, объяснить, почему он так решил, никто не сможет. И тут на помощь приходит XAI (объяснимый ИИ), который не просто даёт ответ, а показывает, на каких словах или паттернах он основан. Но пока это скорее наука, чем практика.
Вывод для тех, кто проектирует системы для работы с большими данными в чувствительных сферах: не гонитесь за «самой умной» нейросетью. Прозрачность алгоритма для юриста или следователя важнее его теоретической точности. Если машина не может объяснить, почему заподозрила человека, она не заменит детектива, а только создаст новых проблем. И помните: даже самая совершенная модель — лишь инструмент. Решения всё равно принимают люди. А ответственность за ошибки — тоже.
МЕДИА ХИМИЯ, опубликовал запись .
С момента публикации зафиксировано 57 просмотров. Сейчас эту запись просматривает 1 незарегистрированный пользователь.
|
|