Корпоративный блог

Проект «Безопасный город»: возможности и «больные» вопросы видеоанализа


Дата публикации: 11.03.2010 19:44

Как вы считаете, насколько российские технологии в целом и область машинного зрения в частности готовы к работе в нелабораторных условиях? Применимы ли технологии в их текущем виде к задачам, стоящим перед обеспечением безопасности на уровне города?

Антон Конушин: На ведущих научных конференциях по компьютерному зрению и анализу изображений российские ученые представлены крайне слабо, публикации можно пересчитать буквально по пальцам. Это заставляет задуматься об уровне алгоритмов, предлагаемых отечественными компаниями, так как большинство современных эффективных алгоритмов анализа изображений и видео было предложено все-таки в академической среде.

Такие задачи, как поиск оставленных предметов, детектор остановки объекта, движение в запрещенном направлении, можно решить на основе широко известных и предложенных 10 лет назад алгоритмов вычитания фона (например, на основе моделирования цвета в каждом пикселе с помощью смеси нормальных распределений). Поэтому российские технологии, скорее всего, вполне пригодны для решения подобных задач.

Трекинг перекрывающихся людей на оживленной сцене, детекторы событий, распознавание людей по одежде – эти задачи активно исследуются сейчас в зарубежных университетах, но пока далеки от решения. Опубликованные алгоритмы еще недостаточно надежны и зачастую требуют сложной настройки для того, чтобы применяться в реальных городских условиях.

На практике предлагаемые сегодня алгоритмы работоспособны при сравнительно сильных ограничениях на технические параметры входного видео (уровень шума, разрешение камеры и т. д.) и характеристики движения. Это позволяет демонстрировать впечатляющие результаты на отдельных примерах, но приводит к проблемам при попытках использования алгоритмов в реальных условиях.

Николай Птицын: Оценить готовность коммерческой видеоаналитики для работы в боевых условиях удобней всего при помощи таблицы. Сопоставим три категории сцен (низкая, средняя и высокая плотность подвижных целей) c тремя актуальными сценариями «ролями» видеоаналитики (во-первых, запись событий, во-вторых, оперативная тревога при подозрительной траектории/скорости и, в-третьих, оперативная тревога при оставленном предмете).

Таблица. Готовность коммерческой видеоаналитики для работы в боевых условиях

Плотность подвижных объектов Низкая Средняя Высокая
Примеры контролируемых сцен Стерильная зона стратегического объекта, государственная граница, нефтепровод, садовый участок Подъезд жилого дома, автозаправочная станция, офисная парковка, коттеджный поселок Метро, аэровокзал, железнодорожный вокзал, торговый центр, футбольный стадион
Запись событий для последующего 
поиска (индексирование видеоархива)
Сегодня Сегодня Сегодня
Формирование оперативной тревоги при подозрительной траектории 
или скорости
Сегодня Сегодня 1 год
Формирование оперативной тревоги 
при оставленном предмете
Сегодня 2 года 3 года

Детекторы бега, остановки и проникновения в запрещенную зону могут быть задействованы в первом и втором сценарии, но требования по точности к ним разные. Сценарий «оперативная тревога» более критичен к количеству ложных срабатываний детектора. Общей основой детекторов этих двух сценариев является трекер неразделяемых целей, то есть алгоритм сопровождения (трассирования) цельных объектов в поле зрения камеры.

Отличие третьего сценария заключается в том, что распознавание оставленных предметов предполагает существенно более сложный трекер, который работает с разделяемыми целями (Split Target Tracking).

Алгоритмическая сложность распознавания целей возрастает слева направо от ненасыщенной до оживленной сцены и снизу вверх от роли записи событий до роли оперативного распознавания. Как показано в таблице, адекватные детекторы для работы в стерильной зоне доступны практически для всех перечисленных ролей уже сегодня. С другой стороны, наиболее сложным алгоритмом машинного зрения является детектор оставленных предметов на оживленных сценах. По нашем оценкам, коммерческие технологии для решения этой задачи появятся не раньше, чем через 3 года.

Что вы можете сказать о методиках детектирования движения (трекинга) и оставленных предметов? Существуют ли какие-то стандарты либо общепринятые определения?

Антон Конушин: Одной из причин бурного развития алгоритмов компьютерного зрения в последнее время стало как раз повышенное внимание, уделяемое оценке и сравнению качества существующих алгоритмов. Общим правилом в области компьютерного зрения стало проведение специальных семинаров, посвященных сравнению последних разработок в той или иной области. Для этого организаторами заранее готовится и выкладывается в Интернете часть тестовой базы, на которой авторы могут опробовать свои алгоритмы и системы. Затем результаты реализации алгоритмов высылаются организаторам, которые проводят тестирование на закрытой части базы. Результаты данного сравнения становятся де-факто стандартной оценкой качества. В области видеонаблюдения регулярно проводится семинар PETS – Performance Evaluation of Tracking and Surveillance. В 2007 г. темой семинара было сравнение методов поиска оставленных предметов, обнаружение случаев кражи багажа и т. д. Семинар 2009 г. посвящен анализу групп людей – подсчет количества людей в группе, обнаружение событий типа «бег», «формирование толпы» и т. д. Российские ученые, участвовавшие в этих семинарах, нам неизвестны.

Судя по результатам сравнений, существующие алгоритмы могут успешно решать эти задачи, но не во всех случаях.

Николай Птицын: Основные алгоритмические приемы для решения задач сопровождения (трекинга) в поточном видео известны довольно давно: статистическое моделирование цели и фона, многомасштабный анализ, пространственно-временная корреляция, оптический поток, скрытая марковская модель, динамическое программирование и др. Считаю, что все задачи, рассматриваемые в нашей дискуссии, рано или поздно будут решены при помощи известных алгоритмов. Другими словами, основные проблемы – не концептуальные, а инженерные (оптимизация быстродействия, распределение вычислений и выбор правильной архитектуры).

С точки зрения классификации (распознавания) поведения (например, бега, остановки, запретного движения) достаточно использовать простые правила и условия, да и нет необходимости в более сложных методах искусственного интеллекта, таких как нейронные сети, машина опорных векторов, нечеткая логика. Скажем, для распознавания бега достаточно установить пороговое значение на среднюю скорость и пройденный путь.

Что касается измерения точности и общепринятых стандартов, наиболее полные материалы, включая видео, экспертную разметку и методологию тестирования, готовятся организаторами ежегодной конференции PETS (Performance Evaluation of Tracking and Surveillance) и группой i-LIDS (Imagery Library for Intelligent Detection Systems) в составе научного подразделения британского МВД.

Что лучше, по вашему мнению: работать на PC-видеосервере (x86) (при этом видеосервер занимается всем спектром задач — от компрессии до отображения) или осуществлять видеоанализ на отдельном устройстве?

Антон Конушин: Стандартного разрешения недостаточно для анализа и распознавания людей в видео, поэтому все шире используются камеры высокого разрешения. Поток данных с такой камеры с высокой частотой кадров может легко заполнить даже гигабитный сетевой без сжатия, а сжатый сигнал анализировать существенно сложнее. Кроме того, хороший канал связи затрудняет монтаж камеры.

Беспроводная связь (WiFi, WiMAX) слишком ненадежна, обладает низкой устойчивой пропускной способностью, что тоже затрудняет передачу видео высокого разрешения. Поэтому тенденция заключается в повышении уровня интеллектуальности камеры – увеличение мощности встроенных процессоров и т. д. Сейчас их мощности хватает лишь на компрессирование и простейшие алгоритмы обработки, но в перспективе даже сложные современные алгоритмы видеообработки могут быть реализованы на встроенном компьютере.

То есть мой ответ на ваш вопрос – да, осуществлять анализ на отдельном устройстве однозначно перспективнее (в дальнейшем подобные системы покажут лучший результат, чем те, которые будут пытаться анализировать сжатый поток), хотя сейчас подобные реализации и сложнее из-за сравнительной слабости современной аппаратной базы.

Николай Птицын: Массовая видеоаналитика для «Безопасного города» обязательно будет встраиваться в периферийные устройства, такие как камеры и энкодеры, потому что эта архитектура обеспечивает более высокую точность распознавания и лучшую масштабируемость системы, чем серверная архитектура. Качественный трекинг объектов на сервере при использовании мегапиксельных камер с оптикой дальнего действия или большого охвата практически невозможен на сервере. С другой стороны, аналитика многокамерного сопровождения будет задействовать ресурсы камеры и сервера одновременно, то есть будет реализована архитектура распределенных вычислений.

Насколько далека теория от текущей реализации, о чем можно будет говорить завтра в плане детектирования и классификации объектов?

Антон Конушин: Компьютерное зрение зависит от алгоритмов распознавания образов (Pattern Recognition) на основе машинного обучения. Настоящий прорыв в компьютерном зрении в конце 1990-х гг. был вызван как раз появлением новых мощных алгоритмов, таких как усиление слабых классификаторов (Boosting), машина опорных векторов (Support Vector Machine) и рандомизированный решающий лес (Random Forest).

На основе усиления слабого классификатора был разработан метод поиска лиц Violo-Jones, называемый по именам авторов, являющийся де-факто стандартом, решающий задачу настолько хорошо, что все последующие методы превосходят его лишь незначи тельно. Простота и эффективность данного метода позволили встраивать его даже в бытовые фотокамеры и сотовые телефоны.

Причем от опубликования метода до появления его в реальных коммерческих продуктах прошло всего несколько лет.

Задачи распознавания поведения людей, особенно в большой группе, детектирования переносимых предметов и т. д. оказались сложнее в виду большей внутриклассовой изменчивости по сравнению с лицами. Но новые алгоритмы тоже появляются очень быстро благодаря прогрессу в развитии графических моделей анализа образов, таких как марковские случайные поля (Markov Random Field) и быстрые алгоритмы решения задач на них (например, на основе разрезов графов).