Пробная версия системы для видеоконференций с камерами 360 градусов | Разработка цифровых решений для крупного бизнеса | Cronit

Пробная версия системы для видеоконференций с камерами 360 градусов

Заказчик предоставляет комплексные решения для кодирования, записи, управления, публикации и распространения видеоконтента. Его решения для потоковой передачи видео обеспечивают работу широкого спектра приложений, отвечающих требованиям клиентов.

По мере роста интереса к тематике виртуальной реальности стали появляться решения, позволяющие записывать и транслировать видео в формате 360 градусов. Однако, помимо развлечений, этот формат имеет потенциал для использования в бизнес-решениях. Так, у заказчика возникла идея применить формат 360 градусов для проведения интерактивных видеоконференций.

Задача

Основная идея заключается в том, чтобы участников можно было произвольно размещать в комнате для видеоконференции. Таким образом, отпадает необходимость в построении сложных схем из нескольких камер и дополнительного оборудования для размещения всех участников. Это значительно повысит удобство использования всего решения.

Помимо конкретной 360-градусной камеры, нашему заказчику было необходимо реализовать компонент, позволяющий пользователю определять положение выступающего в прямом эфире. Это необходимо для того, чтобы участники на другой стороне могли видеть человека, который говорит в данный момент.

Ключевые особенности

Решение

Для реализации компонента обнаружения говорящего, наряду с 360-градусной видеокамерой, мы решили использовать специальный микрофон, позволяющий записывать пространственное аудио в формате «Амбисоникс» (Ambisonics).

Затем нам необходимо было исследовать и разработать программное решение (алгоритм) для обработки пространственного аудиопотока в формате «Амбисоникс» (Ambisonics), позволяющее обнаружить и вычислить вектор направления на наиболее интенсивный источник звука. Для этого мы использовали алгоритмы быстрого преобразования Фурье, свертки, автоматической регулировки усиления, передаточные функции с учетом положения головы, а также ряд алгоритмов обработки сигналов из программной библиотеки открытого исходного кода «Опен-Си-Ви» (OpenCV). Основная идея данного подхода заключалась в построении карты звукового поля в полярных координатах. Далее, используя алгоритмы цифровой обработки изображений (Threshold, Erode, Dilate, определение контуров), анализируются и вычисляются координаты (вектор направления) самого громкого источника звука.

Ключевые особенности

Приложение позволяет пользователю:

Анализ аудиопотоков

анализировать «Амбисоникс» (Ambisonics) аудио из различных источников (звуковая карта, аудиофайл, поток данных по протоколу Эйч-Эл-Эс (HLS))

Генерация метаданных

создавать метаданных, содержащие сведения о направлении в видеопотоке H.264 с помощью программного обеспечения медиасервера «Вауза» (Wowza WMS)

Детекция векторов

Обнаружение и вычисление векторов в режиме реального времени.

Визуализация звукового поля

Создание отладочной информации и визуализация 360-градусной карты уровней звукового поля.

Набор технологий

  • Передаточные функции с учетом физиологии головы «Эйч-Ар-Ти-Эф» (HRTF)
  • FFT — Алгоритм быстрого преобразования Фурье (FFT)
  • Математическая операция свертки (Convolution)
  • Система автоматической регулировки усиления «Эй Джи Си» (AGC)