Пробная версия системы для видеоконференций с камерами 360 градусов
Заказчик предоставляет комплексные решения для кодирования, записи, управления, публикации и распространения видеоконтента. Его решения для потоковой передачи видео обеспечивают работу широкого спектра приложений, отвечающих требованиям клиентов.
По мере роста интереса к тематике виртуальной реальности стали появляться решения, позволяющие записывать и транслировать видео в формате 360 градусов. Однако, помимо развлечений, этот формат имеет потенциал для использования в бизнес-решениях. Так, у заказчика возникла идея применить формат 360 градусов для проведения интерактивных видеоконференций.
Задача
Основная идея заключается в том, чтобы участников можно было произвольно размещать в комнате для видеоконференции. Таким образом, отпадает необходимость в построении сложных схем из нескольких камер и дополнительного оборудования для размещения всех участников. Это значительно повысит удобство использования всего решения.
Помимо конкретной 360-градусной камеры, нашему заказчику было необходимо реализовать компонент, позволяющий пользователю определять положение выступающего в прямом эфире. Это необходимо для того, чтобы участники на другой стороне могли видеть человека, который говорит в данный момент.
Ключевые особенности
Решение
Для реализации компонента обнаружения говорящего, наряду с 360-градусной видеокамерой, мы решили использовать специальный микрофон, позволяющий записывать пространственное аудио в формате «Амбисоникс» (Ambisonics).
Затем нам необходимо было исследовать и разработать программное решение (алгоритм) для обработки пространственного аудиопотока в формате «Амбисоникс» (Ambisonics), позволяющее обнаружить и вычислить вектор направления на наиболее интенсивный источник звука. Для этого мы использовали алгоритмы быстрого преобразования Фурье, свертки, автоматической регулировки усиления, передаточные функции с учетом положения головы, а также ряд алгоритмов обработки сигналов из программной библиотеки открытого исходного кода «Опен-Си-Ви» (OpenCV). Основная идея данного подхода заключалась в построении карты звукового поля в полярных координатах. Далее, используя алгоритмы цифровой обработки изображений (Threshold, Erode, Dilate, определение контуров), анализируются и вычисляются координаты (вектор направления) самого громкого источника звука.
Ключевые особенности
Приложение позволяет пользователю:
Анализ аудиопотоков
анализировать «Амбисоникс» (Ambisonics) аудио из различных источников (звуковая карта, аудиофайл, поток данных по протоколу Эйч-Эл-Эс (HLS))
создавать метаданных, содержащие сведения о направлении в видеопотоке H.264 с помощью программного обеспечения медиасервера «Вауза» (Wowza WMS)
Обнаружение и вычисление векторов в режиме реального времени.
Создание отладочной информации и визуализация 360-градусной карты уровней звукового поля.
Набор технологий
- Передаточные функции с учетом физиологии головы «Эйч-Ар-Ти-Эф» (HRTF)
- FFT — Алгоритм быстрого преобразования Фурье (FFT)
- Математическая операция свертки (Convolution)
- Система автоматической регулировки усиления «Эй Джи Си» (AGC)