Миграция в облако для Американской компании №1 по исследованию рынка

Наш клиент – глобальная компания, занимающаяся измерениями и аналитикой данных, которая предоставляет наиболее полные и достоверные сведения о потребителях и рынках по всему миру.

Более 90 лет она предоставляет данные и аналитику, основанные на научной строгости и инновациях, постоянно разрабатывая новые способы ответа на самые важные вопросы, стоящие перед СМИ, рекламой, розничной торговлей и индустрией быстрорастущих потребительских товаров.

Компания работает более чем в 100 странах мира и занимает первое место среди ведущих компаний в области маркетинговых исследований в США.

Задача

Добиться успеха на современном рынке непросто. Инновации – вот где кроются прорывные возможности. Но инновационный подход невозможен без использования современных технологий.

Наши заказчики так же, как и мы, привержены инновациям. Для полноценной работы им необходимо быть на острие. Именно поэтому было принято решение о переходе от устаревших технологий к современной облачной инфраструктуре.

Цели

  • Миграция на Spark, который используется в самых разных организациях для обработки крупномасштабных данных. Он позволяет ускорить выполнение рабочих нагрузок, быстро писать приложения на Java, Scala, Python, R и SQL, сочетать SQL, потоковую обработку и сложную аналитику. Spark работает на Hadoop, Apache Mesos, Kubernetes, автономно или в облаке. Он может получать доступ к различным источникам данных.
  • Валидация бизнес-логики, что очень важно для бесперебойной работы. Публиковать данные на самом деле довольно просто и существует множество способов сделать это. А вот защита и организация данных – важный момент, который требует определенных размышлений. 
  • Проверка корректности данных. Точные данные – основа любой базы данных. Строгие, объективные и прозрачные процессы проверки жизненно важны для создания и поддержания высококачественных данных.
  • Повышение производительности в целом и сокращение времени обработки данных в частности, которые, кстати, говорят сами за себя.

Что сделано

Решение предполагает получение данных, подготовленных различными командами компании, из облачного хранилища (S3) и выполнение кода проекта для сообщения, консолидации и фильтрации данных с целью проведения дальнейших расчетов. Результаты выполнения кода записываются в файл, который может быть использован как для других проектов компании, так и для составления отчетов.

Решение включает в себя:

  • оркестровка всех заданий;
  • миграция на облачные сервисы AWS;
  • рефакторинг кода для обработки возросшего объема данных;
  • возможность обмена преобразованными данными с различными командами и использования их в рамках различных проектов компании.

Результаты

Проверка данных
(данные качественно и четко совпадают с ожидаемыми)

Каждое задание дает ожидаемый результат

Сокращение времени выполнения

Снижение затрат на техническое обслуживание

Улучшение способности к изменениям

Ценность

Благодаря решению, внедренному нашей компанией, пользователи получили возможность более эффективно управлять редакциями документов и соотносить их со всеми необходимыми нормативными справочниками. Это позволило нашему заказчику привлечь больше клиентов, что повысило рентабельность бизнеса.

Стек технологий