Технологии Retail Rocket

Команда разработчиков и аналитиков Retail Rocket стремится изменить мир ecommerce и сделать его по-настоящему персонализированным с момента написания первой строки кода в 2012 году.

Запросить демо

О Retail Rocket в цифрах:

Аналитический кластер более чем из 250 серверов в 6 различных дата центрах
Более 230 миллионов уникальных посетителей пользуются сайтами наших клиентов каждый месяц
Более 1 000 компаний подключено к Retail Rocket по всему миру
Более 450 000 внешних запросов в минуту обрабатывают наши сервера
Количество входящих запросов в секунду в пике: 15 000
В разработку инвестировано более 100 человеко-лет
Ни разу за 8 лет мы не потеряли данные клиентов

Data science-подход

Суть работы Retail Rocket – выявление потребностей посетителя магазина с помощью анализа поведения и товарной матрицы ритейлера. Для формирования персональных рекомендаций нам изначально обязательно был необходим математический фундамент, который бы легко масштабировался. Несколько подходов, используемых нами сегодня:

Контентная фильтрация (content filtering)
Байесовская статистика
Коллаборативная фильтрация (collaborative filtering)
Алгоритмы гибридной персонализации в режиме реального времени
Предсказательные модели (predictive analytics) на основе машинного обучения и цепей Маркова
и многие другие.

Деятельность в сообществе Data Science

Принимаем активное участие в жизни научного сообщества. Выступаем на значимых в индустрии конференциях, публикуем статьи и получаем награды в соревнованиях Data Science. Помимо этого, можно увидеть публикации наших разработчиков в специализированных интернет-изданиях.

Технологический стек

Аналитическая платформа

Для машинного обучения мы используем Spark на базе платформы Hadoop Yarn – это система кластерных вычислений, которая лучше всего подходит для наших текущих задач. Из родных компонентов Hadoop у нас работает Apache Kafka для доставки данных, библиотека распределенного Machine Learning Mahout и планировщик задач Oozie.

У команды Retail Rocket есть репозиторий на GitHub с множеством интересных проектов: движок для A/B-тестов на JavaScript, библиотека Spark MultiTool на Scala, скрипты для развертывания кластера Hadoop с помощью Puppet.

Apache Spark
Hadoop
Clickhouse
Scala
Kafka
Redis

Фронтенд

Почти все, что получает пользователь, обрабатывается в кластерах из linux серверов, код написан на C#, Asp.Net MVC. Все данные хранятся и раздаются в трех СУБД: Redis, MongoDB, PostgreSQL.

Когда нам надо обеспечить взаимодействие распределенных компонентов, к примеру, при вычислении сегмента пользователя по User-Agent для профилирования аудитории, используется Thrift. А для того, чтобы различные подсистемы могли получать поток данных от интернет-магазинов, применяется упомянутый выше транспорт Kafka.

.NET Core
C#
Kafka
AWS Lambda
PostgreSQL
Redis
NGINX
MongoDB

Процесс разработки

В разработке наша команда придерживается методологии непрерывной доставки новой функциональности клиентам (на сегодняшний день к нам подключено 2000+ магазинов).

Для этого мы применяем связку из Git + GitLab с прохождением юнит-тестов (по состоянию на начало 2021 года проведено более 3 000+ тестов), приемочных тестов и code review.

GitLab
YouTrack
Jenkins
JetBrains Rider
Visual Studio Code
Discord
Trello

Технологии Retail Rocket