История успеха KXEN

Sears

KXEN Case Study, апрель 2005 г.

Sears увеличивает продуктивность предсказательного анализа

Пол Библер (Paul Bibler) и Дуг Брайан (Doug Bryan)

Как и многим современным компаниям розничной торговли, Sears приходится сталкиваться с жесткой конкуренцией и увеличивающимся темпом появления новаций. Чтобы противостоять этим проблемам, компании необходимо снизить затраты и одновременно увеличить продуктивность и маневренность в бизнесе. Удачным примером является каталожный бизнес компании Sears. Построенный три года назад на базе мейнфреймов программно-аппаратный комплекс для предсказательного анализа, который они использовали для моделирования сегментов потребителей и целевой рассылки, сложно взаимодействовала с другими базами данных, была очень трудоемка и для поддержки требовала специальных IT-ресурсов. Система была слишком дорогой и негибкой. Команде специалистов необходимо было найти другой способ увеличения продуктивности и динамичности при наименьших затратах, т.е. классический пример, как сделать больше вкладывая меньше.

Они достигли этого путем выполнения следующих трех этапов: (1) создали свою витрину данных в корпоративном хранилище данных Teradata, (2) используя KXEN, автоматизировали большинство наиболее трудоемких этапов анализа и (3) с помощью KXEN автоматизировали создание кодов моделей так, чтобы модели могли использоваться в хранилище данных.

Первым этапом было построение витрины данных, которая объединяет данные из различных источников в Sears (со складов, оперативные данные, каталог), брэнды Sears (Sears, Orchard Supply Hardware, Lands’ End, и т.д.), данные по кредитам, демографические данные и данные из внешних источников, таких как оверлеи заказов по почте. Витрина данных включает в себя более 900 параметров и встроена в корпоративное хранилище данных Teradata. Использование центрального хранилища предоставило команде, работающей над каталогом, высоко-масштабируемую обработку данных и среду хранилища при одновременном снижении эксплуатационных расходов.

 20 готовых моделей были перенесены из мейнфреймов в течение 4-х человеко-месяцев.

Эффективно используя свое хранилище данных и применяя новые аналитические технологии KXEN, Sears сделала многое, вкладывая малое.

Вторым этапом стала автоматизация некоторых наиболее высоко трудоемких и повторяющихся этапов в процессе предсказательного анализа посредством внедрения Теории Минимизации структурного риска KXEN для подготовки данных, проверки значений параметров, преобразования номинальных переменных и отбора параметров без потери точности или достоверности модели.

На третьем этапе KXEN использовался для автоматического создания кодов моделей, необходимых для применения моделей на данных хранилища. Чтобы применить предсказательную модель к миллионам клиентов, вычисления по модели должны происходить вместе с вычислениями данных о клиентах. Однако, время расчета очень мало по сравнению со временем, необходимым для перемещения данных из одной системы в другую. При вычислениях внутри хранилища данных отпадает необходимость перемещать данные, что экономит значительное количество времени.

Новая аналитическая среда набора каталогов Sears показана на приведенном рисунке. На нем также показан типовой процесс анализа. Аналитики подготавливают данные в витрине данных. Подготовка может включать выбор отдельных сегментов потребителей, потребителей определенных линий продуктов или сезонных покупателей. Далее небольшая выборка данных, называемая тренировочными данными, копируется на сервер аналитиков, и начинается построение модели. Эти данные находятся на сервере непродолжительное время и никогда там не сохраняются; это минимизирует эксплуатационные расходы данного сервера.

Затем KXEN создает выполняемый код модели в SQL и он загружается в хранилище. Последним этапом является выполнение в хранилище вычислений по данным для миллионов клиентов для выбора из них наиболее подходящих кандидатов для частичной рассылки, а итоговый список для рассылки отсылается на принтер.
Такая система позволила Sears строить больше моделей и увеличивать их качество при одновременном сокращении времени внедрения и затрат.

  • Как только система была установлена, 20 готовых моделей были перенесены с мейнфреймов за 4 человека-месяца, что позволило экономить сотни тысяч долларов в год.
  • Теперь компания строит точные и достоверные модели в течение всего нескольких часов и обрабатывает 75 миллионов записей о клиентах всего за 30 минут. В старой среде построение модели занимало недели, а расчеты по ней требовали несколько часов напряженной работы CPU.
  • Автоматизация позволила аналитикам использовать рабочее время более рационально. Теперь они стоят более сложные модели, чем могли раньше с помощью традиционных инструментов статистического анализа.

Благодаря полной интеграции Хранилища данных Sears и аналитических возможностей KXEN значительно улучшились значимость, качество и скорость моделирования. Увеличение аналитических возможностей также привело к неожиданному эффекту: бизнес-партнеры, аналитики и мерчандайзеры начали задавать больше вопросов типа «Что, если…», потому что теперь стало возможным очень быстро получать на них ответы.

Что, если мы уберем этот кредитный параметр? Что, если мы добавим эти сезонные данные? Ответы на подобные вопросы теперь занимают всего 10 минут. Используя совместно свое хранилище данных и новые аналитические технологии KXEN, Sears достигает многого, вкладывая меньше.

Об авторах: Пол Библер – консультант по бизнес-решениям компании Sears. До этого работал в области предсказательного анализа в Spiegel и Information Resources Inc.
Дуг Брайан – технический директор KXEN. Ранее работал в области развития технологий в Amazon.com, SPSS, Accenture Technology Labs и в Стэнфордском Университете.