BIG DATA. Вся технология в одной книге - Андреас Вайгенд Страница 16
BIG DATA. Вся технология в одной книге - Андреас Вайгенд читать онлайн бесплатно
Ознакомительный фрагмент
Информационная грамотность подразумевает понимание того, что допущения – свойственная описаниям неопределенность – это неотъемлемый элемент прогноза, а для инструкций обязательно нужна обратная связь. Стоит ли инфообработчикам помещать вас в какой-либо маркетинговый сегмент на основе истории ваших поисковых запросов в Google? Можно ли объективно судить о кандидате на должность исключительно на основе анализа данных о его контактах в LinkedIn? Насколько обоснованными будут индивидуальные рекомендации по физическим нагрузкам, в основу которых положен анализ информации из Facebook о посещении этим человеком ресторанов?
Эксперименты, эксперименты, эксперименты
Инфопереработчики не только описывают, прогнозируют и инструктируют – они еще и экспериментируют. Вполне возможно, что над вами экспериментируют каждый раз, когда вы покупаете бестселлеры в Amazon, подбираете себе мокасины в Zappos или ищете пару на Match.com. Эксперименты нужны, чтобы совершенствовать продукты и услуги инфопереработки при помощи так называемого А/В-тестирования.
В науке причинно-следственная связь устанавливается экспериментальным путем: реакция на изменение одной независимой переменной в экспериментальной группе сравнивается с реакцией контрольной группы, для которой эта переменная остается неизменной. А/В-эксперименты, как правило, начинаются с вопроса. Например: «Какими зонтиками, красными или синими, мне нужно торговать, чтобы максимизировать их продажи?» Этот вопрос кажется очень простым, но из него вытекает масса сложностей в проведении удачного А/В-эксперимента. Продавец зонтиков может попытаться найти правильное решение, поставив свой прилавок на некой точке и продавая только синие зонтики в первый день и только красные – на второй. Он может даже проводить этот эксперимент два понедельника подряд, когда работающие в этом районе вроде бы должны быть более склонны забывать зонтики в суматохе перед выходом из дому. Но, определяя место для торговой точки и день недели для эксперимента, он не принимает в расчет одну из самых важных переменных, определяющих потребность в любом зонтике, красном или синем, а именно – идет ли дождь.
Инфопереработчикам приходится учитывать намного больше переменных, чем нашему торговцу зонтиками. В Amazon все, что касается внешнего вида страниц, от размера строки поиска до места размещения диалогового окна, от опций оформления и оплаты до части описания товара, доступной без второго клика, решается после проведения А/В-экспериментов. Широко известна история про то, как Google проводила А/В-эксперименты для определения оттенка синего цвета для рекламных ссылок. Источники в Google утверждают, что в результате выбора одного из пятидесяти возможных вариантов ежегодная выручка от рекламы возросла на 200 миллионов долларов [61].
Описательный анализ дает возможность выявлять «естественные эксперименты» – ситуации, когда можно проследить последствия изменения некоего условия, произошедшего случайно или по ошибке (например, когда при внедрении программного обеспечения обнаруживается баг). Веб-разработчики французского сайта Amazon каким-то образом умудрились забыть добавить услугу доставки в стоимость оформления заказа. Резкий рост заказов, последовавший в результате этой ошибки, дал Amazon представление о том, насколько бесплатная доставка способствует увеличению продаж.
В основе научного метода лежит прогноз: ученый создает предполагающую нечто модель, проводит эксперименты и выясняет, насколько их результаты соответствуют предположению. Если они не соответствуют, ученый вносит изменения в модель и повторяет процесс тестирования.
В области социальных данных меня больше всего интересуют эксперименты с элементами прескрипции, в которых пользователь получает возможность изменить некий параметр и увидеть, как это повлияет на результаты. Обработка данных о пробке на дороге позволяет предупредить водителей, сообщить им о том, насколько увеличится время в пути, и предложить альтернативные варианты маршрута. Если большинство водителей изберет какой-то один альтернативный маршрут, то на нем может возникнуть еще одна дорожная пробка. Для подобных ситуаций может быть предложен набор различных вариантов объезда и информация о том, какая часть водителей уже выбрала определенный маршрут, чтобы позволить принять решение поехать другой дорогой. Эти же данные можно использовать и для того, чтобы в целях оптимизации транспортного потока изменить частоту смены сигналов светофоров.
Один из лучших умов в области А/В-экспериментов – мой бывший коллега Рон Кохави, покинувший Amazon в 2005 году, чтобы возглавить работу по созданию экспериментально-аналитической группы в Microsoft. Чтобы создать базовые практики удачного онлайн-экспериментирования, Ронни и его команда провели сотни экспериментов примерно на двадцати интернет-сайтах (в том числе на MSN.com и Bing). Исходя из своего опыта Ронни утверждает: «Получить цифры легко; получить цифры, заслуживающие доверия, – трудно» [62]. Я полностью с этим согласен. Более того, то же самое можно сказать и о наиболее фундаментальных аспектах обработки данных: создавать рекомендации просто, оценивать рекомендации – трудно.
При проведении А/В-экспериментов на интернет-сайтах очень многое может пойти не так. Для начала: от 15 до 30 процентов просмотров страниц некоторых сайтов приходится на долю поисковых роботов, и эти визиты надо идентифицировать и отделить от посещений людей (если, конечно, обработку данных не проводят с целью оптимизации роботов).
Существует также искушение разделять пользователей на экспериментальные и контрольные группы по каким-то признакам, а не произвольно. Однако, каким бы разумным это ни выглядело на первый взгляд, большинство неслучайных способов выборки искажают результаты экспериментов и загрязняют аналитику. Например, если пользователь часто удаляет со своего компьютера cookie-файлы, его могут отнести к одной группе во время первого визита на сайт и к другой во время следующего. В некоторых экспериментах отнесение к той или иной группе коррелирует с сайтом, на котором был пользователь, прежде чем попасть на экспериментальную или контрольную страницу. Действительно ли люди более склонны кликать рекламу зонтиков на сайте WeatherChannel, где постоянно предупреждают о грядущих ураганах? Если выборки делались не по принципу случайности, результаты окажутся искаженными.
Кроме того, ученые стараются учитывать переменные, которые могут влиять на поведение пользователя, но не включены в эксперимент. Результаты эксперимента могут быть искажены багом, который появился в версии программного обеспечения, предложенной одной группе, но отсутствует во всех остальных. Проблемой могут быть и особенности работы программного обеспечения на различных платформах. Люди, использующие для доступа в сеть айфоны, и люди, использующие для этого телефоны на Андроиде, не являются равномерно распределенными и не зависимыми друг от друга группами населения. По результатам эксперимента может казаться, что на сайт чаще заходят пользователи с айфонами, но на самом деле различались не клиентские базы, а программное обеспечение – частота обновления страниц по умолчанию в айфонах выше. Придумывать такого рода версии и расследовать их – ежедневная работа детективов мира данных.
Жалоба
Напишите нам, и мы в срочном порядке примем меры.
Комментарии