Начальник Лаборатории анализа данных Ефим Галицкий – об автоматизации работы с данными и о целесообразности инноваций
Автоматизация процессов подготовки анкет и представления результатов опросов, о которой я хочу рассказать, началась с Георейтинга. Тогда заказчик из Администрации Президента попросил нас привести результаты Георейтинга к более удобной для них форме. Изначально мы передавали их в виде нашей стандартной таблицы, в столбцах которой были регионы, а в строчках – различные показатели. А заказчику нужно было, чтобы регионы располагались в строчках, а в столбцах – данные Георейтинга: последний, предпоследний опрос и т. д. Долгое время штатная сотрудница заказчика вытаскивала из таблицы нужные числа, компоновала их и по-всякому украшала. Например, рисовала зеленые и красные стрелочки, отражающие динамику показателей. Чтобы большое начальство могло быстро увидеть, что случилось в том или ином регионе – какие параметры улучшились, какие ухудшились. Но когда сотрудница уволилась, заказчик попросил нас предоставлять результаты в привычной для него форме. Для решения этой задачи мы создали механизм, который выдергивает данные из прошлых Георейтингов и вписывает в нужные клеточки, а потом придумали еще и макрос, который сам рисует разноцветные стрелочки. Если бы не этот механизм, ФОМу понадобился бы целый отдел по подготовке таких форм. Все-таки у нас с 2016 года хранятся все Георейтинги по населению в целом, в том числе рейтинги каждого региона по каждому показателю. Самая главная придумка здесь – слова «последний опрос», «предпоследний опрос», «опрос перед предпоследним», «три опроса назад» и до бесконечности. Когда мы начинаем работать с очередным Георейтингом, мы первым делом сдвигаем этот стек – то, что было последним, становится предпоследним, потому что все формы настроены на последний опрос.
Позже появилась потребность в изготовлении справки о регионах – выжимки с персональными показателями. Мы эту работу тоже автоматизировали. Благодаря формулам и макросам для каждого региона формируется индивидуальная справка с нужными параметрами и указанием имени губернатора. Хотя физически это одна и та же справка – макрос заполняет шаблон данными каждого региона и создает столько файлов, сколько субъектов в России.
Изначально, когда Георейтинг придумывался, была одна анкета, которая использовалась во всех регионах. Потом оказалось, что есть нюансы.
Например, если мы спросим респондентов: «Как вы оцениваете работу вашего губернатора?», то это будут одни цифры, а если спросим: «Как вы оцениваете работу главы нашего региона Ивана Ивановича Иванова?», то – другие. Между этими цифрами – заметная разница, которая обуславливается тем, что при упоминании имени губернатора у респондентов возникает определенная ассоциация.
К тому же было странным говорить в вопросе «ваш губернатор» и не называть его имени, притом что интервьюер чаще всего, если и не является, то представляется респонденту местным. Так появилась идея использовать не единую анкету, а свою для каждого региона. Мы начали этим заниматься, и оказалось, что менять нужно очень многое. Скажем, руководитель одного региона называется «губернатор», а другого – «глава». А где-то эту должность занимает женщина, что тоже отражается на формулировке вопроса. В общем, анкета оказалась совсем гибкой. Пришлось создавать механику размножения анкет, причем с условием, что какие-то вопросы могут меняться, а какие-то в некоторых регионах и вовсе исчезать.
Наконец, заказчик попросил нас добавить в справку список местных СМИ. И мы это тоже автоматизировали. При формировании отчета в таблицу стали подставляться средства массовой информации, для каждого региона свои. В итоге работа, начавшаяся с единой анкеты во всех регионах, выросла в многоглавого монстра.
Появилась идея организовать ежедневные телефонные опросы, в которых анкета меняется в зависимости от дня недели по определенному графику. Мы создали механизм, который сам определяет день недели и в соответствии с этим показывает или не показывает интервьюеру те или иные блоки вопросов. Полученные данные мы решили обрабатывать еженедельно: накопились результаты опроса 900 человек, и по ним можно дать очередные данные за неделю. Но всплыл нюанс. Поскольку каждый блок длится три дня, а всего блоков – семь, то первый начинался в субботу прошлой недели, второй – в воскресенье. В результате пользоваться календарными неделями стало невозможно и пришлось создать формулу, которая для каждого блока отсчитывала свои недели и суммировала нужные ответы из нужных дней. Таким образом для каждого из семи блоков сложились формулы для расчетов по неделе и по четырем неделям. Образовалась достаточно хитрая механика, которая затронула длинную цепочку, начиная от организации телефонного опроса (загрузки опросов каждого нового дня в G-System) и заканчивая выгрузкой данных. Был использован механизм мультиопроса. Это громадный виртуальный монстр, который с помощью связей с реальными записями в отдельных опросах формирует как бы суммарный опрос. В данном случае это был 331 опрос с данными каждого дня.
Эта технология использовалась в к-Зонде, когда мы рассчитывали индикаторы, отражавшие влияние пандемии на население. И в турбоЗонде, который мы запустили в связи с наступлением турбоРеальности. Недавно Александр Анатольевич Ослон предложил другую схему, которая позволила избежать сложностей с переходом из недели в неделю с захватом дней, относящихся к прошлой неделе. Но по сути это такой же мультиопрос, который будет идти как часы и отслеживать все нужные показатели. ТурбоЗонд-2023 стартовал 20 февраля.
СМБиз – это лонгитюдное исследование, опрос примерно 700 предпринимателей, которые согласились ежеквартально рассказывать нам о своем бизнесе, в частности о том, как у них шли дела в прошлом квартале и чего они ожидают в следующем. И так на протяжении 10 лет. Это подвиг, поэтому эти предприниматели – герои. Мы их любим и бережем, чтобы они продолжали с нами сотрудничать. Столь длинная история очень ценна, потому что, когда мы опрашиваем обычного, выбранного случайным образом респондента, то можем узнать его сегодняшние настроение, ощущение, а понять, что этому предшествовало, мы можем только очень приближенно. Лонгитюд же позволяет посмотреть, что с предпринимателями происходило, например, год назад: брали ли они кредиты, применяли ли инновационные технологии, пользовалась ли интернет-рекламой. Данные лонгитюдных опросов, сильно уступая кросс-секционным исследованиям в репрезентативности, не позволяют судить обо всем бизнесе России (ведь наши респонденты – очень добрые люди, а добрые люди совсем не похожи на генеральную совокупность), зато имеют гигантское преимущество в возможности изучения истории. Мы четко фиксируем ситуацию в формате «было/стало». Катя Пушкина по итогам каждой волны пишет для сайта СМБиз текст о том, у каких бизнесов ситуация по сравнению с прошлым кварталом улучшилась, у каких – ухудшилась, а у каких – не изменилась.
Кроме того, на лонгитюдных данных можно строить настоящие эконометрические модели. Эти данные позволяют закрыть глаза на то, что мы не учитываем некоторые различия между предприятиями (кто-то работает в той области, где всем хорошо живется, а кто-то – где всем трудно). Методы построения модели на лонгитюдных данных позволяют эти скрытые факторы, которые в анкету не вставлены, элиминировать и получить для всех предприятий какие-то правильные оценки. Мы проконсультировались с Татьяной Ратниковой из «Вышки» (она – главная по лонгитюдным исследованиям в стране) и будем строить эконометрические модели на наших данных.
Сейчас идет седьмая волна Лонгитюда, и у нас уже появилась возможность прогнозирования. Если допустить, что ничего не изменится, то есть тенденции будут те же самые, то можно посчитать, с какой вероятностью в следующем квартале каждая фирма перейдет в то или иное состояние. Мы фиксируем переход простым способом – задавая предпринимателям вопрос: «Какой стратегии вы придерживались в прошлом квартале?» Одни говорят, что придерживались стратегии выживания, вторые – что стратегии сохранения бизнеса, а третьи – что стратегии роста. Переход от стратегии к стратегии свидетельствует об улучшении или ухудшении позиции. И вот в ситуации, если между волнами не произойдет ничего радикального, можно применить вероятности, которые мы раньше наблюдали, и спрогнозировать, как предприниматели охарактеризуют свои стратегии в следующем опросе. А когда придут данные опроса, мы сравним их с данными предыдущего. Здесь радость и сила прогноза не в том, что мы угадаем, а в том, что мы увидим, когда произойдет слом ситуации. Например, такой слом произошел на пятой волне, когда были введены западные санкции. Тогда по прогнозу получалось, что очень много бизнесов выберут стратегию выживания, а их оказалось намного меньше. Зато растущих бизнесов оказалось гораздо больше, чем мы ожидали. Таким образом мы зафиксировали слом наблюдавшейся ранее негативной тенденции.
Сейчас наш прогноз совсем простой, он основан на предположении «если вообще ничего не изменится». В будущем мы сможем выделять схожие по определенным признакам периоды и на основе этого с некоторой вероятностью строить прогнозы типа «если – то». Возможно, тогда мы сумеем более детально описывать изменения и даже находить факторы, которыми можно объяснить те или иные состояния бизнеса.
Не все факторы присутствуют в нашей анкете, но есть вещи, которые мы так или иначе видим из внешней среды. Возможно, мы сможем содержательно понимать, какой период наступил в нашем обществе, на какой из наблюдавшихся нами раньше он больше всего похож, и исходя из этого применять те или иные из найденных ранее формул прогнозирования.
Я пришел к выводу, что разные методы, включая методику типологизации, которую мы с моей Еленой Геннадьевной разработали, – это наше, ФОМа, внутреннее дело. Мы используем эти методы не для того, чтобы показывать заказчику длинные формулы и произносить мудреные слова, а для того, чтобы понять, какую простую и удобную для работы идею ему предложить. Лучшим примером проявления такой философии является исследование, которое мы провели вместе с Александром Чепуренко и «Вышкой». Мы опросили предпринимателей в репрезентативной выборке, чтобы понять, чего они хотят от государства. Можно было дать несколько ответов. Естественно, многие говорили, что хотят финансовых льгот, дотаций. А вот ответы о возможностях обучения встречались гораздо реже. К полученным данным мы применили методику разбиения респондентов на кластеры, которую в течение многих лет мы с Еленой Геннадьевной в муках отрабатывали, и оказалось, что всех предпринимателей можно поделить на четыре типа. Первый называется «Продвинь меня!» – это люди, которые хотят, чтобы им дали возможности развить бизнес в нужном направлении. Второй называется «Научи меня!» – только людям этого типа интересны образовательные программы, консультационная и информационная поддержка. Третья группа называется «Дай мне льготы!» – это те, кто просил о льготном кредитовании и налогообложении, а также предоставлении госзаказов. А всех оставшихся мы назвали «Не трогай меня!». Их ответы на открытые вопросы свидетельствуют: единственное, чего они хотели, – чтобы им не мешали. Вот так оказалось, что все бизнесы попросту делятся на четыре группы. На этом примере я хотел проиллюстрировать нашу методику создания типологий. Типология строится путем длинных обсчетов, многомерного и категориального анализов, но все это внутри. А снаружи – то, что воспринимается легко.
К слову, недавно я читал группе наших коллег курс о методах анализа данных. В частности, рассказывал о conjoint-анализе. Мы в ФОМе его не используем, поэтому я рассказал только об основных принципах и показал только самый традиционный его вариант. И вдруг выяснилось, что одна из слушательниц работает с ним по-настоящему, на специализированном программном обеспечении. Ее компания делает для заказчиков имитационные модели, с помощью которых можно что-то менять в товаре, например его цену, и тут же видеть, сколько людей купит его. Такие модели строить очень интересно, но ФОМ занимается другим. Мы ориентируемся на очень высокое начальство, которому такую игрушку не покажешь. Ему нужно предъявлять результаты предельно просто и убедительно, ссылки на то, что «у этой машинки внутри неонка», здесь не принимаются.