Согласно почти что уже окончательным результатам выборов, прошедших 4 декабря 2011 года, россияне проголосовали следующим образом: "Единая Россия" получила 49,3 процента голосов, КПРФ досталось 19,2 процента, 13,25 процента - у "Справедливой России" и 12 процентов пришедших на выборы проголосовало за ЛДПР. Еще три партии - "Правое дело", "Патриоты России" и "Яблоко" - в Думу не прошли. Еще не успели высохнуть чернила на протоколах избирательных комиссий, как энтузиасты принялись анализировать статистику выборов. Их целью был поиск статистических особенностей в представленных в Центризбирком протоколах - эта забава стала у многих математиков хорошей традицией.
Статистические методы
Представим себе следующий абстрактный опыт - на отрезок белой прямой бросают точку. Внутри отрезка есть некоторый черный отрезок поменьше. Какова вероятность того, что точка попадет на внутренний отрезок? Интуитивно понятно, что эта вероятность тем больше, чем больше длина этого второго отрезка. Считая, что в большой отрезок точка попадает с вероятностью один, получаем, что вероятность попадания точки в черный отрезок равна отношению длин черного и белого отрезков.
Понятное дело, что такие рассуждения можно распространить на любой набор отрезков - мерой вероятности все равно будет длина. Говорят, что в этом случае на отрезке задано равномерное распределение вероятности.
Пусть теперь мы бросаем точку, целясь в центр отрезка. Делаем мы это плохо (отсюда и случайность результата), однако в целом вероятность того, что точка окажется ближе к центру, чем к границе, все равно выше. Теперь одной длиной черного отрезка не обойтись - нам потребуется функция распределения, или плотность вероятности. В нашем случае окрестности центра отрезка плотности вероятности выше, чем по краям.
В статистике есть несколько функций плотности, которые постоянно выплывают в разных задачах приложений, однако нас будет интересовать так называемое нормальное (или еще говорят гауссово) распределение. Оно задается непростой формулой, а график полученной плотности - это своего рода колокол. Надо сказать, что такое распределение возникает в задачах сплошь и рядом - отчасти из-за разного рода предельных теорем, которые сводят изучение суммы большого количества случайных величин к изучению нормального распределения.
В этом смысле поиск статистических особенностей данных выглядит следующим образом - массив экспериментальной информации обрабатывается и, возможно, изображается графически, после чего полученная картинка сравнивается с той, которая должна получиться согласно первоначальным предположениям (а они, по нашему мнению, адекватно отражают происходящее).
Непосредственно о выборах
Что же можно анализировать, когда речь заходит о выборах? Вся приведенная ниже методология описывается по работам Сергея Шпилькина. По результатам анализа выборов с 2007 по 2009 годы он написал в "Троицкий вариант" прекрасную заметку (как следует из сообщения на сайте издания, к следующему номеру он готовит статью по новым результатам). Эта статья приобрела известность и даже вызвала волну своего рода критики.
Простейшим параметром (надо сказать, не единственным, которые анализируют Шпилькин и прочие энтузиасты) является явка избирателей. В частности, в качестве случайной величины можно рассматривать явку избирателей на участок. В этом случае плотность этой величины легко нарисовать - откладываем по оси абсцисс явку от нуля до ста процентов с шагом, скажем, в пять процентов. В соответствующей точке на оси ординат ставим количество избирательных пунктов, в которых процент явки лежал в заданных пределах.
Оказывается, что в результате подобной манипуляции возникает распределение, очень похожее на гауссов колокол. Точнее, такое распределение возникает, если брать выборы в Мексике, Польше, Болгарии, Швеции (здесь), на Украине (здесь) и даже в некоторых случаях в России прошлых лет, поэтому мы будем считать, что это и есть нормальная ситуация.
Ничего подобного, однако, не наблюдается, если брать данные важных российских выборов, включая данные по выборам 4 декабря. Главных отличий два - это пик в конце графика, обусловленный наличием участков со 100-процентной явкой (сюда попадают, например, военные части). Кроме того, справа от максимального (за исключением крайнего стопроцентного пика) значения имеется дополнительное "плечо" из пунктов с большой явкой.
Еще одно графическое представление, которое поддается анализу - это соотношение между явкой и количеством голосов за конкретную партию. Для этого по оси абсцисс откладываются, как и раньше, проценты явки, а по ординатам - процент, который на данном участке получила партия. В отличие от предыдущего графика, каждой точке по оси абсцисс будет соответствовать сразу несколько точек по оси ординат. Здесь нормой мы считаем то, что эти два параметра независимы. В этом случае полученный рисунок должен быть ориентирован примерно горизонтально. В нашем случае, как видно, ничего такого нет и рисунок оказывается направлен вдоль биссектрисы координатного угла.
Следующий шаг в анализе самый сложный - необходимо представить внятную и убедительную гипотезу, объясняющую особенности полученных распределений. Так как речь идет о какой-никакой науке, то фразой "у России особый путь" ограничиться не получится. "Плечо", скажем, можно объяснить различной доступностью участков для голосования. Однако, уже беглый взгляд на графики позволяет обнаружить, что, например, участки с высокой посещаемостью почему-то демонстрируют высокий показатель за "Единую Россию". То есть явка оказывается связанной с успехом правящей партии.
Объяснений тут, конечно, может быть много (подробно разные варианты разбираются в хорошем обзоре Шеня pdf на примере выборов в Мосгордуму 2009 года). Например, может так случиться, что голосующие за остальные партии тверды в своих убеждениях - они идут на участки, определившись с выбором. В свою очередь, значительная часть людей решает, за кого голосовать, прямо на избирательном участке. В этом случае, не очень понятно, почему подобные нерешительные избиратели оказываются преимущественно на участках с большой явкой. Хотя все может быть проще - за "Единую Россию" голоса добавлялись в ручном режиме (вариант численной интерпретации данных можно посмотреть, например, тут).
Мотивация статистических игр
Проблема с нашими рассуждениями одна - статистический анализ, о котором идет речь выше, доказательством сам по себе не является. Фактически, анализ такого рода позволяет рассуждать только на физическом уровне строгости - появление некоторой дополнительной информации вполне может опровергнуть то или иное утверждение (в то время как доказанное математически утверждение остается после доказательства истинным вне зависимости от каких-либо дополнительных данных).
В дополнение к этому подобный анализ расценивается разного рода специалистами по выборам как нечто недостойное рассмотрения. Например, Виталий Иванов, вице-президент Центра политической конъюнктуры России, так прокомментировал Polit.ru данные анализа выборов 2009 года: "Не надо математикам со своими моделями лезть в политику, анализировать выборы, придумывать какие-то свои версии. Это просто смешно, когда математик рассуждает о выборах. Давайте еще биолога спросим! Или узнаем, что по поводу результатов выборов думает физик-ядерщик!"
В общем, юридической силы математические закономерности не имеют, пока не доказано противное. Несмотря на столь существенные недостатки и отсутствие теоретической ценности, мотивацию к такого рода исследованиям по поиску статистических неувязок можно описать цитатой Льва Ландау (по книге Иоффе "Без ретуши. Портреты физиков на фоне эпохи"): "Люди, услышав о каком-то необыкновенном явлении, начинают предлагать для их объяснения малоправдоподобные гипотезы. Прежде всего, рассмотрите простейшее объяснение - что все это - вранье".