Числа в реальной жизни странно себя ведут: чаще всего они начинаются с 1, реже — с 2, и почти никогда — с 9. Это не баг, а закономерность, которую заметили ещё в XIX веке и позже подтвердили на тысячах примеров — от длины рек до финансовой отчётности. Закон Бенфорда помогает находить фальсификации, ошибки и аномалии в данных, и если вы работаете с цифрами — его стоит знать.
История закона Бенфорда начинается не с Фрэнка Бенфорда, а с американского астронома и математика Саймона Ньюкомба. В 1881 году Ньюкомб обратил внимание на интересную особенность: страницы логарифмических таблиц, содержащие числа, начинающиеся с меньших цифр, были заметно более потрепаны, чем страницы с числами, начинающимися с больших цифр. Это навело его на мысль, что в реальных вычислениях люди чаще используют числа, начинающиеся с малых цифр. Ньюкомб опубликовал краткую заметку в American Journal of Mathematics, где предложил формулу для распределения первых значащих цифр, но его наблюдение не привлекло должного внимания и было забыто на полвека.
В 1938 году физик Фрэнк Бенфорд, работавший в исследовательской лаборатории General Electric, независимо переоткрыл эту закономерность. Бенфорд подошел к вопросу более систематично и проанализировал более 20 000 чисел из разнообразных источников: площади рек, списки населения, физические константы, числа в газетных статьях и даже адреса из американских справочников. Его исследование показало, что распределение первых цифр во всех этих наборах данных подчиняется одной и той же закономерности. Бенфорд опубликовал свои результаты в статье «Закон аномальных чисел» в журнале Proceedings of the American Philosophical Society, и с тех пор это статистическое явление стало известно как закон Бенфорда.
Примечательно, что Бенфорд не знал о работе Ньюкомба, и повторное открытие закономерности стало независимым подтверждением её универсальности. Только десятилетия спустя, благодаря работам математика Роджера Пинкхэма в 1961 году и статистика Теда Хилла в 1990-х годах, закон получил строгое математическое обоснование.
Закон Бенфорда утверждает, что в многих естественно возникающих наборах числовых данных распределение первой значащей цифры не является равномерным. Вместо этого вероятность того, что первая значащая цифра будет определенным числом, уменьшается логарифмически по мере увеличения этого числа.
Под первой значащей цифрой понимается первая ненулевая цифра в числе. Например, в числе 0,0347 первой значащей цифрой является 3, а в числе 25 789 — цифра 2.
Согласно закону Бенфорда, в естественных наборах данных:
Закон применим к данным, которые:
Чтобы стало понятнее: если вы возьмёте список цен на квартиры в городе, метраж домов, бюджетные расходы или даже расстояния между планетами — вы заметите, что около трети всех чисел начинаются с 1, а не с 2, 5 или 9. Это кажется странным, но в данных, которые охватывают разные масштабы и не подчинены искусственным правилам (например, минимальной цене или фиксированному диапазону), такая асимметрия встречается стабильно.
Математически закон Бенфорда выражается следующей формулой для вероятности появления цифры d (от 1 до 9) в качестве первой значащей цифры:
Например, вероятность того, что первой цифрой будет 1, вычисляется как: P(1) = log₁₀(1 + 1/1) = log₁₀(2) ≈ 0,301 или примерно 30,1%
Для цифры 9: P(9) = log₁₀(1 + 1/9) = log₁₀(10/9) ≈ 0,046 или примерно 4,6%
Эта формула также может быть записана в виде: P(d) = log₁₀(d + 1) — log₁₀(d)
Важно отметить, что закон Бенфорда можно обобщить и на последующие цифры числа, хотя их распределение постепенно приближается к равномерному по мере удаления от начала числа.
Графическое представление закона Бенфорда демонстрирует характерное убывание частоты появления цифр от 1 к 9. Гистограмма распределения первых цифр по закону Бенфорда имеет следующий вид:
Для сравнения: при равномерном распределении каждая цифра встречалась бы с частотой около 11,1% (поскольку 100% ÷ 9 ≈ 11,1%).
Это распределение часто приводит в недоумение людей, впервые сталкивающихся с законом Бенфорда, так как интуитивно кажется, что все цифры должны встречаться примерно одинаково часто. Однако множество эмпирических исследований и математических доказательств подтверждают универсальность этой закономерности для широкого спектра естественных данных.
Закон Бенфорда на первый взгляд может показаться математическим курьезом, однако его проявление в различных наборах данных настолько широко, что позволяет использовать его как практический инструмент анализа. Тем не менее, важно понимать, в каких случаях можно ожидать соответствия закону Бенфорда, а в каких — нет.
Финансовая сфера представляет собой классическую область применения закона Бенфорда. Исследования показывают, что следующие наборы данных обычно хорошо соответствуют этому закону:
Это делает закон Бенфорда особенно полезным для аудиторов и финансовых аналитиков при поиске потенциальных манипуляций с отчетностью.
Демографические данные также демонстрируют хорошее соответствие закону Бенфорда:
Анализ демографических данных на соответствие закону Бенфорда позволяет выявлять потенциальные манипуляции при проведении переписей населения или составлении демографических прогнозов.
Многие природные и физические измерения также подчиняются закону Бенфорда:
Это свойство может использоваться для проверки качества измерений в научных исследованиях.
Несмотря на широкую применимость, закон Бенфорда имеет ряд существенных ограничений.
Следующие типы данных обычно не соответствуют распределению Бенфорда:
Закон Бенфорда перестает быть применимым в следующих условиях:
Особую категорию представляют искусственно генерируемые данные:
Понимание границ применимости закона Бенфорда критически важно при его использовании для анализа данных и выявления аномалий. Неверная интерпретация может привести как к ложным обвинениям в манипуляции данными, так и к пропуску реальных случаев фальсификации.
Закон Бенфорда перешел из разряда математических курьезов в категорию практических инструментов благодаря своей способности выявлять аномалии в наборах данных. Сегодня этот закон используется специалистами различных областей — от финансовых аудиторов до судебных экспертов и научных исследователей. Рассмотрим основные направления его практического применения.
Одно из самых распространенных применений закона Бенфорда — проверка финансовой отчетности компаний. Когда бухгалтеры или финансисты фальсифицируют данные, они обычно не учитывают естественное распределение первых цифр, что создает заметные отклонения от закона Бенфорда.
Финансовые аналитики используют следующие подходы:
Например, исследование, проведенное профессором Марком Нигрини, показало, что компания Enron демонстрировала существенные отклонения от закона Бенфорда в квартальных отчетах задолго до того, как ее мошеннические схемы были раскрыты другими методами.
Налоговые органы по всему миру используют закон Бенфорда как инструмент предварительного скрининга при выборе объектов для детальных проверок:
В Италии, например, налоговая служба использовала анализ на соответствие закону Бенфорда для выявления компаний с высоким риском налоговых нарушений. Это позволило более эффективно распределять ресурсы при проведении аудиторских проверок.
Аудиторские компании интегрировали проверку на соответствие закону Бенфорда в свои стандартные процедуры:
Международные стандарты аудита (МСА) рекомендуют использование аналитических процедур, включая тесты на соответствие закону Бенфорда, как часть оценки рисков существенного искажения финансовой отчетности.
За пределами выявления мошенничества закон Бенфорда используется для общей оценки качества данных:
Специалисты по обработке данных используют отклонения от закона Бенфорда как сигнал о необходимости более тщательной проверки набора данных, что позволяет выявлять проблемы еще до начала основного анализа.
Закон Бенфорда эффективен для выявления необычных паттернов в данных:
Например, в экологических исследованиях анализ на соответствие закону Бенфорда помогает выявлять участки с аномальными показателями загрязнения, которые требуют дополнительного изучения.
Научное сообщество использует закон Бенфорда для оценки добросовестности исследований:
В 2011 году группа исследователей применила анализ на соответствие закону Бенфорда для проверки опубликованных научных статей по психологии и выявила статистически значимые отклонения в работах некоторых авторов, что позднее привело к отзыву ряда публикаций.
Потому что так работает мир. Многие процессы в природе растут не линейно, а экспоненциально — чем больше величина, тем быстрее она увеличивается. А при таком росте числа чаще «задерживаются» на первой цифре 1, чем на 9. Пример: чтобы вырасти с 1 до 2 млн — нужно удвоиться. А чтобы вырасти с 5 до 6 — всего +20%.
Плюс — масштаб не важен. Считайте в метрах, дюймах, долларах или евро — распределение первых цифр будет тем же. Это называется инвариантностью к масштабу.
А если углубиться в математику: при перемножении случайных величин мы получаем логнормальное распределение. А оно как раз и даёт Бенфордовское распределение первых цифр.
Можно. Но сложно. Честно сгенерировать фальшивые данные под закон Бенфорда — это почти как подделать почерк под микроскопом:
Аудиторы это знают. Поэтому проверяют не только первую цифру, но и вторую, и последнюю, и связи между числами. Один закон — не защита. Вся система — защита.
Нет. Соответствие — это индикатор, а не доказательство.
Закон Бенфорда — это повод копнуть глубже, а не выносить приговор. Его используют как фильтр, а не как штамп.
Бенфорд — не единственный. Вот другие:
Всё это — инструменты, которые помогают находить аномалии и понимать, как устроены данные.