Закон Бенфорда: почему маленькие цифры встречаются чаще и Как это использовать в Анализе данных
Наблюдаемое вами явление связано с законом Бенфорда , который описывает распределение частот первых цифр во многих реальных наборах числовых данных. Согласно закону Бенфорда, во многих встречающихся в природе наборах данных ведущая цифра распределена неравномерно; вместо этого меньшие цифры встречаются в качестве ведущей чаще, чем большие.
Что такое закон Бенфорда?
Закон Бенфорда объясняет, почему цифры в данных ведут себя не так, как мы ожидаем. Кажется, что каждая цифра от 1 до 9 должна встречаться с одинаковой частотой. Но это не так.
Цифра 1 появляется первой в 30% случаев, а цифра 9 — всего в 4,6%. Этот закон работает для разных данных: численности городов, счетов за свет, налоговых отчетов и даже физических констант.
Почему так?
Всё дело в том, как растут числа. Представьте, что они идут от единиц до десятков, сотен и дальше. На каждом шаге цифра 1 появляется чаще. Например, в диапазоне от 1 до 10 — все числа разные, но в диапазоне от 10 до 100 много чисел начинается с 1 (10-19). Чем больше число, тем чаще 1 будет первой.
Где это работает?
Закон Бенфорда подходит для данных, где числа варьируются в больших пределах. Например:
- Финансовые отчеты;
- Численность населения;
- Данные об объёмах продаж.
Но не всё так просто. Закон не работает, когда данные ограничены, например, у номеров телефонов или дат.
ли 2), значительно выше, чем вероятность появления большой цифры (например, 8 или 9).
Основные положения закона Бенфорда
Неравномерное распределение цифр:
Закон утверждает, что вероятность появления ведущей цифры d (где d — от 1 до 9) в числовом наборе данных описывается формулой:
P(d)=log10(1+d1)
Объяснение распределения:
Это явление связано с логарифмическим характером распределения чисел. Например, когда вы измеряете различные данные в большом диапазоне величин, малые числа чаще оказываются в пределах первых десятков. По мере увеличения диапазона, первые цифры чисел начинают реже быть большими. Это логарифмическое увеличение позволяет цифрам 1 и 2 встречаться чаще, чем цифрам 8 и 9.
Рассмотрим пример:
Если взять числа от 1 до 10, то все они имеют разные первые цифры. Но если рассмотреть диапазон от 10 до 100, то большая часть чисел в этом диапазоне начинается с 1 или 2, тогда как цифра 9 встречается реже.
Применение в реальных данных:
Закон Бенфорда применим ко многим наборам данных, которые охватывают несколько порядков величины и не имеют искусственных ограничений. Примеры таких данных включают размеры городов, финансовые отчеты, данные об энергопотреблении и т.д.
Закон слабо применим к данным с узкими диапазонами значений, таким как номера телефонов или социальные номера.
Пример:
Если мы посмотрим на распределение ведущих цифр в реальных наборах данных, например, в бухгалтерских отчетах, мы заметим, что цифра 1 будет встречаться значительно чаще, чем цифра 9. Это может быть полезно, например, для обнаружения мошенничества: если распределение цифр в наборе данных сильно отклоняется от закона Бенфорда, это может свидетельствовать о манипуляциях с данными.
Заключение:
Закон Бенфорда — это удивительное и на первый взгляд неинтуитивное явление, которое иллюстрирует, как в реальных данных маленькие цифры могут появляться намного чаще, чем большие. Это свойство используется в анализе данных и даже в судебной экспертизе для выявления возможных мошенничеств.