Путь к прибыли: руководство по масштабированию retail media на площадке
Путь к прибыли: руководство по масштабированию retail media на площадке
19 сентября онлайн и офлайн
00
:
00
:
00
:
00
Конференция про будущее e-commerce: стратегии и инструменты, которые понадобятся завтра
Зарегистрироваться
Войти

Закон Бенфорда: почему маленькие цифры встречаются чаще и Как это использовать в Анализе данных

post-intro-500-340-59

Наблюдаемое вами явление связано с законом Бенфорда , который описывает распределение частот первых цифр во многих реальных наборах числовых данных. Согласно закону Бенфорда, во многих встречающихся в природе наборах данных ведущая цифра распределена неравномерно; вместо этого меньшие цифры встречаются в качестве ведущей чаще, чем большие. 

Что такое закон Бенфорда?

Закон Бенфорда объясняет, почему цифры в данных ведут себя не так, как мы ожидаем. Кажется, что каждая цифра от 1 до 9 должна встречаться с одинаковой частотой. Но это не так.

Цифра 1 появляется первой в 30% случаев, а цифра 9 — всего в 4,6%. Этот закон работает для разных данных: численности городов, счетов за свет, налоговых отчетов и даже физических констант.

Почему так?

Всё дело в том, как растут числа. Представьте, что они идут от единиц до десятков, сотен и дальше. На каждом шаге цифра 1 появляется чаще. Например, в диапазоне от 1 до 10 — все числа разные, но в диапазоне от 10 до 100 много чисел начинается с 1 (10-19). Чем больше число, тем чаще 1 будет первой.

Где это работает?

Закон Бенфорда подходит для данных, где числа варьируются в больших пределах. Например:

  • Финансовые отчеты;
  • Численность населения;
  • Данные об объёмах продаж.

Но не всё так просто. Закон не работает, когда данные ограничены, например, у номеров телефонов или дат.

ли 2), значительно выше, чем вероятность появления большой цифры (например, 8 или 9).

Основные положения закона Бенфорда

Неравномерное распределение цифр:

Закон утверждает, что вероятность появления ведущей цифры d (где d — от 1 до 9) в числовом наборе данных описывается формулой:

P(d)=log10(1+d1)

Объяснение распределения:

Это явление связано с логарифмическим характером распределения чисел. Например, когда вы измеряете различные данные в большом диапазоне величин, малые числа чаще оказываются в пределах первых десятков. По мере увеличения диапазона, первые цифры чисел начинают реже быть большими. Это логарифмическое увеличение позволяет цифрам 1 и 2 встречаться чаще, чем цифрам 8 и 9.

Рассмотрим пример:

Если взять числа от 1 до 10, то все они имеют разные первые цифры. Но если рассмотреть диапазон от 10 до 100, то большая часть чисел в этом диапазоне начинается с 1 или 2, тогда как цифра 9 встречается реже.

Применение в реальных данных:

Закон Бенфорда применим ко многим наборам данных, которые охватывают несколько порядков величины и не имеют искусственных ограничений. Примеры таких данных включают размеры городов, финансовые отчеты, данные об энергопотреблении и т.д.

Закон слабо применим к данным с узкими диапазонами значений, таким как номера телефонов или социальные номера.

Пример:

Если мы посмотрим на распределение ведущих цифр в реальных наборах данных, например, в бухгалтерских отчетах, мы заметим, что цифра 1 будет встречаться значительно чаще, чем цифра 9. Это может быть полезно, например, для обнаружения мошенничества: если распределение цифр в наборе данных сильно отклоняется от закона Бенфорда, это может свидетельствовать о манипуляциях с данными.

Заключение:

Закон Бенфорда — это удивительное и на первый взгляд неинтуитивное явление, которое иллюстрирует, как в реальных данных маленькие цифры могут появляться намного чаще, чем большие. Это свойство используется в анализе данных и даже в судебной экспертизе для выявления возможных мошенничеств.

Предыдущая запись

Retail Rocket Science 007: Алексей Авдей, «Яндекс.Маркет»

Следующая запись

Retail Rocket Science 008: Дмитрий Дворецкий, Hoff.ru

Понравилась статья? Подпишитесь на рассылку, чтобы получать свежие статьи на почту.

Подписаться на рассылку

Еще статьи по теме