用本福特定律验证数据是否造假


本福特定律(Benford’s law)描述了真实数字数据集中首位数字的频率分布。这是一个非常有趣的观察:在实际生活得出的数据中,以 1 为首位数字的数出现最多,其出现概率约为总数的三成,另外,越大的数,以它为首几位的数出现的概率就越低,简单概括成 P(n) 大于 P(n+1)。

应用

本福特定律可用于检查各种数据是否有造假。但要注意使用条件:1.数据至少 3000 笔以上。2.不能有人为操控。数据集有指定数值范围,它不能是以概率分布出现的数据,例如身高这样的正态分布数据,也不能是随机的数据。

那本福特定律可以应用在什么地方来验证数据的真实性呢?

  • 选举投票[1]
  • 人口数量[2]
  • 中国新冠疫情数据报告(结论:并没有造假)[3]

引用

  1. The Devil Is in the Digits: Evidence That Iran’s Election Was
  2. code-for-blog/ca-cities-2021.csv · GitHub
  3. Benford’s Law and COVID-19 Reporting

阅读更多:Some clues to understanding Benford’s law

YOU MIGTH ENJOY

  • Claude Code Tips
  • Passive Income #3 - 2023 回顾
  • Passive Income #2 - How I make $100 month with a Telegram bot