本福特定律(Benford’s law)描述了真实数字数据集中首位数字的频率分布。这是一个非常有趣的观察:在实际生活得出的数据中,以 1 为首位数字的数出现最多,其出现概率约为总数的三成,另外,越大的数,以它为首几位的数出现的概率就越低,简单概括成 P(n) 大于 P(n+1)。
应用
本福特定律可用于检查各种数据是否有造假。但要注意使用条件:1.数据至少 3000 笔以上。2.不能有人为操控。数据集有指定数值范围,它不能是以概率分布出现的数据,例如身高这样的正态分布数据,也不能是随机的数据。
那本福特定律可以应用在什么地方来验证数据的真实性呢?
- 选举投票[1]
- 人口数量[2]
- 中国新冠疫情数据报告(结论:并没有造假)[3]
引用
- The Devil Is in the Digits: Evidence That Iran’s Election Was
- code-for-blog/ca-cities-2021.csv · GitHub
- Benford’s Law and COVID-19 Reporting