故事從這則貼文開始:

依直覺,台股上市公司股價的第一位數字,1 到 9 的出現次數應該是平均分佈吧?

事實不然,依據「班佛定律」,舉凡人口、土地面積、河川長度,乃至影片文章的點閱數,這些自然形成的數字,只要筆數夠多,統計下來 1 開頭的機率多半超過 30%,其次是 2 的17.6%,一路到 9 下滑。

用 5/13 台股上市公司收盤價統計用程式驗證,得到的數字神奇地貼合定律的 30.1% 17.6%:

  • 1: 417 (32.65%)
  • 2: 240 (18.79%)
  • 3: 143 (11.20%)
  • 4: 112 (8.77%)
  • 5: 102 (7.99%)
  • 6: 71 (5.56%)
  • 7: 76 (5.95%)
  • 8: 56 (4.39%)
  • 9: 60 (4.70%)

班佛定律最為人津津樂道的應用是被拿來抓做假帳、選舉舞弊,因為手工編造的數字往往會偏離班佛定律分配。故做為一個重視科學精神的人,大家下回假造時記得要用程式調一下,讓結果符合班佛定律才不會被抓哦~ (大誤)

==== 我是分隔線 ====

班佛定律之所以成立,背後的原因是人口、河川、股價、投票數、點閱量... 等這類透過成長累積而成的隨機數字,很多都會呈現「對數常態分佈」,關於「我們的世界其實是對數世界」的真相,強力推薦畢導的這部影片:

这个定律,预言了你的人生进度条!

留言裡有幾則聽起來有點道理的說法:

  • 因為股票面額 10 元,單位決定容易產生 1 開頭的尺度。
  • 因為台股大部分都十幾塊?

但依據班佛定律,數字以 1 起首與單位無關,就像土地面積,由平方公里改成平方英里,1 照樣是 30%! 是不是感覺很玄?就用實驗來驗證吧!

我寫了一個網頁,一樣是統計某一天台股各檔上市股票收盤價的第一位非零數字,以 1 開始佔 33%、2 佔 18.7%。(註:長條圖是用昨天介紹的 D3.js繪製的,若你對程式寫法有興趣,原始碼在這裡)

網頁有個倍率換算功能,允許輸入倍率數字將所有收盤價乘上此倍率得到換算值,再統計換算值的第一位數字。換言之,若乘 37,10 元會變成 370,原本十幾元的股票會變成 37 到 73 元之間,但神奇的是,乘完 1 還是最多,佔 29%:

改乘 0.07,1 還是拔得頭籌,以 33.6% 多出 2 近一倍:

所以,1 最多的原因與單股面額或計價幣別無關,而是因為股價屬於「長尾分佈」。

數學科普頻道「漫士沉思录」這幾天有部新影片延續畢導「世界是對數的」議題,再從數學角度對此做了深入解析,看完讓我有茅塞頓開的感覺。後面會整理我理解的影片重點,有興趣更深入了解朋友,推薦直接看影片:

世界是对数的……吗?为什么?

首先,說「世界是對數的」不完全正確,數字分佈可分為常態分佈長尾分佈,只有長尾分佈符合對數特性及班佛定律。

常態分佈的經典例子像是身高、體重、氣溫,具有中間值最多(中央極限定理),向兩端延伸數量會急速下降的特性。以身高為例,比 150 公分再高 30 公分的可能性,遠遠大於 220 公分再高 30 公分的機率。

長尾分佈則如人口、所得、土地面積、河川長度、點閱數... 等適用合班佛定律的例子,呈現 80/20 分配是其一大特色。一個有 50 萬存款的人,再增加成 100 萬的機率不高,但億萬富翁要增加 50 萬存款,應該多呼吸幾次就能達標。

常態分佈與長尾分佈存在一個關鍵差異,前者增加多靠加法累積,而後者則靠乘法。身高、體重要一公分一公斤增加,是不折不扣的加法;而人口成長看出生率、財富累積錢滾錢看利率或投資報酬率、粉絲數愈多轉發機率愈高訂閱數增加愈快,每一項都基於乘法。

至此可以得到粗略結論:基於乘法形成的數字,通常就會呈現長尾分佈,符合班佛定律!

將長尾分布數字進行 Log 計算,會轉成常態分佈。如下圖,各圖人口數量統計原本高度集中於左側,呈現長尾分佈,下方的圖是轉 Log 10 後的結果(單位為萬人),中央最多兩側較少,接近常態分佈。而在對數 X 座標軸,1 到 9 刻度的寬度並不相等,紅色區域為 1 的範圍,佔掉總寬度近 1/3。人口數從 0 到 106 都有,佔有近 1/3 的 1 自然成為第一位出現機率最高的數字,且其比例接近 30%。

有了這番理解,班佛定律首位數字 1 佔有 1/3 的現象便有了合理解釋,不再神祕。

This blog explores the Benford’s Law, demonstrating that the leading digit in naturally occurring datasets, such as stock prices, is often 1, appearing more than 30% of the time. The post explains this phenomenon through the concept of long-tailed distributions and provides examples and experiments to illustrate the law’s applicability and implications.


Comments

Be the first to post a comment

Post a comment