苗字の話(1/3) 日本にはいったいいくつの苗字が存在するのか

苗字舘には苗字ランキング30000位までの世帯数が掲載されています。
順位と世帯数をグラフに書いてみると、以下のようになります。

うん。急峻すぎてよくわかりませんね。

両対数グラフにすると、以下の通り。


直線ぽくなっていますね。世帯数と順位の関係は、冪乗則に沿っているようです。今流行の冪乗則! なんで苗字の分布が冪乗則になるんだろうか……それはさておき。
世帯数をf, 順位をrとすると、
log f = -1.45 log r + 8.00
という回帰直線が書けるようです(logは常用対数)。相関係数は0.986で、相当よろしいようです。が、上掲のグラフを見て解るとおり分布はきれいな直線になっているわけではなく、特に上位の苗字は回帰直線をかなり下回っています。下位の苗字は冪乗則だけど、上位の苗字はそうではないルールで分布しているように見えます。

さて、日本にはいったいいくつの苗字が存在するのでしょうか? 苗字舘に掲載されていない30000位未満の苗字の世帯数を概算したいのですが、上掲の回帰直線は概算に用いるには誤差が大きすぎるように感じています。
そこで、20000位から30000位までの苗字で回帰直線を書くと、
log f = -1.81 log r + 9.52
となり、相関係数は0.998と改善します。
この式を使って30000位未満の苗字の世帯数を計算していくと、1位から∞位までの苗字の世帯数の総和は29,931,171世帯に近づいていきます。2005年の調査によると日本には49,063,000世帯存在するようなので、苗字舘に掲載の世帯数、および上掲の回帰直線で推測される世帯数を約5/3倍すれば、実際の世帯数に近い値となるはずです。
上掲の回帰曲線を用いて推測される世帯数に約5/3の係数をかけると、240,231位の苗字までが世帯数1以上となり、つまり日本には苗字が240,231個あるだろうと推測出来ます。有識者による見解では日本の苗字は15万から30万個と言われているようなので、それなりに良い数字が出ているように見えます。