2015年4月4日土曜日

日本人の名字の統計解析

先日、ちょっとだけ書いた「日本人の名字の統計解析」という論文を少しだけ読みこみました。

http://ci.nii.ac.jp/els/110003502725.pdf?id=ART0006203977&type=pdf&lang=jp&host=cinii&order_no=&ppv_type=0&lang_sw=&no=1428067179&cp=

この論文は2005年に発表されたものなので、用いられているデータはそれより少しだけ前のものになります。
ここで用いられている統計学的手法に関して、私には全く分かりませんが、非常に興味深く思いました。

これによると日本人の苗字(論文中では「名字」)の総数は104,898種類だそうです。

ただしシュミレーションによると、1世代後に5,000種類弱の苗字が消失してしまうそうです。

現実には帰化姓も続々と出ているので、増減に関しては不用意に判断できませんが、帰化姓は間違いなく圧倒的に稀少姓なので、それこそ1世代後に消失してしまう可能性が大きいはずです。

全国で1件あるかどうかの稀少苗字について、曖昧な証拠で振り回されるべきでもないなと思いました。


この論文では電子電話帳のデータを参考にしているので、苗字は漢字表記のみで分類しており、「東海林」であれば「しょうじ」も「とうかいりん」も同じとしているのです。
もちろん明記はしていないのですが、「渡辺」と「渡邊」と「渡邉」は全て別に扱っているのでしょう。

これは私がこのブログで分類している方法とは異なるため、総数を鵜呑みにはできないのでしょうが、おそらく総数としてはそれに近いものになるのでしょう。

0 件のコメント:

コメントを投稿