2013年7月31日水曜日

亀と寿に関して

亀のつく苗字は「亀井」、「亀田」、「亀谷」、「亀山」などと多いため、躊躇していましたが、実際に調べてみると旧字体の「龜」を使っている割合はかなり少なかったです。
戸籍に記載されている通りの字を使いたくなる漢字と、そうでない漢字があるのでしょうか。
実際、この「龜」は相当に難しいです。

調べていて悩んだのが、「鼈」と書く苗字があることです。
ウェブの「写録宝夢巣」では北海道に3件と石川県に1件ありました。
この「鼈」という漢字は「すっぽん」と読むそうです。
確かにスッポンは亀ですし、そういう意味では「鼈」で「かめ」と読んでも問題はなさそうですが…
他にこの漢字を使う苗字がなかったことと、件数が十分になかったこと、ウェブ上で検索したかぎりではこの苗字を持つひとを探しだせなかったことから、スキャンミスの可能性はないのかな?と不安になったのです。
悩みましたが、北海道に3件も集中しているのだから、間違いではないのだろうと思い、そのまま残しました。


もうひとつ「寿」も調べました。「陦」などを調べているときに、まとめて調べようと思っていたのですが、件数が多そうで躊躇していました。
当然ですが「寿」の旧字体は「壽」になります。読みとしては「じゅ」や「す」というものが圧倒的に多いですが、稀に「ひさ」というものもありました。
「寿」一字の苗字もあり、これはそのまま「ことぶき」と読むか、「としなが」と読むかでした。
かなり難読な苗字ですね。

2013年7月30日火曜日

蝿と縄と竃と秋に関して

新字体と旧字体がある苗字が200種類くらいあるみたいなので、1日に3つずつやっても半年以上かかってしまう計算です。
簡単そうなところから、どんどんと進めていきます。
「蝿」、「縄」、「竃」です。
これの旧字体はそれぞれ「蠅」、「繩」、「竈」です。


「蝿」なんて苗字として、ありえるのか?とも思いましたが、4種類ありました。
いずれも稀少ですが。


「縄」と「「竃(かま)」は、それぞれ結構ありました。
どれも旧字体を見て、新字体が想像できますよね。


これと少し似ていますが、「穐」と「龝」があります。
これらはどちらも「秋」という漢字の異体字です。
「秋」を用いた苗字のうち10000人以上いると思われるものだけでも「秋田」、「秋葉」、「秋元」、「秋本」、「秋山」、「秋吉」と6種類もありました。
「秋田」と書けば読めないひとはいないでしょうが、「穐田」と書かれると、とたんに読めなくなってしまいますよね。
「火」と「亀」なんてまるで違うものが新字体と旧字体の関係になるなんて不思議だなと思っていたら、ウェブ上に解説がありました。
もともとは「穐」という漢字の下に「灬」(レッカという部首、パソコンの種類によっては見えないかも)をつけた漢字だったそうです。つまりこの字は、亀の甲羅を火であぶって作物の出来・不出来を占う行為を表しており、そのような行為をする季節である「あき」を示すものとして、用いられてきたそうです。そこからに「レッカ→火」だけを残したものが「秋」になり、「亀」だけを残したものが「穐」になったとのことです。勉強になりますね。

「穐」や「龝」を普段から使っているひとは、頭では同じ漢字だと思っていても、いざ自分の苗字を「秋」で置きかえられたら妙な気分になると思います。
新字体と旧字体をまとめて集計して良いか悩むのは、こういうときです。

単に「亀」という漢字をもつ苗字に関しては、数が多そうだったので後日にします。
 

2013年7月29日月曜日

陦と涛と鋳と梼に関して

実際に旧字体と新字体を併せてひとつと数えようという試みを、いよいよ始めます。

まずは、あまり苗字としてあまり用いられない漢字で、新字体と旧字体の関係がわかりやすいものから。
「陦」、「涛」、「鋳」、「梼」からです。
これらの旧字体は、それぞれ「隯」、「濤」、「鑄」、「檮」です。
右側の「寿」が「壽」に置き換わっただけですね。
「寿」自体は数が多いのではないのかと考え、まだ調べていません。


それぞれ「しま」、「なみ orと or とう」、「い」、「ゆす or かす or うつ」と読みます。
あまり使われているのを見たことがない漢字ばかりですが、全て合わせると20種類くらいの苗字数になり、やはり苗字というのはバリエーションが豊富だなあと思いました。


ちなみに「あ行」の苗字だけに限っても10万人以上がいると考えられるものは55種類ありました。
1万人以上だと384種類でした。
1万人も同姓がいる苗字というと、すごくポピュラーな感じですが、全く聞いたこともない苗字がかなりあります。もちろん、それ以下だと更に稀な苗字といった印象です。

「苗字の百貨店」では「写録宝夢巣 ver.8」に載っていた件数を4.7倍し、四捨五入して上2桁までの概数で表示していました。
これを全て合計すると1億2900万人になりました。
まあ、そうなるように4.7という数字を出しているので当然でしょうが。

2013年7月28日日曜日

沖と末と二に関して

「写録宝夢巣」がどのように苗字をデジタルデータにしているのかはわかりませんが、おそらく電話帳のデータをOCRで取り入れているんではないかと思うんです。
苗字のサイトというのはいっぱいありますが、「苗字の百貨店」以外は、かなりいい加減なものが多く、ありえない苗字をいっぱい載せています。
実在しない苗字をたくさん載せてしまう理由としては、このOCRの精度が悪いせいがあるんじゃないでしょうか?
もちろん載せた苗字が存在するかどうかの確認をしていないというのも問題なのでしょうが。


冲」という漢字は「沖」の簡体字となっています。
この「冲」という漢字を使った苗字は少数ながら実在しますね。スキャンミスではなく。
まあ簡体字という扱いなので、「沖」に併記する形に変更しました。
「写録宝夢巣」では、この程度の違いなら正確に読み取っている印象です。


ただし、これはスキャンミスだろうと思ったのが、いくつかあります。
例えば「未」と書いて「スエ」と読む苗字がいくつかあります。
どれもウェブの「写録宝夢巣」では全国で1-3件です。
普通に「末」と書いたものよりも圧倒的に少ないですし、facebookでは見つかりませんでした。
上か下かどちらの横棒が長いかだけの違いですし、スキャンミスであってもおかしくないと思いました。
それなので、「未」と書いて「スエ」と読む苗字の方の実在が確かめられないうちは、これは取り除こうと決めました。


もうひとつ、カタカナの「ニ」を用いた苗字です。
「二瓶」とか「二村」といった苗字で漢数字の「ニ」ではなく、カタカナの「ニ」を使った苗字があるというのです。
これはスキャンミスでしょう。
実在を確かめずに、カタカナの「ニ」を使った苗字がある!とは言いづらいです。
これも削除です。

苗字を数えるにあたり、ありえないと私が決めたものはいったん削除する方針としています。

2013年7月27日土曜日

治と冶に関して

「治」と「冶」も新字体と旧字体の関係ではないですよね。
当たり前でしょうが。
「冶」を普通に「ヤ」と読む苗字というのは、かなり少ないです。
「永冶(ナガヤ)」と「塩冶(エンヤ)」をはじめとして十種もないくらいだと思います。
ほとんどは「鍜冶(カジ)」という単語を用いた苗字です。

私は、これを勘違いしていました。
「鍛冶」が正しく、「鍛治」は間違い。
だから「鍛治」というサンズイの方はスキャンミスなのだろう、と。
実際に調べてみると、もともとは鍛冶屋という単語が正しいようで、地名としても鍛冶町の方が多いのですか、鍛治町も実は結構あるみたいで。
平安時代からあった誤記ということらしいです。
といったわけで、「鍛冶」が入る苗字と「鍛治」が入る苗字はほとんど同数くらいで、地域によっては圧倒的に「鍛治」の方が多いものもありました。
もちろん、これらは別々に集計しました。

他に「鍜治」と書いて「カジ」と読む苗字もありますね。
こちらも「鍜」と「鍛」とは全く別の漢字なので、新字体と旧字体の関係とはなりません。
これも別集計です。
ニスイの「鍜冶」というのもありましたが、これはかなり少数派でした。
「鍜」の後にくるのは、なぜかサンズイの「治」が圧倒的に多いのです。

苗字を調べているだけで、なぜか漢字にも詳しくなってしまいますね。

2013年7月26日金曜日

洌と冽に関して

これからは「苗字の百貨店」を参考にして、旧字体と新字体をできるだけ統一していきたいと思います。
「苗字の百貨店」では、稀少な苗字の場合、旧字体を併記しています。
例えば、「渡辺」のような数のある苗字の場合、「渡辺」と「渡邊」、「渡邉」のそれぞれの数を出していますが、これが稀少苗字の場合、「渡辺(渡邊・渡邉)」という形で書かれています。

これを利用して、カッコつきで紹介されている苗字だけを集めて、そこから旧字体と新字体の関係にあるものだけを取りだし、重複を削りました。
約200種ありました。
結構ありますね。
とりあえず、簡単そうなのから整理していこうと思ったのですが、これは旧字体と新字体の関係ではないだろうと思った組みあわせがありました。
ひとつは、「治」と「冶」で、もうひとつが「洌」と「冽」です。


まずは「洌」と「冽」から考えました。
wiktionaryによると、このふたつは異体字の関係にあるとのことで、意味も一緒。
ともにJIS第2水準。
部首がサンズイとニスイという違いだけです。
悩ましいですが…
「写録宝夢巣」と「facebook」では、「洌」を持つ苗字はたくさんありましたが、、「洌」を「冽」に変えると全くひっかりませんでした。
これは幽霊苗字の可能性があるのかなあ?と思い、実在を確かめるまではニスイの方は削ってしまいました。

ちなみに「洌」は「レツ」とか「きよい」という読みがあるようですが、苗字に用いられるときは全て「ス」という読みでした。
知らないと読めませんね。

2013年7月25日木曜日

利用しているサイト

ある程度、苗字の読みに関して自分なりのルールを決めてこれたので、次は新字体と旧字体の統一をしていきたいと思います。
最初にも記載したように、私は「苗字の百貨店」というサイトが好きで、それを参考にしています。
http://homepage1.nifty.com/forty-sixer/

そこが今は閉鎖してしまっています。
仕方がないので、「Interner Archive」を利用して「苗字の百貨店」の過去のページをコピーしてきました。
http://archive.org/index.php

「写録宝夢巣」というサイトも利用しています。
http://www2.nipponsoft.co.jp/bldoko/index.asp

「苗字の百貨店」はこれのCD-ROM版を利用しているとのことです。
2004年に発売されたver.8版というのを利用しているそうです。
これは更新されており、2012年にver.16が発売されています。
新しければ良いかというわけではなく、電話帳に名前を載せるひとは減っていますし、そもそも固定電話を持たないひとも出ているわけで。
しかし、古い「写録宝夢巣」を入手するのも難しいため、私はもっぱらウェブ上の「写録宝夢巣」を利用しています。

「facebook」も利用しています。なかなか実在が確認できないような希少苗字や読みが見つかることもあり、重宝しています。

後は「Wikitionary」と「文字拡大」のサイトです。
これで、各漢字の意味とか読みとかを調べています。

http://ja.wiktionary.org/wiki/%E3%83%A1%E3%82%A4%E3%83%B3%E3%83%9A%E3%83%BC%E3%82%B8

http://moji.tekkai.com/

後、「wikipedia」も参考にすることが多いです。

2013年7月24日水曜日

生に関して

「おお」と「おう」の統一をはかっていて気づいたことのひとつとして、「生」という漢字の読みの多さがあります。
これが本当に多い。
「い」、「う」、「お」、「き」、「せ」、「も」、「ぶ」、「いき」、「いく」、「うぶ」、「おい」、「しょう」、「せい」、「なま」、「なる」、「はえ」など。
「いき」と「いく」は、かなり似ていますけど、やっぱり異なる読みなんだろうなとは思います。
ただ、「柳生」を「やぎゅう」と読むか「やぎう」と読むかは統一しておいた方が良いかなと思いました。

地名としては「柳生」や「羽生」は「やぎゅう」であり、「はにゅう」です。
なので、「◯生」という苗字に関しては、◯の部分の文字の最後の母音を除いてyuという音を続けるのを通常としました。
「羽生」は「はね+う=はねう」ならともかく、「はにう」という読みは不自然な気がしたのです。
他に有名なものとしては「瓜生」とか「桐生」とかでしょうか。

明らかに読みのちがいがささいなものに関して別の苗字として扱わず、どちらかに統一しておこうというのが私自身の決めたルールなのですが、悩ましいものもたくさんありました。
最も悩んだのが「狩野」という苗字の読みです。
やはり「狩野派」という言葉もありますし、読みで多いのは「かのう」です。
ただ「野」という漢字単独では「のう」という読みはないはずですし、その意味では「かの」の方が自然です。発音したりするだけならどちらでも構わなさそうですが、これを別と扱うか統一するか?
統一するならば、どちらの読みを採用するか?
現時点では決められませんでした。
他にも「能」とか「納」とかを用いる苗字では、これを「の」と読んだり「のう」と読んだりとバラバラで、非常に悩みました。
結論としては今の時点では、それに関しては決めず、先へ進んでいこうということにしました。

2013年7月23日火曜日

「ぢ」と「づ」に関して

「ぢ」と「づ」も難しい問題で、発音としては「じ」、「ず」と一緒なわけです。
だから一文字目に「ぢ」や「づ」がくる苗字はないはずなんです。
でも二文字目であれば、「ぢ」や「づ」を使った苗字は結構ありますよね。
発音が同じであれば、別苗字としてカウントするのはどうかと思うので、そういう場合はどちらかに統一しました。

「地」とか「治」とかは二文字目であっても「じ」に統一しましたが、「父」とか「千」とか「知」が二文字目以降にあった場合、濁点がついたとしても「じ」にはせず、「ぢ」としました。

「づ」も同じ理屈で、「津」とか「塚」とか「妻」が二文字目以降にあった場合は濁点があっても「ず」とはしませんでした。
悩んだのが、「◯水流」という苗字です。「◯水流」という苗字は珍しいようですが、全て合わせると十種類を軽く超えるくらいあります。
そのうち半分以上で、「水流」を「ずる」としていました。でも「水流」だけだと地名であっても苗字であっても「つる」なんですよね。
なので、これも、その苗字を持つ方が名乗っているものとは異なっているかとは思いましたが、全て濁点がつくときは「づる」としました。

「ぢ」のつく苗字を調べていたときに「千千◯」という苗字をいくつか見つけました。もちろん「ちぢ◯◯」という読みなわけですけど、漢字表記としては「千々◯」が普通な気がします。もちろん「千々◯」という苗字もありました。でも実際には「々」を使っていない苗字も結構ありました。
「佐々木」ではなく、「佐佐木」なわけです。
「佐々木」さんと、「佐佐木」さんは別なのか?ちょっと分かりませんでした。でも「佐佐木」で検索して見つかるのはペンネーム的なものばかりだったようなので、これもとりあえず統一してしまいました。
つまり同じ漢字を重ねて用いている苗字と「々」を使っている苗字は同一のものとして扱うことにしました。
戸籍上は「佐々木」なのだろうと判断したためです。

2013年7月22日月曜日

十に関してと、現時点での苗字の総数

最初の時点で、「苗字の百貨店」からコピーしてきた苗字の総数です。

「あ行」は18,085種類
「か行」は17,957種類
「さ行」は13,497種類
「た行」は13,145種類
「な行」は6,277種類
「は行」は11,104種類
「ま行」は9,737種類
「や行」以降は6,713種類
でした。
合計で96,515種類です。
これは私の考える苗字の数え方とは微妙に違うので、あくまで概数になるわけですが、おおむねこれくらいの数なのでしょうね。

前回、「とお」という読みの苗字を調べていて思ったのですが、「十」という漢字の読みというのは「じゅう」か「とお」か「じっ」のはずで、例えば「十日」という時の入った苗字があったとしたら、読みは「とうか」ではなく、「とおか」になる方が自然な気がするのです。
「十返舎一九」は「じゅっぺんしゃ」ではなく、「じっぺんしゃ」ですよね。
ただし、実際に正しいと思える方の読みが、必ずしも多数派とは限らないようで。
悩みましたが、私としては苗字の総数を数えるのが目的なので、読みに関しては多い方よりも自分が正しい方を取ろうと思いました。
だから「十」に関しては、「とう」や「じゅっ」の方が多いとなっているものに関しても、「とお」や「じっ」という読みを残してしまいました。
「十」は他に「と」や「そ」といった読みもありますね。

かなり細かな修正ですが、これで少しだけ読みを整理しました。

2013年7月21日日曜日

佐藤の読み

苗字の数え方を決めたところで、実際に始めてみます。
「苗字の百貨店」の一覧をExcelにはりつけました。
まず日本で最も多いと言われている「佐藤」を見てみました。
全部で約200万人もいるとなっています。

しかし、読み方が多数ありますね。
「さとう」だけでなく、「そとう」、「さとお」、「さふじ」、「さいとう」とカッコつきで他に4つもでていました。

私は、「佐藤」と書いて「さとう」と読むひとにしか会ったことがないのですが、「佐藤」と書いて「そとう」とか「さいとう」とか読むひともいるのでしょうか!
いくらなんでも誤植じゃないのでしょうか!
実際にいたとしたら、常に「いや私はサトウではなくサイトウです」と説明しなくてはなりません。いくら苗字の読みが自由だとしても、あまりにも訂正する機会が多いのはいただけません。
すごい強い意志を持ったひとがいて「佐藤」と書いて「さいとう」と読ませ続けられるひとがいたとしても次世代のひととかまで続けられるのか…
「さふじ」ならともかく、「そとう」や「さいとう」は言われても読めませんからね。
「さとお」もそうです。
「苗字の百貨店」を見ていると、「伊藤(いとお)」とか「加藤(かとお)」とか「藤」と書いて「とお」と読むものがかなりありました。
読み方は自由ですが、発音したらあまり変わらないのに別苗字とカウントするのは私の決めたルールに反します。
「佐藤」という苗字に対する読みとして、「さふじ」だけはカッコつきで残すことに決めて後は削除することにしました。
私自身が「佐藤」と書いて「そとう」とか「さいとう」とか名乗っているひとに出会ったら、改めて加えることとします。

といったわけで、「おお」、「こお」、「そお」、「とお」、「のお」、「ほお」、「もお」、「よお」、「ごお」、「ぞお」、「どお」、「ぼお」、「ぽお」をExcelで検索し、読みがほとんどかわらないものを削除していきました。
どちらを残すか難しいものは漢字の本来の読みを考えて断定してしまいました。
「大」とか「多」とかは「おお」だけを残し、「王」とか「応」は「おう」だけを残しました。
実際にはそう名乗っていないという場合もあるのかもしれませんが、私の目標はどれくらい苗字があるのか数えたいというものなので、「大島(おおしま)」さんと「大島(おうしま)」さんを別苗字とカウントする気にはならなかったのです。

2013年7月20日土曜日

はじめに

日本の苗字というものに興味があって、ずっと「苗字の百貨店」というサイトを覗いていました。
そのサイトがこの夏くらいから閉鎖されてしまいました。
仕方がないので、Internet Archiveを用いて、過去の「苗字の百貨店」を探しだし、可能な限り、コピーしてみました。
だいたい、日本にどれくらいの苗字があるのか?
はっきりとは分かりませんが、10万件以下くらいのようです。

ただし、苗字の数え方には定義というものがありません。
「苗字の百貨店」は総数を明らかにする目的のサイトではなかったので、そこのところは非常にアバウトでした。
管理人さんの姿勢は一貫していて、実在する苗字と実在する読みにこだわっていました。
そこのところが非常に好きでした。

しかし、いったい日本に苗字がどれくらいあるのかを知るのに定義を決めないことには始まりません。
それなので、私なりに基準を決めました。

①新字体で置き換えられるものは置き換え、まとめて数える。
 
 これは、「渡辺」さんと「渡邊」さんと「渡邉」さんは全て「渡辺」さんとして扱うということです。戸籍上では旧字体で登録されている場合でも新字体を使うか旧字体を使うかは全く本人の自由なので、総数がわかりにくくなるかと考えたからです。
なかには同一とすべきか悩ましい漢字もあるのですが…

②読みが明らかに異なる苗字は別として扱う。
 「苗字の百貨店」では、漢字ごとにひとつの苗字としていて、例えば「河野(かわの)」さんと「河野(こうの)」さんはひとつに扱われています。でもこれは明らかに別の苗字なのでふたつの苗字と考えたいと思ったのです。

③あまり違わない読みは同一と考える。
 ②と矛盾しているようですが、例えば「浜崎(はまさき)」さんと「浜崎(はまざき)」さんは異なっているようで、あまり違いがない気がするんです。戸籍に載っているのは漢字のみで、フリガナはないんですね。だから「浜崎(はまざき)」さんが就職を機に「浜崎(はまさき)」さんに変えてしまおうというのはできないことではないはずなんです。なので濁点の有無だけで、別の苗字として扱うのは厳しいのかなと…

④あまりにも稀少な苗字は考えない。
 「苗字の百貨店」では全国に2件以上登録されている苗字はほぼ網羅してあるみたいです。よってここに載っていない苗字はかなり稀なものになってしまうと思います。そしてそれを足していくとキリがなくなってしまう気がするのです。例えばスポーツ選手などが帰化して日本の苗字を持ったとしますよね。それを後から足していくと、本当に際限がなくなってしまうのです。そもそも全国に1件くらいしかない苗字では20年後もその苗字が存在するか不明ですし。

以上の点を踏まえて、実際に日本には苗字がどれくらいあるのかを数えていきたいと思います。



**追記:
当ブログのホームページと掲示板も完成しています。興味がある方は併せてよろしくおねがいします。

「日本の苗字を数えるHP」
https://sites.google.com/site/ribennomiaoziwoshueruh/

「「日本の苗字を数えるHP」の掲示板」
http://9312.teacup.com/myoji/bbs