2013年7月28日日曜日

沖と末と二に関して

「写録宝夢巣」がどのように苗字をデジタルデータにしているのかはわかりませんが、おそらく電話帳のデータをOCRで取り入れているんではないかと思うんです。
苗字のサイトというのはいっぱいありますが、「苗字の百貨店」以外は、かなりいい加減なものが多く、ありえない苗字をいっぱい載せています。
実在しない苗字をたくさん載せてしまう理由としては、このOCRの精度が悪いせいがあるんじゃないでしょうか?
もちろん載せた苗字が存在するかどうかの確認をしていないというのも問題なのでしょうが。


冲」という漢字は「沖」の簡体字となっています。
この「冲」という漢字を使った苗字は少数ながら実在しますね。スキャンミスではなく。
まあ簡体字という扱いなので、「沖」に併記する形に変更しました。
「写録宝夢巣」では、この程度の違いなら正確に読み取っている印象です。


ただし、これはスキャンミスだろうと思ったのが、いくつかあります。
例えば「未」と書いて「スエ」と読む苗字がいくつかあります。
どれもウェブの「写録宝夢巣」では全国で1-3件です。
普通に「末」と書いたものよりも圧倒的に少ないですし、facebookでは見つかりませんでした。
上か下かどちらの横棒が長いかだけの違いですし、スキャンミスであってもおかしくないと思いました。
それなので、「未」と書いて「スエ」と読む苗字の方の実在が確かめられないうちは、これは取り除こうと決めました。


もうひとつ、カタカナの「ニ」を用いた苗字です。
「二瓶」とか「二村」といった苗字で漢数字の「ニ」ではなく、カタカナの「ニ」を使った苗字があるというのです。
これはスキャンミスでしょう。
実在を確かめずに、カタカナの「ニ」を使った苗字がある!とは言いづらいです。
これも削除です。

苗字を数えるにあたり、ありえないと私が決めたものはいったん削除する方針としています。

0 件のコメント:

コメントを投稿