そもそも、「沢」と「澤」、「辺」と「邊」のようなものを分けて集計しているのはおかしいのでまとめようという趣旨で「日本の苗字を数える」というサイトを作っています。
当初は軽く考えていて新字体と旧字体をまとめればそれで良いかと思っていたのですが、とてもそれだけでは済まず。
例えば「竜」と「龍」、「万」と「萬」などは新字体と旧字体の関係にありますが分けて集計しています。
逆に全くの別字であっても一般的に区別されていなさそうであれば、まとめるようにします。
「采」と「釆」、「萱」と「萓」などですね。
基本的にJIS第1水準の漢字であれば異体字の関係にあっても全て別字として集計しています。
「島」と「嶋」、「富」と「冨」などですね。
悩ましいものはそのつど検討してきたのですが、判断材料としているもののひとつがJIS基準です。
JIS第3水準以下のもので、他に置きかえられるものがあるのであれば置きかえるというものです。
具体的に説明します。
「実在苗字(名字)辞典」では”合算している字”として次のようなものを挙げていました。
「吉」に対する「𠮷」、「崎」に対する「﨑」、「高」に対する「髙」、「浜(濱)」に対する「濵」、「柳」に対する「栁」と「桺」、「瀬」に対する「瀨」、「桑」に対する「桒」、「宜」に対する「冝」、「徳」に対する「德」、「杉」に対する「杦」、「松」に対する「柗」、「柿」に対する「柹」、「栃」に対する「櫔」、「鶴」に対する「靍」と「靏」と「靎」、「昇」に対する「曻」、「土」に対する「圡」と「𡈽」、「丈」に対する「𠀋」などです。
他にも載っていたのですが、そもそも普通に表示できないものは検討に値しないので出しませんでした。
分かりやすい方からいくと、「吉」に対する「𠮷」、「高」に対する「髙」、「徳」に対する「德」あたりでしょうか。
このあたりはこだわる方はこだわるかもしれませんが、わざわざ分けて載せるほどでもありません。
これらの線引きをするのに持ちだした概念が”JIS第3水準以下の漢字で別のものに置きかえられるものがあるときは置きかえる”です。
「浜」という漢字の異体字としてJIS第2水準である「濱」は併記扱いとするが、第3水準の「濵」はわざわざ載せたりしないということです。
「濵」と「濱」なんて混同している方も多いと思います。
「崎」と「﨑」、「柳」と「栁」、「瀬」と「瀨」もいちいち断らなくても異体字だと思うか、そもそも区別していないかではないでしょうか。
それらを元に最初に戻ると、一般的に考えて異体字の関係にあると思われていないものとしては「柳」に対する「桺」、「杉」に対する「杦」、「松」に対する「柗」、「柿」に対する「柹」くらいでしょう。
これらは例外的に分けるので良いかなと思っています。
0 件のコメント:
コメントを投稿