漢字ブラザーズのデータ入力
日本語で漢字を打ち込んだ後、ワンタッチで簡体字でも繁体字にでも変換できる機能を作るために、漢字変換テーブルのデータ入力を始めた。
その際、どれだけの日本の漢字を用意したら十分かが問題となるが、当面、日本の常用漢字1945字と人名用漢字でパソコンで打ち込める漢字、おそらく937字中700字くらい用意すればいいのではないかと思っている。
常用漢字をまず、エクセルに打ち込んだが、1945字って、少ないようで結構ある。仮名漢字変換を使って入力するので、結構時間がかかった。日本語から簡体字に変換できる機能を作った場合、普通自分の名前を入れてみたくなると思う。ところが、常用漢字は思ったほど人の名前に弱い。例えば、「あ」の行からデータ入力して気が付くが「阿部」さんの「阿」が常用漢字表にはない。もちろん人名用漢字にはあるが、こういった名前では良く見かける「龍」や「朋」や「亨」なども常用漢字にはなく、人名用漢字にしかない。
ただ、一方で人名用漢字はひところ字数が少ないとの批判にさらされ、2004年の9月に異体字を200字強認めたが、その中には簡単には読めない漢字やPCで出力が難しい字もある。それゆえ、人名用漢字からは可能な限りという制限を加えた。
国が基準を示している漢字には他に、表外漢字表(1022字)というものがあるが、これは次の段階ということで今回は外している。
エクセルにまず常用漢字表にある1945字を入力した。そして、次に各々の字に対応する簡体字(中国の漢化字総表掲載の文字)を入力していった。多少面倒だが、いちいちピンインを入力して候補を出し、その中から選んでいった。対応関係は「漢化漢字一夕談」白帝社を参考にさせてもらった。
|
簡化漢字一夕談―中国の漢字簡略化 著者:葉 籟士 |
日本の常用漢字と中国の簡体字を見比べながら入力しての感想は、時々思いもよらぬ簡略化がなされているので、日本の漢字から類推が利きにくい字もある、ということだ。漢字の偏と旁(つくり)で分けた場合、旁の画数が多いので、同じ音の画数の少ない別の字に置き換えたというなら納得がいく簡略化だが、偏を別のものに変えるというのは、そこまでやるか、という感じがする。
もう一つ思ったのは、漢字を中国語IMEを使って入力する際にアルファベットのピンインを、例えば「建」は「jian」と入力するのだが、音が似ているものが多く「juan」「xian」「quan」「qian」などあって、これらは別の音節なので、いくら探してもお目当ての漢字が出てこない。つまり、漢字を入力したいがピンインが分からないので、どこかからコピー&ペーストで持ってくるしかない。どう読むかわからないままだが。といったことが多いのではないかと推測される。
そんなわけで、漢字からピンインを探せられるのは便利な機能だと思った。それと、日本の漢字と簡体字の関係を楽しく習得できるようなものがあれば、きっと使いたい機能となるな、とも感じた。
今日は一日中PCの前で漢字入力だったので少し目が疲れた。でも、作ったデータはソフトウエアを作れば多くの人のツールとなりえるので、「無駄にはならない」と思えばまだ根性でデータ入力を続けられる。そう、向うには繁体字入力という山脈が待っているから弱音は吐けない。
| 固定リンク


コメント
> 日本の常用漢字と中国の簡体字を見比べながら入力
用途と全然外していたら申し訳ないのですが、
Unihan Database
http://www.unicode.org/charts/unihan.html
のテキストデータのVariant部分から
ある程度自動生成してしまう、という手は使えないでしょうか。
投稿: hyam | 2006年12月 1日 (金) 09時30分
コメントありがとうございます。hyamさん。
今日の昼間は、リンク入れて頂いたページからテキストデータをダウンロードできなかったのですが、先ほどできましたので見てみました。28MBの大きなデータでしたが、簡体字、繁体字、日本の漢字も混在していたり、同じコードが複数行に渡って英語でコメントが書いてあったり、ちょっと使い難い感じでしたね。
もし自動生成でテーブルの基礎を作るなら、例えば簡体字の場合、GB2312(K)が区位で定められているので、ループをかけてGBコードを生成し、その後、MultiByteToWideChar()というAPI関数があるので、これを使えばユニコード列にすることができますね。Big5も同様と思います。ただ、日本の漢字-簡体字-繁体字対応付けは、地道にやるしかないかなと思っています。(ちょっとしたツールは発見できたので補助には使おうと思っていますが)
どうも、心配して頂きありがとうございました。(^^)
投稿: ジャンルカ | 2006年12月 1日 (金) 19時29分
こんばんは。
ジャンルカさんのすごいところは、
どんな場合でも、ご自身でデータを作成される
ところだと思います。
これって、すごく大事なことを含んでいると思います。
で、hyamさんのおっしゃる自動生成も
便利だと思いますし、
それ以外にもいろいろ使えるものは
あるかもしれません。
たとえば、
GBコードからユニコードへの変換は、
プログラムを書かなくても、
エディターなどでコードを指定して保存したら、
可能だと思います。
(最初にループをかけてGBコードの表を
作成しないといけない、という点が残りますが。
...なんか楽な方法はないだろうか...)
[I日本の常用漢字と中国の簡体字を見比べながら入力]
に関してだと、
http://www.unicode.org/charts/unihansearch.html
ここで日本語の音か訓で検索すると、
対応する簡体字がみつかる場合があります。
また、日本の漢和辞典には、ピンインで中国語の
音を表示しているものもあります。
(簡体字が載っている訳ではありませんが、
中国語IMEで入力するときには役立ちます。)
私が高校生の頃買った漢和辞典には、ピンインも付いていました。
(今、部屋がちらかっていて、行方不明です。)
また、電子辞書で、CASIOのEX-wordを持っているのですが、
その中の漢和辞典「漢字源」にも
ピンイン表記が載っています。
GB2312からJISX0208(やJISX0212)への
変換プログラムとしては、
http://www.zinbun.kyoto-u.ac.jp/~dokisha/elisp.html
http://www5b.biglobe.ne.jp/~harigaya/
http://kanji.zinbun.kyoto-u.ac.jp/~yasuoka/program.html
など、いくつかあるようです。
投稿: chiyu | 2006年12月 2日 (土) 22時33分
韓国のサイトですが、
http://cndic.daum.net/
この中国語辞典も便利かもしれません。
投稿: chiyu | 2006年12月 2日 (土) 22時42分
chiyuさんへ、コメントありがとう。
リンク入れて頂いたところ行ってみました。
Unihanデータベースの検索、日本語の音、訓で検索できるのですね。ローマ字で入れると、文字列検索なので「含む候補」が多く出て探すの大変そうですが、面白いし、何かのときに役立ちそうです。
プログラムを作っていて思うのは、できるだけオリジナル性の高いものを作ろうという思いです。確かにデータ入力は、面倒で手間がかかるりますが、コツコツやっていると結構プログラムのアイディアが浮かぶんですね。それともう一つ、仮に他の人の作ったデータやプログラムに間違いがあった場合、それを使って問題が起こるのがいやなんです。
(意外と間違いあるものです)
そんなわけで、今回も手入力で常用漢字と人名用漢字の一部をベースにした簡体字対応表を入れました。これから数日かけてチェックする予定ですが、チェックの際は、いいツールや一覧表のサイト利用するかも知れません。
投稿: ジャンルカ | 2006年12月 4日 (月) 21時25分