何故Unicodeを使わないのだろう?
何故Unicodeを使わないのだろう?
日本語の場合は言わずと知れたSJIS等のある意味決めうちの文字コードの方がメモリも少なくて済むだとか、過去との互換性というあたりが主な理由になるのだろう。
これがコプト語やシリア語(アラビア語ではなく、アラム語の末裔で、東のアラム語が発展したものと考えられている)等Unicodeのバージョンが若いころには無かった(あるいはコプト語のようにギリシア語といっしょくた)という物では単純に無いから使えないという事が続いて来た。
Unicodeのバージョンが5.0を超えるようになると、こうした言語への対応もしっかりとしてきたので、いい加減Unicode使ってよと考えるのだが、残念ながら事はそうは簡単ではないらしい。
まずこうした新たに登録された言語の文字が置かれた場所がUTF-8でE2B280とかとんでもない場所にあったりするという事。
古いOSで対応できない物がある事(場合によってはCuneiformCompositeのように𒀀F0928080とか、BMPどころかSMPにあるという物すらある)。
次いで文字の入力に使えるInputMethodが無い事。コプト語やシリア語のようなアルファベットに類する文字を使う言語の場合、フォントを変える事でその言語を表示させる事が伝統的に行われているので今更それを変更する程のメリットがないと考えられる主要因になっていそうだ。
これと同様にフォントの問題もある。伝統的なローマ字置換形では手頃に入手可能なフォント作成ツールですぐに文字が作れるが、Unicodeにきちんと対応させるとなると、こうした遠い場所のコードの文字を作るのは厄介になる。
結局1つずつ解決されていかないとUnicodeで楽ができるという世界は遠い。
というか、FC2の入力がどーやってもEUC_JPから離れられないのはデータベースの設定かな?最終的にBlogspotしかお手軽マルチリンガルBlogはないってことかな?(もちろん自前でmovable typeとか使える所は別として)。
日本語の場合は言わずと知れたSJIS等のある意味決めうちの文字コードの方がメモリも少なくて済むだとか、過去との互換性というあたりが主な理由になるのだろう。
これがコプト語やシリア語(アラビア語ではなく、アラム語の末裔で、東のアラム語が発展したものと考えられている)等Unicodeのバージョンが若いころには無かった(あるいはコプト語のようにギリシア語といっしょくた)という物では単純に無いから使えないという事が続いて来た。
Unicodeのバージョンが5.0を超えるようになると、こうした言語への対応もしっかりとしてきたので、いい加減Unicode使ってよと考えるのだが、残念ながら事はそうは簡単ではないらしい。
まずこうした新たに登録された言語の文字が置かれた場所がUTF-8でE2B280とかとんでもない場所にあったりするという事。
古いOSで対応できない物がある事(場合によってはCuneiformCompositeのように𒀀F0928080とか、BMPどころかSMPにあるという物すらある)。
次いで文字の入力に使えるInputMethodが無い事。コプト語やシリア語のようなアルファベットに類する文字を使う言語の場合、フォントを変える事でその言語を表示させる事が伝統的に行われているので今更それを変更する程のメリットがないと考えられる主要因になっていそうだ。
これと同様にフォントの問題もある。伝統的なローマ字置換形では手頃に入手可能なフォント作成ツールですぐに文字が作れるが、Unicodeにきちんと対応させるとなると、こうした遠い場所のコードの文字を作るのは厄介になる。
結局1つずつ解決されていかないとUnicodeで楽ができるという世界は遠い。
というか、FC2の入力がどーやってもEUC_JPから離れられないのはデータベースの設定かな?最終的にBlogspotしかお手軽マルチリンガルBlogはないってことかな?(もちろん自前でmovable typeとか使える所は別として)。
Unicode 5.0
世間的にはWindowsVistaで(日本語の)文字表示がおかしくなるとかなんとかという話が盛り上がっているようですね。JISの2004年版あたりの規格に入った文字が通常のBMPではなく、サロゲートしないと出てこないSMPだのSIPあたりにあると言うのがその原因らしく、2バイト決め打ちをしちゃってるようなプログラムだとタコると。どうも日本語=2バイトというのが脳裏にこびりつき過ぎてるんじゃなかろうか?と言う気がします。
まぁ、そんな事は私の様なほとんどWindowsを使わない人の場合どうでもよくて、Unicodeが昨年の暮れには5.0になっちゃったよ!って事の方が重大(w。
MacOSX用のソフトにUnicodeCheckerという至極便利なソフトがあるのですが(例えばこの文字のUnicodeのコードはいくつ?からUnicodeからxhtml表示への変換とかそういう事もできる)、これもそれに伴ってバージョンを1.1に上げてUnicode5.0対応になっています。
で、今回のバージョンアップで気になっていたのが古代文字関係。考古学好きにはとても重要な世界で、プロポーザルも古代エジプト聖刻文字基本とか出まくってたわけですが、今回SMPにシュメール、アッカドの楔形文字が登録されました。楔形文字はすでにウガリトのアルファベットの文は登録されているので、だいぶ網羅したはず。ちょっとまだ字形を全部見る暇もないのですが、アッカド王朝時代の(ウルとかあのへん)の文書をテキスト化あるいはデータベース化するのに便利かもしれません。というか、このあたりのコードポイントを押さえたフリーのフォントが出てこないとかな?まずは。
ちなみに4.0までは無料で誰でも規格書のPDF版をDLできましたが、今回は2月過ぎまではお預けで、それまでは書籍を買ってね。ということだそうです(笑)。英語なんで、買っても読み終わる前にまちがいなくフリーでDLできるようになっちゃいそうですね(w。おとなしく買わずに行きましょう(w。
まぁ、そんな事は私の様なほとんどWindowsを使わない人の場合どうでもよくて、Unicodeが昨年の暮れには5.0になっちゃったよ!って事の方が重大(w。
MacOSX用のソフトにUnicodeCheckerという至極便利なソフトがあるのですが(例えばこの文字のUnicodeのコードはいくつ?からUnicodeからxhtml表示への変換とかそういう事もできる)、これもそれに伴ってバージョンを1.1に上げてUnicode5.0対応になっています。
で、今回のバージョンアップで気になっていたのが古代文字関係。考古学好きにはとても重要な世界で、プロポーザルも古代エジプト聖刻文字基本とか出まくってたわけですが、今回SMPにシュメール、アッカドの楔形文字が登録されました。楔形文字はすでにウガリトのアルファベットの文は登録されているので、だいぶ網羅したはず。ちょっとまだ字形を全部見る暇もないのですが、アッカド王朝時代の(ウルとかあのへん)の文書をテキスト化あるいはデータベース化するのに便利かもしれません。というか、このあたりのコードポイントを押さえたフリーのフォントが出てこないとかな?まずは。
ちなみに4.0までは無料で誰でも規格書のPDF版をDLできましたが、今回は2月過ぎまではお預けで、それまでは書籍を買ってね。ということだそうです(笑)。英語なんで、買っても読み終わる前にまちがいなくフリーでDLできるようになっちゃいそうですね(w。おとなしく買わずに行きましょう(w。
MacOSXとSamba
先日ようやく10.4.7アップデータが配布された。これの一つ前、10.4.6にアップデートした所でWindows98SEやMeなどの9x系と称されるシステムからOSX上のsmb共有ファイルへのアクセスができなくなっていた問題が解消された。
Windows2000やXPではOSX側からアクセスしても問題ないのだが、9x系では日本語のファイル名が化けまくるのだ。Windows9xなどだとデスクトップフォルダもカタカナの1バイト文字になっているため、どこに何があるかわからない。
このためWindows98などがある環境ではWindows側からアクセスしなければならなかったのだが、10.4.6アップデートの際sambaのセキュリティーを司る共有ライブラリがおかしくなったらしく、アクセスが不能という事になってしまった。
現在の10.4.7が登場してこれは解消されたけれど、かなり長い期間不便を強いられた。まぁ、AppleもMSもこんな古いOSは知らん!って事だとおもうけど、古いマシンはこういう古いOSしか動かんのだよ。で、そういうマシンを後生大事に使う人もね。無駄に買い替える馬鹿ばかりではないのだ(と、遠吠えしてみる)
Windows2000やXPではOSX側からアクセスしても問題ないのだが、9x系では日本語のファイル名が化けまくるのだ。Windows9xなどだとデスクトップフォルダもカタカナの1バイト文字になっているため、どこに何があるかわからない。
このためWindows98などがある環境ではWindows側からアクセスしなければならなかったのだが、10.4.6アップデートの際sambaのセキュリティーを司る共有ライブラリがおかしくなったらしく、アクセスが不能という事になってしまった。
現在の10.4.7が登場してこれは解消されたけれど、かなり長い期間不便を強いられた。まぁ、AppleもMSもこんな古いOSは知らん!って事だとおもうけど、古いマシンはこういう古いOSしか動かんのだよ。で、そういうマシンを後生大事に使う人もね。無駄に買い替える馬鹿ばかりではないのだ(と、遠吠えしてみる)


