Unicode エスケープシーケンス 変換
Unicode エスケープシーケンス(\uXXXX)形式 に変換するもの
ついでにHTMLの数字文字参照、文字実体参照にも対応させてみた。
ついでにHTMLの数字文字参照、文字実体参照にも対応させてみた。
メモ
Unicode の UTF-8 エンコーディングは ASCII 文字と互換性があります。
Unicode 文字の U+0020 から U+007E までは ASCII 文字の 0x20 から 0x7E と同等です。
ASCII はラテンアルファベットをサポートしており、7 ビット文字セットを使用します。
UTF-8 は各文字について 1 オクテットから 4 オクテットを使用します。
(「オクテット」は 1 バイト、すなわち 8 ビット)。
\uXXXX形式 は多分、java、javascriptで使用可能。
数値文字参照(文字参照):数値文字参照は、10進数もしくは16進数によって文書文字集合における該当文字を指定する方法
例:
「©」(10進数による指定:©)
「©」(16進数による指定:©)
文字実体参照(実体参照):特定のキーワード文字列によって文書文字集合における該当文字を指定する方法
例:
「&#copy;」(文字列による指定:©)