fc2ブログ

Unicode エスケープシーケンス 変換

Unicode エスケープシーケンス(\uXXXX)形式 に変換するもの
ついでにHTMLの数字文字参照、文字実体参照にも対応させてみた。

メモ

Unicode の UTF-8 エンコーディングは ASCII 文字と互換性があります。
Unicode 文字の U+0020 から U+007E までは ASCII 文字の 0x20 から 0x7E と同等です。
ASCII はラテンアルファベットをサポートしており、7 ビット文字セットを使用します。
UTF-8 は各文字について 1 オクテットから 4 オクテットを使用します。
(「オクテット」は 1 バイト、すなわち 8 ビット)。
\uXXXX形式 は多分、java、javascriptで使用可能。

数値文字参照(文字参照):数値文字参照は、10進数もしくは16進数によって文書文字集合における該当文字を指定する方法
例:
「©」(10進数による指定:©)
「©」(16進数による指定:©)

文字実体参照(実体参照):特定のキーワード文字列によって文書文字集合における該当文字を指定する方法
例:
「&#copy;」(文字列による指定:©)



変換対象文字指定
0-9 A-Z a-z スペース
改行(CRLF) 改行(LF) 復帰(CR) 水平タブ
ASCII文字以外
※改行コードは実行環境、ブラウザによって得られる結果が異なります。


通常標記(\uXXXX)形式でない



Unicode エスケープシーケンス

出力形式変更
\u1234 形式 Ӓ 形式(HTML用10進数) ሴ形式(HTML用16進数)
HTML用に変換時、文字実体参照で変換する。

参考:Unicode - MDC
参考:文字参照 - Wikipedia

コメントの投稿

非公開コメント

Flashカレンダー
FC2カウンター
最新記事
カテゴリ
ユーザータグ

設定 文字コード 用語 HTML SyntaxHighlighter JavaScript 特殊文字 MySQL Add-ons CSS Wordpress Firefox 

検索フォーム
RSSリンクの表示