Unicode 正規化とは?
Unicode には 正規化という、「⑳」「20」や「A」「A」のように同じ意味なのに異なる形で書かれた文字をそろえる仕組みがあります。
正規化を行うことで情報の冗長性を削減し、表記ゆれを減らしたり検索の動作を均一化することができます。
PowerCMS で使っている NFKC 形式の正規化と変換例
PowerCMS ではいくつかの機能で NFKC 形式への Unicode 正規化を行っています。
NFKC 形式への変換例としては次のようなものがあります。
| 種類 | 変換前の記述 | 変換後の記述 |
|---|---|---|
| フォントの違い | ℋ | H |
| リガチャ | ffi | ffi |
| 丸付き数字 | ⑳ | 20 |
| 数字 | ⅜ | 3/8 |
| 括弧付文字 | ㈱ | (株) |
| 全角の英数字 | A | A |
| 半角のカタカナ | ア | ア |
| 四角文字 | ㌕ | キログラム |
このほか、どのような変換が行えるかは Unicode のドキュメントを参照してください。各ページの表中、「Code」列が変換の対象、「KC」列が NFKC の変換結果です。
- 一覧へ


