> 情報検索の基礎知識 > 6

6. 異体字と正規化


◆異体字と正規化

(1) 異体字の扱いについて

異体字のある文字の検索は難しいので注意が必要である。

ヒット数が想定より少なかった場合は、データに入力された文字が、キーワードに使用したものとは別の異体字である可能性もある。
その場合は、複数の異体字を「OR」で組み合わせて検索することも考えられる。

また、システム的に可能な場合は、「読みがな」で検索することも考えられる。
キーワードに「かな」を使うことによって、複数の漢字表記をまとめて検索できるため、検索漏れが減少することが期待できる。

ただし、「読みがな」も万能ではない。
同じ漢字表記に複数の「読み」が存在する場合は、逆に検索漏れが増加する可能性もある。

システムによっては、文字の表記の揺れの影響を抑えるために、文字の「正規化」を行う場合もある。
「正規化」の方法はシステムによって異なるため、それぞれの特徴をよく理解して使用する必要がある。

なお、「常用漢字表」には、異体字のある文字については「いわゆる康熙字典体」が添えられているので参考になる。

文化庁 - 常用漢字表(平成22年内閣告示第2号)

(2) 文字の「正規化」 (CiNii Books の場合)

CiNii Books では、検索の効率化のため、ある一定のルールに従って、異体字を同一文字とみなしてまとめてヒットするように設計されている。
CiNii Books のシステムでは、これを「正規化」と呼ぶ。
その結果、意味的にはほとんど同一の語句で表記が揺れる場合などに、異なった表記もまとめて検索することができるため便利である。
ただし、いったん正規化されたものは常にまとめてヒットしてしまうため、逆にノイズが増加して不便な場合もある。

CiNii Books で正規化の対象となる文字には、以下のようなものがある。

▼常用漢字の新字と旧字
  • 沢 / 澤
▼常用漢字以外の漢字も含めた異体字(本字、古字、俗字など)
  • 野 / 埜
▼英数字の半角と全角
  • Miyazawa / Miyazawa
▼英字の大文字と小文字
  • MIYAZAWA / miyazawa
▼ひらがなとカタカナ
  • みやざわ / ミヤザワ