> 情報検索の基礎知識 > 5

5. トランケーション、前方一致、後方一致、中間一致、両端一致、完全一致


◆トランケーション、前方一致、後方一致、中間一致、両端一致、完全一致

(1) トランケーション (truncation) の目的

トランケーションを利用した検索の目的は「検索漏れ」を減少させることにある。
トランケーションという用語は、一般には、「何かの端の部分を切り取ること。および、切り取られた結果のもの」を意味する。
検索システムにおいては「あるキーワードの一部分が一致したものをヒットとする」ことを意味し、日本語では「部分一致」と呼ばれる。

トランケーションは、欧米の言語に多くみられるように、単語と単語がはっきり分かれていて、さらに、ある語が場合によって変化(単数と複数、格変化、時制の変化など)するような言語の場合に効果的であるとされる。
一方、日本語のように言語的に大きく異なる言語では、逆に、思いがけない「ノイズ」が増加してしまう場合もあるため、注意が必要である。

トランケーションと同様に「検索漏れ」を減少させる手段には、論理演算の「OR (論理和)」がある。
それぞれに特徴があるので、場合によって使い分けるとよい。

(2) トランケーションの例

英語の単語「child」は、複数形では「children」となる。
この両方をまとめてヒットさせたい場合、先頭の5文字が「child」の「前方一致」とすればよい。
この場合、6文字目以降は任意の文字でよいので、両方ともヒットすることになる。

ただしこの例では「childhood」や「childish」などもヒットしてしまうので、その点は注意しなければならない。
予期しない「ノイズ」が大量に発生する可能性もあるため、語句は慎重に選択する必要がある。

(3) トランケーションの種類

一致させたい部分によって、大きく分けて、以下の4種類がある。

(4) トランケーション(部分一致)と完全一致について

あるキーワードだけを検索したい場合、トランケーションは「ノイズ」が増えるので、かえって不便である。
したがって、ヒットさせたいものが明確に限定される場合は、「完全一致」を用いた方が効果的である。
たとえば、人名の「Child」さんを検索する場合には、「children」などは明らかに不要なため、完全一致の方が効果的である場合が多い。

(5) 最近の検索システムとトランケーションの関係

古い検索システムにおいては、検索キーとして使用できるものは、システムの管理者によってあらかじめ準備されていたキーワードだけであった。
したがって利用者は、「キーワードとして使用できるものは何か?」という知識を事前に学ぶ必要があった。
このようなシステムにおいては、限られたキーワードを効率的に使用するために、「トランケーション」が重要であった。

一方、最近の検索システムでは、入力されたキーワードをシステムが自動的に「意味のある部分」に分割し、それらが検索対象のデータのどこかに一致するかどうかを総当たりで調べるものもある。(例:Google)
このようなシステムの場合は、単純に語句を検索しただけで、従来の「トランケーション」による検索と同様のヒット結果を得ることができるため、「トランケーション」について意識せずに検索することができる。

しかしこのように総当たりでヒットを判断するシステムでは「ノイズ」が増える可能性もあるので、注意が必要である。
システムによっては、さらにこの点も考慮し、できるだけ「ノイズ」を減らし、必要な情報だけをヒットさせるように工夫されているものもある。


◆「国立国会図書館サーチ」の「検索記号(前方・後方一致/フレーズ)」について

「国立国会図書館サーチ」のヘルプ「2-5 検索仕様の詳細」から抜粋。