5. トランケーション、前方一致、後方一致、中間一致、両端一致、完全一致
◆トランケーション、前方一致、後方一致、中間一致、両端一致、完全一致
(1) トランケーション (truncation) の目的
トランケーションを利用した検索の目的は「検索漏れ」を減少させることにある。
トランケーションという用語は、一般には、「何かの端の部分を切り取ること。および、切り取られた結果のもの」を意味する。
検索システムにおいては「あるキーワードの一部分が一致したものをヒットとする」ことを意味し、日本語では「部分一致」と呼ばれる。
トランケーションは、欧米の言語に多くみられるように、単語と単語がはっきり分かれていて、さらに、ある語が場合によって変化(単数と複数、格変化、時制の変化など)するような言語の場合に効果的であるとされる。
一方、日本語のように言語的に大きく異なる言語では、逆に、思いがけない「ノイズ」が増加してしまう場合もあるため、注意が必要である。
トランケーションと同様に「検索漏れ」を減少させる手段には、論理演算の「OR (論理和)」がある。
それぞれに特徴があるので、場合によって使い分けるとよい。
(2) トランケーションの例
英語の単語「child」は、複数形では「children」となる。
この両方をまとめてヒットさせたい場合、先頭の5文字が「child」の「前方一致」とすればよい。
この場合、6文字目以降は任意の文字でよいので、両方ともヒットすることになる。
ただしこの例では「childhood」や「childish」などもヒットしてしまうので、その点は注意しなければならない。
予期しない「ノイズ」が大量に発生する可能性もあるため、語句は慎重に選択する必要がある。
(3) トランケーションの種類
一致させたい部分によって、大きく分けて、以下の4種類がある。
(4) トランケーション(部分一致)と完全一致について
あるキーワードだけを検索したい場合、トランケーションは「ノイズ」が増えるので、かえって不便である。
したがって、ヒットさせたいものが明確に限定される場合は、「完全一致」を用いた方が効果的である。
たとえば、人名の「Child」さんを検索する場合には、「children」などは明らかに不要なため、完全一致の方が効果的である場合が多い。
(5) 最近の検索システムとトランケーションの関係
古い検索システムにおいては、検索キーとして使用できるものは、システムの管理者によってあらかじめ準備されていたキーワードだけであった。
したがって利用者は、「キーワードとして使用できるものは何か?」という知識を事前に学ぶ必要があった。
このようなシステムにおいては、限られたキーワードを効率的に使用するために、「トランケーション」が重要であった。
一方、最近の検索システムでは、入力されたキーワードをシステムが自動的に「意味のある部分」に分割し、それらが検索対象のデータのどこかに一致するかどうかを総当たりで調べるものもある。(例:Google)
このようなシステムの場合は、単純に語句を検索しただけで、従来の「トランケーション」による検索と同様のヒット結果を得ることができるため、「トランケーション」について意識せずに検索することができる。
しかしこのように総当たりでヒットを判断するシステムでは「ノイズ」が増える可能性もあるので、注意が必要である。
システムによっては、さらにこの点も考慮し、できるだけ「ノイズ」を減らし、必要な情報だけをヒットさせるように工夫されているものもある。
◆「国立国会図書館サーチ」の「検索記号(前方・後方一致/フレーズ)」について
「国立国会図書館サーチ」のヘルプ「2-5 検索仕様の詳細」から抜粋。
「"」、「*」の検索記号を検索語の前後に入力することにより、前方・後方一致検索、フレーズ検索ができます。
表6 検索記号の説明
検索名 説明 前方一致検索 半角文字の「*」を検索語の後ろにつけると、前方一致検索ができます。
【例】「図書館*」で検索 →図書館、図書館の歴史、図書館学概論など「図書館」で始まる資料を検索。後方一致検索 詳細検索項目の請求記号、各種番号では、検索語の前に「*」をつけて後方一致検索も可能です。 フレーズ検索 半角文字の「"」で検索語を挟んだ場合、スペースを含めた検索ができます。
【例】「"journal of science"」で検索 →「journal of science」を含む資料を検索。