図書館情報技術論

> 図書館情報技術論 > 10 データベースの仕組み. 検索エンジンの仕組み

データベースの仕組み
検索エンジンの仕組み

1. データベースの概要

データベースの特徴
- データベースには、データを「一貫性があり無駄がないように」管理する技術が用いられる。
- データベースを管理するシステムは、DBMS (DataBase Management System) と呼ばれる。
- 現在主流のデータベースの構造は、リレーショナル型データベース (relational database) である。
- リレーショナル型データベースを管理するシステムは、RDBMS (Relational DataBase Management System) と呼ばれる。
- リレーショナル型データベースの操作言語は、SQL (Structured Query Language) と呼ばれる。

商用データベースの例（富士通の例）
- Enterprise Postgres
  - https://www.fujitsu.com/jp/products/software/middleware/database/enterprisepostgres/ (accessed 2021-03-31)
- Symfoware Server
  - https://www.fujitsu.com/jp/products/software/middleware/database/symfoware/ (accessed 2021-03-31)

1.1 データベースとは

データベースの一般的な定義は？
- 広義には、「特定の目的のために集めた情報を、一定の規則にしたがって整理して使いやすくしたもの」
- 一般的には上記に加え、「特別の構造をもち、専用のシステムによって高度に管理されているもの」

ファイルや表計算シートと、データベースとの違いは？
- ファイルや表計算シート
  - データの重複が発生しうる。
  - データ同士の関係が維持されなくなる可能性がある。
- データベース
  - データに一貫性があり、無駄がない。
  - 専用のシステムによって管理されている。

データがプログラムから独立しているとはどういうことか？
- データの構造等を変更してもプログラムの変更を少なくする仕組みをもっていること。
- データの管理を専門に行うシステムは、DBMS (DataBase Management System) と呼ばれる。

ひとつのデータベースを複数のユーザが同時に利用できるか？
- 同時に利用できるように設計されている。

1.2 DBMS (DataBase Management System)

DBMSが存在することのメリット
- アプリケーション・プログラムがデータベースとのやりとりを「効率的かつ安全」に行うことが可能になる。

DBMSの第一義的な機能の「データベースの構築・操作」はどのように行われるか？
- 「データベース言語」で記述された命令に従って独占的に行われる。
- DBMSの存在により、ユーザやアプリケーション・プログラムはデータの物理的な構造等を意識しなくてすむ。

DBMSによって管理される「データの整合性の維持」はどのように行われるか？
- DBMSはデータの整合性を維持するために、データベースの操作にさまざまなルールを設けている。
- 主なものとして、データの重複を避けるための「キー制約」、データ間の関係を維持するための「参照性制約」などがある。

具体的なデータを用いて、架空の事例で説明する。
たとえば次のような場合には、(2) の方法が正確かつ効率的に処理できる。
- ある図書館の分館の名称が「ABC分館」から「ZYX情報センター」に変更されることになった、と仮定する。
- (1) 資料のレコードに所蔵館の名称のデータがそのまま入力されていた場合は、「ABC分館」が所蔵するすべての資料のレコードを「ZYX情報センター」に書き換えなければならない。
- (2) 資料のレコードには所蔵館を表す「コード」のみを入力するようにしていた場合は、所蔵館の名称の管理用データの「ABC分館」を「ZYX情報センター」に書き換えるだけでよい。

DBMSが複数の処理を連続して行う場合の「トランザクション管理」とは？
- 複数の処理を連続して行う場合、最後まで完了しない限りデータベースの更新 (コミット) を行わないこと。
- 途中でトラブルが発生した場合は、処理開始前の状態に戻す。(ロールバック)

データに矛盾が起きるのを防ぐために行われる「同時実行制御／排他制御」とは？
- 複数のユーザが同時にデータベースを更新しようとするとき、先にアクセスしたユーザのトランザクションが終わるまでデータベースをロック状態にし、トランザクション終了時にロックを解除すること。

「デッドロック」の発生と解除
- タイミングによっては両方ロックされる「デッドロック」になることがあるが、DBMSはタイマーで監視してデッドロックを解除する。

障害に対処するための「障害復旧管理／リカバリ」とは？
- バックアップデータとログ (処理履歴) からデータベースを復元する機能。

不正なアクセスを防止するための「アクセスコントロール」とは？
- セキュリティ管理のための機能で、ユーザ認証機能や、データごとのアクセス権限の設定機能などがある。

1.3 データベースのデータ管理の特徴

データの独立性とは？
- データベースの記憶場所が変わってもアプリケーションへの影響が少ない。(物理的独立性)
- データの記録形式と見せ方を別々に定義できる。(論理的独立性)

データの一貫性／非重複性とは？
- 重複を排除し、同じ情報は一元的に管理される。

データの完全性とは？
- トランザクション制御と排他制御により、データに矛盾が発生しないように管理されている。

データの保全性とは？
- 障害回復機能により、データが保全されている。

データの安全性とは？
- アクセスコントロールにより、不正アクセスから守られている。

2. データベースの構造

2.1 データベースの構造類型

階層型データベースとは？
- データとデータの間に親子関係のある構造。
- 子データには1つの親データしかない。

ネットワーク型データベースとは？
- データ同士がネットワークのように結びついた構造。
- 階層型と異なり、1つのデータが複数のデータと結びつくこともできる。

リレーショナル型データベースとは？
- データを2次元の表（テーブル）の形式で表現する。
- テーブルとテーブルとの関係を定義することにより、複雑なデータ構造を扱える。

データベース構造の変遷
- 当初は階層型が多かったが、現在はリレーショナル型が主流。
- その他の構造の例として「オブジェクト指向型データベース」や「XMLデータベース」などがある。

2.2 データベースの設計図―スキーマ (schema)

スキーマ (schema) の特徴
- スキーマは、データベースを構築する際のデータベースの内部構造の設計図にあたる。
- 3つの層 (外部スキーマ、概念スキーマ、内部スキーマ) で構成するのが一般的。

外部スキーマとは？
- データを外部 (アプリケーション等) にどう見せるかを定義する。
- リレーショナル型データベースでは「ビュー」(View) と呼ばれる。

概念スキーマとは？
- 実際のデータの構造をモデル化するもの。データをどう整理して格納するかを定義する。
- リレーショナル型データベースの場合は、「ER図」(Entity-Relationship Diagram) で表現される。

内部スキーマとは？
- データの物理的な保存方法を定義する。

2.3 データベース言語 SQL

データベースを構築したり操作したりするための言語を「データベース言語」と呼ぶ。

データベース言語を構成する「DDL」「DML」「DCL」とは？
- 「DDL」データ定義言語 (Data Definition Language)
- 「DML」データ操作言語 (Data Manipulation Language)
- 「DCL」データ制御言語 (Data Control Language)

リレーショナル型データベースで用いられる「SQL」とは？
- 「SQL」構造化問合せ言語 (Structured Query Language)
- 国際規格のISOや日本のJISで標準化されている。
- SQLにおけるDDL、DML、DCLには表5.1のようなものがある。

2.4 データの型

リレーショナル型データベースで使われるデータの型とは？
- 取り扱うデータのタイプ (型) を規定したもの。

データの型の例

名称意味
1 CHARACTER STRING 文字列
2 NATIONAL CHARACTER 文字列 (ユニコードに対応)
3 BIT STRING 0と1のシーケンスで構成されるバイナリ値
4 EXACT NUMERIC 精度とスケールを指定する数値 (絶対数値)
5 APPROXIMATE NUMERIC 精度のみの数値 (近似数値)
6 DATETIME 日付や時刻
7 INTERVAL 時間

3. データベースの利用方法

3.1 データベースの構築

データベース構築の手順とは？
- 以下のように、段階を踏んで進めていく。

3.2 リレーショナルデータベースの設計

データの構造を図で表現した「ER図」とは？
- データの構造をわかりやすい図で表現したもの。
- 「実体 (Entity)」と「関連 (Relationship)」から構成されている。
- 「実体」とは、実際のデータのこと。
- 「関連」とは、実体同士の関係のこと。
- 「関連」には、1対1、1対多、多対多、の3種類がある。
- 例として、ある架空の図書資料に関するデータ構造を表にしたものが、図5.6。
- 図5.6の左の表がER図である。
- 右の表はER図ではなく、具体的なデータベースの内容の例を示したものである。

リレーショナルデータベースでの「表の正規化」とは？
- 表を分解して重複をなくし、効率的なデータ管理ができるようにすること。
- 図5.6の図書資料の例を正規化すると、たとえば、図5.7のようになる。

3.3 SQLによるデータの検索

データベースを操作するための「SQL文」を発行する方法とは？
- 大きく分けて次の2種類がある。
- (1) 直接SQLをコマンド (命令) として入力する方法。
- (2) プログラミング言語を使ってプログラムを作成し、プログラムの中に書き込んだSQLを実行したり、SQLを発行する別のプログラム (モジュール) をプログラムから呼び出して実行させたりする方法。

3.4 SQLの使用例―具体的なRDBMSの操作例

SQLによる「表の定義」とは？
- CREATE 文を使う。構文は以下のとおり。
```
CREATE TABLE テーブル名 (項目名 データ型 , …) ;
```

SQLによる「データの入力」とは？
- INSERT 文を使う。構文は以下のとおり。
```
INSERT INTO テーブル名 (列名 , 列名 , …) VALUES (データ , データ , ...) ;
```

SQLによる「データの取得」とは？
- SELECT 文を使う。構文は以下のとおり。
```
SELECT 項目名 FROM テーブル名 [WHERE 検索条件] [ORDER BY ソート方法] ;
```

[参考] 「3.4 SQLの使用例」の補足

(1) 表の定義

ここでは仮に、以下のような項目を持つ、2つのテーブルを作成することを想定してみる。
- 資料テーブル
  
  資料コード
  (文字列、10バイト) 資料名
  (文字列、30バイト) 出版者名
  (文字列、20バイト) 出版年
  (文字列、4バイト)
- 貸出テーブル
  
  貸出コード
  (文字列、12バイト) 貸出日
  (文字列、8バイト) 返却期限日
  (文字列、8バイト) 資料コード
  (文字列、10バイト)

表を定義する場合は、CREATE 文を使う。

CREATE TABLE テーブル名 (項目名 データ型 , …) ;

「資料テーブル」を定義する場合の例

CREATE TABLE 資料テーブル
(
  資料コード        CHAR(10) ,
  資料名            CHAR(30) ,
  出版者名          CHAR(20) ,
  出版年            CHAR(4) ,
  PRIMARY KEY(資料コード) ,
) ;

「貸出テーブル」を定義する場合の例

CREATE TABLE 貸出テーブル
(
  貸出コード        CHAR(12) ,
  貸出日            CHAR(8) ,
  返却期限日        CHAR(8) ,
  資料コード        CHAR(10) ,
  PRIMARY KEY(貸出コード) ,
  FOREIGN KEY(資料コード) REFERENCES 資料テーブル(資料コード) ,
) ;

PRIMARY KEY では、主キーを定義する。
外部のテーブルを参照する場合は、FOREIGN KEY で外部キーを定義する。

(2) データの入力

ここでは仮に、それぞれのテーブルに以下のようなデータを入力することを想定する。

資料テーブル

資料コード	資料名	出版者名	出版年
1234567891	宮沢賢治名作選	羽田書店	1939
1234567892	セロ弾きのゴーシュ	岩波書店	1957

貸出テーブル

貸出コード	貸出日	返却期限日	資料コード
123456789011	20230411	20230425	1234567891
123456789012	20230412	20230426	1234567892

表にデータを入力する場合は、INSERT 文を使う。

INSERT INTO テーブル名 (列名 , 列名 , …) VALUES (データ , データ , ...) ;

「資料テーブル」に入力する場合の例

INSERT INTO 資料テーブル (資料コード , 資料名 , 出版者名 , 出版年) VALUES 
('1234567891' , '宮沢賢治名作選' , '羽田書店' , '1939') ;

INSERT INTO 資料テーブル (資料コード , 資料名 , 出版者名 , 出版年) VALUES 
('1234567892' , 'セロ弾きのゴーシュ' , '岩波書店' , '1957') ;

「貸出テーブル」に入力する場合の例

INSERT INTO 貸出テーブル (貸出コード , 貸出日 , 返却期限日 , 資料コード) VALUES 
('123456789011' , '20230411' , '20230425' , '1234567891') ;

INSERT INTO 貸出テーブル (貸出コード , 貸出日 , 返却期限日 , 資料コード) VALUES 
('123456789012' , '20230412' , '20230426' , '1234567892') ;

(3) データの取得

上記 (2) で「資料テーブル」と「貸出テーブル」に入力したデータを取得してみる。

データを取得する場合は、SELECT 文を使う。

SELECT 項目名 FROM テーブル名 [WHERE 検索条件] [ORDER BY ソート方法] ;

「資料テーブル」のすべての項目を取得する場合の例
- すべての項目を指定する場合は、項目名として「*」を使用する。
```
SELECT * FROM 資料テーブル ;
```
- この SELECT 文を実行すると、以下のように出力される。
```
資料コード  資料名              出版者名  出版年
1234567891  宮沢賢治名作選      羽田書店  1939
1234567892  セロ弾きのゴーシュ  岩波書店  1957
```

「貸出テーブル」と「資料テーブル」を結合して、返却期限日と資料名の一覧を作成する場合の例
- 複数の項目を指定する場合は、「,」で区切る。
- 検索条件は、WHERE の後に論理式で、「=」などを用いて記述する。
```
SELECT 貸出テーブル.返却期限日 , 資料テーブル.資料名
  FROM 貸出テーブル , 資料テーブル
  WHERE 貸出テーブル.資料コード = 資料テーブル.資料コード ;
```
- この SELECT 文を実行すると、以下のように出力される。
```
返却期限日  資料名
20230425    宮沢賢治名作選
20230426    セロ弾きのゴーシュ
```

4. 検索エンジンの概要

4.1 検索エンジンとは

検索エンジンはどのような検索サービスを提供するか？
- Webページの情報を収集し、利用者が探しているWebページへのリンクを提供する。
- さらに、収集したデータ（キャッシュ）を提供する場合もある。

Google 検索結果表示例: キーワード＝「検索エンジン」

出典: Google
https://www.google.co.jp/ (accessed 2021-03-31)

Google のキャッシュ表示例: Wikipediaの「検索エンジン」のページ
検索結果の一覧表示にあるURLの末尾の▼をクリックし、メニューの「キャッシュ」をクリック
ただし、Googleのキャッシュが保存されていない場合はメニューに表示されない。
キャッシュが保存されていた場合は、以下のように表示される。
- 出典: Google
  - https://www.google.co.jp/ (accessed 2021-03-31)

4.2 検索エンジンの種類

ディレクトリ型とは？
- Webページの情報を分野ごとに階層化して整理してある検索エンジン。
- 情報は人手によって収集・整理。
- 情報の信頼度は高いが、情報量には限界がある。

ロボット型とは？
- ロボットと呼ばれるプログラムが定期的に巡回して情報を収集するタイプの検索エンジン。
- 情報量は多いが、不必要な情報も含まれる。
- 現在の検索エンジンはほとんどがロボット型。

ハイブリッド型とは？
- ディレクトリ型とロボット型の両方を兼ねた検索エンジン。

4.3 検索方法の種類

キーワード検索とは？
- 適当な語を入力してその語に関連の深いWebページを探すもの。
- 代表的な例: Google
  - https://www.google.co.jp/ (accessed 2021-03-31)

カテゴリ検索（ディレクトリ検索）とは？
- あらかじめカテゴリ別に整理されたインデックスをたどってWebページを探すもの。
- 代表的な例: Yahoo!Japan カテゴリ（2018年3月29日終了）
  ＊現在は「サービス終了のお知らせ」が表示される。
  - https://dir.yahoo.co.jp/ (accessed 2021-03-31)

Yahoo!Japan カテゴリの表示例 (Internet Archive に保存された画面から)
- 出典: Internet Archive - Wayback Machine
  - https://web.archive.org/web/20180329073357/https://dir.yahoo.co.jp/ (accessed 2021-03-31)

5. 検索エンジンの仕組み

ここでは、Googleの仕組みを中心に扱う

5.1 検索エンジンの全体構造

検索エンジンの機能の「データ収集」「インデックス生成」「検索サービス」の関係とは？
- データ収集: Webサーバから定期的に情報を収集する。
- インデックス生成: 高速の検索サービスを提供するために、事前にインデックスを生成しておく。
- 検索サービス: 利用者からの検索リクエストを受け、検索を行い、結果を返す。

5.2 データ収集―クローリング

Webページのデータを収集（クローリング）する際の特徴とは？
- 「クローラ」と呼ばれるロボット（サーバ上のソフトウェア）が自動的に収集する。
- 「クローラ」は、リンクをたどって下の階層のものも集めてくる（すべてではない）。
- クローリングは世界中から情報を集めるために膨大な時間がかかる。
- Webページは更新されるので、定期的に収集する必要がある。

膨大なデータを収集するための「分散処理」とは？
- 複数の「クローラ」を使って収集すること。
- どの「クローラ」がどのWebサーバを収集するかを指示するのが「URLサーバ」。

収集したデータを格納する「リポジトリ」とは？
- 収集したWebページは専用のデータベース（Googleでは「リポジトリ」と呼んでいる）に格納される。

5.3 インデックスの作成

高速な検索を実現するための「インデックスの生成」とは？
- 構文解析: 検索に必要なテキスト情報を取り出す。
- 単語処理: テキストを単語に分解する。日本語のように単語間にスペースがない言語は特殊な処理が必要。
- 単語インデックスの生成: 単語情報を符号化して登録。
- 転置インデックスの生成: 単語からWebページを検索できるように、転置（逆引き）インデックスを生成。
- リンク情報の追加: Webページ間のリンク情報を、リンク先のインデックスに登録。
- ランキング情報の追加: リンク情報から計算したランキング情報を登録。

5.4 ランキングのアルゴリズム

ランキングを決めるために使われている要素にはどのようなものがあるか？
- ランキングに関する情報は非公開であることが多い。以下は Googleの初期の論文等を参考にしたもの。
- PageRank: 「重要なページは多数のサイトからリンクされる」という考え方で、さらに「重要なページからリンクされているページは重要である」という点も考慮する。
- アンカーテキスト: 別のページにリンクするときに使われた文字列が「アンカーテキスト」であり、この部分に含まれる情報も重要度の判断に加える。
- 単語の属性: Webページ上での表示位置、フォントやサイズの設定値、大文字の使用の有無などによって重要度を測る。
- ランキング関数: 上記に加え、多くの変数を組み込んだランキング決定のアルゴリズムが「ランキング関数」と呼ばれる。

5.5 検索サービス

利用者の検索リクエストから、検索サーバはどのような処理を行うか？
- 利用者のリクエストの解析: 検索リクエストから単語を取り出し、辞書を検索する。
- 転置インデックスの検索: 辞書で見つかった単語のIDをキーにして転置インデックスを検索して、その単語を含むWebページのリストを得る。
- ソート: 得られたページ情報をランキング順に並べ替える。
- 編集: WebページのタイトルやURLを追加して、見やすい形式に編集する。
- 送信: 編集結果を利用者に送信する。

6. 検索エンジンの技術の発展

6.1 検索エンジンの巨大化

「Google」は、データを収集するWebページの増加にどう対処しているか？
- 稼働しているコンピュータの台数は、最初は数台だったが、現在では数十万台といわれている。
- データセンターは、世界各地に分散配置され、処理の負荷分散が図られている。
- データだけでなく、検索のためのインデックスも分割している。

6.2 ユーザインタフェース

ブラウザに検索エンジンを組み込んだものはどういうときに便利か？
- 使いやすいユーザインタフェースの開発例
  - ブラウザの上部に「ツールバー」という形で検索エンジンを組み込み。
  - ブラウザのアドレス欄に組み込み、URL以外の文字が入力されたら検索へ進む。
  - ページ上のテキストを選択して右クリックメニューから検索へ進む。

6.3 検索機能の進化―セレンディピティの実現をめざして

より関連性の高い検索結果を返すための工夫とは？
- キーワードの意図を理解して関連度を調整する。
- ソーシャル検索機能（友人や専門家の意見を集める機能）の組み込み。

「セレンディピティ（知恵と偶然による幸福な出会い）」を実現する機能とは？
- 検索したキーワードに直接は一致しないが、関連するような情報もいっしょに提供する、などの試みがなされている。

7. 検索エンジンを使った検索―利用者側からの視点

7.1 キーワード検索

キーワードの選択の基本とは？
- できるだけ狭い範囲で検索が行われる語句を入力。
- たとえば、単に「図書館」をキーワードにするよりも、具体的な図書館名をキーワードにする方が効率的。

7.2 検索条件の絞込み

「Google」ではどのような絞込み検索が可能か？
- AND検索: すべてのキーワードを含むものを検索する。
- OR検索: いずれかのキーワードを含むものを検索する。
- NOT検索: 指定したキーワードを含むものを検索結果から除外する。
- フレーズ検索: すべてのキーワードを、指定した順序で含むものだけを検索する。
- 各種の制約検索: ページの「タイトル」部分に含むものに限定したり、特定のサイトのページのみに限定したりすることも可能。

Google「検索オプション」画面例

出典: Google - 検索オプション
 https://www.google.co.jp/advanced_search (accessed 2021-03-31)

7.3 ディレクトリ検索

代表的なディレクトリ検索の「Yahoo! JAPAN カテゴリ」とは？
- キーワードが思いつかない場合でも、分類項目をたどることでリンクを見つけることが可能。
Yahoo!カテゴリとは、Yahoo! JAPANのスタッフがインターネット上のサイトを収集し、「カテゴリ」（テーマやジャンル）ごとに分類した、巨大なリンク集です。収集されたサイトは、Yahoo!カテゴリの編集方針に基づいてチェックを行ったうえで登録されています。各カテゴリは階層をもち、階層は「>」で区切られ、上位階層は左側に表示されます。カテゴリ名をクリックすると、そのカテゴリに属するサイトやそのカテゴリの下位階層にあるカテゴリを一覧できます。このような階層をたどって探す方法は、「ディレクトリ検索」と呼ばれます。
- 出典: Yahoo!カテゴリヘルプ（現在はリンク切れ）
  - https://www.yahoo-help.jp/app/answers/detail/a_id/41843/p/539 (accessed 2017-04-01)

8. 代表的な検索エンジン

代表的な検索エンジンにはどのようなものがあるか？

Google - トップページ
- https://www.google.co.jp/ (accessed 2021-03-31)

Google - 検索オプション
- https://www.google.co.jp/advanced_search (accessed 2021-03-31)

Yahoo! Japan - トップページ
- https://www.yahoo.co.jp/ (accessed 2021-03-31)

Yahoo! Japan - Yahoo!検索
- https://search.yahoo.co.jp/ (accessed 2021-03-31)

goo - トップページ
- https://www.goo.ne.jp/ (accessed 2021-03-31)

goo - goo検索
- https://search.goo.ne.jp/ (accessed 2021-03-31)

Bing - トップページ
- https://www.bing.com/ (accessed 2021-03-31)

9. 検索エンジンの課題

検索エンジンの課題にはどのようなものがあるか？
- Webページの急激な増大
  - 拡大のスピードに追いつかなくなる可能性がある。
- リンクスパム
  - 検索結果でのランキングを上げるために多数の無意味なサイトから自分のサイトにリンクを張って高く評価されるようにする「リンクスパム」が問題となってきた。このような行為に惑わされずに有益な検索結果を返せるかが課題となっている。
- SNSの出現
  - SNSの内部の情報には、従来の検索エンジンでは検索できないものも多い。
- 検索ニーズの高度化
  - ユーザのニーズが高度化し、自然言語による検索のニーズも増えている。
- 画像そのものの検索
  - 現在の検索エンジンの画像検索は、画像そのものの検索ではなく、画像にひもづけられた「タグ」の文字情報でしか検索できない。

[参考] Google の解説ページから

「検索の仕組み」-「概要」

検索の仕組み

一般的な検索クエリの場合、関連がありそうな情報を掲載しているウェブページは、数千件どころか、場合によっては数百万件も存在します。
それでは、Google の検索結果に表示される情報はどのようにして見つけ出されるのでしょうか。検索の道のりは、検索キーワードが入力される前から始まっているのです…

クロールとインデックス登録

Google ではウェブクローラを使用して、ウェブページの情報や、検索インデックスに登録されている公開中のコンテンツを整理しています。

検索アルゴリズム

Google のランキングシステムは、検索インデックスに登録されている膨大な数のウェブページの中から、有益で関連性の高い検索結果を瞬時に表示します。

便利な検索サービス

インターネット上のコンテンツは以前にもまして増加し、多様化しています。それに伴い、Google では検索結果をさまざまな形式で提供し、ユーザーが探している情報をすばやく見つけられるようにしています。

出典: Google - 「検索の仕組み」-「概要」
https://www.google.com/search/howsearchworks/ (accessed 2021-03-31)

「検索の仕組み」-「クロールとインデックス登録」

検索が情報を整理する仕組み

ユーザーが検索する前から、ウェブクローラは膨大な数のウェブページから情報を収集し、検索インデックスに登録して整理しています。

検索の基本

クロールのプロセスは、過去のクロールから得られたウェブアドレスとウェブサイトの所有者から提供されたサイトマップで構成されるリストから始まります。クローラはこれらのウェブサイトにアクセスし、そのサイト上のリンクを使って他のページを探します。特に、新しいサイトの情報、既存のサイトの変更点、無効なリンクについて重点的に確認します。クロールするサイト、クロールの頻度、各サイトから取得するページ数はコンピュータプログラムによって決定されます。
Google では、Google によるサイトのクロール方法をサイトの所有者が細かく指定できるように、ウェブマスター向けの各種ツールを提供しています。これらのツールを使用して、サイト上のページを処理する方法について具体的に指定したり、再クロールをリクエストしたり、「robots.txt」というファイルを使用してクロールを無効にしたりすることができます。Google では、有料でサイトのクロール頻度を増やすことは行っていません。すべてのウェブサイトに同じツールを提供し、ユーザーにとって最適な検索結果を表示できるようにしています。

クロールによる情報の検出

ウェブは、一括で管理されないまま、絶えず書籍が増え続けている図書館のようなものです。Google では、ウェブクローラと呼ばれるソフトウェアを使用して、公開されているウェブページを探します。クローラは、ユーザーがウェブ上でコンテンツを閲覧するときと同じように、ウェブページを見て、ページ上のリンクをたどります。リンクからリンクへ移動し、ウェブページに関するデータを Google のサーバーに蓄積していきます。

インデックスによる情報の整理

クローラが特定のウェブページを見つけると、Google のシステムがブラウザと同様にページのコンテンツを表示します。Google ではキーワードやウェブサイトの新しさといった主要なシグナルに注目し、検索インデックスにそのすべての情報を記録しています。
Google 検索のインデックスには何千億ものウェブページが登録されており、その容量は優に 1 億 GB を超えます。Google のインデックスには、本の巻末にある索引と同じように、各ウェブページに含まれているすべての語が 1 つずつ追加されています。つまり、インデックスにウェブページが登録されると、そのページに含まれるすべての語がインデックスに追加されるということです。
Google ではナレッジグラフを利用して、単にキーワードを照合するだけでなく、ユーザーが気になる人、場所、物事などを具体的に把握するための取り組みを続けています。そのため、ウェブページに関する情報のみならずその他の種類の情報も体系的に整理しています。Google 検索では現在、主要な図書館に所蔵されている何百万冊という書籍からテキストを検索したり、地域の公共交通機関の移動時間を調べたり、世界銀行などの一般公開されている情報のデータを検索したりすることができます。
- 出典: Google - 「検索の仕組み」-「クロールとインデックス登録」
  - https://www.google.com/search/howsearchworks/crawling-indexing/ (accessed 2021-03-31)

「検索の仕組み」-「検索アルゴリズム」

検索アルゴリズムの仕組み

ウェブ上に存在する情報の量を考えると、何か情報の整理を助けてくれるものがなければ、必要な情報を見つけるのは不可能に近いでしょう。Google のランキングシステムはそのために設計されています。検索インデックスに登録されている膨大な数のウェブページを分類し、最も関連性の高い有用な結果を瞬時に検索して、探している情報を見つけやすい形でユーザーに表示します。
このランキングシステムは 1 つのアルゴリズムではなく、一連のアルゴリズムで構成されています。最も有用な情報を表示するため、検索アルゴリズムはさまざまな要因（検索クエリの単語、ページの関連性や有用性、ソースの専門性、ユーザーの位置情報や設定など）を検討します。各要因に適用される重み付けはクエリの性質によって異なります。たとえば、最新のニューストピックに関するクエリに回答する場合は、言葉の定義に関するクエリに回答する場合よりも、コンテンツの鮮度がより大きな役割を果たします。
Google では、検索アルゴリズムが関連性や品質の高い基準を満たせるように、ライブテストや、世界各国にいる熟練した外部の検索品質評価者による評価など、厳正なプロセスを整備しています。品質評価者は、検索アルゴリズムに関する Google の目標が定義された厳しいガイドラインに準拠しています。このガイドラインは一般公開されており、誰でも見ることができます。
クエリに対して返される結果の判断にかかわる主な要因について詳しくは、以下をご覧ください。

検索キーワードを分析する

最適な回答を返すためには、検索の意図を把握することが大切です。関連性の高い情報が含まれているページを見つけるために最初に行うのは、検索クエリに含まれる単語の意味の分析です。Google では、どの単語をインデックスで検索する必要があるのか解釈するための言語モデルを構築しています。
ここでは、スペルミスを解釈するのと同じくらい単純に見える手順を行います。さらに、自然言語理解に関する最新の調査結果の一部を適用することで、入力されたクエリのタイプを理解しようと試みるのです。たとえば、1 つの単語に複数の定義がある場合でも検索がユーザーの意図を理解できるのは Google の類義語システムのおかげです。このシステムは開発に 5 年以上かかりましたが、さまざまな言語の検索の 30% 以上で大きな成果を上げています。
Google では、ユーザーがどのような種類の情報を探しているのかについても理解しようとします。特定のことに関する検索か、幅広い検索か。「口コミ」、「画像」、「開店時間」など、具体的な情報が必要なことを示す検索キーワードはあるか。その日に公開されたコンテンツを探していることを示す、急上昇ワードの検索をしているか。付近のお店や現在地の情報を検索しているか。こうしたことも、アルゴリズムで分析します。

検索キーワードを照合する

次に、クエリに一致する情報が含まれるウェブページを探します。ごく基本的な検索を行った場合、アルゴリズムはインデックス内で検索キーワードを探して適切なページを見つけます。そして、そのキーワードが登場する頻度やページ上の場所（タイトル、見出し、本文中など）について分析します。
キーワードの照合に加えて、アルゴリズムでは、ユーザーが探している情報に十分合致する検索結果となるかどうかを評価するための手掛かりを見つけます。「犬」を検索する場合、必要なのは「犬」という単語が何百回も出現するページではありません。つまり、ただクエリの言葉を繰り返すだけでなく、クエリに対する答えが含まれているページかどうかを見極める必要があります。そこで検索アルゴリズムでは、犬の画像や動画、犬種のリストなど、関連するコンテンツがページに含まれているかどうか分析します。最後に、クエリと同じ言語で作成されたページかどうかを確認して、ユーザーが使用する言語のページを優先します。

有益なページのランキング

一般的な検索クエリの場合、関連がありそうな情報を掲載しているウェブページは、数千件どころか、場合によっては数百万件も存在します。検索クエリに対して最適なページを検索結果の上位に表示できるように、これらのウェブページの有用性を評価するためのアルゴリズムも作成しています。
これらのアルゴリズムでは、ウェブが提供できる最適な情報を特定するために、コンテンツの新しさ、検索キーワードが出現する回数、ページのユーザーエクスペリエンスの質など、さまざまな異なる要因を分析します。また、内容の信頼性や権威があるかどうかを評価するために、同様のクエリについて多数のユーザーに評価されているサイトを見つけます。検索内容に関連する他の著名なウェブサイトがそのページにリンクしている場合は、情報の質が高いことの確かな証拠となります。
ウェブ上には、キーワードを何度も繰り返す、PageRank を転送するリンクを購入するなどの手法を使って、何とか検索結果の上位に入ろうとするスパムサイトが多数存在します。こうしたサイトは、利用価値がほとんどないばかりか、Google のユーザーに害を及ぼしたり誤解を与えたりする恐れもあります。そこで Google では、スパムサイトを特定したり、Google のウェブマスター向けガイドライン（品質に関するガイドライン）に違反するサイトを検索結果から削除したりするためのアルゴリズムを開発しています。

最適な検索結果を返す

検索結果を表示する前に、Google ではすべての関連情報に整合性があるかどうかを評価します。たとえば、検索結果に共通する話題は 1 つだけか、それとも複数あるのか、多数のページが限定的な 1 つの解釈に集中していないか、といったことです。Google は、検索のタイプに応じて最も利便性の高い形式でさまざまな情報を表示することに努めています。また、ウェブの発展に合わせて Google のランキングシステムも進化させ、より多くのクエリに対して質の高い検索結果を提供できるようにしています。

文脈を考慮する

現在地、過去の検索履歴、検索設定などの情報はすべて、検索の時点で最も有用で関連性が高い情報を検索結果として提供するのに役立っています。
Google では、ユーザーの国などの位置情報を使用して、お住まいの地域に関連するコンテンツを提供します。たとえば、シカゴに住んでいるユーザーが「football」で検索すると、ほとんどの場合、アメリカンフットボールやシカゴベアーズに関する検索結果が上位に表示されます。一方、ロンドンにいるユーザーが「football」で検索した場合は、サッカーやプレミアリーグに関係のある検索結果が上位に表示されます。自分にとって役立ちそうな検索結果が表示されるようにするには、検索の設定も重要です。検索の設定では、使用する言語を指定したり、セーフサーチ（露骨な表現を含む検索結果を除外できるツール）を有効にしたりすることができます。
場合によっては、ユーザーの最近の検索行動に関する情報に基づいて検索結果をカスタマイズすることもあります。たとえば、「バルセロナ」を検索しているユーザーが、その少し前に「バルセロナ対アーセナル」を検索していた場合、今検索しているのは都市ではなくサッカーチームについての情報だという重要な手掛かりになります。検索機能を向上させるために検索履歴を使用するかどうか（Google アカウントにどのデータを保存するかなど）は、ユーザー自身が myaccount.google.com で変更できます。
- 出典: Google - 「検索の仕組み」-「検索アルゴリズム」
  - https://www.google.com/search/howsearchworks/algorithms/ (accessed 2021-03-31)

「検索の仕組み」-「便利な検索サービス」

さまざまな形式で提供できる便利な検索サービス

ラリーペイジはかつて、「完璧な検索エンジンとは、ユーザーの意図を正確に把握し、ユーザーのニーズにぴったり一致する答えを返すものである」と述べたことがあります。Google が実施しているテストでは、ユーザーが質問に対する答えをすぐに手に入れたいと考えていることが、長年にわたり一貫して示されています。そこで Google では、最も関連性の高い回答を、より速く、ユーザーが探している情報のタイプに最適な形式で提供するために、さまざまな改善を重ねてきました。
たとえば天気について検索する場合、ユーザーは、気象関連のサイトへのリンクだけでなく、天気予報も検索結果ページに表示されることを期待するでしょう。あるいはルート検索であれば、「中部空港ルート」で検索した場合に、関連のあるサイトへのリンク以外にも、ルートが示された地図が表示されれば便利です。こうしたことは、帯域幅に制限があり、タップして別のサイトにスムーズに移動できない場合もあるモバイル端末では特に重要です。
何千人ものエンジニアや科学者たちが、アルゴリズムの改良と便利で新しい検索方法の構築に取り組んでいます。検索の新たな機能の一部を以下にご紹介します。2018 年だけでもおよそ 3,234 件の改善が行われましたが、これは Google 検索を改善するための長年にわたる努力のごく一部にすぎません。

ナレッジグラフからの回答

Google は 2012 年にナレッジグラフを導入しました。ナレッジグラフは、10 億件を超える現実世界の人物、場所、物事と、それらに関する 500 億件を超える事実とその関係性で構成される Google のデータベースです。この世界は、単なる文字列だけでなく実際の物事でできています。Google がナレッジグラフを開発したのは、物事のつながりを示すためなのです。「エッフェル塔とは」、「エッフェル塔の高さ」、「公開されたのはいつ」といった質問に対する答えがすぐに表示され、リンクをクリックすればウェブ上の詳しい情報にアクセスできます。

ルートと交通状況

Google で特定の住所（たとえば「青山通り」）を検索するユーザーにとって、その通りについて記載されているウェブサイトへのリンクが必要なわけではないことは、以前から明らかでした。当然ながら、ユーザーはその場所とそこに行く方法が知りたいのです。そこで、クリックやドラッグができる地図を開発し、目的地について簡単に調べられるようにしました。

回答を直接提供

検索内容によっては、直接的な回答が必要な場合もあります。そこで Google では、すぐに役立つ回答を提供できるように、ユーザーが探している情報やサービスを提供できる企業と連携して、その企業のコンテンツを検索結果ページに直接掲載できるようにしています。たとえば、地元の映画館の上映時間を検索しているユーザーに対しては、信頼できる最新の映画情報を提供しているデータプロバイダやチケット販売会社と協力して、その地域での上映時間を表示したり、映画のチケットをすぐに購入したりできるようにしています。検索結果ページに天気予報や試合結果が直接表示されるのも、これと同じ仕組みです。

強調スニペット

Google 検索で質問するユーザーがすばやく簡単に回答を見つけられるようにすることが Google の目標です。強調スニペットは、ユーザーの質問に関連があるとアルゴリズムが判断したウェブサイトのコンテンツからプログラムで生成されたスニペットで、強調表示して目立たせることですぐに回答が見つかるようにしています。すべての強調スニペットに、サードパーティのウェブサイトから引用された情報のスニペットと、そのページへのリンク、ページのタイトルと URL が含まれています。

リッチリスト

ユーザーの質問に最適な回答は、必ずしも 1 つとは限りません。関係のある人物や場所、物事などが複数見つかる場合もあります。たとえば、「灯台カリフォルニア」や「有名女性天文学者」で検索すると、該当する検索結果の画像がページの上部に横一列に表示されます。ウェブ上に蓄積された情報とナレッジグラフを組み合わせることで、「2016 年アクション映画おすすめ」、「ローマ人気観光」などの検索結果の画像を一覧表示できるようにしています。いずれかの画像をクリックすると、その検索結果についてウェブ上でもっと詳しく調べることができます。

尋ねる前に情報が手に入る

ユーザーは、情報がすぐに手に入ることを期待しています。そこで、スマートフォン向けの Google アプリでは、各種ショートカットや便利な情報のフィードをホーム画面上に表示するようにしました。検索欄に入力しなくても、スポーツ、外食、エンターテイメント、天気などについての詳しい情報にすぐにアクセスすることができます。
- 出典: Google - 「検索の仕組み」-「便利な検索サービス」
  - https://www.google.com/search/howsearchworks/responses/ (accessed 2021-03-31)

図表出典: ライブラリー図書館情報学 3 図書館情報技術論日高昇治著第2版学文社 2017

	名称	意味
1	CHARACTER STRING	文字列
2	NATIONAL CHARACTER	文字列 (ユニコードに対応)
3	BIT STRING	0と1のシーケンスで構成されるバイナリ値
4	EXACT NUMERIC	精度とスケールを指定する数値 (絶対数値)
5	APPROXIMATE NUMERIC	精度のみの数値 (近似数値)
6	DATETIME	日付や時刻
7	INTERVAL	時間