データベースインデックスの知識ポイントの概要

ファーストルックインデックス

インデックスの概念

インデックスは、すべてのレコードをチェックせずに必要なレコードをすばやく見つけるのに役立つ、ストレージテーブルに基づいて定義される補助ストレージ構造です。ディスクに保存される一連のインデックス項目で構成され、各インデックス項目は 2 つの部分で構成されます。つまり、インデックスフィールドと行ポインタです。

インデックスフィールド

これは、テーブルのいくつかの列（通常は 1 つの列）の値を連結することによって形成されます。インデックスは通常、インデックス付きフィールドのすべての値を格納します。

行ポインタ

インデックス付きフィールド値を含むテーブル内のレコードが格納されているディスク上の場所を指します。

インデックス項目を格納するファイルはインデックスファイルと呼ばれ、格納テーブルはメインファイルと呼ばれます。

インデックスファイルの構成

(対照的に、主なファイル構成には、ヒープファイル、ソートされたファイル、ハッシュファイル、クラスターファイルなどが含まれます。)

ソートされたインデックスファイル: インデックスフィールドの値に従って特定の順序で整理して保存します。

ハッシュインデックスファイル: インデックスフィールドの値に基づいてハッシュ関数を使用して、ハッシュバケットにデータを格納します。

インデックスの役割

テーブル内の異なる属性または属性の組み合わせごとに、異なるインデックスファイルが作成されます。インデックスフィールドの値は、テーブル内の任意の属性の値または属性値の組み合わせにすることができます。

インデックスファイルはメインファイルよりもはるかに小さくなります。小さなインデックスファイル (メモリに完全にロード可能) を検索することで、非常に大きなメインファイル内の関連レコードをすばやく見つけ、対象を絞って読み取ることができます。

インデックスがある場合、更新操作ではインデックスファイルとメインファイルの両方を同時に更新する必要があります。データの一貫性を維持します。

SQL言語でのインデックス作成とメンテナンス

基礎

テーブルを定義した後、主キーが定義されている場合、システムは自動的に主インデックスを生成します。

インデックスはユーザーが定義または取り消すことができます。

インデックスが作成されると、それがプライマリインデックスであるかユーザー定義インデックスであるかに関係なく、DBMS はすべてのインデックスを自動的に管理します。

テーブルを削除すると、テーブルに定義されているすべてのインデックスが自動的に削除されます。

インデックスの作成と削除

Student(Sname)にidxSnameインデックスを作成します。
インデックス idxSname を削除します。

密なインデックスと疎なインデックス

高密度インデックス

マスターファイル内の各レコード (形成された各インデックスフィールド値) には、それに対応するインデックスエントリがあり、レコードの場所を示します。このようなインデックスは、密なインデックスと呼ばれます。（密なインデックス）

スパースインデックス

メインファイル内の一部のレコード (インデックスフィールド値を形成) には、対応するインデックス項目があります。このようなインデックスは、非密インデックスまたはスパースインデックスと呼ばれます。

スパースインデックスがレコードを検索する方法

インデックスフィールド値がKであるレコードを見つけるには、

まず、K より小さい最大のインデックスフィールド値に対応するインデックス項目を見つけ、そのインデックス項目に対応するレコードからテーブルを順番に検索します。

スパースインデックスを使用するための要件: メインファイルは、対応するインデックスフィールド属性の順序で保存する必要があります。

高密度インデックスと比較すると、占有スペースが少なく、メンテナンスも少なくて済みますが、速度は遅くなります。

バランス: インデックスエントリはレコードポインタを指すのではなく、レコードが配置されているストレージブロックを指します。つまり、レコードごとに1つのインデックスエントリがあるのではなく、ストレージブロックごとに1つのインデックスエントリがあります - プライマリインデックス

高密度インデックスがレコードを検索する方法

1. 候補キー属性の密なインデックスを1つずつ照合できる

2. 候補キー属性以外の高密度インデックスの場合、メインファイルはインデックスフィールド値でソートされ、繰り返されない最初のインデックスフィールド値ごとにインデックス項目が作成されます。同じインデックスフィールド値が近くで検索されます。

3. 候補キー属性以外の密なインデックスの場合、プライマリファイルはインデックスフィールド値でソートされません。インデックス項目内のインデックスフィールドは一意である必要はなく、プライマリファイル内の対応するインデックスフィールド値を指すために繰り返し出現できます。

4. 候補キー属性以外の密なインデックスの場合、メインファイルはインデックスフィールド値に従ってソートされません。インデックス内のインデックスフィールドが一意である必要がある場合は、中間層であるポインタバケットを導入できます。ポインタバケットは 3 番目のケースです。

プライマリインデックス

プライマリインデックスの概念

通常、各ストレージブロックにはインデックスエントリがあります。インデックスエントリの合計数は、ストレージテーブルが占めるストレージブロックの数と同じです。ストレージテーブル内の各ストレージブロックの最初のレコードは、アンカーレコード、または略してブロックアンカーとも呼ばれます。

プライマリインデックスのインデックスフィールド値はブロックアンカーのインデックスフィールド値であり、ポインターはそれが配置されているストレージブロックを指します。

プライマリインデックスは、インデックスフィールド値によってソートされた順序付きファイルです。通常、順序付きメインファイルのプライマリキーベースのソートフィールドに基づいて確立されます。つまり、プライマリインデックスのインデックスフィールドは、メインファイルのソートコード (プライマリキー) に対応します。

プライマリインデックスはスパースインデックスです。

補助索引

補助インデックスの定義

プライマリファイルの 1 つ以上の非ソートフィールドで定義された補助ストレージ構造。通常、非ソートフィールドの異なる値にはインデックスエントリがあり、インデックスフィールドはフィールドの異なる値であり、ポインターはレコードを含むブロックまたはレコード自体を指します。

ソートされていないフィールドがインデックスフィールドである場合、フィールド値が一意でない場合は、リンクリストに似た構造を使用して、フィールド値のすべてのレコードの位置を保存します。

補助インデックスは高密度のインデックスであり、検索速度がかなり速い場合がある

主索引と補助索引の違いと関係

プライマリファイルにはプライマリインデックスが 1 つしかありませんが、セカンダリインデックスは複数持つことができます。

プライマリインデックスは通常、プライマリキーまたはソートコードに基づいて構築され、セカンダリインデックスは非ソートフィールドに基づいて構築されます。

プライマリインデックスはプライマリファイルデータの再編成に使用できますが、セカンダリインデックスはプライマリファイルデータを変更できません。

プライマリインデックスはスパースインデックスであり、セカンダリインデックスは密なインデックスです。

クラスター化インデックスと非クラスター化インデックス

クラスター化インデックス

これは、インデックス内の隣接するレコードがメインファイルにも隣接して保存されることを意味します。

非クラスター化インデックス

つまり、インデックス内の隣接するレコードは、必ずしもメインファイルに隣接して格納されるわけではありません。

知らせ：

プライマリファイル内のソートフィールドがプライマリキーでない場合、このフィールド内の各レコードの値は一意ではありません。この場合、フィールドはクラスター化フィールドと呼ばれます。クラスター化インデックスは通常、クラスター化フィールドに定義されます。クラスター化インデックスには通常、クラスター化フィールド内の異なる値ごとにインデックス項目があります (インデックス項目の合計数は、プライマリファイル内のクラスター化フィールド内の異なる値の数と同じです)。インデックスフィールドは、クラスター化フィールドの異なる値です。同じクラスター化フィールド値を持つレコードは複数のブロックに格納される場合があるため、インデックス項目のポインターは最初のブロックを指します。プライマリファイルにはクラスター化インデックスファイルを 1 つだけ含めることができますが、非クラスター化インデックスファイルは複数含めることができます。プライマリインデックスは通常、クラスター化インデックスです (ただし、インデックスエントリの合計数は、プライマリファイルのクラスター化フィールドの個別値の数と必ずしも同じではなく、プライマリファイルのストレージブロックの数と同じです)。セカンダリインデックスは通常、非クラスター化インデックスです。プライマリインデックス/クラスター化インデックスは、レコードが格納される場所を決定するインデックスですが、非クラスター化インデックスは、レコードが格納される場所を示すクエリにのみ使用できます。

逆インデックス

転置インデックスは、「単語-文書マトリックス」を実装した特定のストレージ形式です。転置インデックスを使用すると、単語に基づいて、単語を含む文書のリストをすばやく取得できます。転置インデックスは、主に「単語辞書」と「転置ファイル」の 2 つの部分で構成されます。

辞書: 検索エンジンの通常のインデックス単位は単語です。辞書は、ドキュメントコレクションに出現したすべての単語で構成される文字列のセットです。辞書内の各インデックスエントリには、単語自体に関する情報と「逆リスト」へのポインタが記録されます。

投稿リスト: 投稿リストには、特定の単語が出現するすべての文書の文書リストと、文書内での単語の位置情報を記録します。各レコードは投稿項目と呼ばれます。逆リストによれば、どの文書に特定の単語が含まれているかがわかります。

転置ファイル: すべての単語の転置リストは、多くの場合、ディスク上のファイルに順番に格納されます。このファイルは転置ファイルと呼ばれます。転置ファイルは、転置インデックスを格納する物理ファイルです。

マルチレベルインデックス

インデックス項目が多数ある場合は、インデックス上に別のインデックスを作成できます。これをマルチレベルインデックスと呼びます。

一般的なマルチレベルインデックス: Bツリー/B+ツリーインデックス

複数属性インデックス

インデックスフィールドは、テーブルの複数の属性値を組み合わせて形成されるインデックスです。

ハッシュインデックス

ハッシュ技術を使用して編成されたインデックス

グリッドインデックス

クロスジョイントの位置決めと検索に複数のインデックスフィールドを使用する

B+ツリーインデックス

意味

インデックス項目をツリーデータ構造に整理するマルチレベルインデックス

ストレージブロックには複数のインデックス項目を格納できるため、各インデックス項目はポインターとインデックスフィールドの 2 つの部分で構成されます。 Ki はインデックスフィールド値を表し、Pi はインデックスブロック、データブロック、またはデータブロック内のレコードを指すポインターを表します。

ブロックには通常、n-1 個のインデックス項目と 1 個のポインターを格納できます。

B+ ツリー機能

メインファイルのサイズに合わせてツリー階層を自動的に維持します
各インデックスブロックのポインタ使用率は 50% ～ 100% です。

Ki-1<=x<Ki の場合、インデックスフィールド値 x は Pi によってポイントされ、Ki<=x<Ki+1 の場合、インデックスフィールド値 x は Pi+1 によってポイントされます。

リーフノードとリーフノードポインターはそれぞれ何を指しているのでしょうか?

非リーフノードポインターはインデックスブロックを指し、リーフノードポインターはメインファイルのデータブロックまたはデータレコードを指します。

リーフノードの最後のポインタは次のデータブロックを指す

インデックスブロックで実際に使用されるインデックスポインタの数はdであり、これは（ルートノードを除く）を満たす。

n/2<=d<=n

ルートノードの少なくとも2つのポインタが使用される

B+ツリーのストレージ規約

インデックスフィールドの値がリーフノードと非リーフノードに繰り返し出現する

メインファイルへのポインタはリーフノードにのみ表示されます

すべてのリーフノードはすべてのキー値のインデックスをカバーできます

インデックスフィールドの値はリーフノードに順番に並べられる

リーフノードのセットのみがメインファイルの完全なインデックスになります。

データベースインデックスの知識ポイントのまとめはこれで終わりです。データベースインデックスに関するより関連性の高いコンテンツについては、123WORDPRESS.COM の過去の記事を検索するか、以下の関連記事を引き続き閲覧してください。今後とも 123WORDPRESS.COM をよろしくお願いいたします。

以下もご興味があるかもしれません: