MySQL で B+ ツリーインデックスを使用する利点は何ですか?

この問題を理解する前に、まず MySQL テーブルのストレージ構造を確認し、次にバイナリツリー、マルチツリー、B ツリー、B+ ツリーの違いを比較してみましょう。

MySQL ストレージ構造

テーブルストレージ構造

単位: 表 > セグメント > 領域 > ページ > 行

データベースでは、1 行を読み取るか複数行を読み取るかに関係なく、これらの行が配置されているページが読み込まれます。つまり、ストレージスペースの基本単位はページです。
ページは B+ ツリーのノードです。データベース I/O 操作の最小単位はページであり、データベース関連のすべてのコンテンツはページ構造に格納されます。

B+ツリーインデックス構造

B+ ツリーでは、各ノードはページです。新しいノードが作成されるたびに、ページスペースが要求されます。
同じレイヤー上のノード同士が接続され、ページ構造を通じて双方向のリンクリストが形成されます。
非リーフノードには複数のインデックス行が含まれ、各インデックス行にはインデックスキーと次のレベルのページへのポインターが格納されます。
リーフノードには、キーワードと行レコードが格納されます。ノード内 (つまり、ページ構造内) のレコード間には、一方向のリンクリストが存在します。

B+ツリーページノード構造

いくつかの特徴がある

すべてのレコードを複数のグループに分割し、各グループに複数のレコードを保存します。
ページディレクトリには、グループ化されたレコードのインデックスに相当するスロットが格納されます。各スロットポインターは、異なるグループの最後のレコードを指します。
スロットを通じてグループを見つけ、グループ内のレコードを表示します

ページの主な機能はレコードを保存することであり、レコードは単一のリンクリストの形式でページに保存されます。
単一リンクリストの利点は、挿入や削除が簡単なことですが、検索効率が低く、最悪の場合にはリンクリスト内のすべてのノードをトラバースする必要があるという欠点があります。そのため、ページディレクトリにはレコード検索の効率を向上させるためのバイナリ検索方式が用意されています。

B+ツリー取得プロセス

B+ツリーの取得プロセスを見てみましょう。

B+ ツリーのルートから始めて、レイヤーごとにリーフノードを検索します。
対応するデータページとしてリーフノードを見つけ、データリーフをメモリにロードし、ページディレクトリのスロットをバイナリ検索して、まず大まかなレコードのグループ化を見つけます。
リンクリストをトラバースすることで、グループ内のレコードが検索されます。

B+ ツリーインデックスを使用する理由は何ですか?

データベースはページを通じてデータにアクセスします。ページは B+ ツリーノードです。ノードへのアクセスは I/O 操作に相当するため、ノードの検索速度が速いほど、検索パフォーマンスが向上します。
B+ ツリーの特徴は、十分に短くて太いため、ノードアクセスの数を効果的に減らし、パフォーマンスを向上できることです。

次に、バイナリツリー、マルチフォークツリー、B ツリー、B+ ツリーを比較してみましょう。

バイナリツリー

バイナリツリーは、バイナリ検索と同等の検索パフォーマンスに優れたバイナリ検索ツリーです。
しかし、N が大きいほど、ツリーの深さは高くなります。データクエリの時間は主にディスク IO の数に依存します。バイナリツリーが深くなるほど、実行される検索の数が増え、パフォーマンスが低下します。
最悪の場合、以下のようにリンクリストに退化してしまう。

バイナリツリーがリンクリストに退化するのを防ぐために、AVL ツリー (バランスバイナリサーチツリー) が発明されました。これは、任意のノードの左サブツリーと右サブツリーの高さの差が最大 1 であるツリーです。

多枝ツリー

マルチフォークツリーはM個のノードを持つことができ、高さを効果的に減らすことができます。高さが減るとノード数が減り、I/Oが自然に減り、バイナリツリーよりもパフォーマンスが向上します。

Bツリー

B ツリーは単純に複数のブランチを持つツリーであり、各リーフにはデータと次のノードへのポインタが格納されます。

例えば、9を見つけるには、次の手順に従います。

これをルートノードのキーワード (17, 35) と比較します。9 は 17 より小さいので、ポインター P1 を取得します。
ポインター P1 をたどってディスクブロック 2 を見つけます。キーは (8, 12) です。9 は 8 と 12 の間にあるため、ポインター P2 を取得します。
ポインター P2 に従ってディスクブロック 6 を見つけます。キーは (9, 10) で、次にキー 9 を見つけます。

B+ ツリー

B+ ツリーは B ツリーの改良版です。簡単に言うと、リーフノードのみがデータを保存し、リーフ以外のノードはストレージポインターです。すべてのリーフノードは順序付けされたリンクリストを形成します。

B+ ツリーの内部ノードにはキーワードの特定の情報へのポインタがないため、その内部ノードは B ツリーの内部ノードよりも小さくなります。同じ内部ノードのすべてのキーワードが同じディスクブロックに格納されている場合、ディスクブロックはより多くのキーワードを収容でき、一度に検索する必要があるキーワードの数も増えるため、相対的な IO 読み取りおよび書き込み時間が短縮されます。

たとえば、キーワード16を検索する手順は次のとおりです。

ルートノードのキーワード（1、18、35）と比較すると、16は1と18の間にあり、ポインタP1（ディスクブロック2を指す）を取得します。
ディスクブロック2を見つけます。キーは(1, 8, 14)です。16は14より大きいので、ポインタP3（ディスクブロック7を指す）を取得します。
ディスクブロック 7 が見つかります。キーは (14、16、17) です。次にキー 16 が見つかるので、キー 16 に対応するデータを見つけることができます。

B+ツリーとBツリーの違い:

B+ ツリーの非リーフノードにはデータはなく、インデックスのみがあります。B ツリーの非リーフノードにはデータが格納されます。
B+ ツリークエリの方が効率的です。 B+ ツリーは双方向リンクリストを使用してすべてのリーフノードを接続するため、範囲クエリがより効率的になります (すべてのデータが B+ ツリーのリーフノードにあり、データベースのスキャンではリーフノードを 1 回スキャンするだけで済むため)。ただし、B ツリーでは、検索範囲を完了するために順序どおりのトラバーサルが必要です。
B+ ツリーのクエリ効率がより安定します。 B+ ツリーは、データを見つけるために毎回リーフノードをクエリする必要があり、B ツリーによってクエリされたデータはリーフノードに存在しない場合もあれば、リーフノードに存在する場合もあるため、クエリの効率が不安定になります。
B+ ツリーではディスクの読み取りおよび書き込みコストが低くなります。 B+ ツリーの内部ノードにはキーワードの特定の情報へのポインタがないため、その内部ノードは B ツリーの内部ノードよりも小さくなります。通常、B+ ツリーは短くて太く、小さなクエリでは I/O が少なくなります。

MySQL が B+ ツリーを使用するのはそのためです。とても簡単です!

上記は、MySQL で B+ ツリーインデックスを使用する利点の詳細な内容です。MySQL で B+ ツリーインデックスを使用する方法の詳細については、123WORDPRESS.COM の他の関連記事に注目してください。

以下もご興味があるかもしれません: