MySQL で重複を削除するには、distinct または group by を使用する必要がありますか?

パフォーマンス比数量が少なく、種類も少ない少量、多品種カテゴリの数が多いインデックスなしやや優れている明確な方が優れているインデックスありやや異なるやや異なるやや異なるやや異なるやや異なる

重複排除のシナリオでは、インデックスが追加されていない場合は、distinct が使用される可能性が高くなりますが、インデックスが追加されている場合は、distinct と group by の両方を使用できます。

要約する

これは、MySQL の重複排除に distinctive を使用するか group by を使用するかについての記事です。記事はこれで終わりです。mysql deduplication distinctive group by の詳細については、123WORDPRESS.COM の以前の記事を検索するか、以下の関連記事を引き続き参照してください。今後とも 123WORDPRESS.COM をよろしくお願いいたします。

以下もご興味があるかもしれません:

MySQL 選択最適化ソリューションに関する簡単な説明
MySQL で結果を選択して更新を実行する例のチュートリアル
MySQLの読み書き分離により挿入後にデータが選択されなくなる問題を解決
MySQL SELECT文の実行方法
MySQL で distinct メソッドを使用する詳細な例
MySQL における distinct と group by の違い
MySQLのLIMIT文について詳しく説明します
union (all) と limit および exists キーワードの使用法を理解するための MySQL シリーズチュートリアル
MySQL のクエリパフォーマンスに対する制限の影響
MySQL での select、distinct、limit の使用

序文 group by と distinctive のパフォーマンス比較について: インターネット上の結論は次のとおりです。distinct はインデックスなしの少量データではパフォーマンスが良く、group by は大量データではパフォーマンスが良くなります。インデックス付きの group by の方がパフォーマンスが良いです。インデックスを調べるとき、グループ化の種類が少ないほど、distinct は高速になります。導き出された結論をオンラインで検証します。準備フェーズ中にクエリキャッシュを無効にする MySQL でクエリキャッシュが設定されているかどうかを確認します。テスト結果に影響を与えないようにするには、クエリキャッシュをオフにする必要があります。 '%query_cache%' のような変数を表示します。クエリキャッシュが有効かどうかを確認します。これは、 `query_cache_type`と`query_cache_size`によって決まります。方法 1: クエリキャッシュをオフにするには、my.ini を見つけて`query_cache_type` :\ProgramData\MySQL\MySQL Server 5.7\my.ini 構成ファイルを変更し、 `query_cache_type=0或2`変更する必要があります。方法 2: `query_cache_size`を 0 に設定し、次のステートメントを実行します。グローバル query_cache_size を 0 に設定します。方法 3: クエリキャッシュをオフにしたくない場合は、 `RESET QUERY CACHE`使用することもできます。現在のテスト環境では、query_cache_type=2 はオンデマンドのクエリキャッシュを意味します。デフォルトのクエリモードはキャッシュしません。キャッシュが必要な場合は、クエリステートメントに`sql_cache`追加する必要があります。データ準備テーブルt0には`少量種類少`が格納されます。存在する場合はテーブルを削除します t0; テーブルt0を作成( id bigint 主キー auto_increment、 varchar(255) は null ではない ) エンジン=InnoDB デフォルト文字セット=utf8mb4 照合=utf8mb4_bin; 1 2 3 4 5 プロシージャ insert_t0_simple_category_data_sp を削除します。区切り文字 // プロシージャ insert_t0_simple_category_data_sp(IN num int) を作成します。始める @i = 0 に設定します。 @i < num の間 t0(a) に値を挿入します(truncate(@i/1000, 0)); @i = @i + 1 と設定します。終了しながら; 終わり // insert_t0_simple_category_data_sp(100000) を呼び出します。テーブルt1には`少量種類多`格納されます。存在する場合はテーブル t1 を削除します。 t0 のようにテーブル t1 を作成します。 1 2 プロシージャ insert_t1_complex_category_data_sp を削除します。区切り文字 // プロシージャ insert_t1_complex_category_data_sp(IN num int) を作成します。始める @i = 0 に設定します。 @i < num の間 t1(a) に値を挿入します(truncate(@i/10, 0)); @i = @i + 1 と設定します。終了しながら; 終わり // insert_t1_complex_category_data_sp(10000) を呼び出します。 t2 テーブルには`大量種類多` 存在する場合はテーブルを削除します t2; t1 と同じようにテーブル t2 を作成します。 1 2 プロシージャ insert_t2_complex_category_data_sp を削除します。区切り文字 // プロシージャ insert_t2_complex_category_data_sp(IN num int) を作成します。始める @i = 0 に設定します。 @i < num の間 t1(a) に値を挿入します(truncate(@i/10, 0)); @i = @i + 1 と設定します。終了しながら; 終わり // insert_t2_complex_category_data_sp(5000000) を呼び出します。テストフェーズ少量のデータを検証するインデックスされていないプロファイリングを 1 に設定します。 t0 から別の a を選択する。プロフィールを表示します。 t0 から a を選択し、 a でグループ化します。プロフィールを表示します。テーブル t0 を変更し、インデックス `a_t0_index`(a) を追加します。これは、型数が少なくデータが少ない場合、インデックスなしでは、distinct と group by のパフォーマンスはほぼ同じであることを示しています。インデックスを追加テーブル t0 を変更し、インデックス `a_t0_index`(a) を追加します。上記のようなクエリを実行した後これは、タイプ数が少なくデータが少ない場合、インデックスを追加すると、distinct と group by のパフォーマンスがほぼ同じであることを示しています。少量で多くの種類のデータがインデックス化されていないことを確認する上記と同様のインデックスなしのクエリを実行した後このことから、少量のデータで種類が多く、インデックスがない場合、distinct のパフォーマンスは group by よりもわずかに高いものの、その差は大きくないことがわかります。インデックスを追加テーブル t1 を変更し、インデックス `a_t1_index`(a) を追加します。同様のインデックスなしのクエリを実行した後このことから、データ量が少なく型が多い場合、インデックスを追加すると、distinct と group by のパフォーマンスはほぼ同じであることがわかります。大量のデータを検証するインデックスされていない count(1)をt2から選択します。上記と同様のインデックスなしのクエリを実行した後これは、多くの種類のデータが大量にあり、インデックスがない場合、DISTINCT の方が GROUP BY よりもパフォーマンスが優れていることを示しています。インデックスを追加テーブル t2 を変更し、インデックス `a_t2_index`(a) を追加します。上記の同様のインデックスクエリを実行した後これは、多くの種類の大量のデータの場合、インデックスを追加すると、distinct と group by のパフォーマンスがほぼ同じであることを示しています。要約する

序文

group by と distinctive のパフォーマンス比較について: インターネット上の結論は次のとおりです。distinct はインデックスなしの少量データではパフォーマンスが良く、group by は大量データではパフォーマンスが良くなります。インデックス付きの group by の方がパフォーマンスが良いです。インデックスを調べるとき、グループ化の種類が少ないほど、distinct は高速になります。導き出された結論をオンラインで検証します。

準備フェーズ中にクエリキャッシュを無効にする

MySQL でクエリキャッシュが設定されているかどうかを確認します。テスト結果に影響を与えないようにするには、クエリキャッシュをオフにする必要があります。

'%query_cache%' のような変数を表示します。

ここに画像の説明を挿入

クエリキャッシュが有効かどうかを確認します。これは、 query_cache_typeとquery_cache_sizeによって決まります。

方法 1: クエリキャッシュをオフにするには、my.ini を見つけてquery_cache_type :\ProgramData\MySQL\MySQL Server 5.7\my.ini 構成ファイルを変更し、 query_cache_type=0或2変更する必要があります。
方法 2: query_cache_sizeを 0 に設定し、次のステートメントを実行します。

グローバル query_cache_size を 0 に設定します。

方法 3: クエリキャッシュをオフにしたくない場合は、 RESET QUERY CACHE使用することもできます。

現在のテスト環境では、query_cache_type=2 はオンデマンドのクエリキャッシュを意味します。デフォルトのクエリモードはキャッシュしません。キャッシュが必要な場合は、クエリステートメントにsql_cache追加する必要があります。

データ準備

テーブルt0には少量種類少が格納されます。

存在する場合はテーブルを削除します t0;
テーブルt0を作成(
id bigint 主キー auto_increment、
varchar(255) は null ではない
) エンジン=InnoDB デフォルト文字セット=utf8mb4 照合=utf8mb4_bin;
1
2
3
4
5
プロシージャ insert_t0_simple_category_data_sp を削除します。
区切り文字 //
プロシージャ insert_t0_simple_category_data_sp(IN num int) を作成します。
始める
@i = 0 に設定します。
@i < num の間
	t0(a) に値を挿入します(truncate(@i/1000, 0));
 @i = @i + 1 と設定します。
終了しながら;
終わり
//
insert_t0_simple_category_data_sp(100000) を呼び出します。

テーブルt1には少量種類多格納されます。

存在する場合はテーブル t1 を削除します。
t0 のようにテーブル t1 を作成します。
1
2
プロシージャ insert_t1_complex_category_data_sp を削除します。
区切り文字 //
プロシージャ insert_t1_complex_category_data_sp(IN num int) を作成します。
始める
@i = 0 に設定します。
@i < num の間
	t1(a) に値を挿入します(truncate(@i/10, 0));
 @i = @i + 1 と設定します。
終了しながら;
終わり
//
insert_t1_complex_category_data_sp(10000) を呼び出します。

t2 テーブルには大量種類多

存在する場合はテーブルを削除します t2;
t1 と同じようにテーブル t2 を作成します。
1
2
プロシージャ insert_t2_complex_category_data_sp を削除します。
区切り文字 //
プロシージャ insert_t2_complex_category_data_sp(IN num int) を作成します。
始める
@i = 0 に設定します。
@i < num の間
	t1(a) に値を挿入します(truncate(@i/10, 0));
 @i = @i + 1 と設定します。
終了しながら;
終わり
//
insert_t2_complex_category_data_sp(5000000) を呼び出します。

テストフェーズ

少量のデータを検証する

インデックスされていない

プロファイリングを 1 に設定します。
t0 から別の a を選択する。
プロフィールを表示します。
t0 から a を選択し、 a でグループ化します。
プロフィールを表示します。
テーブル t0 を変更し、インデックス `a_t0_index`(a) を追加します。

ここに画像の説明を挿入

これは、型数が少なくデータが少ない場合、インデックスなしでは、distinct と group by のパフォーマンスはほぼ同じであることを示しています。

インデックスを追加

テーブル t0 を変更し、インデックス `a_t0_index`(a) を追加します。

上記のようなクエリを実行した後

ここに画像の説明を挿入

これは、タイプ数が少なくデータが少ない場合、インデックスを追加すると、distinct と group by のパフォーマンスがほぼ同じであることを示しています。

少量で多くの種類のデータがインデックス化されていないことを確認する

上記と同様のインデックスなしのクエリを実行した後

ここに画像の説明を挿入

このことから、少量のデータで種類が多く、インデックスがない場合、distinct のパフォーマンスは group by よりもわずかに高いものの、その差は大きくないことがわかります。

インデックスを追加

テーブル t1 を変更し、インデックス `a_t1_index`(a) を追加します。

同様のインデックスなしのクエリを実行した後

ここに画像の説明を挿入

このことから、データ量が少なく型が多い場合、インデックスを追加すると、distinct と group by のパフォーマンスはほぼ同じであることがわかります。

大量のデータを検証する

インデックスされていない

count(1)をt2から選択します。

ここに画像の説明を挿入

上記と同様のインデックスなしのクエリを実行した後

ここに画像の説明を挿入

これは、多くの種類のデータが大量にあり、インデックスがない場合、DISTINCT の方が GROUP BY よりもパフォーマンスが優れていることを示しています。

インデックスを追加

テーブル t2 を変更し、インデックス `a_t2_index`(a) を追加します。

上記の同様のインデックスクエリを実行した後

ここに画像の説明を挿入

これは、多くの種類の大量のデータの場合、インデックスを追加すると、distinct と group by のパフォーマンスがほぼ同じであることを示しています。

要約する

<<: Tencent Cloud Serverをゼロから導入する方法

>>: Vue+echarts でプログレスバーのヒストグラムを実現

MySQL で重複を削除するには、distinct または group by を使用する必要がありますか?

Vue3 カプセル化された虫眼鏡コンポーネントのサンプルコード

Vue nextTickの原理の分析

Nginx インストールの詳細なチュートリアル

異なるデータベースで DROP TABLE を書く方法

Windows で nginx を素早くインストールし、自動的に起動するように設定する

Docker に Kong ゲートウェイをインストールする方法の例

MySQL 8.0.11 のインストールと設定方法のグラフィックチュートリアル

Mysql 8.0.18 ハッシュ結合テスト (推奨)

HTMLの基礎を詳しく解説（第2部）

MySQL データベースは XA 仕様をどのように実装しますか?

推薦する

マウス追従ゲームを実現するjs

Ubuntu システムにおけるネットワーク構成ファイルの分析と説明

つまり、フィルターコレクション

WeChatアプレットはふるいを振る効果を実現

Vue2.x および Vue3.x のカスタム命令の使用方法とフック関数の原理を理解する

Linux で特殊文字のファイル名やディレクトリを削除する方法

VueはAmapを使用して都市の位置特定を実現

Pythonの関数知識についての簡単な説明

Vueカウンターの実装

Js の継承とプロトタイプチェーンを理解するのに役立つ記事

Linux システムをバックアップする docker コマンドの詳細な説明

Tkinterはjsキャンバスを使用してグラデーションカラーを実現します

InnoDB タイプの MySql によるテーブル構造とデータの復元

Ubuntu の Python で C/C++ メソッドを呼び出すダイナミックリンクライブラリの詳細な説明

位置のいくつかの巧妙な応用の詳細な説明:sticky スティッキーポジショニング