SQL重複排除方法の概要

SQL重複排除方法の概要

SQL を使用してデータを抽出する場合、テーブル内で重複した値に遭遇することがよくあります。たとえば、UV (ユニーク ビジター数) を取得する場合は、重複を排除する必要があります。

MySQL では通常、 distinct句またはgroup by句が使用されますが、ウィンドウ関数をサポートする SQL ( Hive SQLOracleなど) では、 ROW_NUMBER ウィンドウ関数を使用して重複排除を行うこともできます。

たとえば、次のようなテーブルタスクがあります。

述べる:

  • task_id : タスク ID;
  • order_id : 注文ID;
  • start_time : 開始時刻

: 1つのタスクは複数の注文に対応します

タスクの合計数を見つける必要があります。task_id は一意ではないため、重複を削除する必要があります。

明確な

-- task_id のすべての一意の値を一覧表示します (重複排除後)

異なるtask_idを選択する
タスクから;

--タスクの合計数 select count(distinct task_id) task_num
タスクから;


distinctは通常、効率が低くなります。重複排除後の特定の値を表示するのには適しておらず、通常はcountと組み合わせてエントリの数を計算するために使用されます。
distinct使用する場合は、 selectの後に配置して、後続のすべてのフィールドの値を重複排除します。たとえば、 distinct後に 2 つのフィールドがある場合、2 つのレコード 1,1 と 1,2 は重複値ではありません。

グループ化

-- task_id の一意の値をすべて一覧表示します (重複排除後、null も値になります)
-- タスクIDを選択
-- タスクから
-- task_id でグループ化します。

--タスクの合計数 select count(task_id) task_num
(タスクIDを選択)
   タスクから
   タスクIDでグループ化) tmp;

行番号

row_number は次の構文を持つウィンドウ関数です。

row_number() over (partition by <用于分組的字段名> order by <用于組內排序的字段名>)
部分partition by省略可能です。

 -- ウィンドウ関数をサポートするSQLでは、select count(case when rn=1 then task_id else null end) task_numを使用します。
(タスクIDを選択)
    、row_number() オーバー (task_id によるパーティション、start_time による順序) rn
  タスクから) tmp;

さらに、テーブル テストを使用して、重複排除における distinctive と group by の使用について説明します。

 -- 下のセミコロンは行を区切るために使用されます。select distinctive user_id
Test から; -- 1; 2 を返します

異なる user_id、user_type を選択
Test から; -- 1, 1; 1, 2; 2, 1 を返します

ユーザーIDを選択
テストから
group by user_id; -- 1; 2 を返します

ユーザーID、ユーザータイプを選択
テストから
group by user_id, user_type; -- 1, 1; 1, 2; 2, 1 を返します

ユーザーID、ユーザータイプを選択
テストから
user_id でグループ化します。 
  -- Hive、Oracle などではエラーが報告されますが、MySQL ではこのように記述できます。
-- 1, 1 または 1, 2; 2, 1 (合計 2 行) を返します。 group by の後のフィールドのみが重複排除されます。つまり、最後に返されるレコード数は、前の SQL ステートメントのレコード数、つまり 2 レコードになります。group by の後に配置されず、select に配置されているフィールドの場合、1 つのレコードのみが返されます (通常は最初のレコードですが、パターンはありません)。

SQL 重複排除方法の概要についてはこれで終わりです。より関連性の高い SQL 重複排除方法については、123WORDPRESS.COM の過去の記事を検索するか、以下の関連記事を引き続き参照してください。今後とも 123WORDPRESS.COM をよろしくお願いいたします。

以下もご興味があるかもしれません:
  • SQL における 3 つの重複排除方法の概要
  • MySQL で distinct メソッドを使用する詳細な例
  • MySQLの重複排除操作を極限まで最適化する方法
  • 重複したMySQLテーブルをマージして削除する簡単な方法
  • MySQLの重複排除方法
  • MySQL における重複排除の 2 つの方法とサンプル コードの詳細な説明
  • SQL学習ノート5:重複を削除して新しく追加されたフィールドに値を割り当てる方法

<<:  最新のウェブフロントエンドフレームワーク10選を紹介(翻訳)

>>:  1 つの記事で Apache Avro データを解析する

推薦する

MySQLの高可用性アーキテクチャの詳細な説明

目次導入MySQL 高可用性マスター 1 つとバックアップ 1 つ: MySQL マスター スレーブ...

知らないかもしれないLinuxのファイル権限管理方法

なぜ権限管理が必要なのでしょうか? 1. コンピュータ リソースは限られているため、コンピュータ リ...

MySQL移行計画と落とし穴の実践記録

目次背景解決策1: 古いデータをバックアップするオプション2: テーブルを分割する解決策3: tid...

jQueryチェーン呼び出しの詳細な説明

目次チェーン呼び出し小さなケースチェーン呼び出しjQuery オブジェクトが任意のメソッド (ノード...

docker-compose.yml ファイル内の一般的なテンプレート コマンドの詳細な説明

注意: docker-compose.yml ファイルを書き込むときは、すべてのコロン (:) とダ...

type="file" の入力ボックスのスタイル変更の概要

入力タイプ「file」とは何ですか?これが何なのかは説明する必要はないと思います。誰もが知っているこ...

MYSQL メタデータ ロック (MDL ロック) の理論とロック タイプ テスト

目次MYSQL メタデータ ロック (MDL ロック) 学習理論とロック タイプ テスト1. 予備的...

Vue+express+Socketでチャット機能を実現

この記事では、チャット機能を実現するためのVue+express+Socketの具体的なコードを参考...

doctype のマークアップ検証

しかし最近、この方法を使用すると問題が発生することがわかりました。コードを参照してください。コードを...

MySQL データベース開発仕様 [推奨]

最近、問題のある新しい SQL が本番データベースに入力される数を最小限に抑えるために、開発仕様を整...

有名なブログの再設計例 28 件

1. Webデザイナーウォール 2. Veerleのブログ 3. チュートリアル9 4. UXブース...

Vue ブラウザログアウトの実装例

目次1. beforeunload イベント2. アンロードイベント3. ソースコードプロジェクトの...

HTML の <input> タグの詳細な説明と、それを無効にする方法

定義と使用法<input> タグはユーザー情報を収集するために使用されます。 type ...

MySQLがデータの削除を推奨しない理由

目次序文InnoDB ストレージ アーキテクチャInnodb テーブルスペースインドストレージディス...

W3C チュートリアル (2): W3C プログラム

W3C 標準化プロセスは 7 つの異なるステップに分かれています。 W3C 標準化プロセスは 7 つ...