1つのSQL文でMySQLの重複排除が完了し、1つが保持されます。

1つのSQL文でMySQLの重複排除が完了し、1つが保持されます。

数日前、ある要件に取り組んでいたとき、MySQL で重複レコードをクリーンアップする必要がありました。その時は、コード トラバーサルを使用して書き出すことを考えましたが、複雑すぎると感じたので、SQL ステートメントを使用して問題を解決する必要があると考えました。情報を確認し、専門家に相談した結果、非常に便利な SQL ステートメントを思いつきました。ここでは、この SQL ステートメントとアイデアを共有します。

需要分析

データベースに重複レコードがある場合は、1つを削除し、1つを残します(重複かどうかを判断する基準は複数のフィールドです)

解決

この要件に遭遇したとき、私はおそらくいくつかのアイデアを思い浮かべていたでしょう。最初に思い浮かぶのは、SQL 文で解決できるのではないかということですが、複雑な SQL 文の経験があまりないので、専門家に助けを求めたいと思っています。

助けてくれる人を見つける

この要件は少し緊急なので、私が最初に考えたのは、この分野の同僚を見つけて解決し、同僚とこの問題を共有することでした。その結果、この人はBaiduを使って、私がこれまで使用したことのないSQLステートメントを提供し、自分で試してみるように頼みました。私の心にはたくさんのことが駆け巡りました...

百度

SQL ステートメントが見つかりました:

消去
から
 ビタミンA
どこ
 (a.peopleId、a.seq) IN (
  選択
   人物ID、
   シーケンス
  から
   履歴書
  グループ化
   人物ID、
   シーケンス
  持つ
   カウント(*) > 1
 )
AND rowid が IN でない (
 選択
  最小(ROWID)
 から
  履歴書
 グループ化
  人物ID、
  シーケンス
 持つ
  カウント(*) > 1
)

この記述は、「MySQL で重複データを削除し、1 つだけ保持する」という記事に記載されています。この SQL ステートメントの考え方は非常に明確で、次の 3 つのステップがあります。

条件としてテーブル内の重複レコードを検索するにはSELECT peopleId, seq FROM vitae GROUP BY peopleId, seq HAVING count(*) > 1

SELECT min(rowid) FROM vitae GROUP BY peopleId, seq HAVING count(*) > 1 2番目の条件として、テーブル内の重複レコードの最小ID値をクエリします。

最後に、上記の2つの条件に従って、重複レコードの最小IDを除く残りの重複レコードを削除します。

しかし残念ながら、このステートメントの実行中にエラーが発生しました。エラーの一般的な意味は、クエリと同時にテーブルを更新できないということです。

コードソリューション

上記の SQL ステートメントに基づいて、コードを通じて 2 つのステップで同じ目的を達成できます。

まず重複したデータセットを削除します

クエリされたデータセットに従って、残っている重複データを削除するループを実行します。

アイデアが浮かんですぐに書き上げたのですが、実行してみると驚きました。約116 秒もかかってしまいました。そこで、使用できる SQL ステートメントを見つけなければならないと考えました。コードと実行結果を投稿しました。

完璧な[重複を削除して1つを残す]SQL

ついに、技術グループから完璧な答えが得られました。次の SQL ステートメントをご覧ください。

消費レコードを削除する
から
 消費レコード、 
 (
  選択
   最小(id) id、
   ユーザーID、
   金銭的、
   消費時間
  から
   消費レコード
  グループ化
   ユーザーID、
   金銭的、
   消費時間
  持つ
   カウント(*) > 1
 ) t2
どこ
 消費レコード.user_id = t2.user_id 
 そしてconsum_record.monetary = t2.monetary
 そして、consum_record.consume_time = t2.consume_time
かつ、consum_record.id > t2.id;

上記の SQL ステートメントを注意深く見ると、その考え方を理解するのは難しくありません。次の 3 つのステップで理解できます。

(SELECT min(id) id, user_id, monetary, consume_time FROM consum_record GROUP BY user_id, monetary, consume_time HAVING count(*) > 1 ) t2

consum_record.user_id = t2.user_id and consum_record.monetary = t2.monetary and consum_record.consume_time = t2.consume_time重複の基準を決定するために使用されるフィールドです

条件に従って、IDがt2のIDより大きい元のテーブルのレコードを削除します。

この文章を見たとき、すごいと思いました。こんなに単純な SQL ステートメントで、こんなに複雑な問題を解決できるなんて、本当に興味深いですね。

実行速度も非常に速いです。元のコードループの実行には約116 秒かかりますが、ここでは0.3 秒しかかかりません。すごいですね。

要約する

PHP プログラマーとして、SQL が遅れをとってはいけないのは当然です。しかし、現実にはやるべきことが多すぎて、現在の私の SQL レベルは平均的なレベルにすぎません。今後、この分野の知識を向上させる機会を見つけたいと思います。

今日はこれで終わりです。

以下もご興味があるかもしれません:
  • MySQL 開発スキル: JOIN 更新とデータ重複チェック/重複排除
  • MySQLデータの重複チェックと重複排除の実装ステートメント
  • MySQLの重複排除方法
  • SQL データベースにおける重複排除についての簡単な説明
  • 重複を削除するSQLグループ化と並べ替えの小さな例
  • MySQL における重複排除の 2 つの方法とサンプル コードの詳細な説明
  • 重複SQLのチェックと削除方法の実践記録

<<:  js は、州、市、地区の 3 段階の選択カスケードを実装します。

>>:  Tomcat が応答データグラムを書き戻すタイミングの詳細な分析

推薦する

Dockerコンテナを終了した後も実行を継続する方法

現象:イメージを実行します (例: ubuntu14.04)。 docker run -it --r...

HTML スタイル タグと関連する CSS リファレンスの詳細な説明

HTML スタイル タグスタイルタグ - ドキュメント内でスタイルを宣言するときにこのタグを使用しま...

dockerコンテナは直接実行され、pingを介してパブリックIP操作を取得します。

コンテナを通じてローカル パブリック IP アドレスを取得します。ローカル IP アドレスを使用して...

Reactコンポーネントのライフサイクル機能についての簡単な説明

React コンポーネントのライフサイクル機能とは何ですか?ライフサイクル関数は、ES6 構文クラス...

JavaScript ステートメントの一般的な for ループの詳細な説明

JavaScript には、for、for in、for of、forEach ループなど、多くのル...

Centos8でdockerがインストールできない問題の解決方法

問題 [root@zh ~]# [root@zh ~]# [root@zh ~]# yum -y d...

MySQL の count 関数の正しい使い方の詳細な説明

1. 説明MySQLでは、テーブル内の行の総数を取得する必要がある場合、通常は次の文を使用します。 ...

ブラインドの特殊効果を実現するネイティブJS

この記事では、ネイティブ JS で実装されたブラインドの特殊効果を紹介します。効果は次のとおりです。...

Linuxにおけるumaskコマンドの使用原理と計算方法の詳しい解説

目次umask umaskの使用法原理1. umask値2. ファイルディレクトリの最大権限3. 従...

Vueドロップダウンメニューのコンポーネント開発の詳細説明

この記事の例では、Vueドロップダウンメニューのコンポーネント開発の具体的なコードを参考までに共有し...

nginx で Vue プロジェクトをデプロイする方法

今日は nginx サーバーを使用するのですが、vue プロジェクトをサーバーにデプロイする必要もあ...

xshell を使用して VMware で Linux に接続する方法 (2 つの方法)

【序文】最近、ITOO の試験システムのストレステストを行いたいので、自分のコンピュータに Lin...

FastApi+Vue+LayUIを使用してフロントエンドとバックエンドを分離するサンプルコード

目次序文プロジェクト設計後部フロントエンドプロジェクトを実行する質疑応答序文これまでの API 開発...

Linuxでmysqlの定期的なコールドバックアップを実装するためにmysqldump+expect+crontabを使用するアイデアの詳細な説明

目次1. 遭遇した問題2. アイデア3. コード1. 遭遇した問題私たちは皆、mysqldump を...

Linux環境変数の設定に関する完全なガイド

Linux環境変数の設定ソフトウェアのインストールをカスタマイズする場合、多くの場合、環境変数を設定...