Linux でのファイル コンテンツの重複排除と交差と差異の実装

Linux でのファイル コンテンツの重複排除と交差と差異の実装

1. データ重複排除

日常業務では、Hive や Impala を使用してクエリとエクスポートを行う際にデータの重複が発生することがありますが、クエリを再実行したくない (クエリ時間が少し長く、エクスポートされたファイルの内容が大きい) ため、Linux コマンドを使用してファイルの内容から重複データを削除することを考えます。

次に例を示します。

aaa.txxには3つの重複データがあることがわかります。

重複したデータを削除して1つだけ残したい

aaa.txt | uniq > bbb.txt を並べ替える

aaa.txt ファイルから重複データを削除し、bbb.txt に出力します。

bbb.txtファイルには1つのデータのみが保存されていることがわかります。

2. データの交差、結合、差異

1) 交差 (user_2019 の内部結合 user_2020 と user_2019.user_no=user_2020.user_no の結合に相当)

sort user_2019.txt user_2020.txt | uniq -d

2) ユニオン(user_2019.user_no union user_2020.user_noに相当)

sort user_2019.txt user_2020.txt | uniq

3) 違い

user_2019.txt-user_2020.txt

user_2019.txt を user_2020.txt で並べ替え user_2020.txt | uniq -u

user_2020.txt - user_2019.txt:

user_2020.txt を user_2019.txt で並べ替え user_2019.txt | uniq -u

以上がこの記事の全内容です。皆様の勉強のお役に立てれば幸いです。また、123WORDPRESS.COM を応援していただければ幸いです。

以下もご興味があるかもしれません:
  • Linux で AIDE に基づいてファイルシステムの整合性を検出する方法
  • Linux システムで Vim を使用してリモート ファイルを読み書きするコマンドの詳細な説明
  • Linuxシステムにおける仮想デバイスファイルのさまざまな実用的な使用法の詳細な説明
  • Linux で実行可能ファイルを実行するときに「そのようなファイルまたはディレクトリはありません」というプロンプトが表示される場合の解決策
  • Linuxで大きなファイルを素早くコピーする方法
  • Linuxファイル削除後にスペースが解放されない問題の詳しい説明
  • Linux ファイル管理コマンド例の分析 [表示、閲覧、統計など]

<<:  MySQLのロングトランザクションに関する深い理解

>>:  jsを使ってシンプルなディスククロックを実現する

推薦する

JavaScript のクロージャの詳細な説明

導入クロージャは JavaScript の非常に強力な機能です。いわゆるクロージャは関数内の関数です...

Vueは商品詳細ページの商品タブ機能を実装します

この記事の例では、商品詳細ページ機能を実現するためのVueの商品タブの具体的なコードを参考までに共有...

Linux コマンドラインのクイックヒント: ファイルの検索方法

私たちのコンピューターには、ディレクトリ、写真、ソース コードなどのファイルが保存されています。たく...

Linux カーネル デバイス ドライバー仮想ファイル システムに関する注意事項

/******************** * 仮想ファイルシステム VFS **********...

Vue.js のミックスインの詳細な説明

ミックスインは、コンポーネントに分散された再利用可能な機能を柔軟な方法で提供します。 Mixin オ...

一般的な MySQL 関数の例の概要 [集計関数、文字列、数値、時刻と日付の処理など]

この記事では、よく使用される MySQL 関数について説明します。ご参考までに、詳細は以下の通りです...

MySQL マスター スレーブ データベースが同期されない問題を解決する 2 つの方法

目次MySQL マスター スレーブ データベースが同期されない問題を解決する 2 つの方法1. 非同...

クラウド CentOS で Docker リモート サービス リンクを有効にするための実装手順

ここでは、dockerがインストールされたcentosサーバーを紹介し、リモートリンクサービスを開始...

Web デザイン ヘルプ: Web フォント サイズ データ リファレンス

<br />内容はインターネットから転載したものです。どこから見つけたのか忘れてしまいま...

MySQL 接続で認証失敗エラーが発生する場合の分析と解決方法

[問題の説明]アプリケーション側では、次のエラーが時々表示されます。メソッド 'mysql_...

HTMLにおけるbackground-image属性の設定の詳細な説明

写真といえば、まず背景画像が思い浮かびます。私たちの装飾の多くは背景画像を使用して実現されているから...

HTML ページに SVG を挿入する複数の方法

SVG (Scalable Vector Graphics)は、XML 構文に基づいた画像形式です。...

centos7.2 オフラインインストール mysql5.7.18.tar.gz

ネットワークが分離されているため、MySQL は yum を使用してインストールできません。ここでは...

mysql 解凍パッケージの基本インストールチュートリアル

新しいコンピューターに変更したので、すべての環境を新しいコンピューター上で設定する必要があります。ふ...

DockerとDocker-Composeの使用例

Docker は、アプリケーションをより速く配信するのに役立つオープンソースのコンテナ エンジンです...