1. データ重複排除 日常業務では、Hive や Impala を使用してクエリとエクスポートを行う際にデータの重複が発生することがありますが、クエリを再実行したくない (クエリ時間が少し長く、エクスポートされたファイルの内容が大きい) ため、Linux コマンドを使用してファイルの内容から重複データを削除することを考えます。 次に例を示します。 aaa.txxには3つの重複データがあることがわかります。 重複したデータを削除して1つだけ残したい aaa.txt | uniq > bbb.txt を並べ替える aaa.txt ファイルから重複データを削除し、bbb.txt に出力します。 bbb.txtファイルには1つのデータのみが保存されていることがわかります。 2. データの交差、結合、差異 1) 交差 (user_2019 の内部結合 user_2020 と user_2019.user_no=user_2020.user_no の結合に相当) 2) ユニオン(user_2019.user_no union user_2020.user_noに相当) 3) 違い
以上がこの記事の全内容です。皆様の勉強のお役に立てれば幸いです。また、123WORDPRESS.COM を応援していただければ幸いです。 以下もご興味があるかもしれません:
|
Docker 公開方法は、DevOps (送信、コンパイル、パッケージ化、リリースなどの一連のイベ...
Vue エコシステムには Vite と呼ばれる新しいビルド ツールがあり、Vue CLI よりも 1...
<br />この記事は主に、初心者にXHTMLの基本知識と、XHTMLとHTMLの違いを...
序文この記事では、MySQL で特殊文字を使用してデータベース名を作成する方法について説明します。こ...
ファイルとは何ですか?すべてのファイルは実際には文字列のストリームですが、適切な解析方法を使用すると...
目次setStateを使用する理由setStateの使用法非同期または同期更新要約するsetStat...
1. Nginxの同時実行性を最適化する [root@proxy ~]# ab -n 2000 -c...
今日会社から課題をもらったのですが、効果図は以下のとおりです。 どのような効果を実現したいかは特に決...
この記事では、MySQL 8.0のダウンロードとインストールについてご紹介します。具体的な内容は以下...
Python 3.4でMySQLデータベースを使用する詳細なプロセスは次のとおりです。 Window...
略語を使用すると、CSS ファイルのサイズが小さくなり、読みやすくなります。 CSS 省略形の主なル...
Linux では、通常、ファイルの名前を変更するために mv コマンドを使用します。これは、単一のフ...
1: スループット(1秒あたりのリクエスト数)サーバーの同時処理能力を定量的に表したもので、reqs...
文字化けしたコードの問題は次のとおりです。 この問題の原因は非常に単純です。コマンドラインのエンコー...
この実験では、空のデータベース、オフライン、オンラインの 3 つのモードで、1 つのマスターと 2 ...