Hadoopカウンターとデータクリーニングの適用

Hadoopカウンターとデータクリーニングの適用

データクリーニング (ETL)

コアビジネスの MapReduce プログラムを実行する前に、まずデータをクリーンアップして、ユーザーの要件を満たさないデータを削除する必要があることがよくあります。クリーンアップ プロセスでは、多くの場合、Reduce プログラムではなく Mapper プログラムの実行のみが必要になります。

1.必要

フィールドの長さが 11 以下のログを削除します。

(1)入力データ

ウェブログ

(2)期待出力データ

各行フィールドの長さが11より大きい

2.需要分析

入力データは、マップ ステージのルールに従ってフィルタリングおよびクリーンアップする必要があります。

3.実装コード

(1)LogMapperクラスを書く

パッケージ com.atguigu.mapreduce.weblog;
java.io.IOException をインポートします。
org.apache.hadoop.io.LongWritable をインポートします。
org.apache.hadoop.io.NullWritable をインポートします。
org.apache.hadoop.io.Text をインポートします。
org.apache.hadoop.mapreduce.Mapper をインポートします。
パブリッククラス LogMapper は Mapper<LongWritable, Text, Text, NullWritable> を拡張します{
  テキスト k = 新しいテキスト();
  @オーバーライド
  protected void map(LongWritable key, Text value, Context context) throws IOException, InterruptedException {
   // 1 1行のデータを取得します。String line = value.toString();
   // 2 ログを解析する boolean result = parseLog(line,context);
   // 3 ログが不正なので終了 if (!result) {
     戻る;
   }
   // 4 キーを設定する
   k.set(行);
   // 5 データを書き込む context.write(k, NullWritable.get());
  }
  // 2 ログを解析する private boolean parseLog(String line, Context context) {
   // 1 インターセプト String[] fields = line.split(" ");
   // 長さが11より大きい2つのログは有効です if (fields.length > 11) {
     // システムカウンター context.getCounter("map", "true").increment(1);
     true を返します。
   }それ以外 {
     context.getCounter("map", "false").increment(1);
     false を返します。
   }
  }
}

(2)LogDriverクラスを書く

パッケージ com.atguigu.mapreduce.weblog;
org.apache.hadoop.conf.Configuration をインポートします。
org.apache.hadoop.fs.Path をインポートします。
org.apache.hadoop.io.NullWritable をインポートします。
org.apache.hadoop.io.Text をインポートします。
org.apache.hadoop.mapreduce.Job をインポートします。
org.apache.hadoop.mapreduce.lib.input.FileInputFormat をインポートします。
org.apache.hadoop.mapreduce.lib.output.FileOutputFormat をインポートします。
パブリッククラスLogDriver {
  パブリック静的void main(String[] args)は例外をスローします{
// 入力パスと出力パスは、コンピューターの実際の入力パスと出力パスに従って設定する必要があります args = new String[] { "e:/input/inputlog", "e:/output1" };
   // 1 ジョブ情報を取得する Configuration conf = new Configuration();
   ジョブ job = Job.getInstance(conf);
   // 2 jar パッケージをロードします job.setJarByClass(LogDriver.class);
   // 3 つの関連マップ
   ジョブを LogMapper.class に設定します。
   // 4 最終出力タイプを設定する job.setOutputKeyClass(Text.class);
   ジョブの出力値クラスを設定します(NullWritable.class)。
   // 削減タスクの数を0に設定する
   ジョブのタスク数を減らす(0)
   // 5 入力パスと出力パスを設定する FileInputFormat.setInputPaths(job, new Path(args[0]));
   FileOutputFormat.setOutputPath(ジョブ、新しいパス(args[1]));
   // 6 送信 job.waitForCompletion(true);
  }
}

要約する

以上がこの記事の全内容です。この記事の内容が皆様の勉強や仕事に何らかの参考学習価値をもたらすことを願います。123WORDPRESS.COM をご愛顧いただき、誠にありがとうございます。これについてもっと知りたい場合は、次のリンクをご覧ください。

以下もご興味があるかもしれません:
  • Hadoop ネームノード フェデレーション
  • Hadoop 2.Xの新機能、ごみ箱機能の説明
  • Ubuntu 16.4 で完全に分散された Hadoop 環境を構築するための実践的なチュートリアル
  • Hadoop 2.x と 3.x の 22 ポイントの比較、Hadoop 3.x の 2.x に対する改善点
  • Ubuntu DockerでHadoopクラスタ環境を構築する方法
  • CentOS で Hadoop を構築する詳細な手順
  • Hadoop ワードカウントのサンプルコード
  • Java/Web が MapReduce 用に Hadoop を呼び出すサンプル コード
  • Hadoop におけるネームノードとセカンダリネームノードの動作メカニズムの説明

<<:  MySQL エラー: ロックを取得しようとしたときにデッドロックが見つかりました。トランザクションの解決策を再起動してください

>>:  JSX を使用してマークアップ コンポーネント スタイルの開発を作成する例 (フロントエンドのコンポーネント化)

推薦する

Vue3の一般的なAPIの使用方法の紹介

目次ライフサイクルの変化反応的な参照vue2.x では ref を使用して要素タグを取得します。vu...

Docker で MySQL マスターとスレーブをデプロイする方法

画像をダウンロードMySQLイメージの選択 docker 検索 mysql MySQL 5.7 イメ...

MySQL データベース インデックスが B+ ツリーの使用を選択するのはなぜですか?

MySQL データベース インデックスが B+ ツリーを使用する理由をさらに分析する前に、データ構...

Vue で SVG アイコンを導入する 2 つの方法

Vue で SVG アイコンを導入する方法Vue で svg アイコンを導入する方法 1インストール...

階段を転がす特殊効果を実現する JavaScript (jQuery 実装)

皆さんもJDを使ったことがあると思います。ホームページには非常によく見られる機能があります。階段の特...

Docker デプロイメント Consul 構成プロセスの分析

コマンドを実行docker run -d --name consul -p 8500:8500 co...

Docker のインストールと構成イメージの高速化の実装

目次DockerバージョンCentOS に Docker エンジンをインストールするシステム要件古い...

React Nativeがシミュレータにリンクできない件について

React Native は、現在人気のオープンソース JavaScript ライブラリ React...

IDEA の Docker プラグインを介して SpringBoot プロジェクトをデプロイするプロセスの詳細な説明

1. Dockerリモート接続ポートを設定するサーバー上の docker.service ファイルを...

CSS で QR コードスキャンボックスを実装するためのサンプルコード

カメラを開くと通常はスキャンボックスが表示されますが、静的なQRコードではフォーカスを合わせたりスキ...

HTML ウェブページのブラウザタイトルバーに小さなアイコンを表示する方法

この効果と同様に、方法も非常に簡単です。ヘッダーに次のように記述します: <link rel=...

Ubuntu 18.04はルート権限を取得し、ルートユーザーとしてログインします

事前に書いておきます:次の手順では、ターミナルにコマンドを入力する必要があります。コンピューターでブ...

html リンク タグ タイトル属性 改行 マウス ホバー プロンプト コンテンツ 改行効果

オブジェクト上にマウスを移動したときにコンテンツ(タイトル属性の内容)を折り返す方法、HTML タイ...

Apache POIの基本的な使い方の詳しい説明

目次基本的な紹介入門テスト (Excel ファイルからのデータの読み取り)ステップ1: Maven座...

CSS画像結合技術(スプライト画像)の詳しい説明

CSS画像結合技術1. 画像のステッチ画像ステッチング技術は、個々の画像を収集する技術です。画像の多...