1. Spark と Hadoop1.1 Haoopの欠点
1.2 Hadoop MR に対する利点
2. Sparkエコシステム2.1 ビッグデータ処理の3つのタイプ1. 複雑なバッチデータ処理時間の範囲は数十分から数時間です Haoop マップリデュース 2. 履歴データに基づくインタラクティブなクエリ時間の範囲は数十秒から数分です Cloudera と Impala のリアルタイム パフォーマンスは Hive よりも優れています。 3. リアルタイムデータストリームに基づくデータ処理時間の範囲は数百ミリ秒から数秒です 嵐 2.2 BDASアーキテクチャ2.3 Sparkエコシステム3. 基本概念とアーキテクチャ設計3.1 基本概念3.2 運用アーキテクチャExecutor を使用した Spark の利点: (Hadoop の MR と比較して)
3.3 さまざまな概念の関係
アプリケーションを実行すると、ドライバーはクラスター マネージャーからリソースを要求し、エグゼキューターを起動します。 そして、アプリケーションコードとファイルをExecutorに送信し、Executor上でタスクを実行します。実行が完了すると、 実行結果はドライバーに返されるか、HDFS または他のデータベースに書き込まれます。 4. Sparkは基本プロセスを実行します4.1 操作プロセス1. アプリケーションの基本的な動作環境を構築します。つまり、ドライバーはリソースを申請し、タスクを割り当て、それらを監視するための SparkContext を作成します。 2. リソース マネージャーは、エグゼキュータにリソースを割り当て、エグゼキュータ プロセスを開始します。
4. タスクは Executor 上で実行され、実行結果を TaskScheduler にフィードバックし、次に DAGScheduler にフィードバックします。実行が完了すると、データが書き込まれ、すべてのリソースが解放されます。 4.2 運用アーキテクチャの機能1. 各アプリケーションには独自の Executor プロセスがあり、アプリケーションの実行中はプロセスが常駐します。 Executor プロセスは、タスクをマルチスレッド方式で実行します。 2. Spark 実行プロセスは、Executor プロセスを取得して通信を維持できる限り、リソース マネージャーとは関係ありません。 3. タスクは、データの局所性や投機的実行などの最適化メカニズムを使用します。 (計算がデータに近づきます。) 5. Sparkの導入と適用方法5.1 Sparkの3つの展開方法5.1.1 スタンドアロンMR1.0 と同様に、スロットはリソース割り当て単位ですが、パフォーマンスは良くありません。 5.1.2 Mesos 上の SparkMesos と Spark には一定の親和性があります。 5.1.3 YARN 上の SparkMesosとYarnのつながり 5.2 Hadoop+StormアーキテクチャからSparkアーキテクチャへHadoop+Stormアーキテクチャこの展開方法はより複雑です。 Sparkアーキテクチャを使用してバッチ処理とストリーム処理のニーズを満たすSpark は高速な小規模バッチ コンピューティングを使用してストリーム コンピューティングをシミュレートしますが、実際のストリーム コンピューティングではありません。 ミリ秒レベルのストリーム コンピューティングを実現することは不可能です。ミリ秒レベルのリアルタイム応答を必要とするエンタープライズ アプリケーションでは、Storm などのストリーム コンピューティング フレームワークが依然として必要です。 Spark アーキテクチャの利点:
5.3 Hadoop と Spark の統合デプロイメントYARNでは異なるコンピューティングフレームワークが均一に実行されるメリットは次のとおりです。
現状: 1. Spark は現在、Hadoop エコシステムの一部のコンポーネントによって実装されている機能を置き換えることはできません。 2. Hadoop コンポーネントを使用して開発された既存のアプリケーションを Spark に完全に移行するには、一定の費用がかかります。 Sparkの紹介とHadoopとの比較分析に関するこの記事はこれで終わりです。SparkとHadoopの関連コンテンツについては、123WORDPRESS.COMの過去の記事を検索するか、以下の関連記事を引き続き閲覧してください。今後とも123WORDPRESS.COMをよろしくお願いいたします。 以下もご興味があるかもしれません:
|
>>: 標準的なHTMLの書き方は、Dreamweaverによって自動的に生成されるものとは異なります。
昨日、パソコンにPHP開発環境をセットアップした後、Apacheサーバーを再起動するとエラーが続きま...
この記事に誤りがあったり、ご提案がありましたら、お気軽にご連絡ください。よろしくお願いいたします。は...
目次序文-リンクカスタムネットワーク質問する序文前回は、 -Linkパラメータを使用してコンテナ間の...
特記事項:この記事は、Chris Spooner の英語記事「Web デザイン用の Retina グ...
タイトル通りです。その質問は非常に奇妙です。要素の親タグはdivで、幅や高さなどの属性は設定されてい...
<body style="scroll:no"> <テーブルの...
目次序文計算されたプロパティ計算プロパティの紹介入門ケース統計価格事例ゲッターメソッドとセッターメソ...
HTMLで表を描くには、表タグを使用します。 trは行を意味しますtdは列を示すth はテーブ...
目次1. カウントデータが失われる解決2. 明確なデータ損失3.データ損失を選択解決4. Nullポ...
一般的に、関数は実行する前に呼び出す必要があることはご存じのとおりです。以下に示すように、関数を定義...
目次序文ディープページングを制限すると遅くなるのはなぜですか?サブクエリによる最適化B+ツリー構造の...
時は経つのが早く、わずか 6 日後には 2013 年が歴史になります。今年は、いわゆるトレンドが多す...
1.MySQLレプリケーションの概念これは、プライマリ データベースの DDL および DML 操作...
Promise は、ES6 で導入された非同期プログラミングのための新しいソリューションです。 Pr...
質問質問 1: トランザクションをコミットするときに REDO ログをフラッシュすることによって発生...