ビッグデータはますます注目を集めており、ビッグデータのいくつかの構成要素に精通していないと、自慢できるキャッチフレーズさえありません。 少なくとも、hadoop、hdfs、mapreduce、yarn、kafka、spark、zookeeper、neo4j について話せる必要があります。これらは、披露するのに必須のスキルです。 Spark についてはインターネット上に詳しい紹介がたくさんあります。検索してみてください。次に、スタンドアロン版 Spark のインストールと簡単な使用方法について説明します。 0. JDK をインストールします。私のマシンにはすでに JDK がインストールされているので、この手順はスキップできます。 JDK はもはや定番であり、言うまでもなく、Java/Scala を使用する際には欠かせません。 ubuntu@VM-0-15-ubuntu:~$ java -バージョン openjdk バージョン "1.8.0_151" OpenJDK ランタイム環境 (ビルド 1.8.0_151-8u151-b12-0ubuntu0.16.04.2-b12) OpenJDK 64 ビット サーバー VM (ビルド 25.151-b12、混合モード) ubuntu@VM-0-15-ubuntu:~$ 1. 必ずしも Hadoop をインストールする必要はなく、特定の Spark バージョンを選択するだけです。 Spark にはデフォルトで Scala シェルが付属しているため、Scala をダウンロードする必要はありません。Spark の公式 Web サイトにアクセスしてダウンロードしてください。Hadoop のない環境では、spark-2.2.1-bin-hadoop2.7 を選択し、次のように解凍します。 ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc$ ll 合計 196436 drwxrwxr-x 3 ubuntu ubuntu 4096 2月 2日 19:57 ./ drwxrwxr-x 9 ubuntu ubuntu 4096 2月 2日 19:54 ../ drwxrwxr-x 13 ubuntu ubuntu 4096 2月2日 19:58 spark-2.2.1-bin-hadoop2.7/ -rw-r--r-- 1 ubuntu ubuntu 200934340 2月2日 19:53 spark-2.2.1-bin-hadoop2.7.tgz 2. Spark には Python バージョンと Scala バージョンがあります。次に、次のように Scala バージョンのシェルを使用します。 ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ bin/spark-shell Spark のデフォルトの log4j プロファイルを使用する: org/apache/spark/log4j-defaults.properties デフォルトのログ レベルを「WARN」に設定しています。 ログ レベルを調整するには、sc.setLogLevel(newLevel) を使用します。SparkR の場合は、setLogLevel(newLevel) を使用します。 18/02/02 20:12:16 警告 NativeCodeLoader: ご使用のプラットフォームのネイティブ Hadoop ライブラリをロードできません... 該当する場合は組み込み Java クラスを使用します 18/02/02 20:12:16 警告 Utils: ホスト名 localhost はループバック アドレス 127.0.0.1 に解決されます。代わりに 172.17.0.15 を使用します (インターフェイス eth0) 18/02/02 20:12:16 警告ユーティリティ: 別のアドレスにバインドする必要がある場合は、SPARK_LOCAL_IP を設定してください Spark コンテキスト Web UI は http://172.17.0.15:4040 で利用可能です。 Spark コンテキストは 'sc' として利用可能です (マスター = local[*]、アプリ ID = local-1517573538209)。 Spark セッションは「spark」として利用可能です。 ようこそ ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ ///\_\ バージョン 2.2.1 /_/ Scala バージョン 2.11.8 (OpenJDK 64 ビット サーバー VM、Java 1.8.0_151) を使用 式を入力して評価します。 詳細については、:help と入力してください。 スカラ> 簡単な操作を実行するには: scala> val 行 = sc.textFile("README.md") 行: org.apache.spark.rdd.RDD[String] = README.md MapPartitionsRDD[1] テキストファイル <console>:24 scala> 行数() res0: ロング = 103 scala> 行.first() res1: 文字列 = # Apache Spark scala> :終了 ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ wc -l README.md 103 README.md ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ head -n 1 README.md # アパッチスパーク ubuntu@VM-0-15-ubuntu:~/taoge/spark_calc/spark-2.2.1-bin-hadoop2.7$ ビジュアルウェブページを見てみましょう。Windowsでは、http://ip:4040と入力します。 さて、この記事は簡単なインストールについてのみ説明しています。後ほど Spark について詳しく紹介していきます。 要約する 以上がこの記事の全内容です。この記事の内容が皆様の勉強や仕事に何らかの参考学習価値をもたらすことを願います。123WORDPRESS.COM をご愛顧いただき、誠にありがとうございます。これについてもっと知りたい場合は、次のリンクをご覧ください。 以下もご興味があるかもしれません:
|
<<: MySQL 5.7.20 の解凍バージョンをインストールするときに遭遇する落とし穴 (推奨)
>>: Vue+Springbootでインターフェースシグネチャを実装するためのサンプルコード
HTMLタグの説明1. HTMLタグタグ: !DOCTYPE説明: HTML ドキュメントが準拠する...
前提複雑なシナリオでは、複数の異なるページ間で大量のデータを使用したり変更したりする必要があります。...
序文この友人がどれくらいDockerを使っていなかったのかは分かりませんが、突然Dockerコマンド...
説明と紹介Docker inspect は Docker クライアントのネイティブ コマンドであり、...
CDN(コンテンツ配信ネットワーク)を通じて参照できます。 jQuery は Google と Mi...
グリッドシステムの形成1692年、新しく即位したフランス国王ルイ14世は、フランスの印刷技術のレベル...
この記事では、参考のために、WeChatアプレットのチャットルームを実装するための具体的なコードを例...
1. MySQL マスター/スレーブ同期とは何ですか?マスター データベースのデータが変更されると、...
序文JSON は、言語に依存しないテキスト形式を使用する軽量のデータ交換形式で、XML に似ています...
追加説明、外部キー: 外部キーを使用しないでください。すべての外部キーの概念はアプリケーション層で解...
zabbix を利用する上での最大のボトルネックはデータベースです。zabbix のデータストレージ...
序文今日、MySQL をインストールしたところ、データベース ストレージがデフォルトで C ドライブ...
フォーマットエンコーディング1. ページの幅は600~800px、長さは1024px以内に設定してく...
ミックスインは、コンポーネントに分散された再利用可能な機能を柔軟な方法で提供します。 Mixin オ...
MySQL の遅いクエリの説明MySQL スロー クエリ ログは、MySQL が提供するログ レコー...