スポンサーリンク

KubernetesでApache Sparkを実行する手順【Spark on k8s】

KubernetesでApache Sparkを実行する手順【Spark on k8s】

 

★悩み★
・Kubernetes上でApache Sparkのアプリケーションを実行できるのかな。
・Kubernetes上でApache SparkのPIアプリケーションを実行したいな。
・KubernetesでApache Sparkを実行する手順を知りたいな。



こういった「悩み」に答えます。
 

★本記事の内容★
① KubernetesでApache Sparkを実行するための準備をご紹介
② KubernetesでApache Sparkを実行する手順をご紹介



これからご紹介する「KubernetesでApache Sparkを実行する手順」を実践したことで、3時間以内で「Apache SparkのサンプルアプリをKubernetes上で実行」できました。

記事の前半では「KubernetesでApache Sparkを実行するための準備」を解説しつつ、記事の後半では「KubernetesでApache Sparkを実行する手順」を紹介します。

この記事を読み終えることで、「Kubernetes上でApache Sparkのサンプルアプリ(円周率を計算するアプリケーションなど)を実行できる」状態になります。
 

★Kubernetesとは★
Kubernetesを利用することで、マイクロサービスなシステムを構築できます。Kubernetesを利用したマイクロサービスに関して知りたい方は、以下の記事をご覧ください。
 
Kubernetesとマイクロサービスについて


 

ちなみに、Pythonで実装したSparkアプリケーションをKubernetes上で実行する手順に関して知りたい方は、以下の記事をご覧ください。
 



ちなみに、「Kubernetesを体系的に学習したい」方には、以下の記事がお勧めです。
 


 

KubernetesでApache Sparkを実行するための準備

KubernetesでApache Sparkを実行するための準備


「KubernetesでApache Sparkを実行するための準備」に関してご紹介します。

★KubernetesでApache Sparkを実行するための準備の流れ★
手順1:Kubernetesクラスタを構築
手順2:構築したKubernetesクラスタの状態確認



上記の流れで、「KubernetesでApache Sparkを実行するための準備」ができます。
 

上記の各手順は、以下の日時と環境で動作確認済みです。
動作確認済み日時:2021年6月21日
動作確認済み環境:CentOS Linux release 7.7.1908 (Core)



以降で、上記「KubernetesでApache Sparkを実行するための準備の流れ」の各手順に関してご説明します。
 

手順1:Kubernetesクラスタを構築【Sparkの実行環境を用意】

「手順1:Kubernetesクラスタを構築」に関してご説明します。
 

Kubernetes上でApache Sparkのアプリケーションを実行するために、Kubernetesクラスタを構築しましょう。



「Kubernetesクラスタの構築手順」に関しては、以下の記事をご覧ください。
 



上記手順を実施することで、以下のKubernetesクラスタを構築できます。
 

手順1:Kubernetesクラスタを構築



以降の手順では、上図のKubernetesクラスタを想定として手順を解説します。
  

既にKubernetesクラスタを構築済みである場合、本手順を省略してください。



以上で、「手順1:Kubernetesクラスタを構築」は完了です。
 

手順2:構築したKubernetesクラスタの状態確認

「手順2:構築したKubernetesクラスタの状態確認」に関してご説明します。
 

構築したKubernetesにおいて、Apache Sparkのアプリケーションを実行できる状態になっているかを確認しましょう。



「構築したKubernetesクラスタの状態確認」に関しては、以下の記事「手順2:構築したKubernetesクラスタの状態確認」をご覧ください。
 



以上で、「手順2:構築したKubernetesクラスタの状態確認」は完了です。
 

上記の流れで、KubernetesでApache Sparkを実行するための準備ができました。

 
 

KubernetesでApache Sparkを実行する手順

KubernetesでApache Sparkを実行する手順


「KubernetesでApache Sparkを実行する手順」に関してご紹介します。

★KubernetesでApache Sparkを実行するまでの流れ★
手順1:Apache Sparkをダウンロード
手順2:DockerHubのアカウント(ID)を作成(SignUp)
手順3:Apache Sparkのコンテナイメージを作成
手順4:作成したApache SparkのコンテナイメージをDockerHubへ登録
手順5:作成したApache SparkのコンテナイメージをKubernetesで実行
手順6:Kubernetes上で実行したApache Sparkの動作結果を確認



上記手順を実施することで、Kubernetes上でApache Sparkのサンプルアプリケーションを実行できます。
 

上記の各手順は、以下の日時と環境で動作確認済みです。
動作確認済み日時:2021年6月21日
動作確認済み環境:CentOS Linux release 7.7.1908 (Core)



以降で、上記「KubernetesでApache Sparkを実行するまでの流れ」の各手順に関してご説明します。
 

手順1:Apache Sparkをダウンロード【k8sで動く媒体を取得】

「手順1:Apache Sparkをダウンロード」に関してご説明します。
 

Kubernetes上で動作するApache Sparkの媒体をダウンロードして解凍しましょう。



Apache Sparkの媒体をダウンロードするために、マスターで「端末」または「コマンドプロンプト」を起動し、以下のコマンドを実行しましょう。

# wget https://ftp.jaist.ac.jp/pub/apache/spark/spark-3.1.2/spark-3.1.2-bin-hadoop3.2.tgz
# ls
spark-3.1.2-bin-hadoop3.2.tgz



コマンド実行後、「spark-3.1.2-bin-hadoop3.2.tgz」が表示された場合、「正常にApache Sparkの媒体をダウンロードできた」と判断できます。その後、「spark-3.1.2-bin-hadoop3.2.tgz」を任意の場所に解凍してください。

以上で、「手順1:Apache Sparkをダウンロード」は完了です。
 

手順2:DockerHubのアカウント(ID)を作成(SignUp)

「手順2:DockerHubのアカウント(ID)を作成(SignUp)」に関してご説明します。
 

Kubernetes上でApache Sparkを実行するためには、DockerHubのアカウント(ID)が必要です。



「DockerHubのアカウント(ID)を作成する(SignUp)手順」に関しては、以下の記事をご覧ください。
 


 

既にDockerHubのアカウント(ID)を持っている方は、本手順を省略してください。



以上で、「手順2:DockerHubのアカウント(ID)を作成(SignUp)」は完了です。
 

手順3:Apache Sparkのコンテナイメージを作成

「手順3:Apache Sparkのコンテナイメージを作成」に関してご説明します。
 

Kubernete上でApache Sparkを実行したい場合、Apache Sparkコンテナイメージを作成しDockerHubに公開する必要があります。



Apache Sparkのコンテナイメージを作成するために、マスターで以下のコマンドを順に実行してください。

# cd spark-3.1.2-bin-hadoop3.2
# ls
LICENSE  NOTICE  R  README.md  RELEASE  bin  conf  data  examples  jars  kubernetes  licenses  python  sbin  yarn
# ↓ -r には、DockerHubのアカウント名(ID)を指定する ↓
# ↓ -t には、任意のタグ名を指定する ↓
# ./bin/docker-image-tool.sh -r herokakedashi -t spark-test-hadoop build
# echo $?
0
# 



コマンド実行後、「0」が表示された場合、「正常にKubernetes上で起動するApache Sparkのコンテナイメージを作成できた」と判断できます。
 

docker-image-tool.shのリファレンスは、以下を参照してください。
docker-image-tool.shのコマンドリファレンス(公式サイト)



以上で、「手順3:Apache Sparkのコンテナイメージを作成」は完了です。
 

手順4:作成したApache SparkのコンテナイメージをDockerHubへ登録

「手順4:作成したApache SparkのコンテナイメージをDockerHubへ登録」に関してご説明します。
 

手順3で作成した「Apache Sparkのコンテナイメージ」をKubernetes上で起動するために、DockerHubへ登録しましょう。



作成した「Apache Sparkのコンテナイメージ」をDockerHubへ登録するために、マスターで以下のコマンドを実行しましょう。

# cd spark-3.1.2-bin-hadoop3.2
# ↓ -rと-tには、buildコマンド実行時と同じ値を指定する ↓
# ./bin/docker-image-tool.sh -r herokakedashi -t spark-test-hadoop push
# echo $?
0
# 



コマンド実行後、「0」が表示された場合、「作成したApache SparkのコンテナイメージをDockerHubへ正常に登録できた」と判断できます。

以上で、「手順4:作成したApache SparkのコンテナイメージをDockerHubへ登録」は完了です。
 

手順5:作成したApache SparkのコンテナイメージをKubernetesで実行

「手順5:作成したApache SparkのコンテナイメージをKubernetesで実行」に関してご説明します。
 

Kubernetes上でApache Sparkのサンプルアプリケーションを実行してみましょう。



Apache Sparkのサンプルアプリケーション「SparkPi(円周率を計算するアプリ)」をKubernetes上で実行するために、マスターで以下のコマンドを順に実行してください。

# kubectl create serviceaccount spark1
# kubectl create clusterrolebinding spark-role1 --clusterrole=edit --serviceaccount=default:spark1 --namespace=default
# cd spark-3.1.2-bin-hadoop3.2
# kubectl cluster-info
Kubernetes control plane is running at https://127.0.0.1:6443
# ↓ -masterには、kubectl cluster-infoで表示されたIPアドレスを指定する ↓
# ↓ serviceAccountNameには、kubectl create serviceaccountで作成した値を指定する ↓
# ↓ imageには、<buildコマンドの-rに指定した値>/spark:<buildコマンドの-tに指定した値>を指定する ↓
# bin/spark-submit \
      --master k8s://https://127.0.0.1:6443 \
      --deploy-mode cluster \
      --conf spark.executor.instances=1 \
      --conf spark.kubernetes.authenticate.driver.serviceAccountName=spark1 \
      --conf spark.kubernetes.container.image=herokakedashi/spark:spark-test-hadoop \
      --class org.apache.spark.examples.SparkPi \
      --name spark-pi \
      local:///opt/spark/examples/jars/spark-examples_2.12-3.1.2.jar
# kubectl get po
NAME                               READY   STATUS      RESTARTS   AGE
spark-pi-2efcca7a0fbc60ba-driver   0/1     Completed   0          40s



コマンド実行後、「Completed」と表示された場合、「作成したApache SparkのコンテナイメージをKubernetesで正常に実行できた」と判断できます。

以上で、「手順5:作成したApache SparkのコンテナイメージをKubernetesで実行」は完了です。
 

手順6:Kubernetes上で実行したApache Sparkの動作結果を確認

「手順6:Kubernetes上で実行したApache Sparkの動作結果を確認」に関しては、ご説明します。
 

Kubernetes上で実行したApache Sparkのサンプルアプリケーション「SparkPi(円周率を計算するアプリ)」の実行結果を確認してみましょう。



Kubernetes上で実行したApache Sparkのサンプルアプリケーション「SparkPi(円周率を計算するアプリ)」の実行結果を確認するために、以下のコマンドを実行してください。

# ↓ kubectl get poで表示されたPod名を指定する ↓
# kubectl logs spark-pi-2efcca7a0fbc60ba-driver
・
・
・
Pi is roughly 3.1468957344786723
・
・
・
# 



コマンド実行後、「Pi is roughly」と表示された場合、「Kubernetes上で実行したApache Sparkのサンプルアプリケーションが正常に動作した」と判断できます。

以上で、「手順6:Kubernetes上で実行したApache Sparkの動作結果を確認」は完了です。
 

上記の流れで、「KubernetesでApache Sparkを実行」できました。



ちなみに、「Apache Sparkのアーキテクチャを体系的に学びたい」や「Apache Sparkの特徴を知りたい」方は、以下の参考書がオススメです。


動画で学びたいという方には、以下がオススメです。

Apache Spark入門@udemy

 
 

【まとめ】KubernetesでApache Sparkを実行する手順【Spark on k8s】

KubernetesでApache Sparkを実行する手順【Spark on k8s】


今回の記事を通して、「KubernetesでApache Sparkを実行する手順」をご紹介することで、以下の悩みを解消しました。

★悩み★
・Kubernetes上でApache Sparkのアプリケーションを実行できるのかな。
・Kubernetes上でApache SparkのPIアプリケーションを実行したいな。
・KubernetesでApache Sparkを実行する手順を知りたいな。



「KubernetesでApache Sparkを実行する手順は?」で悩んでいるあなたにこの記事が少しでも役に立てれば幸いです。

コメント

タイトルとURLをコピーしました