Spark는 빅데이터 처리를 위한 강력한 분산 처리 엔진입니다. 이번 포스팅에서는 VM 1대의 환경에서 간단하게 Spark 싱글노드 구축방법을 단계별로 알아보겠습니다.
사전 준비
jdk설치
sudo apt update && sodu apt install -y default-jdk
Directory 생성
sudo -i
mkdir -p /opt/spark
패키지 다운로드
cd /opt/spark
wget https://dlcdn.apache.org/spark/spark-3.5.3/spark-3.5.3-bin-hadoop3.tgz
tar -xvf spark-3.5.3-bin-hadoop3.tgz
설치 후 bashrc설정
cd ~
vi .bashrc
맨 아래줄에 아래 코드 입력
SPARK_HOME=/opt/spark/spark-3.5.3-bin-hadoop3
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/bin
저장 후 적용
source .bashrc
동작 테스트
Spark-shell 실행
spark-shell