Hướng dẫn cài đặt Apache Spark standalone mode

Apache Spark

Apache Spark

Trong bài viết này, tôi sẽ trình bày ngắn gọn các bước tiến hành để cài đặt Apache Spark ở chế độ standalone. Để cài đặt thành công Apache Spark ta thực hiện 4 bước sau:

  • Cài đặt Java
  • Cài đặt Scala
  • Cài đặt Git
  • Cài đặt Spark

Cài đặt Java

Xóa OpenJDK/JRE ra khỏi hệ thống

sudo apt-get purge openjdk-\*

Tạo thư mục chứa Oracle Java JDK và JRE binaries

sudo mkdir -p /usr/local/java

Link download JDK

Linux 32bit: http://download.oracle.com/otn-pub/java/jdk/8u65-b17/jdk-8u65-linux-i586.tar.gz

Linux 64bit: http://download.oracle.com/otn-pub/java/jdk/8u65-b17/jdk-8u65-linux-x64.tar.gz

Copy Oracle Java binaries vào thư mục /usr/local/java

cd /home/"username_cua_ban"/Downloads
sudo cp -r jdk-8u65-linux-x64.tar.gz /usr/local/java/

Gỉai nén Java binaries vào thư mục /usr/local/java

cd /usr/local/java
sudo tar xvzf jdk-8u65-linux-x64.tar.gz

Cài đặt Scala

Download Scala: http://www.scala-lang.org/download/

Tạo thư mục cho Scala

sudo mkdir /usr/local/src/scala

Gỉai nén Scala binaries vào thư mục /usr/local/src/scala

cd /home/"username_cua_ban"/Downloads
sudo tar xvzf scala-2.11.7.tgz -C /usr/local/src/scala/

Cập nhật hệ thống PATH file ~/.bashrc

cd ~
sudo gedit .bashrc

Kéo xuống cuối file và cập nhật thông tin sau

export JAVA_HOME=/usr/local/java/jdk1.8.0_65
export JRE_HOME=$JAVA_HOME/jre
export SCALA_HOME=/usr/local/src/scala/scala-2.11.7
export PATH=$PATH:$JAVA_HOME/bin:$JRE_HOME/bin:$SCALA_HOME/bin
bashrc

bashrc

Nạp lại hệ thống file PATH ~/.bashrc

cd ~
source .bashrc

Kiểm tra java version

java -version
java version

java version

Kiểm tra scala version

scala -version
scala version

scala version

Cài đặt Git

Tạo tài khoản trên github: https://github.com/join

Cài đặt Git

sudo apt-get install git

Cài đặt Spark

Download Spark: http://spark.apache.org/downloads.html

Download Spark source code

Download Spark source code

Cách 1: Download source code để tự build

http://ftp.jaist.ac.jp/pub/apache/spark/spark-1.5.2/spark-1.5.2.tgz

Tạo thư mục chứa Spark và copy file gỉai nén vào

sudo mkdir /usr/local/src/spark
cd /home/"username_cua_ban"/Downloads
sudo tar xvzf spark-1.5.2.tgz -C /usr/local/src/spark/

Build Spark source code (khoảng 30 phút)

cd /usr/local/src/spark/spark-1.5.2
sbt/sbt assembly

Cách 2: Download source đã built sẵn

http://ftp.riken.jp/net/apache/spark/spark-1.5.2/spark-1.5.2-bin-hadoop2.6.tgz

Tạo thư mục chứa Spark và copy file gỉai nén vào

sudo mkdir /usr/local/src/spark
cd /home/"username_cua_ban"/Downloads
sudo tar xvzf spark-1.5.2-bin-hadoop2.6.tgz -C /usr/local/src/spark/

Vào thư mục của Spark vừa gỉai nén (spark-1.5.2 hoặc spark-1.5.2-bin-hadoop2.6) và chạy lệnh

sbin/start-master.sh

Bật trình duyệt vào địa chỉ để kiểm tra Spark đã chạy chưa: http://localhost:8080/

Chạy thử một ví dụ Spark shell với Scala

bin/spark-shell

Đọc file README.md trong thư mục Spark và chạy một vài hàm đơn gỉan

val textFile = sc.textFile("README.md")
textFile.count()
textFile.collect()

res1: Array[String] = Array(# Apache Spark, "", Spark is a fast and general cluster computing system for Big Data. It provides, high-level APIs in Scala, Java, Python, and R, and an optimized engine that, supports general computation graphs for data analysis. It also supports a, rich set of higher-level tools including Spark SQL for SQL and DataFrames,, MLlib for machine learning, GraphX for graph processing,, and Spark Streaming for stream processing., "", <http://spark.apache.org/>, "", "", ## Online Documentation, "", You can find the latest Spark documentation, including a programming, guide, on the [project web page](http://spark.apache.org/documentation.html), and [project wiki](https://cwiki.apache.org/confluence/display/SPARK)., This README file only contains basic setup instruc...
Advertisements

21 thoughts on “Hướng dẫn cài đặt Apache Spark standalone mode

  1. Chào bạn
    Tôi thực hiện quá trình cài đặt spark theo cách 2 nhưng ko biết cách vào thư mục của Spark vừa gỉai nén (spark-1.5.2 hoặc spark-1.5.2-bin-hadoop2.6) để chạy lệnh sbin/start-master.sh như thế nào ??? Có thể hướng dẫn giúp tôi đc ko ? Cảm ơn

    Liked by 1 person

  2. Chào ad, mình đã cài đặt spark với hadoop bây giờ mình phải cấu hình như thế nào để spark làm việc với hdfs ạ. Và ad có thể ví dụ việc đọc một file txt trong hdfs bằng spark được không ạ. Mình cám ơn

    Số lượt thích

  3. Xin chào add!
    tôi thử chạy lệnh này
    val textFile = sc.textFile(“README.md”)
    thì bị báo lỗi:
    not found: value sc

    tôi đã import các thư viện sau:
    import org.apache.spark.SparkConf
    import org.apache.spark.SparkContext
    import org.apache.spark.SparkContext._

    và thêm đoạn code sau nữa:
    val conf = new SparkConf().setAppName(“Spark SQL Application”).setMaster(“local[2]”)
    val sc = new SparkContext(conf)

    nhưng vẫn bị báo lỗi.

    rất mong được giúp đỡ ạ.
    Mình cảm ơn!

    Số lượt thích

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s