Dynadot 搬瓦工 腾讯云

在 Ubuntu 20.04 上安装 Apache Spark 教程

Sider GigsGigsCloud

Apache Spark 是一种用于大规模数据处理的开源、通用、多语言分析引擎,它通过利用集群中的 RAM 对大量数据执行快速数据查询,在单个和多个节点上工作。它提供批处理数据处理和实时流,并支持 Python、SQL、Scala、Java 或 R 等语言的高级 API。该框架提供内存技术,允许它直接将查询和数据存储在 集群节点的主内存。

本文介绍了如何在 Ubuntu 20.04 服务器上安装 Apache Spark。

安装之前请准备好一个 Ubuntu 20.04 系统,本地机器或者 VPS 都可以。然后最好准备一个具有 root 权限的非 root 账户。

一、安装 Java

更新系统

$ sudo apt update

安装 Java

$ sudo apt install default-jdk -y

验证 Java 安装

$ java -version

二、安装 Apache Spark

安装所需软件包

$ sudo apt install curl mlocate git scala -y

下载 Apache Spark,更多最新版本可以查看官方下载页面

$ curl -O https://archive.apache.org/dist/spark/spark-3.2.0/spark-3.2.0-bin-hadoop3.2.tgz

解压安装文件

$ sudo tar xvf spark-3.2.0-bin-hadoop3.2.tgz

创建目录 /opt/spark.

$ sudo mkdir /opt/spark

复制文件

$ sudo mv spark-3.2.0-bin-hadoop3.2/* /opt/spark

修改权限

$ sudo chmod -R 777 /opt/spark

编辑 bashrc 配置文件,增加 Apache Spark 安装目录到系统路径

$ sudo nano ~/.bashrc

添加下面两行到文件并保存

export SPARK_HOME=/opt/spark
export PATH=$PATH:$SPARK_HOME/bin:$SPARK_HOME/sbin

保存文件并生效

$ source ~/.bashrc

启动 master server

$ start-master.sh

访问 http://ServerIPaddress:8080 以获取 server hostname,比如下面的链接

URL: spark://my-server-development:7077

启动 Apache Spark 工作进程,修改 spark://ubuntu:7077 成你的 server hostname

$ start-slave.sh spark://ubuntu:7077

三、访问 Apache Spark Web 界面

打开浏览器,输入 http://ServerIPaddress:8080 来访问 Apache Spark 的 Web 界面,比如

http://192.0.2.10:8080

四、优选 VPS 商家推荐

参考:《#老唐推荐# 最好用的国内云服务器、国外便宜 VPS 推荐》。

下面是目前搬瓦工推荐方案。

方案内存CPU硬盘流量/月带宽机房价格购买
KVM
(最便宜)
1GB2核20GB1TB1GbpsDC3 CN2
DC8 ZNET
(购买后在后台迁移)
$49.99/年购买
KVM2GB3核40GB2TB1Gbps$52.99/半年
$99.99/年
购买
CN2 GIA-E
(最推荐)
1GB2核20GB1TB2.5GbpsDC6 CN2 GIA-E
DC9 CN2 GIA
日本软银 JPOS_1
联通荷兰 EUNL_9
$49.99/季度
$169.99/年
购买
CN2 GIA-E2GB3核40GB2TB2.5Gbps$89.99/季度
$299.99/年
购买
HK2GB2核40GB0.5TB1Gbps中国香港 CN2 GIA$89.99/月
$899.99/年
购买
HK4GB4核80GB1TB1Gbps$155.99/月
$1559.99/年
购买
OSAKA2GB2核40GB0.5TB1.5Gbps日本大阪 CN2 GIA$49.99/月
$499.99/年
购买
OSAKA4GB4核80GB1TB1.5Gbps$86.99/月
$869.99/年
购买
Dynadot Hostwinds
赞(1)
版权声明:本文采用知识共享 署名4.0国际许可协议 [BY-NC-SA] 进行授权
文章名称:《在 Ubuntu 20.04 上安装 Apache Spark 教程
文章链接:https://oldtang.com/9652.html
本站资源仅供个人学习交流,请于下载后24小时内删除,不允许用于商业用途,否则法律问题自行承担。