单机安装Spark开发环境

简介

MapReduce在迭代计算和交互计算的任务上表现得效率低下,Spark从一开始就是为交互式查询和迭代算法设计的,同时还支持内存式存储和高效的容错机制,Spark的核心是一个对由很多计算任务组成的、运行在多个工作机器或者是一个计算集群上的应用进行调度、分发以及监控的计算引擎。
因Spark支持java、python等语言,尝试安装了python语言环境下的spark开发环境。本篇笔记是win10下配置过程记录。

机器:Win10 64bit

jdk安装

从Oracle网站上下载JDK。我装的JDK 1.8版本。安装完新建系统环境变量JAVA_HOME,值为D:\program files\Java\jdk1.8.0_144(根据自己安装路径来),系统变量Path下添加%JAVA_HOME%\bin%JAVA_HOME%\jre\bin

spark环境变量配置

spark网站上下载最新版本spark,我下载的了与Hadoop2.6匹配的spark,文件名spark-2.2.0-bin-hadoop2.6.tgz,将安装文件解压到本地文件夹中(如:D:\spark,路径中不能有空格)。将D:\spark\spark-2.2.0-bin-hadoop2.6\bin添加到系统Path变量,同时新建SPARK_HOME变量,变量值为:D:\spark\spark-2.2.0-bin-hadoop2.6

hadoop工具包安装

spark是基于hadoop之上的,运行过程中会调用相关hadoop库,下载hadoop 2.6编译好的包,hadoop-2.6.0.tar.gz。将安装文件解压到本地文件夹中(如:D:\program files\hadoop),系统变量Path中添加D:\program files\hadoop\hadoop-2.6.0\bin;新建HADOOP_HOME系统变量,值为:D:\program files\hadoop\hadoop-2.6.0

python下spark开发环境搭建

将spark目录下的pyspark文件夹(D:\spark\spark-2.2.0-bin-hadoop2.6\python\pyspark)复制到python安装目录(D:\Program Files (x86)\python3\Lib\site-packages)里。

验证spark安装正确性

cmd中输入:

1
2
3
d:
cd D:\spark\spark-2.2.0-bin-hadoop2.6
bin\spark-shell

运行如下命令启动Spark python shell,

1
2
3
d:
cd D:\spark\spark-2.2.0-bin-hadoop2.6
bin\pyshark

Tip:将目录D:\spark\spark-2.2.0-bin-hadoop2.6\bin\pyspark2.cmdPYSPARK_DRIVER_PYTHON=ipython更改成ipython,就可以用ipython开始交互啦~
如果正确,控制台会输出如下信息:
success_spark

分享