安装Spark
略,见参考资料。
用docker安装spark
docker hub上有不少spark镜像,例如p7hb/docker-spark,可以快速安装好。
docker pull p7hb/docker-spark docker run -it -p 4040:4040 -p 8080:8080 -p 8081:8081 -h spark --name=spark p7hb/docker-spark:2.2.0
进入Spark-shell
$ spark2-shell Setting default log level to "WARN". To adjust logging level use sc.setLogLevel(newLevel). 17/04/18 13:08:38 WARN spark.SparkContext: Use an existing SparkContext, some configuration may not take effect. Spark context Web UI available at http://10.1.235.9:4040 Spark context available as 'sc' (master = yarn, app id = application_1491024547163_1752). Spark session available as 'spark'. Welcome to ____ __ / __/__ ___ _____/ /__ _\ \/ _ \/ _ `/ __/ '_/ /___/ .__/\_,_/_/ /_/\_\ version 2.0.0.cloudera1 /_/ Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_80) Type in expressions to have them evaluated. Type :help for more information. scala>
在spark-shell里输入代码时,可以按tab键得到补全提示,很方便。
使用第三方jar包
主要通过下面这两个参数指定,注意两个参数中多个jar之间的分隔符是不一样的。
- --jars driver和executor都需要的包,多个包之间用逗号(,)分割
- --driver-class-path driver所依赖的包,多个包之间用冒号(:)分割
注:有一说是--jars里包含的包不需要在--driver-class-path里再次指定,但在spark2.0.0里发现仍然需要在--driver-class-path里指定。
使用java类/方法
scala> import java.lang.Double.isNaN import java.lang.Double.isNaN scala> isNaN(1) res57: Boolean = false
或直接使用全限定名:
scala> java.lang.Double.isNaN(1) res58: Boolean = false
加载外部scala文件
事先写好一个test1.scala文件,然后在spark-shell里:
scala> :load test1.scala
注意load前面带一个冒号(:)
参考资料:
Spark On YARN 集群安装部署 (不错的安装教程,spark 1.3+hadoop 2.6)