2017 年 6 月 – 八进制

安装Spark

略，见参考资料。

用docker安装spark

docker hub上有不少spark镜像，例如p7hb/docker-spark，可以快速安装好。

docker pull p7hb/docker-spark
docker run -it -p 4040:4040 -p 8080:8080 -p 8081:8081 -h spark --name=spark p7hb/docker-spark:2.2.0

进入Spark-shell

$ spark2-shell
Setting default log level to "WARN".
To adjust logging level use sc.setLogLevel(newLevel).
17/04/18 13:08:38 WARN spark.SparkContext: Use an existing SparkContext, some configuration may not take effect.
Spark context Web UI available at http://10.1.235.9:4040
Spark context available as 'sc' (master = yarn, app id = application_1491024547163_1752).
Spark session available as 'spark'.
Welcome to
 ____ __
 / __/__ ___ _____/ /__
 _\ \/ _ \/ _ `/ __/ '_/
 /___/ .__/\_,_/_/ /_/\_\ version 2.0.0.cloudera1
 /_/
 
Using Scala version 2.11.8 (Java HotSpot(TM) 64-Bit Server VM, Java 1.7.0_80)
Type in expressions to have them evaluated.
Type :help for more information.

scala>

在spark-shell里输入代码时，可以按tab键得到补全提示，很方便。

使用第三方jar包

主要通过下面这两个参数指定，注意两个参数中多个jar之间的分隔符是不一样的。

--jars driver和executor都需要的包，多个包之间用逗号(,)分割
--driver-class-path driver所依赖的包，多个包之间用冒号(:)分割

注：有一说是--jars里包含的包不需要在--driver-class-path里再次指定，但在spark2.0.0里发现仍然需要在--driver-class-path里指定。

使用java类/方法

scala> import java.lang.Double.isNaN
import java.lang.Double.isNaN

scala> isNaN(1) 
res57: Boolean = false

或直接使用全限定名：

scala> java.lang.Double.isNaN(1)
res58: Boolean = false

加载外部scala文件

事先写好一个test1.scala文件，然后在spark-shell里：

scala> :load test1.scala

注意load前面带一个冒号（:）

参考资料：

Spark On YARN 集群安装部署（不错的安装教程，spark 1.3+hadoop 2.6）

Apache Spark技术实战之6 -- spark-submit常见问题及其解决

SSD的写入性能与剩余空间有（很大）关系，原理是向SSD写入数据时不能直接覆盖，而是需要先把整个块（如512KB）的内容读出来（备份，因为这个块上还有其他不需要删除的数据），擦除这个块，再把需要写入的数据连通刚才备份出来的数据合并到一起写回去。

由于上面的操作，物理写的数据量（如512KB+512KB）通常大于逻辑上的数据量（如4KB），这个放大的倍数被称为写入放大倍数（WA，Write Amplification）。

ssd_wa

一个日常感受到的例子，在一个将要满的磁盘上，删除30000个小文件，发现删除速度越来越快：

ssd_del_1
ssd_del_2
ssd_del_3

参考资料：

关于SSD写入放大问题

八进制

少年壮志无烟抽

月度归档： 2017 年 6 月

Spark安装和使用