本地调试远端集群运行的spark项目,当spark项目在集群上报错,但是本地又查不出问题时,最好的方式就是调试一步一步跟踪代码。但是在集群上的代码又不能像本地一样的调试。那么就试试这个调试方法吧。
远程调试spark其实就四步:*第一步jar包拷贝到集群master节点。*第二步在idea中配置远程机器的IP和调试端口号。*第三步:启动远端的spark项目。*第四步启动idea进行调试。
首先
首先了解jvm一些参数属性
-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888
这里对上面的几个参数进行说明:-Xdebug启用调试特性-Xrunjdwp启用JDWP实现,包含若干子选项:transport=dt_socketJPDAfront-end和back-end之间的传输方法。dt_socket表示使用套接字传输。address=8888JVM在8888端口上监听请求,这个设定为一个不冲突的端口即可。server=yy表示启动的JVM是被调试者。如果为n,则表示启动的JVM是调试器。suspend=yy表示启动的JVM会暂停等待,直到调试器连接上才继续执行。suspend=n,则JVM不会暂停等待。
第一步将jar包拷贝到集群
将spark项目打jar包,将jar包放到集群master节点上;
第二步配置idea
编辑idea配置:点击小三角,选择:editConfigurations如图添加一个remote配置
配置远端地址和端口(此处配置的是远端master节点的地址)
第三步远端启动spark项目
在集群启动要调试的spark项目。命令如下:/tmp/mySpark.jar为你sprak项目在集群master上的位置
spark-submit--classWordCount--masterspark://192.168.100.xx:7077--driver-java-options"-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888"/tmp/mySpark.jar
也可在conf/spark-env.sh这个文件最后加入(不过没有进行实际测试)
exportSPARK_JAVA_OPTS+="-Xdebug-Xrunjdwp:transport=dt_socket,server=y,suspend=y,address=8888"
如图进入监听:
第四步启动idea
启动idea的debug模式就会进入断点。