Knime中的Spark集成

Knime连接Spark有两种连接方式,分别为Apache Livy和Spark Job Server。
KNIME中对Spark Job Server的支持已被弃用,并将在不久的将来终止,除Spark 2.1或更早版本时外仅推荐Apache Livy方式进行连接,

Apache Livy部署说明

download_livy_csd下载对应的parcel文件&sha文件,上传至CDH Parcel 目录,通过CM进行分发激活
对应CSD放置/opt/cloudera/csd/目录
重启Cloudera Manager

systemctl restart cloudera-scm-server
抱歉,只有登录并在本文发表评论才能阅读隐藏内容

在HDFS的core-site.xml配置文件中添加


hadoop.proxyuser.livy.hosts=*
hadoop.proxyuser.livy.groups=*

Web UI端口:8998

Knime安装Spark扩展

安装源

<?xml version="1.0" encoding="UTF-8"?>
<bookmarks>
<site url="http://update.knime.com/analytics-platform/4.1/labs/4.1/" selected="true" name="analytics-platform/4.1/labs/4.1/"/>
<site url="http://update.knime.com/analytics-platform/4.1" selected="true" name="KNIME Analytics Platform 4.1 Update Site"/>
<site url="http://update.knime.com/community-contributions/4.1" selected="true" name="KNIME Community Extensions (Experimental)"/>
<site url="http://update.knime.com/community-contributions/trusted/4.1" selected="true" name="KNIME Community Extensions (Trusted)"/>
<site url="http://update.knime.com/analytics-platform/4.1/labs/4.1/4.1.1/" selected="true" name="KNIME Labs Update Site"/>
<site url="http://update.knime.com/partner/4.1" selected="true" name="KNIME Partner Extensions"/>
</bookmarks>

如有缺失源,补全地址后即可从扩展中安装,即可通过Lily与Spark进行连接处理

资料地址①:https://docs.knime.com/latest/bigdata_extensions_admin_guide/index.html
资料地址②:https://hub.knime.com/

点赞

发表评论

电子邮件地址不会被公开。必填项已用 * 标注