推广 热搜: 红书  page  小红  数据  数据分析  关键词  搜索  哪些  考试  论文 

数据治理中心 DataArts Studio

   日期:2024-12-17     移动:https://sicmodule.kub2b.com/mobile/quote/7292.html
参数 说明 取值样例 作业失败重试 如果作业执行失败,可选择自动重试三次或者不重试。
建议仅对文件类作业或启用了导入阶段表的数据库作业配置自动重试,避免自动重试重复写入数据导致数据不一致。
说明
如果通过DataArts Studio数据开发使用参数传递并调度CDM迁移作业时,不能在CDM迁移作业中配置“作业失败重试”参数,如有需要请在数据开发中的CDM节点配置“失败重试”参数。 不重试 作业分组 选择作业的分组,默认分组为“DEFAULT”。在CDM“作业管理”界面,支持作业分组显示、按组批量启动作业、按分组导出作业等操作。 DEFAULT 是否定时执行 如果选择“是”,可以配置作业自动启动的时间、重复周期和有效期,具体请参见配置定时任务。
说明
如果通过DataArts Studio数据开发调度CDM迁移作业,此处也配置了定时任务,则两种调度均会生效。为了业务运行逻辑统一和避免调度冲突,推荐您启用数据开发调度即可,无需配置CDM定时任务。 否 抽取并发数 设置同时执行的抽取任务数。并发抽取数取值范围为1-300,若配置过大,则以队列的形式进行排队。
CDM迁移作业的抽取并发量,与集群规格和表大小有关。
按集群规格建议每1CUs(1CUs=1核4G)配置为4。
表每行数据大小为1MB以下的可以多并发抽取,超过1MB的建议单线程抽取数据。
说明
迁移的目的端为文件时,CDM不支持多并发,此时应配置为单进程抽取数据。
单作业的抽取并发数,受到作业“配置管理”中所配置的“最大抽取并发数”影响。“最大抽取并发数”配置的是抽取并发总数。 1 加载(写入)并发数 加载(写入)时并发执行的Loader数量。
仅当Hbase或Hive作为目的数据源时该参数才显示。 3 分片重试次数 每个分片执行失败时的重试次数,为0表示不重试。 0 是否写入脏数据 选择是否记录脏数据,默认不记录脏数据。
CDM中脏数据指的是数据格式非法的数据。当源数据中存在脏数据时,建议您打开此配置。否则可能导致迁移作业失败。 是 脏数据写入连接 当“是否写入脏数据”为“是”才显示该参数。
脏数据要写入的连接,目前只支持写入到OBS连接。 obs_link OBS桶 当“脏数据写入连接”为OBS类型的连接时,才显示该参数。
写入脏数据的OBS桶的名称。 dirtydata 脏数据目录 “是否写入脏数据”选择为“是”时,该参数才显示。
OBS上存储脏数据的目录,只有在配置了脏数据目录的情况下才会记录脏数据。
用户可以进入脏数据目录,查看作业执行过程中处理失败的数据或者被清洗过滤掉的数据,针对该数据可以查看源数据中哪些数据不符合转换、清洗规则。 /user/dirtydir 单个分片的最大错误记录数 当“是否写入脏数据”为“是”才显示该参数。
单个map的错误记录超过设置的最大错误记录数则任务自动结束,已经导入的数据不支持回退。推荐使用临时表作为导入的目标表,待导入成功后再改名或合并到最终数据表。 0 开启限速 设置限速可以保护源端读取压力,速率代表CDM传输速率,而非网卡流量。 是 单并发速率上限(Mb/s) 开启限速情况下设置的单并发速率上限值。 20
本文地址:https://sicmodule.kub2b.com/quote/7292.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号