Kafka是什么? Kafka是Apache基金所维护的一个中间件项目,它是一个开源的分布式事件流平台,广泛用于构建高性能的数据管道、流式分析、数据集成以及关键业务应用。 这里面有几个点需要说明一下,开源自然不用讲 分布式简单的理解为通过网络通信实现多台服务器部署,联动提供服务,保证容错和提高效率。 ...
1. 持续集成服务 1.1. 通常,机器学习模型管道随着源模式的变化、特征逻辑、依赖数据集、数据处理配置、模型算法、模型特征和配置而不断演进 1.2. 在传统的软件工程中,代码是不断更新的,各团队每天都要进行多次修改 1.3. 机器学习管道的持续集成存在多个痛点 1.3.1. 需要全面跟踪涉及数据、 ...
1. 模型训练服务 1.1. 如果洞察是机器学习模型,则需要进行模型训练 1.2. 典型的数据科学家在训练过程中会探索数百个模型组合,以找到最准确的模型 1.3. 探索包括尝试机器学习算法、超参数值和数据特征的不同排列组合 1.4. 挑战 1.4.1. 随着数据集大小不断扩大和复杂的深度学习模型数量 ...
1. 数据转换服务 1.1. 传统上业务逻辑通常遵循提取-转换-加载(ETL)或提取-加载-转换(ELT)的模式 1.2. 痛点 1.2.1. 数据用户是业务逻辑方面的专家,但是需要工程支持来大规模实现逻辑 1.2.1.1. 随着数据的指数级增长,需要分布式编程模型才能以可靠和高性能的方式实现逻辑 ...
1. 数据虚拟化服务 1.1. 趋势 1.1.1. 与数据集相关联的多语言数据模型 1.1.1.1. 多语言持久化既适用于数据湖,也适用于应用程序事务型数据 1.1.2. 查询引擎和数据存储持久化的解耦允许不同的查询引擎对数据湖中持久化的数据运行查询 1.1.2.1. 通常,为不同的查询工作负载组合 ...
在数据驱动的数字时代,企业正面临前所未有的数据增长与系统复杂性。数据分布在不同系统、格式与平台中,导致“信息孤岛”问题日益严重。打破这些孤岛,实现数据的高效整合与共享,成为推动企业智能决策与业务创新的关键。而 Apache SeaTunnel 正是在这样的需求下崭露头角,它以简洁的使用方式、强大的插 ...
在调研了 DolphinScheduler 之后,在项目上实际使用了一段时间,有了一些任务配置实际经验,分享如下。 封 一、资源中心任务组上限问题 【资源容量】: 允许任务实例并发的最大数量。 1.1、 现象 当我们部署方式是standalone时,资源容量默认值是 10,如下截图: 如果我们调整这 ...
本文将介绍在DolphinScheduler中使用ProcessBuilder执行Shell命令的方法。默认通过BashShellInterceptorBuilder封装Shell脚本并生成执行命令,支持普通模式和sudo模式运行。同时,结合Spring Boot应用示例,展示了如何配置工作目录、合 ...
1. 数据权限治理服务 1.1. 大部分用于提取洞察的数据都是直接或间接地从客户交互中收集的,所以如果数据集包含客户的详细信息,特别是PII(如姓名、地址、社保号等),则企业需要确保数据的使用符合用户的数据偏好 1.2. 数据权限法规越来越多 1.3. 收集数据的权限 1.3.1. 对收集个人数据 ...
1. 数据整理服务 1.1. 数据整理是一个迭代的过程,涉及处理错误值、异常值、缺失值、估算值、数据不平衡和数据编码 1.1.1. 包括结构化、清洗、丰富和验证数据 1.1.2. 流程中的每一步都隐含了可能“重新整理”数据的新方法,目的是整理出最健壮的数据以提取洞察 1.2. 痛点 1.2.1. 数 ...
1. 数据湖管理服务 1.1. 数据聚合在数据湖中,数据湖已经成为聚合PB级数据的中央数据存储库,这些数据包括结构化数据、半结构化数据和非结构化数据 1.2. 痛点 1.2.1. 原始的数据生命周期任务没有自动化的API,需要工程专家来实现可重复性和回滚、提供数据服务层等 1.2.2. 需要应用程序 ...
在昨日举办的2025亚马逊云科技合作伙伴峰会圆桌论坛上,白鲸开源创始人兼CEO郭炜作为嘉宾,与亚马逊云科技及其他行业领袖共同探讨了“AI-Ready的数据架构:ISV如何构建面向生成式AI的强大数据基座”这一重要话题。此次论坛由亚马逊云科技大中华区解决方案架构师高级经理Dickson Yue主持,吸 ...
1. 点击流跟踪服务 1.1. 在构建洞察的过程中,一项越来越重要的工作是收集、分析和聚合行为数据,即点击流数据 1.2. 点击流是代表用户在应用程序或网站中操作的事件序列,包括点击、浏览和相关的上下文,比如页面加载时间、访问者使用的浏览器或设备等 1.3. 点击流数据对于客户流量分析、营销活动管理 ...
近日,深圳计算科学研究院与北京白鲸开源科技有限公司联合宣布,双方已完成产品兼容互认证。此次认证涉及深圳计算科学研究院自主研发的崖山数据库管理系统YashanDB V23和北京白鲸开源科技有限公司的核心产品WhaleStudio V2.6。经过严格的测试与验证,双方产品在兼容性、系统稳定性等方面表现优 ...
本文整系统梳理了在IDEA中搭建Apache DolphinScheduler本地调试环境的通用流程,包括环境准备、远吗配置、服务启动等核心步骤,供大家参考。 1、基础组件准备 1、JDK : v1.8.x (当前暂不支持 jdk 11) 2、Maven : v3.5+ 3、v18.19.1+,安装 ...
DPDI(Dispatch PDI)kettle调度管理平台 --介入前后的对比剖析 引言 在数据处理领域,Kettle(Pentaho Data Integration)作为一款广受欢迎的开源ETL工具,以其强大的数据处理能力和灵活性赢得了众多用户的青睐。然而,Kettle在任务调度和监控方面的功 ...
《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...
1. 基本信息 DAMA数据管理知识体系指南(原书第2版) 数据管理协会 (DAMA国际) 著 ; DAMA中国分会翻译组 译 机械工业出版社,2020年06月出版 1.1. 读薄率 书籍总字数769千字,笔记总字数199515字。 读薄率199515÷769000≈25.94% 1.2. 读厚方向 ...
《数据资产管理白皮书》下载地址: https://www.dtstack.com/resources/1073/?src=bbs 《行业指标体系白皮书》下载地址: https://www.dtstack.com/resources/1057/?src=bbs 《数据治理行业实践白皮书》下载地址: h ...
本文将从在离线混部中的离线任务的角度,讲述离线任务是如何进行容器化、平台上的离线任务如何平滑地提交到混部集群、离线任务在混部集群中如何调度的完整实现以及过程中的问题解决。 ...