刷新
Kafka如何快速的入个门呢?

博主头像 Kafka是什么? Kafka是Apache基金所维护的一个中间件项目,它是一个开源的分布式事件流平台,广泛用于构建高性能的数据管道、流式分析、数据集成以及关键业务应用。 这里面有几个点需要说明一下,开源自然不用讲 分布式简单的理解为通过网络通信实现多台服务器部署,联动提供服务,保证容错和提高效率。 ...

读数据自助服务实践指南:数据开放与洞察提效14持续集成服务

博主头像 1. 持续集成服务 1.1. 通常,机器学习模型管道随着源模式的变化、特征逻辑、依赖数据集、数据处理配置、模型算法、模型特征和配置而不断演进 1.2. 在传统的软件工程中,代码是不断更新的,各团队每天都要进行多次修改 1.3. 机器学习管道的持续集成存在多个痛点 1.3.1. 需要全面跟踪涉及数据、 ...

读数据自助服务实践指南:数据开放与洞察提效13模型训练服务

博主头像 1. 模型训练服务 1.1. 如果洞察是机器学习模型,则需要进行模型训练 1.2. 典型的数据科学家在训练过程中会探索数百个模型组合,以找到最准确的模型 1.3. 探索包括尝试机器学习算法、超参数值和数据特征的不同排列组合 1.4. 挑战 1.4.1. 随着数据集大小不断扩大和复杂的深度学习模型数量 ...

从架构原理到落地实践:Apache SeaTunnel×Cloudberry数据集成全解读

博主头像 在数据驱动的数字时代,企业正面临前所未有的数据增长与系统复杂性。数据分布在不同系统、格式与平台中,导致“信息孤岛”问题日益严重。打破这些孤岛,实现数据的高效整合与共享,成为推动企业智能决策与业务创新的关键。而 Apache SeaTunnel 正是在这样的需求下崭露头角,它以简洁的使用方式、强大的插 ...

读数据自助服务实践指南:数据开放与洞察提效10数据权限治理服务

博主头像 1. 数据权限治理服务 1.1. 大部分用于提取洞察的数据都是直接或间接地从客户交互中收集的,所以如果数据集包含客户的详细信息,特别是PII(如姓名、地址、社保号等)​,则企业需要确保数据的使用符合用户的数据偏好 1.2. 数据权限法规越来越多 1.3. 收集数据的权限 1.3.1. 对收集个人数据 ...

读数据自助服务实践指南:数据开放与洞察提效09数据整理服务

博主头像 1. 数据整理服务 1.1. 数据整理是一个迭代的过程,涉及处理错误值、异常值、缺失值、估算值、数据不平衡和数据编码 1.1.1. 包括结构化、清洗、丰富和验证数据 1.1.2. 流程中的每一步都隐含了可能“重新整理”数据的新方法,目的是整理出最健壮的数据以提取洞察 1.2. 痛点 1.2.1. 数 ...

读数据自助服务实践指南:数据开放与洞察提效08数据湖管理服务

博主头像 1. 数据湖管理服务 1.1. 数据聚合在数据湖中,数据湖已经成为聚合PB级数据的中央数据存储库,这些数据包括结构化数据、半结构化数据和非结构化数据 1.2. 痛点 1.2.1. 原始的数据生命周期任务没有自动化的API,需要工程专家来实现可重复性和回滚、提供数据服务层等 1.2.2. 需要应用程序 ...

白鲸开源与亚马逊云科技携手推动AI-Ready数据架构创新

博主头像 在昨日举办的2025亚马逊云科技合作伙伴峰会圆桌论坛上,白鲸开源创始人兼CEO郭炜作为嘉宾,与亚马逊云科技及其他行业领袖共同探讨了“AI-Ready的数据架构:ISV如何构建面向生成式AI的强大数据基座”这一重要话题。此次论坛由亚马逊云科技大中华区解决方案架构师高级经理Dickson Yue主持,吸 ...

读数据自助服务实践指南:数据开放与洞察提效07点击流跟踪服务

博主头像 1. 点击流跟踪服务 1.1. 在构建洞察的过程中,一项越来越重要的工作是收集、分析和聚合行为数据,即点击流数据 1.2. 点击流是代表用户在应用程序或网站中操作的事件序列,包括点击、浏览和相关的上下文,比如页面加载时间、访问者使用的浏览器或设备等 1.3. 点击流数据对于客户流量分析、营销活动管理 ...

白鲸开源WhaleStudio与崖山数据库管理系统YashanDB完成产品兼容互认证

博主头像 近日,深圳计算科学研究院与北京白鲸开源科技有限公司联合宣布,双方已完成产品兼容互认证。此次认证涉及深圳计算科学研究院自主研发的崖山数据库管理系统YashanDB V23和北京白鲸开源科技有限公司的核心产品WhaleStudio V2.6。经过严格的测试与验证,双方产品在兼容性、系统稳定性等方面表现优 ...

《数据资产管理核心技术与应用》-常见的开源数据资产管理平台介绍与底层架构实现总结

博主头像 《数据资产管理核心技术与应用》是清华大学出版社出版的一本图书,全书共分10章,第1章主要让读者认识数据资产,了解数据资产相关的基础概念,以及数据资产的发展情况。第2~8章主要介绍大数据时代数据资产管理所涉及的核心技术,内容包括元数据的采集与存储、数据血缘、数据质量、数据监控与告警、数据服务、数据权限 ...

123···23>