业务增长带来大量数据,系统架构该怎么应对这甜蜜烦恼?
公司业务的增长往往是带来技术挑战的第一步,大量的数据让人慢慢难以招架,很多公司选择搭建自己的大数据处理平台,或者向新的数据平台 / 框架迁移,无论在技术选型、搭建、系统迁移还是优化方面,都会遇到或多或少的困扰和问题,在这方面富有经验的技术团队是怎么克服的?来看看这 5 个实践分享。
Pravega 是一款开源项目,设计用于以持久方式存储无限的流数据。这些流永久保存在 Pravega 中,为需要访问它们的作业提供支持。支持在流的尾部访问,或者按照历史顺序处理。具体处理委托给流处理程序,如 Apache Flink 和 Apache Spark。
Pravega 有如下特性:
精确的一次语义(Exact once schematic)
自动伸缩(Auto scaling)
分布式计算原语(Distributed Computing Primitive)
高效的写(Write Efficiency)
无限保留数据(Unlimited Retention)
高效存储(Storage Efficiency)
持久性(Durability)
支持事务(Transaction Support)
Nautilus 是为支持流分析作业设计的平台。而 Nautilus 的核心就是 Pravega 和围绕它搭建起来的整个数据流水线。Nautilus 的主要目标是支持应用开发者高效部署和运行流数据处理。Dell EMC 工程总监滕昱将在 QCon 上海站分享作为一款新的数据流产品,Pravega 能为数据处理流水线带来哪些好处。
2010 年,LinkedIn 开始开发 Kafka。2011 年,Kafka 成为 Apache 开源项目。从那以后,Kafka 的使用在各种企业中迅速增长。目前,超过 30% 的世界 500 强公司已经在使用 Kafka。
作为一种高吞吐量的分布式发布订阅消息系统,kafka 可以处理消费者规模的网站中的所有动作流数据。这种动作(网页浏览,搜索和其他用户的行动)是在现代网络上的许多社会功能的一个关键因素。这些数据通常是由于吞吐量的要求而通过处理日志和日志聚合来解决。从 0.8 到 2.0,Confluent Kafka Streams 系统架构师和技术负责人王国璋有些坑想跟大家分享一下。
分布式流式计算在百度搜索公司有多年应用,是搜索广告和建库、信息流等上层应用的重要基础设施之一,近年更是对高吞吐场景的时效性、数据准确性和数据流的稳定性提出了更高要求。面对挑战,百度自研了新一代流式计算系统 DStream3,可满足低至 10ms 级别的系统延迟、Exactly-once/At-least-once/At-most-once 三种准确性语义,并经过了大规模工业级应用的验证。
以 DStream3 为例:
如何设计并实现一个业界领先的流式计算系统
工业级场景下的设计折衷、线上验证与实践经验 。
如果你希望自行研发流式计算系统,该主题将弥补分布式理论与工程实践之间的巨大鸿沟;
如果你在从事数据应用层的架构或研发,了解流式计算当前的擅长与局限,可以帮助选型和设计;
如果你是技术控,请与百度流式计算团队一起,共同探讨超大吞吐、超低延迟的流式计算问题吧!
经过几年的迅猛发展,甜橙金融注册用户突破 5 亿,月均活跃 3000 多万用户,年交易额超 1, 700 亿。旗下拥有翼支付、红包套餐、甜橙理财、橙分期、甜橙保险、甜橙国际、甜橙信用等业务。业务的增长带来了海量的数据,也随即为大数据平台带来了严峻的挑战。
甜橙金融大数据经历了从 TD 到 Spark 的迁移;自助 BI 分析平台开发建设,高效支撑业务部门数据提取,数据下发及长短时,交互式查询需求;数据科学平台研发,真正做到“平民化”机器学习,以最低门槛赋能业务人员进行业务模型开发与应用;将流计算应用于诸如实时业务监控,实时交易风控监测等场景并通过优化提升 10 倍性能,利用复杂网络进行精准营销及团体反欺诈等。此次分享将聚焦我们在平台建设规划,架构选型及实践中碰到的问题并探讨诸如集群规划建设,作业调度优化,权限中心建设,标签体系构建及 AI 算法模型落地等方面的问题。
传统互联网企业如何进行企业大数据体系建设,包括:
数据治理及数据应用;
企业大数据平台建设与应用,包括:自助 BI 分析平台、数据科学平台建设、流计算、复杂网络平台等;
AI 应用中的案例分享并探讨 AI 赋能业务中最大的阻力是什么。
国内二手车存在车况不透明、车价不标准的痛点,如何基于大数据、智能硬件与算法实现二手车非标品的标准化,构建二手车的数据生态?
瓜子二手车通过数百万车辆信息与数亿车主与用户的画像库,通过数万计多维分析完成二手车定价的工作,又通过智能硬件提升新零售的购车用户体验。
如何从 0 到 1 构建瓜子数百万车辆、数亿级车主和用户的画像库,精准刻画出用户 / 车主 / 车辆的生命周期,并且保证架构快速响应低延时的实时画像架构;
如何通过多维分析精细刻画出每辆汽车的特征和价格,辅助运营精细化运营;
新零售的离线计算和实时计算的数据构建挑战;
如何打造从新零售的统一数据平台。
数据激增对于每个公司都是必经的挑战,如何更好的过渡解决相信以上实践可以给你一些启发。QCon 上海 2018 大会8 折报名最后一周,立减 1360 元。点击「 阅读原文 」还有大数据、互联网架构、区块链等 20+ 领域分享等你来 pick。有任何问题欢迎咨询票务经理 Hanna,电话:010-84782011,微信:qcon-0410。
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- 1 习近平同法国总统马克龙通电话 7904570
- 2 51岁曹颖自曝患胃癌 7808443
- 3 算承认恋情吗 赵丽颖:算你妹 7713722
- 4 美国“芯”机算尽 难阻中国 7618648
- 5 武大回应校门被淹1米深:每年都这样 7523173
- 6 小米汽车首款SUV小米YU7发布 7424361
- 7 蔡明居然是贾冰的干妈 7333772
- 8 国乒男双全部出局 王皓黑脸 7234202
- 9 男生偷拍女性当场被抓 已被开除学籍 7137054
- 10 孙颖莎三次防住对方男选手倒地爆冲 7045766