【活动预告】沪江技术沙龙魔都的小伙伴们看这里
本周末「沪江技术沙龙」将在上海举办,我司 TiSpark 项目负责人马晓宇将同来自沪江、点融网的资深工程师们围绕『后端架构』展开讨论。一起聚焦架构,共话架构实践!有兴趣的小伙伴们可以一起分享交流。沙龙具体活动议程请点击阅读原文了解。
沪江技术沙龙 - 不断演变的架构实践
马晓宇,TiSpark 项目负责人,曾在 Quantcast /网易大数据任资深工程师,SQL 平台/ Hadoop 内核团队 Tech Lead。现主要负责 TiDB 大数据生态的整合以及 MPP 引擎开发。
时间:2017-9-24 16:10-16:50
地点: 上海市 ·浦东新区博云路 2 号浦软大厦 8 层
演讲主题
《 When TiDB Meets Spark 》
演讲摘要
TiDB 是一款定位于在线事务处理/在线分析处理( HTAP: Hybrid Transactional/Analytical Processing)的融合型数据库产品,模型参考 了 Google 最新的分布式数据库 F1 / Spanner ,实现了自动的水平伸缩,强一致性的分布式事务,基于 Raft 算法的多副本复制等特性。部署简单,在线弹性扩容和异步表结构变更不影响业务,真正的异地多活及自动故障恢复保障数据安全,同时完全兼容 MySQL 协议,使迁移使用成本降到极低。
TiSpark 则是在原有 TiDB 存储引擎 TiKV 之上基于 SparkSQL 构建的数据处理和计算层。相对于简单的通过JDBC 与 SparkSQL 链接,TiSpark 引擎能够理解数据如何在 TiDB 上组织,进行更智能的优化例如 range pruning;和 TiKV 的协处理器整合则帮助 TiSpark 下推更多计算,例如谓词下推、聚合下推等;而 TiSpark 能理解 TiDB 的元数据则更好地帮助优化器进行查询计划选择,例如 TiDB 的统计信息能使 TiSpark 进行代价模型优化变成可能。
这个项目的意义有两部分。
首先对于 TiDB 而言,TiSpark 是从多样性方面对原有系统的一个补充。不仅 BI 用户得以通过 Spark 在原有系统进行 SQL 分析性查询,而且数据科学家和其他角色用户也能使用 Dataset 等 Spark API 在 TiDB 上工作。
其次,对于大数据生态圈来说,TiSpark 是一次对融合 OLTP 数据库和大数据平台的尝试,用户有可能通过一份数据/一个平台完成交易和分析两部分工作,而无需进行繁琐的数据同步和导入导出。
长按关注

新型分布式 NewSQL 数据库

微信号:pingcap2015

点击“阅读原文”了解沙龙活动议程并参与报名
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675









PingCAP
