酷应用

【 Strata Data Conference 活动预告】大数据领域高端盛会重磅来袭！

百家作者：PingCAP 2017-07-12 11:44:29

Strata Data Conference 即将在北京举行，我司技术大神 TiSpark 项目负责人马晓宇同学受邀作为演讲嘉宾出席此次活动，将于 7 月 14 日 16 : 20 进行 《 When TiDB Meets Spark 》 的主题分享。

想了解 TiSpark 是如何工作以及在性能方面的考量和优化；想了解 SQL 查询处理优化和实现的细节知识以及 TiDB 基本架构，敬请关注。

Strata Data Conference 2017 北京站

时间：2017 年 7 月 14 日 16 : 20 – 17 : 00

地点：北京国际饭店会议中心（建国门内大街 9 号）·多功能厅 2

演讲内容：《 When TiDB Meets Spark 》主题演讲

关于演讲人

马晓宇，TiSpark 项目负责人,曾在 Quantcast /网易大数据任资深工程师，SQL 平台/ Hadoop 内核团队 Tech Lead。现主要负责 TiDB 大数据生态的整合以及 MPP 引擎开发。

演讲摘要

TiDB 是一款定位于在线事务处理/在线分析处理（ HTAP: Hybrid Transactional/Analytical Processing）的融合型数据库产品，模型参考了 Google 最新的分布式数据库 F1 / Spanner ，实现了自动的水平伸缩，强一致性的分布式事务，基于 Raft 算法的多副本复制等特性。部署简单，在线弹性扩容和异步表结构变更不影响业务，真正的异地多活及自动故障恢复保障数据安全，同时完全兼容 MySQL 协议，使迁移使用成本降到极低。

TiSpark 则是在原有 TiDB 存储引擎 TiKV 之上基于 SparkSQL 构建的数据处理和计算层。相对于简单的通过 JDBC 与 SparkSQL 链接，TiSpark 引擎能够理解数据如何在 TiDB 上组织，进行更智能的优化例如 range pruning；和 TiKV 的协处理器整合则帮助 TiSpark 下推更多计算，例如谓词下推、聚合下推等；而 TiSpark 能理解 TiDB 的元数据则更好地帮助优化器进行查询计划选择，例如 TiDB 的统计信息能使 TiSpark 进行代价模型优化变成可能。

这个项目的意义有两部分。

首先对于 TiDB 而言，TiSpark 是从多样性方面对原有系统的一个补充。不仅 BI 用户得以通过 Spark 在原有系统进行 SQL 分析性查询，而且数据科学家和其他角色用户也能使用 Dataset 等 Spark API 在 TiDB 上工作。

其次，对于大数据生态圈来说，TiSpark 是一次对融合 OLTP 数据库和大数据平台的尝试，用户有可能通过一份数据／一个平台完成交易和分析两部分工作，而无需进行繁琐的数据同步和导入导出。

会议介绍

Strata Data Conference 是关于大数据及机器学习改变商业模式的全球领先会议。Strata 是一个向技术思想领袖学习、和数据科学家、工程师、分析师及商业经理社交的独特机会。

该活动之前作为 Strata + Hadoop World 创建于 2012 年，O'Reilly 和 Cloudera 将两个成功的大数据会议组合在一起。

议题主席Doug Cutting（Cloudera首席架构师，Apache Hadoop创始人）、Jason Dai（ Intel 大数据技术 CTO ）与议题开发总监 Ben Lorica（O'Reilly首席数据科学家）已经安排了一个覆盖整个大数据工具和技术的议题日程。Strata Data Conference 涵盖了像人工智能和机器学习等当前热门话题，并且重点放在如何实施数据战略上。

长按关注