【观察】数据入云、融合智能 亚马逊云科技的“智能湖仓”架构

软件 作者:新软件 2021-07-15 23:13:07

点击蓝字 关注我们

作者 | 张 楠

《软件和集成电路》杂志记者

生产要素指进行物质生产所必需的一切要素及其环境条件。回顾人类发展史,每一个社会、经济飞跃式发展的节点都伴随着生产要素的变革。在农业社会中,劳动力和土地作为生产要素深刻地影响着社会、经济的发展进程。进入工业时代,科技和资本成为了经济增长的关键,“劳动”“土地”“资本”“技术”四种生产要素共同引领社会的发展。而如今,我们正处于信息时代,新的生产要素呼之欲出。

2020年4月,《关于构建更加完善的要素市场化配置体制机制的意见》(以下简称《意见》)公布,数据作为一种新型生产要素写入文件中,与土地、劳动力、资本、技术等传统要素并列为要素之一。《意见》提出要通过三方面加快培育数据要素市场:推进政府数据开放共享、提升社会数据资源价值、加强数据资源整合和安全保护。

适时而动 灵活应对数据产业挑战

作为新一代生产要素,数据价值的发挥面临着几种挑战:一是随着数据量的增长,半结构化和非结构化数据占比的增加,数据的流通、分析等工作的难度与日俱增;二是数据使用场景复杂度的增加,且呈现出细化的趋势,无论是性能较高的传统数仓或云上数仓,还是分布式计算的大数据处理框架,都需要个性化的定制应用;三是实时数据快速决策需求的增加,对数据应用的要求更高。

为了解决这些问题,亚马逊云科技推出了引领大数据未来的“智能湖仓”架构。从2021年初至今,由光环新网和西云数据运营的中国区域总共上线了近40项相关服务和特性。“智能湖仓”架构将亚马逊云科技全面而深入的数据服务无缝集成,打通了数据湖和数据仓库之间的数据移动和访问,并且进一步实现了数据在数据湖、数据仓库,以及在数据查询、数据分析、机器学习等各类专门构建的服务之间按需移动,从而形成统一且连续的整体,满足客户在各种实际业务场景下的不同需求。亚马逊云科技“智能湖仓”架构具有灵活扩展、专门构建、数据融合、深度智能和开源开放五大特点,涵盖数据源、数据摄取层、存储层、目录层、数据处理层和消费层六层架构,可帮助客户轻松应对海量业务数据,充分挖掘数据价值。

“大数据对于现代商业的影响不言而喻。用户期盼从数据中获得洞察,但同时也面临数据存储、处理和分析等方面的诸多挑战,例如数据指数级增长、数据来源不一、数据类型多元化等等。面对细分的应用场景,目前市面上单一、通用的数据解决方案在性能上会有所妥协,很难满足客户的真实需求,用户亟需融合了易用、易扩展、高性能、专门构建、安全及智能等特性于一体的新一代数据管理架构。”亚马逊云科技大中华区云服务产品部总经理顾凡表示:“亚马逊云科技‘智能湖仓’架构在打通数据湖和数据仓库的基础上,进一步将各种数据服务无缝集成,确保数据在不同服务之间顺畅流动,致力于帮助客户尽可能地提高其数据价值,加速创新,成为数据驱动型组织。“

“智能湖仓”架构五大优势

亚马逊云科技“智能湖仓”架构以Amazon Simple Storage Service(Amazon S3)为基础构建数据湖,作为中央存储库,围绕数据湖集成专门的“数据服务环”,提供包括数据仓库、机器学习、大数据处理、日志分析等数据服务,然后再利用Amazon Lake Formation、Amazon Glue、Amazon Athena、Amazon Redshift Spectrum等工具,实现数据湖的构建、数据的移动和管理等。亚马逊云科技“智能湖仓”架构具有五个特点。

灵活扩展,安全可靠。亚马逊云科技“智能湖仓”架构用Amazon S3作为数据湖的存储基础,客户可根据不断变化的需求,灵活扩展或缩减存储资源。Amazon S3可达到 99.999999999%(11个9)的数据持久性,且具有强大的安全性、合规性和审计功能。

专门构建,极致性能。为了满足客户不同的数据分析需求,亚马逊云科技提供全面而深入的、专门构建的数据分析服务,包括交互式查询服务Amazon Athena、云上大数据平台Amazon EMR、日志分析服务Amazon Elasticsearch Service、Amazon Kinesis、云数据仓库Amazon Redshift等。这些定制的数据分析服务为客户提供了较好的性能,客户在使用过程中不必在性能、规模或成本之间权衡。其中Amazon Redshift的性价比是其他企业云数据仓库的三倍,AQUA(分布式硬件加速缓存)使Redshift查询的运行速度比其他其他云数据仓库最高快10倍;Amazon EMR运行大数据处理及分析服务的成本不到传统本地解决方案的一半,但其速度比标准Apache Spark快3倍以上。

数据融合,统一治理。亚马逊云科技“智能湖仓”架构不止是打通了数据湖、数据仓库,还进一步将数据湖、数据仓库以及所有其它数据服务组成统一且连续的整体。在实际应用场景中,数据需要在这些服务与数据存储方案之间,服务与服务之间按需移动,跨服务访问。亚马逊云科技“智能湖仓”架构降低了数据融合与数据共享时,统一安全管控和数据治理的难度。其中,Amazon Glue提供数据无缝流动能力,Amazon Lake Formation提供了快速构建湖仓、简化安全与管控的全面数据管理能力。

敏捷分析,深度智能。亚马逊云科技将数据、数据分析服务与机器学习服务无缝集成,为客户提供更智能的服务。例如数据库开发者只需使用熟悉的SQL语句,就能对Amazon Aurora ML、Amazon Redshift ML、Neptune ML等服务进行机器学习操作;Amazon Glue、Amazon Athena ML、Amazon QuickSight Q等服务可以帮助用户使用熟悉的技术,甚至自然语言来进行机器学习,帮助企业更好的利用数据做出决策。用户还可以通过机器学习服务Amazon SageMaker、个性化推荐服务Amazon Personalize等挖掘数据智能。

拥抱开源,开放共赢。亚马逊云科技“智能湖仓”架构中的关键组件如Amazon EMR、Amazon Elasticserach Service、Amazon MSK的核心都基于开源代码,接口与开源完全兼容,无需改变任何代码就可以实现迁移,也兼容主流的管理工具。OpenSearch基于开放的Apache2.0授权,其代码完全开放,用户可以免费下载使用并获得企业级的功能。这些服务允许用户在数字化转型过程中,以较低的改造成本向云端迁移。

“要构建一个数据湖,我们需要有针对数据湖定制的数据分析服务,要使数据能够在湖、仓和服务之间无缝移动,并实现低成本的统一管理。我们因此构建了亚马逊云科技智能湖仓架构”顾凡说:“我们的智能湖仓不仅打通了数据湖和数据仓,还将湖、仓通过专门的数据服务构建成了一个整体。”

洞悉企业痛点,赋能全球客户

目前,全球数以十万计的客户选择亚马逊云科技进行数据管理及分析。在中国,TCL、丰田互联、欣和、德比软件、安克创新、启元世界等各行业客户,正在采用亚马逊云科技数据相关服务,开展数据治理及数据价值挖掘。其中, TCL基于亚马逊云科技“智能湖仓”架构搭建的解决方案,将传统的数据库、数据仓库与数据湖打通,消除了数据孤岛,让全品类IoT设备的数据和业务系统实现了互联互通,海外业务与国内业务实现了数据统一。TCL使用了亚马逊云科技广泛的云服务,包括:使用Amazon S3构建数据湖,通过大数据分析服务Amazon EMR、Amazon Redshift和机器学习服务获得数据洞察等。通过使用亚马逊云科技专门构建的数据分析服务,之前需要一周才能完成的复杂数据报表,现在仅需要1-2小时就能实现每天运行300个以上的作业,产生 200多个BI报表,为运营和数字化营销提供了有力支撑。

启元世界(北京)信息技术服务有限公司是一家领先的人工智能平台公司,公司拥有深度学习、强化学习等自主研发的核心技术和产品,以SaaS的形式,为国内多家知名的游戏公司提供虚拟玩家陪玩、游戏商品推荐、关卡数值设计、游戏内容生成等服务。启元世界使用了亚马逊云科技全栈的数据分析服务进行了高效的开发部署,保障了业务快速稳定的发展。“作为一家领先的AI公司,我们希望把更多精力聚焦在算法迭代与产品打磨上,我们需要成熟、稳定、免运维的大数据托管服务。亚马逊云科技智能湖仓通过数据的融合,专门构建的分析工具,可靠、高效地支撑了我们敏捷的业务迭代。”启元世界CTO龙海涛表示:“其中Amazon Kinesis实现了分钟级部署,并承载百万QPS(每秒查询率)流数据;Amazon EMR、Amazon Managed Workflows for Apache Airflow使批处理运行的时间减少了80%,运营总成本下降了50%;Amazon Glue、Amazon Athena、Amazon QuickSight等服务实现了即席查询秒级响应。”

亚马逊云科技构建了强大的合作伙伴网络,并通过合作伙伴网络成员构建行业数据管理解决方案。上海驰骛 (ChiefClouds) 信息科技有限公司,是国内领先的消费者数据营销平台供应商,为企业搭建消费者数据平台(CDP),以此为基础构建覆盖数字媒体和阵地运营、CRM、智慧导购等场景的全渠道和全链路消费者运营体系。“作为企业级数据管理平台的实践者,我们非常认可亚马逊云科技的智能湖仓架构。以Amazon S3为核心的数据基础平台,让我们在服务客户时,在数据安全性、可靠性、性能和扩展性等方面没有后顾之忧。”驰骛科技创始人兼CEO程华奕表示:“亚马逊强大的数据分析管理工具组合,让我们能够对各种数据处理和分析游刃有余,快捷、高效地利用机器学习挖掘数据智能,服务于客户的业务创新。“

亚马逊云科技半年内在中国区域新增的近40项数据及数据分析相关的服务及特性,进一步强化了亚马逊云科技数据以及数据分析相关服务组合。其中,Amazon Glue 2.0版本将作业启动时间缩短了10倍,并可提供1分钟最短计费持续时间,Amazon Athena 2.0包括多项性能改进和新功能,Amazon Lake Formation在宁夏区域推出(2020年底在北京区域推出),Amazon Redshift、Amazon EMR、Amazon Elasticsearch Service、Amazon SageMaker等均发布了诸多新特性。“我们正在加速把亚马逊云科技全球领先的产品、技、人、服务引入国内。”顾凡说:“无论是机器学习还是数据分析,都需要云服务商提供专业的服务,我们始终秉持着‘扶上马,送一程’的态度,由专业团队赋能客户,快速完成数据应用从想法、原型到生产系统,再到机器学习模型的提升。”

END


活动资讯

2021(第六届)中国大数据产业生态大会

7月28日-29日  北京新世纪日航饭店

(扫码图片二维码,了解会议详情)


关注公众号:拾黑(shiheibook)了解更多

[广告]赞助链接:

四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

公众号 关注网络尖刀微信公众号
随时掌握互联网精彩
赞助链接