酷应用

Analytics Zoo，一个集合主流框架PyTorch和Tensorflow的神奇动物园

百家作者：新智元 2020-04-22 16:00:27

??新智元原创??

编辑：梦佳

【新智元导读】最近旷视「天元」、华为「MindSpore」纷纷重磅开源。对此，技术大牛英特尔大数据技术全球CTO戴金权坦言，Intel的框架与华为、旷视并非是互相竞争关系。那么有了主流深度学习框架PyTorch和TensorFlow，为什么还要Big DL和Analytics Zoo呢？「新智元急聘主笔、高级主任编辑，添加HR微信（Dr-wly）或扫描文末二维码了解详情。」

当被问到最近旷视「天元」、华为「MindSpore」纷纷开源是否对英特尔造成影响时，技术大牛英特尔大数据技术全球CTO、大数据分析和人工智能创新院院长戴金权坦言，Intel的框架与华为、旷视并非是互相竞争关系。不同的框架在不同的应用场景中各有优势。

硬件方面，英特尔拥有CPU、GPU再到FPGA等多种加速器，从边缘到客户端，再到数据中心端，全面布局。而软件层面，英特尔打造了oneAPI到OpenVINO、BigDL、Analytics Zoo等众多软件工具。

有了PyTorch和TensorFlow，为什么还要Big DL和Analytics Zoo？

BigDL是英特尔研发的一个基于Apache Spark的开源分布式深度学习框架，于2016年12月正式对外开源。

有了PyTorch和TensorFlow，为什么还要Big DL呢？

Big DL相比于其他主流的深度学习框架(TensorFlow/Caffe/PyTorch)，算是一个异类。功能上，BigDL能够实现主流框架同样的功能。

对开发者来讲，用TensoFlow, PyTorch写好模型后还是要加载到spark集群，而环境不一致就很容易出问题，BigDL基于Spark来编写，可以和Spark集群无缝集成，原有的pipeline也不需要改变，所以相对TensorFlow, PyTorch部署起来更方便，pipeline的一致性也会让整个工作流的效率更高。

换句话说，他能更好地实现深度学习和大数据平台的无缝结合。

当然有的开发者还是很不习惯，还是想用回TensorFlow训练。

但问题来了，Keras、TensorFlow 和 PyTorch 等大多数库都还不能与 Spark 兼容。

因此，英特尔又在 BigDL 开源半年后推出了 Analytics Zoo，定义为一个统一的大数据分析和人工智能平台，以帮助客户省去拼接各种独立组件的麻烦。

老虎大象同放一个屋檐下，打起来了怎么办？

Zoo，顾名思义，就像一个用来存放“老虎大象”的动物园。API就好比是这家“动物园”里面的一个驯兽师，调和了不同动物“大象”“狮子”之间的矛盾，让整个驯兽表演更加流畅自如。

Analytics Zoo并不是一个简单的整合，它提供了一组丰富的高级 API接口可以将PyTorch、BigDL、Keras 和 TensorFlow 程序无缝集成到 Spark 的 pipeline 中。这个集成管道可透明地扩展到大型 Apache Hadoop/Spark 集群，以进行分布式训练或推理。

Analytics Zoo会将数据做并行化处理，无论你用的TensorFlow、PyTorch、spark都可以很容易地部署不用自己再去做工程化，最后系统会自动完成集群调度和分布式计算，整个过程行云流水。