酷应用

2.2版本发布！TensorFlow推出开发者技能证书

百家作者：AI100 2020-03-13 06:26:24

作者?| 弯月

出品 | AI科技大本营（ID:rgznai100）

受 COVID-19 的影响，今年的 TensorFlow 开发者大会于2020年3月12日（北京时间）凌晨以线上直播的方式与全球开发者见面。

Google决定开源TensorFlow是为了让每个开发人员和研究人员都能方便地使用人工智能来解决多样化的现实问题。自开源以来，TensorFlow的下载次数超过了760万次，提交次数高达8万次，拉取请求13万余次，贡献者2400多名。

对 TensorFlow 来说，2019年是激动人心的一年。去年，Google先后推出了TensorFlow 2.2 和数个产品更新，在11个不同国家/地区举办全球路演，并召开了首届TensorFlow开发者大会和TensorFlow World。

TensorFlow 2.2 发布

2019年，Google推出了TensorFlow 2.0，这是该平台发展的一个重要的里程碑。TensorFlow 2.0的几大亮点包括：

专注于简单性和易用性，大大简化API
方便开发人员使用Keras 和 eager execution 轻松构建模型
提高TensorFlow Lite 和 TensorFlow.js 部署模型的能力

随后，Google根据社区的反馈：性能有待提升；从1.0移植2.0的难度过高，推出了TensorFlow 2.2。该版本强调性能，与生态系统的兼容性，以及核心库的稳定性。

TensorFlow生态系统

TensorFlow 建立了强大的生态系统，包含各类库、扩展以及工具，能够满足研究人员和开发人员实现端到端机器学习模型的各种需求。

对于研究人员，TensorFlow提供了最尖端的机器学习研究模型，例如T5模型可实现语音到文本的转换。

产品开发人员可结合使用TensorFlow与Keras等工具构建各种应用产品。TensorFlow Hub提供大量预训练模型。Google还推出端到端的AI云平台，从创意到发布，只需轻轻单击鼠标即可完成所有部署。

此外，开发人员可以利用TensorFlow Lite等工具轻松将机器学习模型部署到各种设备上。

NLP

随着图像识别领域的爆发式增长，近年来NLP领域的进展也是有目共睹，在大量的工具和模型的推动下，NLP的能力已超越了人类。

TensorFlow 2.x为生成文本引入了许多预处理层，这样数据的预处理就可以直接在TensorFlow中进行，而无需借助Keras等其他工具了：

TensorFlow 2.x提供了新的训练循环，允许开发者自定义每一步需要进行的操作，因此能解决以前Keras的fit函数无法解决的问题。

此外，NLP的调参过程一直是个难题，而现在我们可以使用 KerasTuner工具帮我们轻松地实现这一过程：

TensorFlow Hub

TensorFlow Hub提供了图像、文本、视频以及语音等全方面的预训练模型。

图像模型：图像分类、目标检测、图像增强、图像生成（如风格转换等）
文本模型：问答、文本分类、语法分析等
视频模型：视频动作识别、视频生成等
语音模型：音高识别等

TensorFlow 性能分析

TensorFlow性能分析提供了一系列工具集合：

Overview Page：性能概览页面
Input Pipleline Analyzer：输入管道分析
TensorFlow Stats：TensorFlow统计图表
Trace Viewer：追踪查看
4个GPU/TPU专业工具

Colab

Colab可以支持开发人员通过浏览器编写和执行Python代码。

MLIR：加速TensorFlow编译

现在机器学习模型已经深入到日常生活的方方面面，处理的任务也越来越复杂。那么随之而来的一个难题就是，怎样才能让机器学习模型的构建和训练过程变得更快？我们可以从这几个方面入手：

用标准化的方式表示基本概念，如运算、类型等
创建一个通用的基础设施，构建可以重用的组件
支持自定义和可扩展性

这个新的框架名为MLIR，全称是Multi-Level Intermediate Representation，是面向机器学习的编译架构，具有模块化、可扩展、可定制的特点。

对于用户而言，MLIR意味着可以调试模型更容易，还能获得更高的性能；而对于硬件供应商而言，MLIR意味着功能集成和优化更容易；对于研究人员而言，MLIR意味着基础架构的标准化。如今MLIR已经被许多大公司接受，全世界95%的数据中心的硬件也都支持MLIR，还有活跃的开源社区。

下图是TensorFlow的架构，蓝色部分为可以使用MLIR的部分。

简单来说，MLIR是一个通用的图表示框架，一组通用的优化和转换过程，以及一个完整的代码生成流水线。

TFRT：TensorFlow Runtime

TFRT是一个新的TensorFlow运行时。为什么要构建一个新的运行时呢？主要的动机是由于现在的模型越来越复杂、越来越大，而研究也需要更有创新性的运算、核和建模等。因此TensorFlow构建了TFRT这个新的运行时来满足不断增大的性能需求和对于模块化、可扩展性的要求。

TFRT是一个统一的、可扩展的运行时，在许多专用硬件上能够提供最好的性能。

TFRT的几个设计上的亮点包括：

异步、低消耗的方式分发运算和图：TFRT构建了一个不依赖锁的并行图执行器，因此同步所需的额外开销很小。而且，eager op栈非常薄，因此每个eager API调用的额外开销也很小。
可扩展性和模块化：运算、核和设备运行时与宿主运行时解耦合。
eager模式和图执行模式采用统一的构建组件，包括内存分配器、形状函数和核等。

TFX：TensorFlow Extended

TFX是一个端到端平台，用于部署生产型机器学习流水线。

2019年的最新发展：

建立机器学习元数据的基础
支持TensorFlow 2.x
建立公平的指标

2020年的发展计划：

支持 Native Keras + TensorFlow 2.x
TFLite inTFX
提高模型训练的速度
Google Cloud AI Platform + TFX = Google Clound AI Pipelines

TensorFlow.js

TensorFlow.js是面向Web的机器学习框架。

2019年，TF.js 1.0正式发布：

新增四个模型：BodyPix、Toxicity、USE、Speech commands
平台：AutoML，SavedModels，以及在Node.js中直接执行SavedModel
被许多大型应用程序采用，如Uber、Airbnb、微信、抖音等

2020年的新增目标：

新增模型：Facemesh、Handtrack、Mobile BERT
平台增强：Web Assembly后端、React Native支持
应用程序：平台用户：Glitch/Codepen

TensorFlow Lite

TensorFlow Lite是TensorFlow针对移动和嵌入式设备的轻量级解决方案。

全球40亿移动设备的各种应用都使用了TensorFlow Lite。超过1千应用产品采用了TensorFlow Lite，其中包括Google自己的产品YouTube、Google Cloud、Google Assistant，以及Uber、Hike、Airbnb、Viber等其他公司的产品。

公平

机器学习模型的偏见问题一直是模型训练中的一个难题。在机器学习模型的构建流程中，从问题定义、数据准备一直到模型训练、部署，每个阶段都不可避免地会引入人类的偏见。例如，如果一个模型根据人们画出的鞋子简笔画来学习怎样识别鞋子，而绝大部分人画出的鞋子都是运动鞋，那么训练出的模型就很难识别高跟鞋。在实际应用中，类似的偏见可能会导致严重的后果。

2017年发布的Toxicity v1模型的目的是识别网络语言中的有害信息从而帮助净化网络内容。但是，由于训练数据缺乏多样性，导致模型对于同性恋相关话题会给出很高的有害分数。如果利用这个模型来过滤有害信息，那就会导致同性恋人群在网络上无法发声，导致严重的歧视问题。

解决公平性的两个问题是：

如何衡量公平性？
应当采用怎样的训练数据？

Tensorflow提供了Faireness Indicators工具集，让开发者可以更容易地对模型的公平性进行测量。

根据实验，一个没有公平性约束的tf.keras.Sequential模型在Smile Detection on CelebA数集上的训练结果，会对Not Young的人群给出很高的假阳性率。

在使用了TFCO给模型加入约束后，训练结果明显好了很多。

TFQ：TensorFlow Quantum

不久前， TensorFlow Quantum（TFQ），一个可快速建立量子机器学习模型原型的开源库。TFQ 通过提供与现有 TensorFlow API 兼容的量子计算基本要素以及高性能量子电路模拟器，将量子计算开源框架 Cirq 与 TensorFlow 集成在一起，为传统的判别和生成量子模型的设计和实现提供了高层的抽象。