酷应用

新闻
- 看点
- 观点
- 读点
- 热点
科技
- 数码
- 软件
- 应用
- 极客
企服
- 电商
- 运营
- 移动
- 访谈
- 动态
- 招聘
- 访谈
- 百家
安全
- 业界
- 快讯
- 技术
- 校园
- 工具
文娱
- 明星
- 影视
- 音乐
- 网娱
- 韩娱
- 词典
游戏
- 手游
- 页游
- 端游
好货
- 报道
- 值得买
- 健康

苹果发布 AI 生成模型 GAUDI，文字生成 3D 场景

百家作者：AI100 2022-08-02 20:22:49

整理 | 禾木木

出品 | AI科技大本营（ID:rgznai100）

前有DALL.E文本生成图像，现有将文字变成 3D场景。近日，苹果 AI 团队发布最新 AI 模型 GAUDI，它是基于 3D 场景的神经架构 NeRFs，可以根据文字生成 3D 室内场景。

目前为止，NeRFs 主要用做 3D 模型和 3D 场景的一种神经存储介质，然后可以从不同的相机视角进行渲染。

最新 AI 系统 GAUDI

如果说 NeRFs 从不同角度逼真地渲染图像的能力可以用于生成 AI 呢？

此前，OpenAI 的 DALL-E 2 或 Google 的 Imagen 和 Parti 等 AI 系统展示了 AI 将文本生成图像的潜力，但内容也仅限于 2D 图像和图形。

2021 年末时，谷歌通过 Dream Fields 首次展示了 3D AI 生成系统，将 NeRF 生成 3D 视图的能力与 OpenAI 的 CLIP 评估图像内容的能力相结合。苹果 AI 团队发布的 GAUDI 是一种能够生成沉浸式 3D 场景的神经架构，可以根据文字提示创建 3D 场景。

例如，输入“穿过走廊”或“上楼梯”，就可以看到执行这一动作的 3D 场景视频。

Apple GAUDI 是 3D 内饰专家

虽然谷歌致力于使用 Dream Fields 生成单个对象，但将生成 AI 扩展到完全不受约束的 3D 场景仍是一个尚未解决的问题。这背后极有可能的原因之一是摄像机位置的限制。

虽然对于单个对象，每个摄像机位置都可以映射到一个圆顶，但在 3D 场景中，这些摄像机位置会受到对象和墙壁等障碍物的限制。

对于这个问题，GAUDI 模型的解决方案是：相机姿态解码器对可能的相机位置进行预测，并确保输出是 3D 场景架构的有效位置。

场景的场景解码器预测三平面表示，这是一种 3D 画布，辐射场解码器在其上使用体积渲染方程绘制后续图像。

在对四个不同数据集（包括室内扫描数据集 ARKitScences）的实验中，研究人员表明 GAUDI 可以重建学习视图并匹配现有方法的质量。

虽然现在 GAUDI 生成的 3D 场景视频质量还不是很高，但这也说明了 AI 在图像和视频技术这生成的另一种可能。

参考链接：

https://mixed-news.com/en/apples-new-gaudi-ai-turns-text-prompts-into-3d-scenes/

往期回顾

“如今，99%以上的代码都是垃圾！”

Deepfake 技术换脸真假难辨！

当你不再是程序员，很多事会脱离掌控

7岁男童因下棋太快，被机器人夹断手指？


分享
点收藏
点点赞
点在看

关注公众号：拾黑（shiheibook）了解更多

[广告]赞助链接：

四季很好，只要有你，文娱排行榜：https://www.yaopaiming.com/
让资讯触达的更精准有趣：https://www.0xu.cn/

*文章为作者独立观点，不代表爱尖刀立场

本文由 AI100发表，转载此文章须经作者同意，并请附上出处( 爱尖刀 )及本页链接。

原文链接 https://www.ijiandao.com/2b/baijia/439278.html

图库

公众号

关注网络尖刀微信公众号
随时掌握互联网精彩

赞助链接

百度热搜榜

排名热点搜索指数