炫到爆炸!HuggingGPT在线演示惊艳亮相,网友亲测图像生成绝了

新智元报道
新智元报道
【新智元导读】浙大&微软推出的HuggingGPT爆火之后,刚刚开放了demo,急不可待的网友自己上手体验了一番。
最强组合HuggingFace+ChatGPT=「贾维斯」现在开放demo了。
前段时间,浙大&微软发布了一个大模型协作系统HuggingGPT直接爆火。
研究者提出了用ChatGPT作为控制器,连接HuggingFace社区中的各种AI模型,完成多模态复杂任务。
整个过程,只需要做的是:用自然语言将你的需求输出。
英伟达科学家称,这是我本周读到的最有意思的论文。它的思想非常接近我之前说的「Everything App」,即万物皆App,被AI直接读取信息。
上手体验
现在,HuggingGPT增加了Gradio演示。

项目地址:https://github.com/microsoft/JARVIS
有网友便上手体验了一番,先来「识别图上有几个人」?
HuggingGPT根据推理结果,得出图片中有2个人正在街道上行走。
具体过程如下:
首先使用图像到文本模型nlpconnect/vit-gpt2-image-captioning进行图像描述,生成的文本「2个女人在有火车的街道上行走」。
接着,使用了目标检测模型facebook/detrresnet 50来检测图片中的人数。模型检测出7个物体,2个人。
再使用视觉问题回答模型dandelin/vilt-b32-finetuned-vqa得出结果。最后,系统提供了详细的响应和用于解答问题的模型信息。
另外,让它理解「我爱你」这句话的情感,并将其翻译成泰米尔语(Tamiḻ)。
HuggingGPT调用了以下模型:
首先,使用了模型「dslim/bert-base-NER」对文本「l love you」进行情感分类,是「浪漫」。
然后,使用「ChatGPT」将文本翻译成泰米尔语,即「Nan unnai kadalikiren」。
在推理结果中没有生成的图片、音频或视频文件。
转录MP3文件时,HuggingGPT却失败了。网友表示,「不确定这是否是我的输入文件的问题。」


贾维斯照进现实

因为当前大型语言模型的技术仍然存在着一些缺陷,因此在构建 AGI 系统的道路上面临着一些紧迫的挑战。


请生成一个女孩正在看书的图片,她的姿势与example.jpg中的男孩相同。然后请用你的声音描述新图片。

网友热评





https://twitter.com/1littlecoder/status/1644466883813408768
https://www.youtube.com/watch?v=3_5FRLYS-2A
https://huggingface.co/spaces/microsoft/HuggingGPT



关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/

随时掌握互联网精彩
- 1 聆听习主席重要讲话 军队代表这样说 7901285
- 2 美媒用极为罕见形容《哪吒2》霸榜 7907827
- 3 住建部:住宅层高标准调为不低于3米 7853754
- 4 代表委员答网友问:什么是AI幻觉 7766146
- 5 苦等丈夫80余年的老人去世 7688633
- 6 女子工资4600每天花近百元通勤上班 7556366
- 7 公安机关公布10起涉民生等谣言案件 7482572
- 8 华晨宇3秒跳下故障升降台 7380721
- 9 《难哄》28集杀疯了 7269963
- 10 “好房子”长这样 7152418