炫到爆炸!HuggingGPT在线演示惊艳亮相,网友亲测图像生成绝了

新智元报道
新智元报道
【新智元导读】浙大&微软推出的HuggingGPT爆火之后,刚刚开放了demo,急不可待的网友自己上手体验了一番。
最强组合HuggingFace+ChatGPT=「贾维斯」现在开放demo了。

前段时间,浙大&微软发布了一个大模型协作系统HuggingGPT直接爆火。
研究者提出了用ChatGPT作为控制器,连接HuggingFace社区中的各种AI模型,完成多模态复杂任务。
整个过程,只需要做的是:用自然语言将你的需求输出。

英伟达科学家称,这是我本周读到的最有意思的论文。它的思想非常接近我之前说的「Everything App」,即万物皆App,被AI直接读取信息。

上手体验
现在,HuggingGPT增加了Gradio演示。

项目地址:https://github.com/microsoft/JARVIS
有网友便上手体验了一番,先来「识别图上有几个人」?

HuggingGPT根据推理结果,得出图片中有2个人正在街道上行走。
具体过程如下:
首先使用图像到文本模型nlpconnect/vit-gpt2-image-captioning进行图像描述,生成的文本「2个女人在有火车的街道上行走」。
接着,使用了目标检测模型facebook/detrresnet 50来检测图片中的人数。模型检测出7个物体,2个人。
再使用视觉问题回答模型dandelin/vilt-b32-finetuned-vqa得出结果。最后,系统提供了详细的响应和用于解答问题的模型信息。

另外,让它理解「我爱你」这句话的情感,并将其翻译成泰米尔语(Tamiḻ)。
HuggingGPT调用了以下模型:
首先,使用了模型「dslim/bert-base-NER」对文本「l love you」进行情感分类,是「浪漫」。
然后,使用「ChatGPT」将文本翻译成泰米尔语,即「Nan unnai kadalikiren」。
在推理结果中没有生成的图片、音频或视频文件。

转录MP3文件时,HuggingGPT却失败了。网友表示,「不确定这是否是我的输入文件的问题。」


贾维斯照进现实

因为当前大型语言模型的技术仍然存在着一些缺陷,因此在构建 AGI 系统的道路上面临着一些紧迫的挑战。



请生成一个女孩正在看书的图片,她的姿势与example.jpg中的男孩相同。然后请用你的声音描述新图片。

网友热评





https://twitter.com/1littlecoder/status/1644466883813408768
https://www.youtube.com/watch?v=3_5FRLYS-2A
https://huggingface.co/spaces/microsoft/HuggingGPT



关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
- 1 中法元首相会都江堰 7904060
- 2 中方不接受日方所谓交涉 已当场驳回 7809181
- 3 大闸蟹为何会在欧美泛滥成灾 7714364
- 4 国际机构看中国经济 关键词亮了 7617325
- 5 家长称婴儿被褥印不雅英文单词 7520425
- 6 日方军机滋扰擅闯或被视为训练靶标 7428417
- 7 罪犯被判死缓破口大骂被害人一家 7332779
- 8 国乒8比1击败日本队 11战全胜夺冠 7238693
- 9 长沙一男子要取现20万 银行紧急报警 7139714
- 10 千吨级“巨无霸”就位 7047372







新智元
