传统绘画将迎来陌路?来自于 AI 艺术模型的冲击!




贴标签既费时又费力。 对于不包括在教师数据中并且是第一次看到的图像,其分类准确率很低。?(例如,学习狗、猫的标签并对水果进行分类)。
对比性预训练
CLIP使用一种叫做对比性预训练的机制来结合图像和文本中的大量信息。该程序的运行过程具体如下:?
只预测整个文本与哪些图像相配。
给定一批N个(图像,文本)配对,批量将能够匹配的内容进行配对(图像,文本),并且对该系统对于配对预测能力的强化。
将图像编码器和文本编码器进行联合训练,以最大化批次中N个真实对的图像和文本。
嵌入的余弦相似性,同时最小化不正确对的嵌入的余弦相似性。

# image_encoder - ResNet or Vision Transformer# text_encoder - CBOW or Text Transformer# I[n, h, w, c] - minibatch of aligned images# T[n, l] - minibatch of aligned texts# W_i[d_i, d_e] - learned proj of image to embed# W_t[d_t, d_e] - learned proj of text to embed# t - learned temperature parameter# extract feature representations of each modalityI_f = image_encoder(I) #[n, d_i]T_f = text_encoder(T) #[n, d_t]# joint multimodal embedding [n, d_e]I_e = l2_normalize(np.dot(I_f, W_i), axis=1)T_e = l2_normalize(np.dot(T_f, W_t), axis=1)# scaled pairwise cosine similarities [n, n]logits = np.dot(I_e, T_e.T) * np.exp(t)# symmetric loss functionlabels = np.arange(n)loss_i = cross_entropy_loss(logits, labels, axis=0)loss_t = cross_entropy_loss(logits, labels, axis=1)loss = (loss_i + loss_t)/2
文本编码器
出现在上述预训练模型中的文本编码器,是使用一个基于Transformer的模型来获取文本的嵌入表示的模型。
图像编码器
出现在上述预训练模型中的图像编码器,是一个用于获取图像的嵌入式表征的模型。
将下游任务的类标签转换成句子。 对给定的图像进行编码。 对候选句子标签进行编码。 计算图像嵌入和每个句子嵌入的内积。?并且以此为依据计算出相似度。? 选择具有最高相似度的句子标签。



德民,庆应理工博士,bayes deep learning达人。

分享
点收藏
点点赞
点在看
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 “十五五”开局之年中国经济着力点 7904575
- 2 多所高校定制羽绒服卖爆 7808655
- 3 北京山村古刹飘雪 一夜穿越回千年前 7714469
- 4 中国经济今年有哪些亮眼表现 7617278
- 5 白宫的回应让日本舆论失望了 7520546
- 6 一天到底吃几个鸡蛋最健康 7424691
- 7 演员印小天在景区救下落水女子 7333881
- 8 儿媳偷走婆婆43万在KTV挥霍一空 7233084
- 9 日本海军侵华多张照片首度曝光 7138950
- 10 中央明确“支持经济大省挑大梁” 7043429










![清月已经不困了 丢失了兔耳朵的兔女郎套装[思考]](https://imgs.knowsafe.com:8087/img/aideep/2025/11/30/243fdc0f381c9bf1166cf3ad7e184d32.webp?w=250)
AI100
