传统绘画将迎来陌路?来自于 AI 艺术模型的冲击!




贴标签既费时又费力。 对于不包括在教师数据中并且是第一次看到的图像,其分类准确率很低。?(例如,学习狗、猫的标签并对水果进行分类)。
对比性预训练
CLIP使用一种叫做对比性预训练的机制来结合图像和文本中的大量信息。该程序的运行过程具体如下:?
只预测整个文本与哪些图像相配。
给定一批N个(图像,文本)配对,批量将能够匹配的内容进行配对(图像,文本),并且对该系统对于配对预测能力的强化。
将图像编码器和文本编码器进行联合训练,以最大化批次中N个真实对的图像和文本。
嵌入的余弦相似性,同时最小化不正确对的嵌入的余弦相似性。

# image_encoder - ResNet or Vision Transformer# text_encoder - CBOW or Text Transformer# I[n, h, w, c] - minibatch of aligned images# T[n, l] - minibatch of aligned texts# W_i[d_i, d_e] - learned proj of image to embed# W_t[d_t, d_e] - learned proj of text to embed# t - learned temperature parameter# extract feature representations of each modalityI_f = image_encoder(I) #[n, d_i]T_f = text_encoder(T) #[n, d_t]# joint multimodal embedding [n, d_e]I_e = l2_normalize(np.dot(I_f, W_i), axis=1)T_e = l2_normalize(np.dot(T_f, W_t), axis=1)# scaled pairwise cosine similarities [n, n]logits = np.dot(I_e, T_e.T) * np.exp(t)# symmetric loss functionlabels = np.arange(n)loss_i = cross_entropy_loss(logits, labels, axis=0)loss_t = cross_entropy_loss(logits, labels, axis=1)loss = (loss_i + loss_t)/2
文本编码器
出现在上述预训练模型中的文本编码器,是使用一个基于Transformer的模型来获取文本的嵌入表示的模型。
图像编码器
出现在上述预训练模型中的图像编码器,是一个用于获取图像的嵌入式表征的模型。
将下游任务的类标签转换成句子。 对给定的图像进行编码。 对候选句子标签进行编码。 计算图像嵌入和每个句子嵌入的内积。?并且以此为依据计算出相似度。? 选择具有最高相似度的句子标签。



德民,庆应理工博士,bayes deep learning达人。

分享
点收藏
点点赞
点在看
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 习近平将发表二〇二六年新年贺词 7904141
- 2 2026年国补政策来了 7808738
- 3 东部战区:开火!开火!全部命中! 7712893
- 4 2026年这些民生政策将惠及百姓 7616985
- 5 小学食堂米线过期2.5小时被罚5万 7519709
- 6 解放军喊话驱离台军 原声曝光 7428214
- 7 为博流量直播踩烈士陵墓?绝不姑息 7327605
- 8 每月最高800元!多地发放养老消费券 7238391
- 9 数字人民币升级 1月1日起将计付利息 7141831
- 10 2026年1月1日起 一批新规将施行 7040675












AI100
