传统绘画将迎来陌路?来自于 AI 艺术模型的冲击!
贴标签既费时又费力。 对于不包括在教师数据中并且是第一次看到的图像,其分类准确率很低。 (例如,学习狗、猫的标签并对水果进行分类)。
对比性预训练
CLIP使用一种叫做对比性预训练的机制来结合图像和文本中的大量信息。该程序的运行过程具体如下:
只预测整个文本与哪些图像相配。
给定一批N个(图像,文本)配对,批量将能够匹配的内容进行配对(图像,文本),并且对该系统对于配对预测能力的强化。
将图像编码器和文本编码器进行联合训练,以最大化批次中N个真实对的图像和文本。
嵌入的余弦相似性,同时最小化不正确对的嵌入的余弦相似性。
# image_encoder - ResNet or Vision Transformer
# text_encoder - CBOW or Text Transformer
# I[n, h, w, c] - minibatch of aligned images
# T[n, l] - minibatch of aligned texts
# W_i[d_i, d_e] - learned proj of image to embed
# W_t[d_t, d_e] - learned proj of text to embed
# t - learned temperature parameter
# extract feature representations of each modality
I_f = image_encoder(I) #[n, d_i]
T_f = text_encoder(T) #[n, d_t]
# joint multimodal embedding [n, d_e]
I_e = l2_normalize(np.dot(I_f, W_i), axis=1)
T_e = l2_normalize(np.dot(T_f, W_t), axis=1)
# scaled pairwise cosine similarities [n, n]
logits = np.dot(I_e, T_e.T) * np.exp(t)
# symmetric loss function
labels = np.arange(n)
loss_i = cross_entropy_loss(logits, labels, axis=0)
loss_t = cross_entropy_loss(logits, labels, axis=1)
loss = (loss_i + loss_t)/2
文本编码器
出现在上述预训练模型中的文本编码器,是使用一个基于Transformer的模型来获取文本的嵌入表示的模型。
图像编码器
出现在上述预训练模型中的图像编码器,是一个用于获取图像的嵌入式表征的模型。
将下游任务的类标签转换成句子。 对给定的图像进行编码。 对候选句子标签进行编码。 计算图像嵌入和每个句子嵌入的内积。 并且以此为依据计算出相似度。 选择具有最高相似度的句子标签。
德民,庆应理工博士,bayes deep learning达人。
分享
点收藏
点点赞
点在看
关注公众号:拾黑(shiheibook)了解更多
[广告]赞助链接:
四季很好,只要有你,文娱排行榜:https://www.yaopaiming.com/
让资讯触达的更精准有趣:https://www.0xu.cn/
关注网络尖刀微信公众号
随时掌握互联网精彩
随时掌握互联网精彩
赞助链接
排名
热点
搜索指数
- 1 分秒必争全力抢险救援 7902356
- 2 年度反腐大片第四集 7940873
- 3 青海发生5.5级地震 7895920
- 4 预防甲流 关键做好这几点 7719140
- 5 美加州山火肆虐 好莱坞明星豪宅被烧 7697786
- 6 小猫突然出现按下辞职报告发送键 7568511
- 7 从教科书上发现自己生病了 7437910
- 8 特朗普放狠话要抢地盘 多国回应 7352591
- 9 我给讨厌的人祈福就何惟芳这样 7228559
- 10 CBA一球员把女友装行李箱带进宿舍 7155229