简介:

基于多模态大语言模型的可解释图像检测与定位

功能:

领域标签引导的可解释检测:使用数据领域标签桥接不同类型数据之间的数据领域冲突,并引导多模态大语言模型生成检测结果和判断依据。

定位模块:使用DTE-FDM输出的篡改区域描述作为视觉分割模型的提示,引导其精确定位篡改区域。

多模态篡改描述数据集(MMTD-Set):通过GPT-4o生成篡改图像的分析和描述,构建“图像-掩码-描述”三元组以支持模型的多模态训练。

跨领域泛化能力:利用领域标签策略有效处理不同篡改类型之间的数据冲突,增强跨领域泛化能力。

高精度检测性能:在Photoshop、AIGC-Editing等数据集上展示了优于其他方法的检测准确性和F1分数。

详细的解释性能:通过余弦语义相似度(CSS)评估FakeShield的解释能力,生成与真实情况紧密对齐的篡改区域描述。

精确的定位性能:在多个测试集上实现了最高的IoU和F1分数,产生更清晰、更精确的篡改区域分割。

需求人群:

"FakeShield的目标受众是图像取证专家、网络安全分析师以及任何需要检测和定位图像篡改的个人或组织。该产品通过提供可解释的检测结果和精确的篡改区域定位,帮助用户理解篡改发生的方式和原因,从而提高图像内容的可信度和安全性。"

浏览量:10

s1785318098921236

打开站点

构建AI去赚钱
s1785341518918206
类似产品

© 2024     AIbase    备案号:闽ICP备08105208号-14

隐私政策

用户协议

意见反馈 网站地图