Ninegame-九游体育(中国大陆)官方网站|jiuyou.com

九游体育app娱乐模子可能会缺点生成两只黑狗-Ninegame-九游体育(中国大陆)官方网站|jiuyou.com


发布日期:2025-05-07 00:17    点击次数:143

剪辑:LRST

【新智元导读】VQAScore是一个诓骗视觉问答模子来评估由文本教导生成的图像质地的新武艺;GenAI-Bench是一个包含复短文本教导的基准测试集,用于挑战和提高现存的图像生成模子。两个器具不错匡助看守东谈主员自动评估AI模子的性能,还能通过选拔最好候选图像来实践改善生成的图像。

比年来,生成式东谈主工智能(AIGC)激勉日常眷注。Midjourney、Imagen3、Stable Diffusion和Sora等模子大要阐明当然言语教导词生成好意思不雅且传神的图像和视频,广受用户有趣。相关词,这些模子在处理复杂的教导词时仍存在不及。举例,当让Stable Diffusion或Midjourney生成「棕色的狗绕着一棵树追玄色的狗」时,模子可能会缺点生成两只黑狗,或将「追赶」歪曲为两只狗在「玩耍」。有什么观点不错自动发现这些模子的不及,并进一步提高它们呢?为照料这一问题,CMU和Meta团队长入推出了全新的评估野心VQAScore及基准GenAI-Bench,用于自动评估图像、视频和3D生成模子在复杂教导词下的弘扬。ECCV’24论文运动::https://arxiv.org/abs/2404.01291CVPR’24 SynData最好论文运动:https://arxiv.org/abs/2406.13743论文代码:https://github.com/linzhiqiu/t2v_metrics模子下载:https://huggingface.co/zhiqiulin/clip-flant5-xxlVQAScore模子:https://huggingface.co/zhiqiulin/clip-flant5-xxlGenAI-Bench数据集:https://huggingface.co/datasets/BaiqiL/GenAI-Bench这些遵守已在ECCV和CVPR等顶会上发表,并被谷歌DeepMind用于评估其最新的Imagen3模子,被誉为刻下文生图范围越过CLIP等模子的最好评估决议!配景先容比年来,文生图模子(如DALL-E 3、Imagen3、Sora等)发展赶快,但奈何准确评估这些模子的弘扬也曾一个要害问题。尽管很多公司选定东谈主类评估(Human Evaluation)来提高截至的准确性,但这种神情老本高、难以大限制应用,况兼穷乏可复现性。在图片生成范围,已有多种武艺使用模子来自动评估(Automated Evaluation)生成图像的弘扬,其中常见的野心包括CLIPScore、FID、LPIPS、PickScore、ImageReward和HPSv2等。相关词,这些野心果然富饶好吗?现存自动化野心的不及在评估两张图片的相同性(similarity)时,传统野心LPIPS等武艺依靠预查验的图像编码器,将图像特征镶嵌后再筹画距离。相关词,这类武艺只可评估图像与图像之间的相同度(image-to-image metric),而无法判断文本和图像之间的相同度(text-to-image metric)。为了照料这一问题,刻下主流的文生图评估选定了CLIPScore,通过落寞的图像编码器和文本编码器,将图像和文本镶嵌到团结特征空间,并通过筹画特征相同度来判断它们的匹配进程。相关词,CLIPScore存在严重的「bag-of-words」问题:也便是说,CLIP在处理文本时可能忽略词序,羞耻像「月亮在牛上头」和「牛在月亮上头」这么的句子。这使得模子难以准确收拢复短文本中的要害信息。为了照料这一问题,CMU和Meta的看守团队建议了VQAScore,选定更巨大的生成式VQA模子(如GPT-4o)来更准确地评估文生图模子:VQAScore:一种浅陋灵验的评估野心看守团队基于GPT-4o等用于视觉问答(VQA)任务的生成式视觉言语模子,将图像与教导词之间的相同度界说为模子在修起「这个图像是否显现了[教导词]?请修起是或否。」时给出「是」(Yes)谜底的概率:举例,在筹画某张图像与教导词「牛在月亮上头」之间的相同度时,VQAScore会将图像和问题「这个图像是否显现了『牛在月亮上头』?请修起是或否。」输入模子,并复返模子选拔「是」的概率。另外,看守团队发现,刻下主流的VQA模子(如LLaVA-1.5)使用了具备单向(auto-regressive)提神力机制的言语模子(如Llama)。这种机制导致模子在索要图像特征时,无法提前获取教导词的完竣信息。为了更灵验的索要视觉特征,看守团队使用开源数据查验了一个更强的CLIP-FlanT5 VQA模子。该模子选定了具备双向提神力机制的言语模子FlanT5,使得图像特征索要大要阐明输入的教导词动态调治。看守标明,这一机制在提高VQA模子对复杂教导词的清醒方面效果权贵。VQAScore比主流评估野心更浅陋高效。很多传统野心依赖宽绰东谈主类标注(如 ImageReward、PickScore)或非凡模子(如GPT-4Vision)才能取得好弘扬。比拟之下,VQAScore具备以下中枢上风:1. 无需东谈主类标注:VQAScore能径直诓骗现存的VQA模子取得优异弘扬,无需在东谈主工标注数据上进行特别微调。2. 分数更精确:使用GPT-4给图片打分(如在0到100之间打分)时,模子连续会搪塞给出高分(如90),而忽略图片的真本体量。比拟之下,VQAScore使用概率值来判断图片与教导词的相同度,截至愈加精确。VQAScore实验截至看守东谈主员在宽绰复杂图文匹配基准(如Winoground和EqBen)以及文生图评估基准(如Pick-a-pic和TIFA160)上对VQAScore进行了测试。截至显现,VQAScore在悉数图像、视频和3D生成任务的基准上越过了CLIPScore等流行野心,取得了最好弘扬。值得提神的是,VQAScore选定了开源模子(CLIP-FlanT5),却仍大幅越过了使用更强闭源模子(如PALI-17B和GPT-4)的武艺(如VQ2、ViperGPT 等)。此外,VQAScore也越过了依赖教导解析进行视觉推理的先进武艺(如 CVPR'23最好论文Visual Programming和ViperGPT等),进一步考证了端到端评估决议的灵验性。最新的谷歌DeepMind Imagen3通告还指出,使用更巨大的VQA模子(如 Gemini)不错进一步提高VQAScore的弘扬,突显了其在改日生成式模子评测中的后劲。GenAI-Bench:由瞎想师网罗的高难度文生图基准为了更好地评估文生图模子相配评估野心的性能,看守团队推出了GenAI-Bench。该基准包含1600个由瞎想师网罗的复杂教导词,障翳了10种生成模子(如DALL-E 3、Midjourney、SDXL等),并配有逾越80,000条东谈主工标注。GenAI-Bench比拟较之前的基准有以下上风:1. 更具挑战性:看守标明,大多数文生图/视频模子在GenAI-Bench上弘扬仍有不及,还有宽绰的提高空间。2. 幸免缺乏词汇:悉数教导词均过程严格筛选,幸免使用假大空的词语,确保评估更具客不雅性。3. 细粒度时刻分析:GenAI-Bench能提供更风雅的时刻分类和分析,匡助看守东谈主员深入了解模子在不同智力上的具体弘扬。GenAI-Rank:用VQAScore来提高文生图弘扬看守东谈主员构建了一个新的GenAI-Rank基准,为每个教导词使用DALL-E 3和Stable Diffusion(SD-XL)生成3到9张候选图像。看守标明,从这些候选图像中复返VQAScore得分最高的图像,不错权贵提高文生图模子的效果。这一武艺无需微调生成模子自己,因此也能优化(黑箱)非凡模子,如DALL-E 3。实验截至进一步讲解,VQAScore在图像排序上比其他武艺(如CLIPScore、PickScore等)愈加灵验。结语VQAScore和GenAI-Bench为文生图模子提供了更精确且全面的评估,已被Imagen3、VILA-U、RankDPO等多个神色用于更好地评估和优化最新的生成式模子。看守团队已开源代码和数据集,期待改日更多探索与进展!团队先容

团队的一作林之秋(Zhiqiu Lin)是卡内基梅隆大学的博士看守生,由Deva Ramanan素质指令,专注于视觉-言语大模子的自动评估与优化。Zhiqiu Lin在CVPR、NeurIPS、ICML、ECCV等顶级会议上发表了十数篇论文,并曾荣获最好论文提名和最好短论文奖等。其看守遵守在生成模子和多模态学习范围受到了学术界和工业界的日常认同。

Pengchuan Zhang是Meta AI(原Facebook AI看守院)的东谈主工智能看守科学家,曾在微软看守院担任高档看守科学家。他的看守范围主要集合在深度学习、筹画机视觉和多模态模子等场合,曾发表多项具有深入影响力的遵守,举例AttnGAN、OSCAR、VinVL、Florence和GLIP等。他在顶级会议如CVPR、ICCV、NeurIPS等发表了宽绰高影响力论文,是筹画机视觉和多模态模子范围的领军东谈主物之一。

Deva Ramanan素质是筹画机视觉范围的海外闻名学者九游体育app娱乐,现任卡内基梅隆大学素质。他的看守涵盖筹画机视觉、机器学习和东谈主工智能范围,曾赢得多项顶级学术荣誉,包括2009年的David Marr奖、2010年的PASCAL VOC终生设立奖、2012年的IEEE PAMI后生看守员奖、2012年《巨匠科学》评比的「十位隆起科学家」之一、2013年好意思国国度科学院Kavli Fellow、2018年和2024年的Longuet-Higgins奖,以及因其代表性责任(如COCO数据集)赢得的Koenderink奖。此外,他的论文在CVPR、ECCV和ICCV上屡次赢得最好论文提名及荣誉奖。他的看守遵守对视觉识别、自动驾驶、和东谈主机交互等应用产生了深入影响,是该范围极具影响力的科学家之一。