摘要:近日,从杭州一家知名大模型公司联汇科技获悉,赵天成博士带领OmAILab团队成功把DeepSeekR1从纯文本领域成功迁移到了视觉语言领域
近日,从杭州一家知名大模型公司联汇科技获悉,赵天成博士带领Om AI Lab团队成功把DeepSeek R1从纯文本领域成功迁移到了视觉语言领域,这是DeepSeek R1模型首次突破到视觉推理层面。该模型为VLM-R1视觉语言模型,已经具备精确的视频理解和推理能力,证实了R1方法的通用性,为多模态模型的训练打开了想象空间。
这个项目的灵感来自去年DeepSeek开源的那个R1方法,靠着GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。
现在,VLM-R1团队直接把它应用到了视觉语言模型上,打开了一扇新的大门!
#VLM-R1验证结果惊艳#
这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:
1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!
2. 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正“学会”了理解视觉内容,而不是简单地记忆!
(训练和测试领域的差异对比)
(泛化性对比,绿线是VLM-R1,在领域外泛化性显著更优)
3、上手超简单:VLM-R1项目团队还贴心地提供了完整的训练和评估流程,四步就能开始训练,对开发者十分友好。
#小编亲测#之后,在此分享一个实际案例,结果让人意外
图片里展示了一桌子丰盛的美食,包括各种蔬菜、面饼和点心。针对图片,我们向模型提出了一个问题:“在图片中找出蛋白质含量最高的食物”。
模型不仅回答得准确:
“图片中展示了桌上的各种菜品,包括蔬菜、面饼和点心。从蛋白质含量来看,面饼或面点可能含量最高,因为它们通常由全谷物制成,面粉中含有蛋白质。虽然蔬菜也含有蛋白质,但比起这些主食来说含量较少。”
更厉害的是,它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼!
这种精确的视觉理解能力和推理能力,让人印象深刻!
完美展示了 VLM-R1 在实际应用中的优势:
- 准确的视觉识别能力
- 专业的知识推理能力
- 清晰的文本表达能力
#全新思路#
作为一个AI领域的观察者,VLM-R1的出现也为开发者和行业提供了许多新的思路,比如:
1、证明了R1方法的通用性,不止文本领域玩得转;
2、为多模态模型的训练提供了新思路;
3、或许能够引领一种全新的视觉语言模型训练潮流;
#完全开源#
最棒的是,这个优秀的项目完全开源!
项目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)
对视觉语言模型感兴趣的同学,强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始!
最后,期待看到更多开发者加入进来,一起推动多模态 AI 技术的发展。如果你也对这个项目感兴趣,欢迎加群讨论!
近日,美锦能源青岛产业园区陷入一场风波,园区遭到非法入侵及恶意破坏,背后原因竟是供应商的极端催款行为...
自然界中钠储量丰富,其地壳丰度是锂元素的400倍以上。如果将其中1%做成钠电池,按照全球储能每年新增...
在多变复杂、波动放大的市场环境下,机构投资者如何应对市场挑战,确保投资决策的稳健性,正是行业关注的焦...
投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。
2016年注册于北京的中氢新能技术有限公司,下设位于大兴的装备制造公司、位于海淀区的技术研究院、材料...
一度无比高光的理想汽车,猝不及防遭遇重挫。
2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...
2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...
2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...