更多精彩 >

重磅发现!DeepSeekR1方法成功迁移到视觉领域,多模态AI迎来新突破!

2025-02-23 14:41:12   来源:网易  作者: 

摘要:近日,从杭州一家知名大模型公司联汇科技获悉,赵天成博士带领OmAILab团队成功把DeepSeekR1从纯文本领域成功迁移到了视觉语言领域

近日,浙江大学博导赵天成博士带领Om AI Lab团队成功把DeepSeek R1从纯文本领域成功迁移到了视觉语言领域,这是DeepSeek R1模型首次突破到视觉推理层面。该模型为VLM-R1视觉语言模型,已经具备精确的视频理解和推理能力,证实了R1方法的通用性,为多模态模型的训练打开了想象空间。

这个项目的灵感来自去年DeepSeek开源的那个R1方法,靠着GRPO(Generative Reward Processing Optimization)强化学习方法,在纯文本大模型上取得了惊人的效果。

现在,VLM-R1团队直接把它应用到了视觉语言模型上,打开了一扇新的大门!

#VLM-R1验证结果惊艳#

这个项目的团队在 Qwen2.5-VL 的基础上,同时对比了 R1 和传统的 SFT 方法。结果相当惊艳:

1、稳定性拉满:R1 方法在各种复杂场景下都能保持稳定的高性能,这在实际应用至关重要!

2. 泛化能力卓越:更让人震惊的是,在领域外的测试数据上,随着训练步数增加,传统 SFT 模型的性能开始下滑,而 R1 模型却能持续提升!这意味着 R1 方法帮助模型真正“学会”了理解视觉内容,而不是简单地记忆!

9.jpg

(训练和测试领域的差异对比)

10.jpg

(泛化性对比,绿线是VLM-R1,在领域外泛化性显著更优)

3、上手超简单:VLM-R1项目团队还贴心地提供了完整的训练和评估流程,四步就能开始训练,对开发者十分友好。

#小编亲测#之后,在此分享一个实际案例,结果让人意外

 

11.jpg

图片里展示了一桌子丰盛的美食,包括各种蔬菜、面饼和点心。针对图片,我们向模型提出了一个问题:“在图片中找出蛋白质含量最高的食物”。

模型不仅回答得准确:

“图片中展示了桌上的各种菜品,包括蔬菜、面饼和点心。从蛋白质含量来看,面饼或面点可能含量最高,因为它们通常由全谷物制成,面粉中含有蛋白质。虽然蔬菜也含有蛋白质,但比起这些主食来说含量较少。”

更厉害的是,它还精准地在图片中框选出了那个蛋白质含量最高的鸡蛋饼!

这种精确的视觉理解能力和推理能力,让人印象深刻!

完美展示了 VLM-R1 在实际应用中的优势:

- 准确的视觉识别能力

- 专业的知识推理能力

- 清晰的文本表达能力

#全新思路#

作为一个AI领域的观察者,VLM-R1的出现也为开发者和行业提供了许多新的思路,比如:

1、证明了R1方法的通用性,不止文本领域玩得转;

2、为多模态模型的训练提供了新思路;

3、或许能够引领一种全新的视觉语言模型训练潮流;

#完全开源#

最棒的是,这个优秀的项目完全开源!

项目地址:[VLM-R1](https://github.com/om-ai-lab/VLM-R1)

对视觉语言模型感兴趣的同学,强烈建议去看看这个项目。说不定你的下一个突破性研究就从这里开始!

最后,期待看到更多开发者加入进来,一起推动多模态 AI 技术的发展。如果你也对这个项目感兴趣,欢迎加群讨论!

12.jpg


猜你喜欢

星医联核酸纳米递送技术引领面部缩脂新潮流,科技重塑美业格局

创新创业星医联

日前,北京星医联科技有限公司(星医联)携手中国农业大学皮肤纳米营养与健康教授工作站,共同举办了“纳米...

7小时前

“O2O”模式助销大牌尖货,汇通达“品牌直通车工程”稳步落地

创新创业汇通达

“原来我们都是从渠道上拿货,货源不稳定,也没有样机给顾客体验。”

7小时前

沃飞长空携手川航集团,共筑低空经济新生态

创新创业沃飞长空

3月25日,四川沃飞长空科技发展有限公司(以下简称“沃飞长空”)与四川航空集团有限责任公司旗下通航投...

7小时前

百惠金控:人形机器人发展迅速 优必选前景乐观

创新创业百惠金控

今年AI技术有着迅速发展,得益于此,为人形机器人从硬件到软件的整个产业链带来乐观的前景,使人形机器人...

8小时前

金庸吴夏:务实与浪漫,责任与纯粹

创新创业阿夏妈妈集团

近日,阿夏妈妈集团创始人吴夏女士在交大的活动中阐述其企业经营哲学与生命价值观,她指出,企业家最好是浪...

10小时前

持续开展流感防治科普,叮当快药流感关爱中心推出多组“大咖‘漫’谈”

上市公司叮当健康

冬季由于空气不流通,人体净化和防御机能降低,急性呼吸道传染病易高发。

2025-01-02

原创

中国超市之王,被卖了

大润发

2025年,中国商界与资本市场,迎来第一个爆炸性事件。

2025-01-02

快手,跌懵了!

快手则是被抖音越甩越远,难以望其项背。

2025-01-02

脑虎科技高通量植入式柔性脑机接口临床试验取得重大突破

金融科技脑虎科技

“脑控”智能设备和“意念对话”成为现实

2025-01-02

燃动“山海”,启福“蛇年”新春,舍得酒业携手豫园灯会演绎东方生活美学浪漫

上市公司舍得酒业

与此同时,舍得酒联合总台央视频精心雕琢的文化盛宴“《千古名篇》启福新春季”在线上与“豫园灯会”场景巧...

2025-01-02

昌发展集团投资宿迁时代储能 资金赋能企业产线扩建及技术研发

创新创业昌发展集团

对于本次投资,宿迁时代储能董事长项瞻波表示:“衷心感谢所有新老股东对宿迁时代储能的高度信任与坚定支持...

2025-01-02

让企业采购更加省心超值,京东企业购“企业年货节”推出一站式、多场景采购解决方案

大消费京东年货节

12月24日晚8点,京东年货节重磅启动。为了帮助企业做好年底采购工作,京东企业购也面向企业级客户推出...

2025-01-02

纸尿裤“剪码”销售构成不正当竞争?法院判了!

大消费纸尿裤

近日,湖南省岳阳市岳阳楼区人民法院审理了一起某母婴网店因销售“剪码”纸尿裤商品,被起诉构成不正当竞争...

2025-01-02

贝因美四大工厂年终述值,实力值、实验值、买得值全部拉满

大消费贝因美

在本次直播活动中,谢宏表示,作为母婴行业领军品牌,贝因美自成立之日起,始终把科技创新放在第一位,用科...

2025-01-02

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

沙特天空塔投资设立专项基金带领中国氢能独角兽扎根沙特

2016年注册于北京的中氢新能技术有限公司,下设位于大兴的装备制造公司、位于海淀区的技术研究院、材料...

挑战奔驰的明星车企,突然“翻车”了

一度无比高光的理想汽车,猝不及防遭遇重挫。

深圳天使母基金姚小雄:将来股权投资行业竞争是服务能力的竞争

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

避免卡脖子,硬科技如何“逆境”突围?

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

VC/PE眼中的“专精特新”

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会于2025年4月9日在匈牙利布达佩斯盛大启幕。

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

“中国投资年会”作为私募股权行业的年度盛会,已成功举办了18届,吸引了全国VC/PE领域从业者的广泛...

雕刻耐心|第18届中国投资年会·有限合伙人峰会即将启幕

雕刻耐心|第18届中国投资年会·有限合伙人峰会即将启幕

2024年的一级市场,“耐心”是最高命题,也引发了持续全年的讨论。

不响不辍|第18届中国投资年会·年度峰会在沪召开

不响不辍|第18届中国投资年会·年度峰会在沪召开

5月8-10日,由投中信息、投中网主办的“第18届中国投资年会·年度峰会”在上海外滩W酒店盛大召开。