昆仑万维开源R1V视觉思维链推理模型，开启多模态思考新时代

2025-03-18 16:09:22 来源：财经网作者：　

摘要：3月18日，昆仑万维正式开源首款工业界多模态思维链推理模型SkyworkR1V，即日起开源模型权重和技术报告。

3月18日，昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V，即日起开源模型权重和技术报告。

开启多模态思考新时代

继OpenAI o1和DeepSeek-R1在全球掀起长思考模型热潮后，大模型进入新技术范式。昆仑万维秉持实现 AGI 的初心，积极贡献开源社区，正式开源Skywork R1V多模态视觉推理模型，成为中国第一个开源「多模态推理模型」的企业。

什么是视觉推理模型？

视觉推理模型是一类能够解决需要思维链（Chain-of-Thought）的视觉任务的模型，通过对视觉信息进行多步逻辑推理与分析，逐步推导出最终结果。这种模型不仅关注图像内容的识别与理解，更强调通过层层递进的推理路径，实现复杂视觉问题的精准求解，例如视觉逻辑推理、视觉数学问题、图像中的科学现象分析、医学影像的诊断推理等，从而有效拓展了视觉大模型的应用边界。

无论是日常繁琐的工作任务、复杂的数据分析、难以解答的学术问题，还是前所未见的陌生场景，都可以交给Skywork R1V进行高效处理。

快速体验下来，R1V的视觉理解和推理能力双双在线。这样的模型能力是如何炼成的呢？

强大推理能力，刷新跨模态任务新高度

在Reasoning推理能力方面，Skywork R1V实现了模型的顶尖逻辑推理与数学分析能力。在权威的MATH500和AIME基准测试中，Skywork R1V分别取得了94.0和72.0的高分，明显领先于行业内众多主流模型。Skywork R1V在纯文本复杂推理任务中展现出卓越性能，使其在逻辑推理和数学问题求解领域展现出人类专家级别的水准。

在Vision视觉理解能力方面，Skywork R1V成功地将其强大的文本推理与思维链推导能力高效迁移到视觉任务中。凭借创新的跨模态迁移技术与推理优化框架，Skywork R1V能够高效解决需要多步视觉推理的问题，在MMMU与MathVista等视觉推理基准中分别取得了69和67.5的优异成绩。这些结果不仅明显超越了多个近似大小的开源竞争模型，更达到与规模更大的闭源模型媲美的水准，充分证实了Skywork R1V在需要视觉思维链推理的跨模态任务中的领先优势。

Skywork R1V通过视觉与文本能力的深度融合和视觉思维链推理能力的突破，推动了多模态推理模型的进一步发展，标志着人工智能领域的又一重大进步。

目前，Skywork R1V已全面开源，期望助力全球范围内更多视觉推理任务的学术研究与产业应用探索。

和开源同规模或更大规模模型的对比，Skywork R1V 38B体现出行业显著优异的推理能力，以及领先的多模态视觉理解能力。如下图，与开源同规模或更大规模模型的对比：

与闭源头部模型性能对比，R1V 38B模型性能媲美甚至超越更大开源模型以及主流闭源模型。如下图，与开源大尺寸模型与闭源专有模型的对比：

三大核心技术创新，引领视觉推理新突破

Skywork R1V能够达到当前的性能高度，依赖于以下三项关键技术创新：

1、文本推理能力的多模态高效迁移

昆仑万维团队首次提出利用Skywork-VL的视觉投影器，无需重新训练语言模型和视觉编码器，即可实现文本推理能力的高效迁移到视觉任务，同时保留了优秀的原本推理文本能力（AIME 72.0，MATH500 94.0）。

2、多模态混合式训练（IterativeSFT+GRPO）

通过结合迭代监督微调（Iterative SFT）和GRPO强化学习，分阶段对齐视觉-文本表征，实现跨模态任务的高效融合，极大提升跨模态任务的表现。推动模型在MMMU基准达到69分的能力，同时在MathVista达到67.5分，与更大规模的闭源模型基本持平。通过反复迭代地利用高质量数据与高难度数据的组合，实现模型持续的知识巩固与错误纠正，显著提升了多模态推理的精度与泛化性能。

图丨多模态混合式训练（来源：Skywork R1V技术报告）

3、自适应长度思维链蒸馏

团队提出了一种基于视觉-文本复杂度的自适应推理链长度控制机制，动态优化模型推理过程，避免模型“过度思考”，提升推理效率。结合多阶段自蒸馏策略，进一步提升了数据生成与推理过程的质量，促进了模型在复杂多模态任务中的表现。

图丨自适应长度思维链蒸馏（来源：Skywork R1V技术报告）

Skywork R1V在训练过程中创新性地采用了三阶段方法，使得文本端强大的推理能力得以高效迁移至视觉任务上，具体训练流程如下：

1、STEP1 视觉语言表征的初始对齐

训练时首先使用轻量级的视觉适配器（MLP）连接视觉编码器（ViT）与语言模型，在已有的200万条常规多模态数据上进行训练，使得MLP初步学习如何将图像特征映射至语言空间。这一阶段仅训练MLP适配器，视觉编码器和语言模型参数保持冻结不变，快速、高效地实现视觉与语言表征的初步对齐。

2、STEP2 推理能力迁移

利用第一阶段训练好的MLP适配器，直接将视觉编码器与原始的强推理语言模型（R1-distilled-Qwen-32B）连接，形成Skywork-R1V视觉推理模型。虽然此时语言模型的参数发生了改变，但得益于语言模型架构的高度相似性和MLP的泛化能力，重新组装后的模型已能表现出一定的视觉推理能力，初始性能即达到业内同等规模的先进水平。

3、STEP3 视觉与文本模态精准对齐

最后，采用创新的“混合优化框架”，进一步精准对齐视觉和语言模态的表征。这一阶段分为两大步骤：迭代监督微调（Iterative SFT）和群组相对策略优化（GRPO）强化学习。在整个训练过程中，Skywork-R1V还创新性地引入了“自适应长度思维链蒸馏技术”，动态优化推理链长度，防止模型过度思考，从而提升了推理效率和质量。

通过以上的训练策略，Skywork R1V在视觉推理任务上取得突破性进展，并在多个公开评测基准中达到或超过了现有领先模型的性能。

此外，Skywork团队多模态理解模型也在进行"全面贯通"的进化，将视觉多模态扩展为全模态模型，引入语音理解能力。当前，全模态模型往往受限于特定领域不仅需要独立训练多个专业模型，更面临跨模态协同的算力挑战。

基于R1V模型，Skywork团队设计了一种灵活在R1V中扩展语音理解模态的方式，从而实现一个全模态思考大模型，该在单个模型中同时实现图像、视频、语音的全模态理解能力，并在语音和视觉理解评测中斩获多项SOTA成绩。我们将陆续公布测评成绩、开源全模态思考大模型。

持续开源回馈社区，坚定迈向AGI

2023年10月以来，昆仑万维陆续开源了百亿级大语言模型「天工」Skywork-13B系列、数字智能体全流程研发工具包AgentStudio、4000亿参数MoE超级模型、2千亿稀疏大模型Skywork-MoE、推理模型Skywork-o1-Open等。2025年2月18日，昆仑万维同时将SOTA级别的SkyReels-V1和SkyReels-A1进行开源。

在语言生成模型、AI Agent、推理模型、视频生成模型等相继开源、多点开花之后，我们正式开源Skywork R1V多模态推理模型，在文本-视觉多模态推理方向再下一城，成为中国第一家开源多模态思考模型的企业。

中国企业过去一年在AI领域的开源贡献，让全世界AI从业者和开发者享受到了技术共享带来的普惠发展。DeepSeek的开源为AI行业提供了新的发展范本，多项开源成果显著降低了AI技术的应用门槛、促进全球AI技术的民主化。昆仑万维作为中国AI领军企业，我们将持续开源优秀的模型、数据集等，共建开发者生态、加速技术创新、降低应用门槛、推动技术平权和AI行业发展。

此文内容为企业供稿，仅供参考。

上一篇： 甜啦啦获评2025年度特色茶饮十大品牌
下一篇： 百利好：国际金价持续大涨后续走势会怎样？

昆仑万维开源面向AI短剧创作的视频生成模型SkyReels-V1，重塑AI短剧行业格局

昆仑万维创新创业

2月18日，昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1、中国首个SOT...

2025-02-18

昆仑万维发布Matrix-Zero世界模型，开启空间智能新时代

昆仑万维创新创业

2月14日，昆仑万维正式推出 Matrix-Zero世界模型，成为中国第一家同时推出3D场景生成和可...

2025-02-14

昆仑万维「天工大模型4.0」o1版（Skywork o1）正式启动邀请测试

昆仑万维智能+

今天，昆仑万维正式推出具有复杂思考推理能力的系列模型——“天工大模型4.0” o1版(Skywork...

2024-11-27

昆仑万维推出“天工大模型4”4o版(Skywork 4o)

昆仑万维智能+

从「天工大模型1.0」的研发到「天工大模型3.0」的发布，再到今天的「天工大模型4.0」阶段，我们坚...

2024-11-20

精彩阅读原创资讯投资人物专栏

买办公设备来京东 3C数码政企开工季注册企业用户领3200采购补贴

京东大消费

进入三月，各行各业企业都在开足马力冲刺首季“开门红”。

2025-03-19

赋予机器人“视觉表达力”：光峰科技引领行业新趋势

上市公司光峰科技

光峰科技在机器人领域的布局,不仅是其技术外延的突破,更预示着千亿级市场的增长新引擎。

2025-03-19

国补拉动消费电子高端化，TCL科技等高世代面板产线拥有者受益

上市公司洛图科技

洛图科技（RUNTO）近期发布的报告显示，今年新纳入“国补”范围的平板电脑和智能手环，1月份的销售量...

2025-03-19

通化东宝：德谷利拉 III 期临床启幕多款大单品预计将密集商业化

上市公司通化东宝

3 月 18 日晚，通化东宝药业股份有限公司（股票代码：600867.SH）宣布其德谷胰岛素利拉鲁肽...

2025-03-19

中通快递发布2024年第四季度及2024年财年未经审计财务业绩

上市公司中通快递

本公司实现了包裹量增量38亿件，同比增长12.6%，同时也保持了优质的服务及客户满意度。

2025-03-19

原创

AI概念助力股价迅速拉升，股东集中套现的背后，AI眼镜赛道路在何方？

上市公司博士眼镜

在AI眼镜这一炙手可热的赛道上，博士眼镜（300622.SZ）因为与一众AR新势力频繁爆出合作，无疑...

2025-03-19

蒋东文

3•15触目惊心！百亚股份跌惨了

消费卫生巾

中国卫生巾巨头，集体暴雷？

2025-03-18

贝因美，中国奶粉第一股，彻底爆了？

你对中国奶粉行业有何看法？对各大奶粉品牌有何看法？

2025-03-18

原创

1303亿，女首富又要IPO了

蓝思科技

DeepSeek带热中国资产的当下。

2025-03-18

视知觉智能完成A+轮融资

视知觉智

2025-03-18

投资家网（www.investorscn.com）是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务，包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流，并可加入微信群参与官方活动，赶快行动吧。