更多精彩 >

昆仑万维「天工大模型4.0」o1版(Skyworko1)正式启动邀请测试

2024-11-27 15:39:12   来源:中国网  作者: 

摘要:今天,昆仑万维正式推出具有复杂思考推理能力的系列模型——“天工大模型4.0”o1版(Skyworko1)。

今天,昆仑万维正式推出具有复杂思考推理能力的系列模型——“天工大模型4.0” o1版(Skywork o1)。


  Skywork o1是由昆仑万维集团发布的具有慢思考推理能力的系列模型。这是国内第一款中文逻辑推理能力的o1模型。不同于现有的复现OpenAI o1模型的工作,Skywork o1不仅在模型输出上内生了思考、计划、反思等能力,同时,该开源模型在标准评测集上,对比普通模型推理能力大幅上升,真正让模型拥有了思考和反思带来的推理能力的提升。团队复现o1的技术路线,使得初始推理能力较差的基座模型在基准测试集上成为生态位SOTA。

  此次发布的Skywork o1包括三款模型,既有回馈开源社区的开放版本,也有能力更强的专用版本:

  Skywork o1 Open:一款基于Llama 3.1 8B的开源模型,该模型在同生态位开源模型中评测指标大幅提升达到SOTA水平,并解锁了许多轻量级模型无法解决的复杂数学任务。该模型的发布也将帮助加速国内开源社区复现o1的进程。

  Skywork o1 Lite:该模型具备完整的思考能力,具有更好的中文支持和更快的推理和思考速度。在数学、中文逻辑和推理类问题上表现突出。

  Skywork o1 Preview:这款模型是本次完整版的推理模型,搭配自研的线上推理算法,对比Skywork o1 Lite有着更多样和“深度”的思考过程,更完善和更高质量的推理。

  其中,我们开源的Skywork o1 Open,在各项数学和代码指标上均有大幅提高,将Llama-3.1-8B的性能拉到同生态位SOTA(超越Qwen-2.5-7B instruct)。同时,8B的Skywork o1 Open也解锁了很多较大量级模型,如GPT 4o,无法完成的数学推理任务(如24点计算)。这也为推理模型在轻量级设备上部署提供了可能性。



  同时,我们也将开源两个推理任务的Process Reward Model(PRM):Skywork o1 Open-PRM-1.5B 和Skywork o1 Open-PRM-7B,相比此前开源的Skywork-Reward-Model仅对整个模型回答进行打分,Skywork o1 Open-PRM能给模型回答中的每个步骤进行打分。

  对比开源社区现有的PRM,Skywork o1 Open-PRM-1.5B能达到开源社区8B的模型效果,例如RLHFlow的Llama3.1-8B-PRM-Deepseek-Data,OpenR的Math-psa-7B,Skywork o1 Open-PRM-7B能同时在大部分benchamrk上接近/超过10倍量级的Qwen2.5-Math-RM-72B。Skywork o1 Open-PRM也是第一款适配代码类任务的开源PRM。下面表格为以Skywork-o1-Open-8B作为基础模型,使用不同PRM在数学和代码评测集上的评估结果。

  除Skywork-o1-Open-PRM外,其他开源PRM均未针对代码类任务进行专门优化,故不进行代码任务的相关对比。

  详细技术报告也将在不久后发布。目前模型和相关介绍在Huggingface开源。

  强推理以及自我反思的能力是如何练成的?

  Skywork o1在逻辑推理任务上性能的大幅提升得益于天工三阶段自研的训练方案:

  推理反思能力训练:通过自研的多智能体体系构造高质量的分步思考,反思和验证数据。通过高质量的、多样性的长思考数据对基座模型进行继续预训练和监督微调。

  推理能力强化学习:团队研发了最新的适配分步推理强化的Skywork o1 Process Reward Model(PRM)。实验证明Skywork-PRM可有效的捕捉到复杂推理任务中间步骤和思考步骤对最终答案的影响。结合自研分步推理强化算法进一步加强模型推理和思考能力。

  推理planning:基于天工自研的Q*线上推理算法配合模型在线思考,并寻找最佳推理路径。这也是全球首次将Q*算法实现和公开。Q*算法落地也大大提升了模型线上推理能力。

  亮点功能与实测

  Skywork o1模型具有以下能力和亮点功能:

  模型思考和规划能力

  模型自我反思能力

  模型自我验证能力

  相较于此前(长文本任务)大模型,无论是常识推理问题、逻辑推理问题、数学推理问题、伦理决策问题、还是“弱智”(类似脑筋急转弯)逻辑陷阱问题等,Skywork o1都处理的游刃有余。整体来说,Skywork o1 Lite和Skywork o1 Preview线上版本在复杂问题分析、思考反思过程、输出答案质量上均有大幅提升。

  进阶版的复杂人类思考能力的解锁也将进一步在垂类领域增强大模型的应用,例如:

  中英文常见逻辑推理和复杂任务,如数学/代码类任务,科学研究

  高质量内容生成,如创意写作,行业报告写作

  深度搜索,解锁复杂搜索任务的拆解

  2024年以来,昆仑万维天工AI持续进化,陆续发布了“天工2.0”、“天工3.0”、“天工大模型4.0”4o版——Skywork 4o,以及今天正式发布的“天工大模型4.0” o1版(Skywork o1),不仅是我们贯彻“All in AGI 与 AIGC” 战略的重要举措,更是我们构建AI技术栈的重要一步。我们将秉持“实现通用人工智能,让每个人更好地塑造和表达自我”的使命,从模型层、应用层等全方位、多维度来构建公司技术竞争力和生态矩阵。

  测试地址

  “天工大模型4.0” o1版(Skywork o1)开启测试


猜你喜欢

昆仑万维开源R1V视觉思维链推理模型,开启多模态思考新时代

昆仑万维创新创业

3月18日,昆仑万维正式开源首款工业界多模态思维链推理模型Skywork R1V,即日起开源模型权重...

2025-03-18

昆仑万维开源面向AI短剧创作的视频生成模型SkyReels-V1,重塑AI短剧行业格局

昆仑万维创新创业

2月18日,昆仑万维开源中国首个面向AI短剧创作的视频生成模型SkyReels-V1、中国首个SOT...

2025-02-18

昆仑万维发布Matrix-Zero世界模型,开启空间智能新时代

昆仑万维创新创业

2月14日,昆仑万维正式推出 Matrix-Zero世界模型,成为中国第一家同时推出3D场景生成和可...

2025-02-14

昆仑万维推出“天工大模型4”4o版(Skywork 4o)

昆仑万维智能+

从「天工大模型1.0」的研发到「天工大模型3.0」的发布,再到今天的「天工大模型4.0」阶段,我们坚...

2024-11-20

高梵 KIDS 滑雪节:燃动长白山的冰雪狂欢

大消费高梵KIDS

高梵KIDS是国内高端儿童鹅绒服的领军品牌,以“守护孩子们的温暖而生”为核心理念,用其卓越的保暖性能...

2024-12-02

乳癌全球第二大新发癌症!大病保险买哪个好?宏利与您携手防治

金融科技香港保险宏利

乳癌的发病率居高不下,已成为全球第二大新发癌症,根据世界卫生组织(WHO)的数据,每年数百万人受到乳...

2024-12-02

看多中国更新发展,The Year Ahead 2025展望峰会圆满落幕

峰会The Year Ahead 2025

2024年11月28日,由《商业周刊》主办,梅赛德斯-奔驰担任首席战略合作伙伴的The Year A...

2024-12-02

康缘药业: 1类生物创新药获批临床试验 系今年第2款生物创新药

医疗健康康缘药业

多年来,康缘药业一直重视新药研发和技术创新,企业多年位居“中国中药研发实力排行榜”第一。

2024-12-02

穿越周期 “智”向未来——新质生产力创投高峰论坛在佛山举行

创新创业大一创投

论坛深入剖析我国当前经济发展的困境与韧性,解读资本市场的新定位,探究人工智能的发展趋势及产业应用

2024-12-02

中国银联与中国人民对外友好协会签署战略合作协议

创新创业中国银联

2024年11月29日,中国银联与中国人民对外友好协会在北京举行战略合作签约仪式,中国人民对外友好协...

2024-12-02

瓴羊 x 澳门直播协会,成立阿里巴巴瓴羊智能数字经济孵化基地

创新创业阿里巴巴瓴羊智能数字经济孵化基地

为构建新一代数智化人才体系,助力澳门打造数字经济高地,11月25日,瓴羊智能科技与澳门直播协会在澳门...

2024-12-02

2025投资如何穿云破雾,答案都在这里!

格隆汇

2024,国际形势风起云涌。剑拔弩张的中东冲突,跌宕起伏的美国大选,资本市场的牛熊交相辉映…

2024-12-02

258万余人参加2025国考笔试,华图教育:更注重政治理论考察

创新创业华图教育

与往年相比,今年申论考题也有一些区别和变化。

2024-12-02

海王生物:将持续强化规范运作,集中资源发展运营高效的业务

上市公司海王生物

11月29日晚,海王生物(000078.SZ)披露了《关于中国证券监督管理委员会深圳监管局对公司采取...

2024-12-01

投资家网(www.investorscn.com)是国内领先的资本与产业创新综合服务平台。为活跃于中国市场的VC/PE、上市公司、创业企业、地方政府等提供专业的第三方信息服务,包括行业媒体、智库服务、会议服务及生态服务。长按右侧二维码添加"投资哥"可与小编深入交流,并可加入微信群参与官方活动,赶快行动吧。

沙特天空塔投资设立专项基金带领中国氢能独角兽扎根沙特

2016年注册于北京的中氢新能技术有限公司,下设位于大兴的装备制造公司、位于海淀区的技术研究院、材料...

挑战奔驰的明星车企,突然“翻车”了

一度无比高光的理想汽车,猝不及防遭遇重挫。

深圳天使母基金姚小雄:将来股权投资行业竞争是服务能力的竞争

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

避免卡脖子,硬科技如何“逆境”突围?

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

VC/PE眼中的“专精特新”

2024年1月10日,由投资家网主办,财经锐眼、有时间协办,北京微金科技有限公司承办的“第十二届股权...

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会将盛大启幕

第二届中匈可再生能源、新材料商业投资峰会于2025年4月9日在匈牙利布达佩斯盛大启幕。

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

雕刻耐心|第18届中国投资年会·有限合伙人峰会在沪召开

“中国投资年会”作为私募股权行业的年度盛会,已成功举办了18届,吸引了全国VC/PE领域从业者的广泛...

雕刻耐心|第18届中国投资年会·有限合伙人峰会即将启幕

雕刻耐心|第18届中国投资年会·有限合伙人峰会即将启幕

2024年的一级市场,“耐心”是最高命题,也引发了持续全年的讨论。

不响不辍|第18届中国投资年会·年度峰会在沪召开

不响不辍|第18届中国投资年会·年度峰会在沪召开

5月8-10日,由投中信息、投中网主办的“第18届中国投资年会·年度峰会”在上海外滩W酒店盛大召开。