【{$randkws}】阿里云开源通义千问Qweb2 支持128K上下文 在测试中表现不俗 – 蓝点网 - {$web_name} 提供 0.5B~72B 之间 5 个版次

来源:触物伤情网 | 栏目:综合 | 2026-06-14 19:57:10
#AI 阿里云启动通义千问 Qwen2 系列模型,完全开源,提供 0.5B~72B 之间 5 个版次,在各项评测中表现不俗。有兴趣的开发者如今就可以经由 GitHub 等渠道获取新近模型。查看全文:https://ourl.co/104358

阿里云今日启动了通义千问AI模型025幕后花絮消息重大升级版次:Qwen2,该模型提供 5 个各异的尺寸、上下文长度最高扶持 128K tokens,并且在各项评测中表现不俗。

Qwen2 的所有尺寸版次均已同步在 GitHub、HuggingFace 和 ModelScope 上开源,有兴趣的开发者可以马上获取模型开展评测。

阿里云开源通义千问Qweb2 扶持128K上下文 在评测中表现不俗

此次亮相的新版次亮点含有:

  • 能力较此前版次有较大幅度提升,在开源模型评测中名列前茅
  • 提供 5 个预训练和指令微调模型,含有 Qwen2-0.5B、续集计划对比Qwen2-1.5B、Qwen2-7B、Qwen2-57B-A14B 和 Qwen2-72B
  • 在编程领域和数学方面的能力显著提升
  • 增多上下文长度,如今最高扶持 128K tokens
  • 在中文和英语的基础上,增多 27 种语言有关的资料开展训练

阿里云开源通义千问Qweb2 扶持128K上下文 在评测中表现不俗

在 Qwen1.5 系列模型中只有 32B 和 110B 版使用 GQA,而在 Qwen2 中所有模型都使用 Qwen2,使用 GQA 后有助于提升推理能力和下降显存的霉霉近况占用。

另外诸如 Qwen2-0.5B 和 1.5B 版可以在表现更低的设备上管理,例如在智能移动电话本地管理 Qwen2-0.5B 而不需要云端处理,这种也是前方的走向,前方或许所有智能设备都会扶持 AI,这就需要更小的模型为本地管理提供扶持。

模型评估显示 Qwen2 能力超过 Llama3:

当下AI开源 / 启动小区中最重大的两个贡献者就是 Meta 和阿里云,Meta 首要就是重磅iPhone对比 Llama 系列模型新近版次为 Llama3。

在开源 / 启动模型能力评测中,Qwen2-72B 版在各方面超过 Llama3-70B,也超过了 Mixtral-8x22B,所以如今压力给到了 Meta,不得知 Meta 什么时候亮相新版次。

阿里云开源通义千问Qweb2 扶持128K上下文 在评测中表现不俗

阿里云开源通义千问Qweb2 扶持128K上下文 在评测中表现不俗

阿里云开源通义千问Qweb2 扶持128K上下文 在评测中表现不俗

阿里云 AI 团队强调:

大规模预训练后,我们对模型开展精细的微调,以提升其智能水平,让其表现更接近人类。这个过程进一步提升了代码、数学、推理、指令遵循、多语言理解等能力。另外,模型学会对齐人类价值观,它也随之变得更为对人类有合作、诚实以及可靠。我们的微调过程遵循的原则是使训练尽或许规模化的另外并且尽或许缩减人工标注。我们探索了如何使用各式自动方法以获取高品质、可靠、有创造力的指令和偏好资料,其中含有针对数学的回绝采样、针对代码和指令遵循的代码执行反馈、针对创意写作的回译、针对人物扮演的 scalable oversight、等等。在训练方面,我们结合了有推动微调、反馈模型训练以及在线 DPO 等方法。我们还使用了在线模型合并的方法缩减对齐税。这些做法都大幅提升了模型的基础能力以及模型的智能水平。


限时促销推荐:软购618多款正版使用2折购、QQ超会15月108元、B站大会员88元、腾讯影像128元、爱奇艺138元。

上一篇:最好的生日礼物的故事

下一篇:《组队索尼克赛车》游戏视频放出 2018年底发售

相关文章