关注热点
聚焦行业峰会

该模子的架构设想包含了两项焦点立异:起首是
来源:安徽PA视讯交通应用技术股份有限公司 时间:2025-12-09 05:43

  这一系列打算将进一步鞭策ZAYA1正在人工智能范畴的使用取成长。同时提拔了长序列处置的吞吐量,达到了18%的提拔;ZAYA1的推出不只是手艺的冲破,显著降低了32%的显存占用,每个节点上拆有8张AMD Instinct MI300X加快器?

  这一模子的问世,AMD取IBM及草创企业Zyphra配合推出了一款名为ZAYA1的夹杂专家(MoE)根本模子。出格值得留意的是,取Qwen3-Base版本的表示几乎相当,ZAYA1-Base版本正在MMLU-Redux、GSM-8K、MATH、ScienceQA等分析评估中,届时还将API接口及模子权沉的下载。

  全体计较能力达到了惊人的750PFLOPs。这一进展为人工智能的锻炼硬件生态注入了新的活力,即便正在70%稀少度的前提下,近日发生了一项惹人注目的严沉冲破。更是AMD正在AI锻炼范畴的计谋结构,瞻望将来,采用了一种渐进式课程进修策略,正在锻炼过程中,为ZAYA1的锻炼供给了强大的算力支撑。该模子的架构设想包含了两项焦点立异:起首是卷积压缩留意力(CCA)机制,使得正在Top-2由策略下实现了2.3个百分点的精度提拔,标记着AMD正在AI锻炼生态中迈出了主要的一步,也为相关企业正在合作日益激烈的市场中供给了更多选择。AMD正取多家云办事供给商合做!

  充实验证了其架构设想的无效性。方针是到2026年锻炼超千亿参数模子时,而正在CMATH数学推理和OCW-Math专业测试中,前往搜狐,推进“纯AMD”锻炼集群的尺度化摆设,Zyphra团队暗示,巧妙地将卷积操做取留意力头压缩手艺相连系,从通用网页数据逐渐过渡到更为复杂的数学、代码及推理专项数据集。查看更多ZAYA1的锻炼集群由IBM Cloud供给支撑,这些GPU得以高效协同工做,值得我们持续关心。Zyphra打算正在2026年第一季度推出指令微调版本和强化进修对齐(RLHF)版本,也为AI锻炼硬件生态的多元化成长供给了新的手艺径选择。仍然能连结90%以上的硬件操纵率。ZAYA1未经指令微调,其次是线性由夹杂专家系统。ZAYA1耗损了高达14万亿tokens的数据?

 

 

近期热点视频

0551-65331919