刚刚!DeepSeek重大发布!梁文锋参与共创!
迪丽瓦拉
2025-02-19 11:30:37
0

2月18日,DeepSeek在海外社交平台发布了一篇纯技术论文报告,论文主要内容是关于NSA(Natively Sparse Attention,原生稀疏注意力)。

据介绍,NSA专为长文本训练与推理设计,能利用动态分层稀疏策略等方法,通过针对现代硬件的优化设计,显著优化传统AI模型在训练和推理过程中的表现,特别是提升长上下文的推理能力,在保证性能的同时提升了推理速度,并有效降低了预训练成本。

在这篇名为《原生稀疏注意力:硬件对齐且可原生训练的稀疏注意力机制》(Native Sparse Attention: Hardware-Aligned and Natively Trainable Sparse Attention)的论文署名中,DeepSeek创始人兼CEO梁文锋也作为共创在列。

其他研究人员来自DeepSeek、北大和华盛顿大学,其中第一作者Jingyang Yuan(袁景阳)是在DeepSeek实习期间完成的这项研究。

值得一提的是,今日中午12点(太平洋时间17晚8点),马斯克旗下AI公司xAI发布了Grok 3及其精简版Grok 3 mini。发布会采用视频直播形式,观看人数超过100万人。

Grok 3是xAI对OpenAI的o3-mini和DeepSeek的R1等模型的回应,它可以分析图像和回答问题,并为X上的许多功能提供支持。此前马斯克在X上造势称,Grok 3是“地球上最聪明的人工智能”。

在此次直播中,马斯克透露,实际上,到训练进行到92天时,集群的规模已经扩大到了20万块GPU。

编辑|金冥羽杜波

校对|陈柯名

封面图片来源:视觉中国

每日经济新闻综合自券商中国、财联社、公开资料等

每日经济新闻

相关内容

抢跑商业化、“可灵”达成一...
业绩会开始,在简单介绍财务数据后,快手联合创始人、董事长兼CEO程...
2025-03-26 01:12:24
受马斯克领导的DOGE裁员...
美国求职网站Indeed的一项分析显示,今年1月至2月,被政府部门...
2025-03-25 15:19:21
DeepSeek预测:国足...
综合各方的分析,3月25日中国男足主场对阵澳大利亚的比分预测如下:...
2025-03-25 11:56:07
越跌越买,金融科技ETF华...
3月25日,金融科技板块持续调整,个股集体下行,神州信息跌超8%,...
2025-03-25 11:07:41
生死战!国足今晚若输澳大利...
直播吧3月25日讯 世预赛亚洲区第三阶段C组第8轮,国足今晚将主场...
2025-03-25 10:26:33
融中回顾 | 周六福五冲I...
【头条推荐】 负债近百亿,又一造车新势力命悬一线 据相关报道,哪吒...
2025-03-24 20:36:35