DeepSeek 的复杂性反而为团队带来了优化与泛化的契机。Michael 指出,团队将原本主要用于 DeepSeek 私有环境的技术,转化为可持续、通用化的实现,使其能服务更多基于 MoE 架构的模型。他强调,vLLM 的某些演进正是受 ...
近日,PyTorch 官方分享了如何实现无 CUDA 计算,对各个内核进行了微基准测试比较,并讨论了未来如何进一步改进 Triton 内核以缩小与 CUDA 的差距。 在做大语言模型(LLM)的训练、微调和推理时,使用英伟达的 GPU 和 CUDA 是常见的做法。在更大的机器学习编程与 ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 !单机 PyTorch 模型跑推理没什么问题,但数据量一旦上到万级、百万级,瓶颈就暴露出来了:内存不够、GPU 利用率低、I/O ...
快科技9月25日消息,在2025年Computex大会上,AMD承诺将通过ROCm为Windows系统带来PyTorch支持,如今这一承诺终于兑现。 AMD发布了ROCm 6.4.4预览版本,为Windows系统下的Radeon RX 9000和RX 7000系列显卡以及Ryzen AI系列APU带来了PyTorch支持。 ROCm是由AMD开发的开源GPU计算生态系统 ...
快科技10月31日消息,摩尔线程宣布,针对PyTorch深度学习框架的MUSA插件“Torch-MUSA”,迎来重大更新新版本v1.3.0,全面兼容PyTorch 2.2.0。 新版进一步提升了PyTorch在摩尔线程GPU MUSA架构上的模型性能与覆盖度,能更友好地支持模型迁移到摩尔线程GPU。 PyTorch是全球 ...
AI自动生成的苹果芯片Metal内核,比官方的还要好? Gimlet Labs的最新研究显示,在苹果设备上,AI不仅能自动生成Metal内核,还较基线内核实现了87%的PyTorch推理速度提升。 更惊人的是,AI生成的Metal内核还在测试的215个PyTorch模块上实现了平均1.87倍的加速,其中一些 ...
网络安全研究人员近日发现,在HuggingFace平台上,有两个恶意机器学习(ML)模型利用了一种非常规的“损坏”pickle文件技术来规避安全检测。 研究人员Karlo Zanki表示:“从这些PyTorch存档中提取的pickle文件,在文件开头揭示了恶意的Python内容。两者的恶意载荷 ...
格隆汇12月9日|智元 机器人 宣布开源Video Dataset。Video Dataset是智元机器人团队基于实际AI训练需求深度开发的高性能视频数据加载库。通过将解码任务从传统的CPU转移到GPU,充分挖掘硬件解码能力,吞吐量提升4倍。同时兼容PyTorch Dataset接口,提供Mixin类,开发者改几行代码即可接入现有训练流。
PyTorch,这一广受欢迎的开源机器学习框架,近期正式推出了其最新版本——2.8版。此次版本更新聚焦于提升量化大语言模型(LLM)在Intel CPU上的推理性能,吸引了众多开发者和研究人员的目光。 在PyTorch 2.8中,开发者团队通过算法优化和技术革新,显著提高了 ...
小扎又挖到AI明星了!爆料称,Thinking Machines联创、PyTorch之王Andrew Tulloch回归Meta,本人已在周五内部信官宣。他是曾拒绝15亿美元薪酬包,让全网轰动一时的AI大佬。 PyTorch之王,真的回归Meta了! WSJ独家爆料称,Thinking Machines证实——联合创始人之一、明星AI研究 ...
11 月 28 日消息,近日,摩尔线程正式发布 PyTorch 深度学习框架的 MUSA 扩展库 ——Torch-MUSA v2.7.0,新版本在功能集成、性能优化与硬件支持方面实现进一步突破。Torch-MUSA 在短短一个月内,连续完成 v2.5.0 和 v2.7.0 两次版本更新。 据介绍,自 v2.5.0 起,Torch-MUSA 版本号已与 ...