点击上方“Deephub Imba”,关注公众号,好文章不错过 !单机 PyTorch 模型跑推理没什么问题,但数据量一旦上到万级、百万级,瓶颈就暴露出来了:内存不够、GPU 利用率低、I/O ...
点击上方“Deephub Imba”,关注公众号,好文章不错过 !深度学习模型参数量和训练数据集的爆炸式增长,以 Llama 3.1 为例:4050 亿参数、15.6 万亿 token 的训练量,如果仅靠单 GPU可能需要数百年才能跑完,或者根本无法加载模型。并行计算(Parallelism)通过将训练任务分发到多个 ...
更多精彩内容 请点击上方蓝字关注我们吧! 今年 3 月,苹果发布了其自研 M1 芯片的最终型号 M1 Ultra,它由 1140 亿个晶体管组成,是有史以来个人计算机中最大的数字。苹果宣称只需 1/3 的功耗,M1 Ultra 就可以实现比桌面级 GPU RTX 3090 更高的性能。 随着用户 ...
【新智元导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。 试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰? 又有多少开发者曾因为频频闪烁的警报「 ...
【导读】用英伟达的GPU,但可以不用CUDA?PyTorch官宣,借助OpenAI开发的Triton语言编写内核来加速LLM推理,可以实现和CUDA类似甚至更佳的性能。 试问,有多少机器学习小白曾被深度学习框架和CUDA的兼容问题所困扰? 又有多少开发者曾因为频频闪烁的警报「CUDA版本 ...
招股书显示,基于MUSA架构,摩尔线程率先实现了单芯片架构同时支持AI计算加速、图形渲染、物理仿真和科学计算、超高清视频编解码的技术突破,有力推动了我国GPU产业的自主可控进程。
快科技10月31日消息,摩尔线程宣布,针对PyTorch深度学习框架的MUSA插件“Torch-MUSA”,迎来重大更新新版本v1.3.0,全面兼容PyTorch 2.2.0。 新版进一步提升了PyTorch在摩尔线程GPU MUSA架构上的模型性能与覆盖度,能更友好地支持模型迁移到摩尔线程GPU。 PyTorch是全球 ...
2025-06-03 19:16发布于北京DeepTech深科技官方账号 仅需几十行 PyTorch 代码即可大幅提高 GPU 利用率,在英伟达 A100 上的 GPU 利用率高达 70%。这一能力由一款名为 LaCT 的新模型架构实现,它由北京大学本科校友、美国麻省理工学院博士生张天远和所在团队打造。
AI自动生成的苹果芯片Metal内核,比官方的还要好? Gimlet Labs的最新研究显示,在苹果设备上,AI不仅能自动生成Metal内核,还较基线内核实现了87%的PyTorch推理速度提升。 更惊人的是,AI生成的Metal内核还在测试的215个PyTorch模块上实现了平均1.87倍的加速,其中一些 ...
摩尔线程创始人、董事长兼CEO张建中近日宣布,公司将在首届MUSA开发者大会上全面介绍以MUSA为核心的全栈发展战略与未来规划。此次大会不仅将发布新一代GPU架构,还将展示涵盖产品体系、核心技术及行业解决方案的完整生态布局,同时分享多领域应用案例与生态建设成果。
【CNMO科技消息】12月9日,摩尔线程创始人、董事长兼CEO张建中宣布将在摩尔线程首届MUSA开发者大会中,系统阐述以MUSA为核心的全栈发展战略与未来愿景,并重磅发布新一代GPU架构,推出涵盖产品体系、核心技术及行业解决方案的完整布局,分享多领域 ...