游客发表
最近英伟达两款高端产品,GeForce RTX 5090和RTX PRO 6000,都受到虚拟化重置错误的困扰。该错误可能会让显卡完全没有响应,需要主机物理重启才能恢复。这是一个特定的错误,除了GeForce RTX 5090和RTX PRO 6000外,包括RTX 4090和H100等旧型号都不会出现类似的问题,即便是Blackwell架构产品中最强的B200也没有问题。
NVIDIA GeForce RTX 5090
据TomsHardware报道,这是随机发生的错误,没有明确的原因,在持续使用几天或几周后,GPU虚拟机可能完全冻结而没有任何响应迹象。现阶段唯一恢复正常的解决方案就是重启机器,这种情况引起了AI初创公司的关注,甚至怀疑是不是存在硬件设计缺陷。
根据日志显示,该错误发生在GPU通过KVM和VFIO传递给虚拟机之后,当虚拟机关机或GPU重新分配时,主机发出PCIe功能级重置(FLR)指令——这是清理直通设备标准流程的一部分。 这时候GPU未能恢复至正常状态,内核报告显示:“FLR后65535毫秒仍未就绪;放弃操作”。此时显卡对lspci命令也变得不可读,该命令会抛出“未知头部类型7f”错误。
英伟达已经对该问题作出回应,称可以复现问题,并在努力修复当中。具体情况还要等待官方的确认,预计很快会发布修复程序。
{loop type="link" row=1 }{$vo.title}