抱歉,您的浏览器无法访问本站
本页面需要浏览器支持(启用)JavaScript
了解详情 >

本文记录如何在 Windows 上为 AMD Radeon RX 9070(gfx1201)等新显卡启用 Ollama 的 GPU 加速:通过替换官方不支持新架构的 ROCm 库为社区提供的定制版本,实现从 CPU 到 GPU 的高效推理,并附验证方法和推荐图形客户端。

前期准备

  1. 打开链接
  2. 尝试在不同版本中寻找自己的显卡显卡型号
  3. 例如:我的显卡型号为 AMD Radeon RX 9070,代号为:gfx1201

下载部分

  1. 从上面链接下载自己显卡型号的Rocm, 例如 gfx1201,可以在 v0.6.2.4 部分看到如下内容,提示我们下载

    1
    rocm.gfx1201.for.hip.skd.6.2.4-no-optimized.7z
    俺是图图

  2. 下载Ollama https://ollama.com/

    首先因为 我选择的版本为 v0.6.2.4 因此可以直接使用官方版本 Ollama,

    若是版本为 v0.6.4.2 则大概需要 定制版本

  3. 下载模型 https://ollama.com/search

替换Rocm

  1. 解压下载的Rocm rocm.gfx1201.for.hip.skd.6.2.4-no-optimized.7z
  2. 得到 library 文件夹以及 rocblas.dll文件
  3. 打开Ollama文件夹,默认位置为:
    • C:\Users\username\AppData\Local\Programs\Ollama\lib\ollama\rocm\rocblas
  4. 解压后得到的library 文件夹以及 rocblas.dll文件对Ollama对应位置进行覆盖
  5. 运行Ollama

推荐部分

推荐的客户端:https://www.cherry-ai.com/

下载后:打开左下角 设置 - 模型服务 - 选择 Ollama - 管理 添加自己本地的模型即可。

若在无Rcom加速时(题外):

  1. 首先直接打开Ollama进行对话,可以看到正在正常输出

    这里是图图

  2. 明显可以看到CPU压力很大,GPU没干活

    这里是图图

  3. 打开日志 server.log 可以看到

    1. GPU 检测
    1
    time=2025-09-30T23:06:47.680+08:00 level=WARN source=amd_windows.go:139 msg="amdgpu is not supported (supported types:[gfx1030 gfx1100 gfx1101 gfx1102 gfx1151 gfx906])" gpu_type=gfx1201 gpu=0 library=C:\Users\nameless\AppData\Local\Programs\Ollama\lib\ollama\rocm
    • 检测到 GPU 型号是 gfx1201,Ollama 当前版本的 ROCm 库不支持该型号。

    • 支持的型号列表只有:gfx1030 gfx1100 gfx1101 gfx1102 gfx1151 gfx906

    • Ollama 无法使用朕的 GPU 进行推理。

    1. 回退到 CPU
    1
    2
    3
    time=2025-09-30T23:06:47.682+08:00 level=INFO source=gpu.go:396 msg="no compatible GPUs were discovered"
    time=2025-09-30T23:06:47.682+08:00 level=INFO source=types.go:131 msg="inference compute" id=0 library=cpu variant="" compute="" driver=0.0 name="" total="15.9 GiB" available="3.2 GiB"
    time=2025-09-30T23:06:47.682+08:00 level=INFO source=routes.go:1569 msg="entering low vram mode" "total vram"="15.9 GiB" threshold="20.0 GiB"
    • Ollama 没有找到可用 GPU,所以回退到 CPU 推理。
    • 系统内存总量 15.9 GiB,可用 3.2 GiB
    • 由于总 VRAM 少于 20 GiB,进入“低 VRAM 模式”,模型加载和推理可能会受限,需要更小模型或更慢的 CPU 推理。

评论