作为一名长期在受限网络环境下工作的开发者,我深知离线AI辅助工具的重要性。今天要分享的这套DeepSeek-Coder 6.7B + Ollama + Continue组合方案,是我经过多次实践验证的可靠配置,特别适合需要完全离线运行的开发场景。
这个方案的核心价值在于:
最低配置:
推荐配置:
操作系统:
Ollama:
DeepSeek-Coder 6.7B:
Continue插件:
Ollama安装包
Continue插件
模型下载
bash复制ollama pull deepseek-coder:6.7b
C:\Users\<用户名>\.ollama\models~/.ollama/models下载完成后,执行以下命令验证:
bash复制ollama list
应能看到类似输出:
code复制NAME SIZE
deepseek-coder:6.7b 4.2GB
安装Ollama
验证安装
bash复制ollama --version
应输出版本号(如:0.1.20)
导入模型
.ollama文件夹复制到内网机器对应位置模型验证
bash复制ollama list
ollama run deepseek-coder:6.7b
出现>>>提示符表示模型加载成功
离线安装方式:
安装验证:
配置文件位置:
%USERPROFILE%\.continue\config.json~/.continue/config.json推荐配置:
json复制{
"models": [
{
"title": "DeepSeek-Coder 6.7B (离线)",
"provider": "openai",
"model": "deepseek-coder:6.7b",
"apiBase": "http://localhost:11434/v1",
"apiKey": "ollama",
"contextWindow": 16384,
"systemMessage": "你是专业代码分析助手,只分析项目代码,用中文回答,简洁准确。"
}
],
"tabAutocompleteModel": {
"title": "DeepSeek-Coder 6.7B (离线)",
"provider": "openai",
"model": "deepseek-coder:6.7b",
"apiBase": "http://localhost:11434/v1",
"apiKey": "ollama"
}
}
配置要点:
apiBase必须指向本地Ollama服务(默认11434端口)apiKey固定为"ollama"contextWindow根据模型能力设置(16384适合6.7B模型)systemMessage可自定义模型行为启动模型服务:
bash复制ollama run deepseek-coder:6.7b
保持该终端窗口打开
断网测试:
code复制@Repo 用中文解释当前项目的目录结构
代码定位:
code复制@Repo 找出[功能名称]的实现位置,说明核心类和调用关系
逻辑分析:
code复制@Repo 分析[模块/文件]的业务逻辑,用中文分步骤说明
问题排查:
code复制@Repo 解释[错误信息]可能的原因,指出相关代码位置
代码优化:
code复制@Repo 评估[代码片段]的性能瓶颈,给出优化建议
上下文管理:
@file:Service.java)指令优化:
资源控制:
问题1:模型服务启动失败
问题2:Continue无法连接本地模型
bash复制curl http://localhost:11434/api/generate -d '{
"model": "deepseek-coder:6.7b",
"prompt": "Hello"
}'
问题3:中文乱码
code复制-Dfile.encoding=UTF-8
-Dsun.jnu.encoding=UTF-8
| 模型 | 大小 | 代码能力 | 中文能力 | 显存需求 | 适用场景 |
|---|---|---|---|---|---|
| deepseek-coder:6.7b | ~4GB | ★★★★★ | ★★★★☆ | 4GB+ | 专业代码分析与生成 |
| qwen2:7b | ~4.5GB | ★★★★☆ | ★★★★★ | 4GB+ | 代码+文档混合场景 |
| qwen2:1.5b | ~1.5GB | ★★★☆☆ | ★★★★☆ | 2GB+ | 低配机器/简单任务 |
主要用途:
硬件条件:
语言需求:
启动参数调整:
bash复制ollama serve --num-parallel 2 --num-gpu-layers 20
--num-parallel:并行请求数(根据CPU核心数调整)--num-gpu-layers:GPU加速层数(有显卡时启用)服务自启动:
在config.json中可调整:
json复制{
"options": {
"temperature": 0.7,
"top_p": 0.9,
"num_ctx": 4096
}
}
temperature:创造性(0-1,代码建议用0.3-0.7)top_p:多样性控制num_ctx:上下文长度配置多个模型示例:
json复制{
"models": [
{
"title": "DeepSeek-Coder-6.7B",
"model": "deepseek-coder:6.7b"
},
{
"title": "Qwen2-1.5B-快速",
"model": "qwen2:1.5b"
}
]
}
使用时在Continue界面切换模型即可
bash复制ollama pull deepseek-coder:6.7b
bash复制ollama inspect deepseek-coder:6.7b | grep digest
内存使用检查:
bash复制# Linux/macOS
top -o mem
# Windows
tasklist /fi "imagename eq ollama*"
服务健康检查:
bash复制curl http://localhost:11434
关键备份内容:
~/.ollama/models目录~/.continue/config.json文件推荐备份频率:
这套离线AI编程助手方案已经在我所在团队的多个项目中稳定运行,特别是在需要高度保密或网络受限的开发环境中表现出色。通过合理配置,它能够显著提升代码理解效率和问题排查速度,成为开发者的强力辅助工具。