基于Ollama的本地AI配置教程
总览
- 万年歌, 马前课, 梅花诗, 推背图 (上)
- 万年歌, 马前课, 梅花诗, 推背图 (下)
- 三战预测
- 卜卦实例之危机预测
- 卜卦实例2之各国运势
- 基于Ollama的本地AI配置教程
- 灾备资料获取
- 应急基础物资清单
- 金圣叹版推背图卦象的整理和分析
- 金圣叹版推背图数字的整理和分析
- 金圣叹版推背图45象的推测
需求
准备安装可以离线的本地AI,主要用于灾备,存储知识,可以离线问答。
次要目标是学习了解AI嵌入式本地化的实用性情况
机器1, 台式机配置: 5070ti, AMD Ryzen 7 7800X3D, 32GB,1tb+2tb硬盘
机器2, 笔记本配置: Intel Ultra 7 255H, 64GB, 1tb+2tb硬盘
- 要求:
- 本地AI能回答常识性知识,如如何种菜等等,
- 可以给他已有的知识库学习, 譬如PDF版本的书籍和文件。
- 主要用于灾备,即断网情况下的自救知识。
- 顺便学习一下本地AI的发展情况和工具集, 评估嵌入式AI的应用前景.
- 注意: WSL的内存占用
- 由于自己的电脑分配给了WSL大量的内存. 如果运行过WSL, 需要确保Windows下的可用内存
wsl --shutdown确保关闭wslC:\Users\<用户名>\创建或修改.wslconfig文件, 让其自动归还内存[wsl2]
memory=24GB
# ......
# 以上, 为原有的设置
# 新增, 闲置时自动归还内存给Windows
autoMemoryReclaim=gradual
安装 Ollama
NV卡安装Ollama
- Ollama 直接支持的硬件
- 完美支持 NVIDIA 独立显卡 (CUDA协议).
- 良好支持 AMD RX6000系列及以上的显卡 (ROCm协议).
- 完美支持 苹果电脑(M1/M2/M3/M4)
- 其它情况, Ollama 只能默认使用CPU的算力(体验极差, 无法流畅使用).
- 下载:前往 ollama.com 下载 Windows 版并安装。
- 安装后。打开终端(PowerShell),输入:
ollama --version验证
- 安装后。打开终端(PowerShell),输入:
- 下载模型(基于 5070 Ti 16GB,2026年主流选型):
- 下载主模型:
ollama pull qwen3:14b(百科全书,种菜、自救首选)
- 下载 Embedding 模型:
ollama pull bge-m3:567m(量化文本内容, 适合中文或多语言)ollama pull nomic-embed-text(量化文本内容, 适合纯英文)
- 模型路径修改:
- Ollama 默认把模型存在 C 盘。
- 在 Windows 环境变量中添加
OLLAMA_MODELSD:\My_Work\2015_20xx_FREE\202602_LocalAI\models
- 也需要在Setting UI中修改到同样的路径. 一个是cmd模式路径, 一个是UI模式路径.
- https://ollama.com/library 可以进行模型查询
- 常用指令
ollama list列出下载的本地模型ollama pull <模型名称>下载模型到本地ollama rm <模型名称>移除本地模型ollama ps运行模型的情况及占用内存ollama stop <模型名称>停止指定的模型,释放内存ollama show <模型名称>显示模型的详细信息
- 下载主模型:
Intel 芯片安装 Ollama
- Intel Ultra 系列的三脑架构
核心单元 核心优势 255H 的硬核参数 CPU (中央处理器) 处理突发、复杂的指令,调度全局。 16核/16线程,主频高达 5.1 GHz。 GPU (集成显卡) 暴力输出。处理大规模并行数据,速度极快。 8个Xe核心,AI 算力高达 74 TOPS。 NPU (神经网络处理器) 极致节能。专门应付需要长效、静默运行的任务。 2026 年新一代 NPU,算力约 13 TOPS。 - 安装或更新Intel驱动
- 安装或更新 Intel Graphics Driver 显卡驱动
- 下载地址 Intel® Arc™ & Iris® Xe Graphics - Windows*
- 注意选择 “Clean Install(全新安装)”
- 安装或更新 Intel Graphics Driver 显卡驱动
- 安装Ollama.
- 访问 IPEX-LLM Ollama GitHub 下载适用于 Windows 的Ollama。
- 推荐 使用 IPEX-LLM 在 Intel GPU 运行 llama.cpp Portable Zip
- 下载 ollama-ipex-llm-2.2.0-win.zip, 建议选最新版本, 此处只是示例.
- 解压到Ollama目标文件夹
- 运行
start-ollama.bat(可能需要右键管理员运行), 会自动启动一个针对Intel GPU优化的Ollama服务. - 在Ollama文件夹打开 cmd 或 powershell, 就能运行调用指令了. 如
.\ollama ls
- 备选, 正常安装Ollama软件, 使用 Vulkan支持, 目前为实验性质.
- 新建系统的环境变量, 变量名
OLLAMA_VULKAN, 变量值1 - 退出Ollama, 然后重新打开. 查看运行大模型时, GPU的占用率情况, 确定是CPU在工作还是GPU在工作
- 缺点: 性能不如 IPEX-LLM, 70%左右. 优点是兼容性好.
- 我没有使用测试过, 不清楚具体效果
- 新建系统的环境变量, 变量名
- 配置Ollama.
- 打开系统环境变量.
- 点击进入环境变量
Path, 增加Ollama文件夹路径. 便于直接调用ollama指令. - 添加环境变量
OLLAMA_MODELS, 为大模型路径, 譬如D:\xxx\Ollama\models
- 点击进入环境变量
- 文本模式打开
ollama-serve.bat, 其中的set语句都是设置参数的, 可按需调节.- 新手可以不去修改. 可以考虑如下优化设置
- 修改
set OLLAMA_KEEP_ALIVE=60m模型常驻时间, 默认为10m. - 添加
set OLLAMA_MAX_LOADED_MODELS=2最多同时加载两个大模型 - 添加
set OLLAMA_INTEL_GPU=1使用INTEL GPU
- 为了开机无窗口自启动 ollama服务. 可如下操作
- 在Ollama文件夹下, 新建记事本, 写入如下内容. 然后另存为
start-ollama-silent.vbs - 打开
startup目录- 方法1:
Win+R输入shell:startup可直达 - 方法2:
everything搜索文件夹Start Menu\找到正确的startup文件夹
- 方法1:
- 创建一份
start-ollama-silent.vbs快捷方式, 并放入startup文件夹即可.Set WshShell = CreateObject("WScript.Shell")
' 获取当前 VBS 文件夹
Dim currentFolder
currentFolder = CreateObject("Scripting.FileSystemObject").GetParentFolderName(WScript.ScriptFullName)
' 在当前文件夹启动 BAT,窗口完全隐藏
WshShell.Run """" & currentFolder & "\ollama-serve.bat""", 0, False
- 在Ollama文件夹下, 新建记事本, 写入如下内容. 然后另存为
- 打开系统环境变量.
安装 AnythingLLM
AnythingLLM的介绍
这是管理 PDF 知识库的地方。
AnythingLLM 的核心价值在于将复杂的 RAG(检索增强生成) 技术变得像使用文件夹一样简单。
以下是它的四大核心功能:
- 构建“私人知识库” (RAG)
- 模型的多端调度与管理
- 会议与全局助理 (2026 新特性)
配置里面主模型(Qwen 3)就是大脑,而嵌入器(Embedder)和向量数据库就是超级索引库。
为了在断网灾备时能快速从几千页 PDF 里翻出答案,这三者必须分工明确:
安装和配置 AnythingLLM
- 注意: AnythingLLM 目前没有支持 Intel AI Playground
- 安装: 直接从 useanything.com 下载安装包。
- 安装完成后, 打开 AnythingLLM 界面后,按照以下顺序配置:
- LLM Setup (大语言模型):
- LLM Provider: 选择
Ollama或者Intel AI Playground - Model: 选择
Qwen3.5:9B(请按实际需求选择) - Ollama URL:
http://127.0.0.1:11434。
- LLM Provider: 选择
- Embedder (嵌入器):
- Embedding Provider: 选择
Ollama - Model: 选择
bge-m3(中文或多语言推荐) - 如果是英语, 选择默认
AnythingLLM Embedder的nomic-embed-text-v1即可
- Embedding Provider: 选择
- Vector Database (数据库):
- 选择
LanceDB(这是内置的,直接存在硬盘里,无需额外安装)。
- 选择
- LLM Setup (大语言模型):
什么是嵌入器 (Embedder)?
它是 AI 的“翻译官”,负责把文字变成“坐标”。
- 作用:人类的文字(如“如何过滤水”)对计算机来说太感性了。嵌入器会将这段话转化成一串长长的数字(向量),比如
[0.12, -0.98, 0.55...]。 - 它能让意思相近的话,在数字空间里的“位置”也非常接近。比如“怎么找喝的水”和“野外水源净化”,虽然字面上没一个字相同,但在嵌入器眼里,它们的数字坐标挨得很近。
nomic-embed-text:是这个“翻译官”的名字。它是目前公认的离线性能最强、速度最快的小模型之一。- 主要针对单语言使用. 譬如导入英文资料, 查询也是使用英文.
bge-m3:另一个“翻译官”。特点是多语言, 多功能, 多维度- 从设计上就强调多语言,在中文检索、语义相似度等任务上 常年领先。
- 适合中文为主或中英文混用的 RAG、本地知识库等场景。
什么是向量数据库 (Vector Database)?
它是 AI 的“超级图书馆架”,负责存坐标。
- 作用:当把一个 1GB 的 PDF 塞给 AnythingLLM 时,系统会先把 PDF 切成几万个小碎片,让
nomic-embed-text把每个碎片都翻译成“数字坐标”,然后存进这个“向量数据库”里。 - 查询过程:当问题时,它不是在搜关键词(像 Ctrl+F 那样),而是在数据库里找“离你问题坐标最近”的那几个 PDF 碎片。
- 在 AnythingLLM 里:它通常内置了一个叫 LanceDB 或 Chroma 的数据库,不需要额外下载,它会自动管理。
如何选择正确的AI模型
- 核心公式: 显存必须装下整个模型文件 + 上下文(Context)所需的空间。
- “全显存”是分水岭. AI 推理本质上是极其密集的数学运算。
- 全显存模式(GPU Only): 数据在显存(VRAM)和 GPU 核心之间传输,带宽通常在 500GB/s - 1000GB/s 以上。
- 混合模式(GPU + CPU/RAM): 当显存装不下,模型的一部分会被迫放在内存里。由于总瓶颈,内存带宽通常只有 50GB/s - 100GB/s。
- 结果: 整个系统的速度会被最慢的环节(内存)拖累。即便只溢出了 1GB 到内存,速度也会从 50 t/s 掉到 3-5 t/s。
第一部分:模型权重(固定支出)
这是模型文件加载进显卡的大小。
- 计算: 如果是 14B 模型,使用 Q4_K_M 量化,大约占用 9GB - 9.5GB。
- 余额: 16GB - 9.5GB = 6.5GB。这剩下的 6.5GB 就是剩余可用显卡内存。
第二部分:上下文长度缓存, Context Cache
这决定了 AI 能记得多远的聊天记录。Context Cache 是显存占用的大户。
- 估算公式(经验法则):
- 对于 7B 的模型,每 1K Token大约占用 100MB - 200MB 显存。
- 对于 14B 的模型,每 1K Token大约占用 300MB - 400MB 显存。
- 对于 32B 的模型,每 1K Token大约占用 600MB - 800MB 显存。
- 最低4K上下文的情况下. 7B模型约0.7GB; 14B模型约1.5GB.
第三部分:多模态图片预留缓冲
对于支持多模态的AI大模型, 还需要预留出足够的图片缓冲.
视觉模型处理图片时,会将图片编码为 “Token”。
- 计算参考: Qwen-VL 系列通常将一张图片编码为约 1000 - 1500 个 Token。
- 处理图片瞬间的计算(Activation)和存储这些图片 Token,
- 建议为“单次对话处理 1-2 张图”预留 1.5GB - 2GB 的显存。
喂入自救知识库 (RAG)
- 回到 AnythingLLM 主界面。点击搜索旁边的”+“号, 就是新建工作区。
- **创建工作区 (Workspace)**:起名为
EmergencySurvival。 - 上传 PDF:点击新建工作区右侧的上传按钮,把收集的《赤脚医生手册》、《野外生存指南》、种植等灾备书籍(必须是文字版)拖进去。
- 搬运到 Workspace:点击 **”Move to Workspace”**,然后点击 **”Save and Embed”**。
- 此时显卡会疯狂工作一会,它正在把书里的文字变成 AI 能理解的数学向量。
- 开始提问:
- 在对话框切换到 “Query” 模式(仅从文档找答案)或 “Chat” 模式(文档+AI自带常识)。
- 试着问:“如果断水了,如何用简单的材料制作净水装置?”
扫描版pdf的自动识别
在尝试放入PDF文件时, 马上会遇到的问题就是: 大部分的PDF是图片扫描版本, 而不是文字版.
因而需要自动批量化实现以下功能
- PDF文件的加载和读取
- 图片识别为文字, 保存.
- 识别出文件中真正的图片, 保存.
- 文字和图片, 尽量保持原有布局, 导出为新文件.
经过比较判断, 直接使用图片识别大模型并不现实.
- 本地AI大多只能处理一二张图片的识别
- 大多不支持PDF格式的导入, 或PDF文件过大.
- 无法自动保留布局, 并导出为新文件.
一样要编程实现, 选了IBM的Docling.
- 需要安装python 3.10以上.
使用IBM的 Docling
- 下载安装Docling
python -V # 需要python 3.10以上.
python -m pip install docling # 核心库
python -m pip install docling[ocr] # 文字识别引擎
python -m pip install docling[render] # 图片渲染引擎
python -m pip install pypdf # 读取pdf
python -m pip install hf_xet # 用于加快大模型的下载速度
python -m pip install ebooklib beautifulsoup4 # 处理epub格式
# !!!注意, 只有NV独立显卡, 才需要安装特殊版本的torch以便加速.!!!
# 要先卸载已有的版本, 无法自动覆盖安装
python -m pip uninstall torch torchvision -y
# 安装CUDA工具, 让NVIDIA 5070Ti参与加速OCR.
python -m pip install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu128
# !!!注意结束!!!
# 检查torch版本
python -c "import torch; print(torch.__version__)"
# 默认是 +cpu 工作.NV显卡则显示 +cuXXX
# 默认的 torch 版本, 使用CPU, 一般已经自动安装. 便于错误安装后的恢复.
### python -m pip install torch torchvision - 通过 Docling 提取图文的脚本, 可通过GitHub下载.
- 首次运行, 需要管理员权限, 运行该脚本. 会联网自动下载配置大模型
- 大模型会存入 C:\Users<账户名称>.cache\huggingface\,
- 下次处理其他 PDF 时,它就会直接读取本地文件,不再需要联网。
# 方法一, 将pdf文件放到 `fileDocling.py` 所在文件夹
# 然后双击运行 fileDocling.py脚本, 选择python运行即可.
# 或者打开管理员终端, 运行下述指令之一即可.
python fileDocling.py
py fileDocling.py
py -3.12 fileDocling.py
# 方法二, 在pdf所在文件夹, 指定路径运行 fileDocling.py
# 打开管理员终端, 运行下述指令之一即可.
python /...path/fileDocling.py
py /...path/fileDocling.py
py -3.12 /...path/fileDocling.py
- py文件右键添加管理员(可选)
- 下述内容保存为文件
文件py右键添加管理员打开.reg - 如有必要, 保存一下windows注册表
- 运行
文件py右键添加管理员打开.reg, 这样右键即可直接管理员运行选中的py文件.Windows Registry Editor Version 5.00
[HKEY_CLASSES_ROOT\Python.File\shell\runas]
@="以管理员身份运行"
"Extended"=dword:00000001
"Icon"="python.exe"
"HasLUASHIELD"=""
[HKEY_CLASSES_ROOT\Python.File\shell\runas\command]
@="cmd.exe /k \"pushd \"%1\\..\" && python \"%1\" %*\""
- 下述内容保存为文件
RAG整体操作流程
- 预处理阶段(把扫描图变文本)
- 将扫描版的PDF书籍放入
fileDocling.py所在的文件夹. - 运行
fileDocling.py脚本, 提取出md或html格式的书籍
- 将扫描版的PDF书籍放入
- 录入阶段(把文本变成LLM库)
- 操作:打开 AnythingLLM。
- 动作:进入
Emergency_Survival工作区,把刚才保存的文本文件丢进去,点击 **”Save and Embed”**。 - 结果:这时“索引员”
nomic-embed-text会接手,把它存入本地向量数据库。
- 提问阶段(正式使用)
- 操作:在 AnythingLLM 的聊天框里直接输入问题。
- 后台状态:Ollama 或 Intel AI Playground 必须在后台运行。
- 关键点:选对模型
- 在 AnythingLLM 聊天窗口的顶部或设置里,确保 Chat Model 选的是 **
Qwen3.5:9B**。或其它高性能通用性大模型.
- 在 AnythingLLM 聊天窗口的顶部或设置里,确保 Chat Model 选的是 **
VS Code 添加AI辅助编程
- 在VS Code扩展市场搜索并安装 Continue 插件
- 点击进入 Continue 的
Local Config, 打开config.yaml文件.- models 下为对话聊天, 可询问和调试代码. 可设置多个, 手动切换.
- tabAutocompleteModel 下为代码补全用的模型
- 由于本地AI, 显卡内存有限, 有如下两种可行方案
- 使用大小模型, 如对话用
qwen3.5:9b; 代码补全用qwen2.5-coder:1.5b - 使用同一个模型, 如
qwen2.5-coder:7b - 上下文长度默认只有4K或8K. 根据显存大小, 可增加到32K
- 使用大小模型, 如对话用
- 使用说明:
- 对话框内, 可以直接@文件等.
- 选中代码块, 快捷键
Ctrl+L聊天,Ctrl+I编辑修改Ctrl+L快捷键有冲突, 左下角的设置图标 ->keyboard shortcut-> 删除Eclipse keymap避免冲突
Chat为普通聊天, 给出建议.Plan是对复杂任务给出分解步骤.Agent是给出任务尝试自动完成.name: Local Config
version: 1.0.0
schema: v1
models:
- name: "qwen3.5:9b"
provider: ollama
model: qwen3.5:9b
contextLength: 32000
roles:
- chat
- edit
- apply
- summarize
- name: "qwen2.5-coder:1.5b"
provider: ollama
model: qwen2.5-coder:1.5b
roles:
- autocomplete
- name: "qwen2.5-coder:7b"
provider: ollama
model: qwen2.5-coder:7b
contextLength: 32000
roles:
- chat
- edit
- apply
- summarize
- autocomplete
本地化AI模型比较(2026年初)
| 大模型 | 大小 | 逻辑推理 | 文本能力 | 多模视觉 | 核心定位 | 主要特点 |
|---|---|---|---|---|---|---|
| Qwen3.5:9B | 6.5GB | ⭐⭐⭐⭐ | ⭐⭐⭐⭐ | ⭐⭐⭐ | 全能型 | 自带视觉识别 |
| DeepSeek-R1:14B | 9.5GB | ⭐⭐⭐⭐ | ⭐⭐ | 无 | 深度思考 | 逻辑推理天花板,自带“思考链”。 |
| Qwen3-VL:8B | 6.4GB | ⭐ | ⭐⭐ | ⭐⭐⭐ | 图像解析 | 能够理解复杂图表并生成代码或描述。 |
| Qwen2.5-Coder:7B | 4.7GB | ⭐⭐ | ⭐ | 无 | 辅助编程 | 代码生成,代码补全 |
| Qwen2.5-Coder:1.5B | 986MB | ⭐ | ⭐ | 无 | 代码补全 | 代码补全,轻量急速 |
| TranslateGemma:12B | 8.4GB | ⭐⭐ | ⭐⭐⭐⭐⭐ | 无 | 翻译专用 | 翻译能力超过通用模型,带术语库支持。 |
| 小微模型 | 大小 | 端应用,嵌入式 | 成本和资源受限的情况 | |||
| GLM-OCR:q8_0 | 1.6GB | ⭐ | ⭐ | ⭐⭐⭐⭐⭐ | 极致OCR | 复杂图文的OCR高度还原。 |
| LFM2.5-Thinking:1.2B | 0.8GB | ⭐⭐⭐⭐⭐ | ⭐⭐ | 无 | 指令过滤 | 解析并拆解复杂的任务指令。 |
| functiongemma:270m | 0.2GB | ⭐⭐ | ⭐ | 无 | 函数调用 | 背景服务,简单指令,工具调用。 |
本地AI架构分层
1. 硬件层 (Hardware Layer)
可以运行大模型的硬件有如下几种:
| 硬件 | 缩写全称 | 背后巨头 | 特点 |
|---|---|---|---|
| CPU | 中央处理器 | Intel / AMD | 什么都可以做. 擅长逻辑调度, 串行计算. 不适合密集计算。 |
| GPU | 图形处理器 | NVIDIA / AMD | 虽然每个只会简单算术,但一起算题速度极快。高功耗. |
| NPU | 神经网络处理器 | Intel / 苹果 / 华为 | 专为AI设计. 低功耗AI专用机算器。 |
| TPU | 张量处理器 | 专门处理极大规模的计算。买不到,只能云端租用。 |
不同硬件芯片的指令集和加速协议:
| 加速协议/框架 | 所属/适配 | 核心特点 |
|---|---|---|
| CUDA | NVIDIA | 生态最成熟,拥有物理层级最高的并行计算效率与底层算力优化能力。 |
| ROCm | AMD | 对应 CUDA 的开源方案。 |
| Metal / AMX | Apple | 苹果统一内存架构的核心。通过集成在 SoC 中的异步矩阵扩展(AMX)实现极高性能的推理。 |
| OpenVINO | Intel | 跨硬件加速器。能将模型自动映射到 CPU、GPU(集显)和 NPU 上,是 Intel AI PC 的核心。 |
| DirectML | Microsoft | 微软推出的跨硬件 API。只要支持 DirectX 12 的显卡都能跑,适配性最广但极致性能略逊。 |
2. 模型层(Model Layer)
即本地大模型, 纯二进制文件. 包含了训练后, AI的整个参数集和知识库.
必要的知识点:
- Hugging Face. AI 界的 GitHub. 用于存储、分享模型和数据集的标准云端仓库。
- GGUF 文件格式:本地化部署的标准文件格式,通过“量化”技术让大模型能塞进家用显存里。
- OpenVINO 文件格式: Intel 针对自家芯片优化的大模型格式.
当前模型的局限性. 资源和算力总是有限的, 单个AI是有自己的特点, 局限和专长的.
因而需要了解主流AI模型的特长, 才能较好的选择正确的AI大模型.
- 主流闭源云端模型(2026)
- Gemini 2.0 Ultra:原生多模态,擅长处理视频流与复杂音频指令。
- GPT-5 / Claude 4:逻辑推理与复杂指令,用于处理超长文本或极高难度逻辑。
- 主流开源模型(2026)
- Qwen 3 (通义千问):中文语境下的绝对王者. 其云端产品性能已经与闭源模型对齐
- 2025年起, Qwen有成为开源模型霸主的趋势.
- 2026 年, 其提供的开源本地版, 逻辑能力已全面对齐 GPT-4.
- **Llama 3.3 / 4 (Meta)**:过去几年, AI开源社区的生态位中心。
- DeepSeek V3:性价比与架构创新的代表,在数学、编程等垂直领域表现突出。
- Mistral NeMo:针对端侧优化,在极小参数量下保持了极高的上下文窗口处理能力。
- Qwen 3 (通义千问):中文语境下的绝对王者. 其云端产品性能已经与闭源模型对齐
3. 推理引擎层(Inference Engine)
负责将静态的模型文件加载到硬件上,并提供与外界沟通的接口。
- Ollama:全能驱动引擎。它极大的简化了复杂的部署流程, 并具有广泛的适配性。
- Intel AI Playground:专为 Core Ultra 处理器设计,通过 OpenVINO 框架榨干 NPU 和集显的每一分性能。
其它引擎层软件, 供参考学习.
- vLLM:高并发首选。主要用于服务器端或本地多用户环境。
- LM Studio:更像是调试工具, 适合企业和开发者进行模型性能对比与提示词测试。
- **Text-Generation-WebUI **:高度自定义首选。适合发烧友。
4. 代理层(Agent Layer)
这一层不再是关注如何让单个AI跑起来, 关注的重点是如何整合资源(多AI, 其它功能, 权限)来提供某种服务.
- AnythingLLM:本地知识库管理专家。
- 内置全套 RAG 链路(嵌入、切片、检索)。
- 将 RAG流程标准化. 极大简化了知识库的构建过程.
- 提供了非常实用的应用层功能, 诸如会议记录和摘要, 电脑交互收集信息, 知识库检索.
- Claude Code / OpenClaw / OpenCode:操作级 Agent。主要用于辅助编程.
- Dify / LangFlow:工作流编排。通过拖拽节点的方式,将 LLM、搜索插件、数据库操作连成复杂的自动化流水线。
5. 应用层 (Application Layer)
AI 的“隐形化与终端化”. 标志着 AI 从炙手可热的前沿工具演变为悄无声息的背景服务。
- 集成层提供的功能, 进一步成为基础服务和API,
- 应用层的开发者, 无需考虑大模型的选型适配. 选择对应集成服务即可.
- 应用层纯粹的聚焦于用户需求及实现.
- 最终用户按照自然习惯使用应用. 几乎没有学习曲线.
随想, AI带来的矛盾和冲突
AI的能力高度依赖知识库. 但是AI一旦通过知识库学会某种技能后, 整体趋势就是整个行业对人力的需求快速萎缩.
这场变革正在不同领域以不均等的速度发生。
目前, 很清晰的, 只要知识信息便于收集和获取的, AI的表现都比较出众.
- 编程领域, 完全能替代新手编程员.
- 缺少的是大局观, 架构设计, 底层交互调试等高度依赖个人经验积累的, 抽象级别更高, 更离散的知识库.
- 商用创意多媒体, 如平面设计, CG 建模, 动画中间帧, 甚至商业摄影
- 由于互联网上有海量的标注图像和视频流,AI 已经能实现从分镜到成片的端到端输出。
- 低端美工和初级剪辑师已基本被集成层工具取代。
- 文字助理, 大众文学. 由于经典文献、网络文学、新闻稿件已高度数字化. AI 的遣词造句能力远超普通人类。
- 法律文职助理
- 售后服务
- 交易员. 目标清晰, 历史走势可公开获取. 还没有人性固有的缺点.
而专业领域, 由于缺乏数字化公开资料, 会形成”数字孤岛”, AI的替换速度就要缓慢的多. 但渗透只是时间问题.
- 硬件电路设计. 主要障碍是AI的大规模图片识别能力有限, 无法从公开的原理图中总结普适性经验.
- 电路板layout 走线设计以及硬件调试, 更是深藏资深硬件工程师的经验和离线文档中.
- AI可以从辅助设计原理图和走线开始. 电路调试相当长时间内, 依旧需要人类参与.
- 精密机械结构. 涉及复杂的物理材料特性、模具精度与装配公差.
- AI 仍需大量高质量的闭环实验数据支撑。
- 医疗临床诊断. 临床经验很难量化为标准数据. 甚至会被描述成一种”临床直觉”
- 影像诊断是例外, 目前已经成为了辅助判断病例的得力助手.
- 法律与高端智库. 法律的博弈并不全在公开的法律条文.
- 而是隐藏在案件背后的利益博弈, 人情世故与法庭辩论的即时反应.
- 往往要针对每个案件, 深入研究分析其背后的相关利益者. AI 难以触及.
最后. 核心不是人和AI的矛盾, 而是人和人的矛盾. 即资源的分配问题.
- 当前的主要分配形式为: 按劳取酬和资本得利. 普通大众基本是按劳取酬.
- 去焦虑被AI淘汰是没有用的, 这只是时间问题.
- 不要相信什么AI只是新技术, 会产生新的工作. AI对整个生产模式是颠覆性的, 破坏性的.
- 即凡是被AI占领的工作, 人类再也没有可能分一杯羹. 是生产主体从”碳基” 向”硅基”的永久迁移.
- 而且, 这种占领范围是全方位的, 鲜有死角, 只有快慢之分.
- 犹如猛虎在后, 现在引导的焦虑感, 是让你觉得只要跑赢周围的人就行了. 但这只猛虎永不停歇!!!
- 就如已经预演过的围棋. 即便成为柯洁, 一旦被落败, 就永远也跟不上AI的脚步了.
- 目前, AI带来的技术红利, 主要流向了资产持有者. 即资本得利. 这是不可持续的.
- 现有的制度崩溃是无法避免的, 要么损上益下逐步改良, 要么乱而后治.
- 因而, 后AI时代, 需要解决的是人类的制度问题!
打破一个旧世界不容易, 更难的是破而后立, 我们需要共同思考:
- 我们, 真正追求的是怎样的人生?
- 人的价值和尊严, 应该建立在怎样的制度之上?
原创于 DRA&PHO