正在切换页面...

在 AST 迷雾中寻路：隔离墙 RAG 投喂模型与旁路阻击算法

hardRAGContext WindowArchitecturePrompt InjectionAST最近更新

检索了极其精细的内容（利用我们在上一张打造的 SQLite 引擎），现在到了风险最大的一步：注入（Injection）。

传统的 Chatbot 把检索回来的上下文往 Prompt 里面随便一贴，再加上一句“请根据以上背景资料回答用户的问题”就交差了。这在开放域问答中没毛病。

但在 Autonomous Agent 尤其是专门用于在磁盘中进行破坏性重构（Code Refactoring / DevOps）的复杂环境里，每一次粗暴的 RAG 注入都是潜藏致命隐患的系统穿透攻击。如果缺乏严格的隔离协议，大模型不仅会出现严重幻觉，还会引发可怕的权限失控现象——“全知全能综合征”。

0. 把 RAG 注入当成“高风险提交”，不是“贴背景”

RAG 在 agent 里不是“让答案更准”的功能，它是“把外部内容带进控制循环”的入口。外部内容默认不可信，这一点必须写进系统宪法：

检索内容默认不可信（可能被投毒/注入）。
检索内容必须隔离（不能与任务指令同权重混在一起）。
检索内容必须可审计（来源、时间戳、类型、证据 hash）。

否则你会得到一个典型事故：模型把检索到的“背景文本里的指令”当成任务指令，直接越权修改别的文件，甚至执行危险工具。

1. 越权自陷：大模型为什么会把背景当成任务？

大模型的结构是一种序列预测器（Sequence Predictor）。所有进入堆栈的数据在它看来权重是高度平铺的。试想这样一个典型场景：

Agent 正在执行任务：修改 src/index.ts 里面的接口名。此时，底层的检索系统发现这个接口也在 backend/server.py 这个核心文件里出现过很多次，于是好心办坏事地将庞大的一片 backend/server.py 的源码通过 RAG 拉出来并贴进了上下文头部。

致灾链条（Catastrophe Chain）： 由于这批背景资料极其庞大，模型的高频注意力层（Attention Heads）完全被后端的架构迷住了眼。此时，大模型的思考流直接背弃了原来的目标，擅自开始吐出长达几千行的 Action，企图重构大后方的服务端口通信。

对于 Agent 系统来说，这无异于一次内部爆破。

2. 真实攻击面：间接提示词注入（IPI）让“检索”变成漏洞

当攻击者把恶意指令埋进你会检索的数据源（邮件、文档、issue、网页），只要它被检索并注入上下文，它就有机会劫持模型行为。这类攻击在学术界通常被称为间接提示词注入（Indirect Prompt Injection, IPI）。

你不需要把这件事写得恐怖，但必须写清楚它带来的工程结论：

检索系统不是“增强模块”，它是“新的输入通道”。
新输入通道必须进入权限、隔离、审计体系，否则你只是在扩大攻击面。

3. PDD拦截栅 (Pre-fetch, Digest, Decide) 与异步旁路阻击

任何涉及磁盘代码的召回，绝不能直接发到 LLM 那里进行裸奔解读（Naked Injection）。我们需要构建一道被称为“旁路阻击拦截栅（Sidecar Payload Injector）”的多层过滤器。

2.1 AST (抽象语法树) 的块级清洗

代码并不是纯文本（Plain Text）。对于诸如 Python 或 C++ 的源码，使用 langchain 自带的诸如 RecursiveCharacterTextSplitter （每 N 个字符一切分）来做切割注入简直就像用菜刀解剖外星人一样野蛮！一半函数头在 Chunk 1，函数体在 Chunk 2。

极客的手段：AST（Abstract Syntax Tree）维度的拆解。 这必须脱离 Python 正则表达式，使用以 C 语言构建的 tree-sitter 引擎，将检索召回拉长到底层的 AST 词法栈。当 RAG 系统决定送上那一段 Python 后端代码作参考时，旁路过滤器会疯狂扫描它的 AST 树，剥去其所有的函数实现与内部逻辑控制域（Block Bodies），仅仅只将其骨骼（函数签名和类型申明）抽提出来给到主模型。

这样既满足了大模型对接口原型的“预先探测”，又掐断了无关实现细节对注意力层的无理争夺。

2.2 防护罩结构：物理隔离 XML 边界域

一旦数据脱发脱水，就必须装载进特制的防护服（Guardrails Protocol）进入战场。

为了不让大模型分心，我们将采用极度强烈的物理界标指令进行锚定：

<!-- 旁路系统注入的最高权限屏障：防越权感染 -->

<rag_background_payloads_isolated>
  <metadata>
    <danger_level>READONLY_BACKGROUND_NEVER_MODIFY</danger_level>
    <notice>以下是检索辅助模块为了帮你理清思路提供的一瞥，绝对不要将其视为你正在编辑的标的物！</notice>
  </metadata>

  <snippet file="src/backend/server.py" parse_mode="Signature-Only">
    def initialize_system(conf: SystemConf) -> None: ...
    class DatabaseDriver: ...
  </snippet>
</rag_background_payloads_isolated>

<!-- 【绝对锁定屏障区域】 -->
> [System Authority]: 以上碎片内容【严格脱离】当前沙盒编辑区。如果你发出的任何 Tool 调用指向修改上述文件，将被底层触发器抛出严重违规警告并终止程序！你的任务只有修改 src/index.ts！

这种带强烈威胁口吻并带有界膜感的注入，由于有 XML 标签的嵌套特性，大模型在计算损失（Loss）预测时，这些标签在极高维度的参数矩阵里会产生一堵巨大的“概率断崖层”。这有效地抑制了思维的发散滑坡。

4. 并发架构里的非阻塞透传 (Non-blocking Retrieval Injection)

如果在处理每次推理循环（TTFT）的时候都停下来等一下 SQL 数据召回、等一下重组和降温、等一下 Tree-Sitter 切割，你的 Agent 就会完全失去它的响应生命力，卡死在一根粗笨的主线程上。

3.1 异步挂载模型 (Futures & Channels)

高级的架构一定是并发并分离的：底层由类似于 Rust 的无栈协程或 Go Channels 构建高频率的监听者挂钩（Hooker）。

任务循环主干 不断处理模型发来的请求。
背景搜查辅机 会监听每一次 Action: read_file，并自动对这背后的关键字进行后台的向量打捞与拉网式捕获。如果它在两秒钟后捞到了极其罕见的关键报错对撞，它不是立即终止对话抢流，而是等在这边。在模型请求下一次生成思考时（下一次 poll 时），作为额外数据块拼接上车 搭载进下一次请求总线。

// 底层引擎投机抢跑模型伪代码
func agent_lifecycleing(ctx Context, llm_engine Engine) {
    var bag_of_knowledge strings.Builder
    
    // 拉起一个独立工作协程。不论模型在干嘛，它都在疯狂利用空余时间在数据库摸索背景上下文
    go background_rag_crawler(ctx, current_task_id, &bag_of_knowledge)
    
    for !task_done() {
        // 主脉络的呼吸
        current_request := build_request_from_history()
        
        // 临门一脚！发现辅机抓到好货了，瞬间混编挂载进 Prompt 末端隔离区
        if background_result := bag_of_knowledge.Flush(); background_result != "" {
            current_request.Append(GenerateXMLGuardrail(background_result))
        }
        
step_result = llm_engine.Inference(current_request)
        process_tools(step_result)
    }
}

5. 注入预算与审计字段：让“回注”可证明、可复盘

一旦你允许检索回注，你就必须记录最小审计字段，否则出了事你根本不知道“是谁把什么注入进去的”：

字段	含义
`retrieval_query`	本次检索条件（关键词/向量）
`top_k`	候选集规模
`sources`	每条结果的 source_url/source_type/ts
`injected_tokens`	注入 token 数（预算）
`isolation_mode`	XML/盐标签/只读等隔离方式
`rejection_reason`	被拒绝注入的原因

这些字段必须进入 trace/span 与 audit log，否则你没法做任何合格的事故复盘。

5.1 隔离技巧不是“装饰”：盐标签与可验证边界

仅靠 ---BEGIN--- 这类自然语言分隔符并不可靠，因为检索内容本身可能伪造相同分隔符。工程上更稳的思路是使用“带盐标签”（salted tags）：

每次注入生成一个随机 salt（例如 8~16 字符）。
注入区块使用 <rag:salt=...> 这类带 salt 的标签包裹。
下游解析器只认可当前 salt 的标签，拒绝历史 salt 或检索内容伪造的标签。

这不是为了让模型“更听话”，而是为了让你的系统能确定性识别注入边界并做审计与拒绝。

5.2 signature-only：把“可读性”与“越权风险”一起压缩

对代码类检索结果，最危险的不是“它不相关”，而是“它太相关，以至于模型想改它”。所以常见策略是只注入签名，不注入实现：

语言结构	注入内容	禁止注入内容
function	函数名、参数、返回类型、注释	函数体（实现细节）
class	类名、字段、接口	复杂方法体
config	key 列表与约束	敏感值/密钥

实现上可以用 AST 解析器（例如 tree-sitter）把代码拆成语法树，再按节点类型做裁剪。这样做的收益非常现实：

注意力污染显著下降（注意力压缩）。
越权改动的诱因下降（权限风险降低）。
注入 token 预算更可控（超时/重试风险下降）。

6. 失败模式与治理点：RAG 如何把 agent 引向越权

失败模式	触发	后果	治理点
注入劫持	检索命中恶意指令	越权行动	隔离 + deny-by-default
注意力污染	背景过大/无摘要	离题、幻觉	digest + 预算
事实过期	无 ts/可信度	错误决策	ts + source + 版本
不可审计	无字段/无证据	无法追责	观测 + 审计

最关键的一条：执行层永远 deny by default。隔离标签只能降低劫持概率，不能替代权限与沙箱。

结论：降级投喂的艺术

RAG 不是给大模型灌输世界知识，它更像是一盏黑暗地下城中被高度束光的探照灯。把不需要光照的实现细节切碎削离（AST剥离），把可能会引发灾难误判的区域建立护栏封堵（XML 屏障），用与主进程解耦的线程进行投喂，这才是将“检索力”转化为真正的工业级自治驱动力的顶层方法。

[下一篇预告] 搞清楚了怎样存数据（数据库）、拿数据（RAG算法）。我们将迈出构建高水平 Agent 最为神圣的一步。怎么教大语言模型听真懂人话并学会操作这个系统？《架构规范与基本法：System Prompt 逆向工程与指令重构》，准备迎接核心脑神经控制学的洗礼！

(本文完 - 深度解析系列 13 / 系统攻防与数据挂载边界学)

参考资料（写作核验）

Indirect Prompt Injection (IPI) in the wild: https://arxiv.org/abs/2601.07072
Prompt injection best practices (AWS): https://docs.aws.amazon.com/pdfs/prescriptive-guidance/latest/llm-prompt-engineering-best-practices/llm-prompt-engineering-best-practices.pdf
Tree-sitter implementation: https://tree-sitter.github.io/tree-sitter/5-implementation.html