当 AI 不再给链接,内容如何被答案采纳
AI 不再展示链接列表,而是在答案里决定谁被看见。AgenticGEO 的价值在于:它不套万能模板,而是让内容按场景自适应优化,找到最可能被 AI 采纳的证据、结构和表达方式。
Topics
4摘要
AI 不再展示链接列表,而是在答案里决定谁被看见。AgenticGEO 的价值在于:它不套万能模板,而是让内容按场景自适应优化,找到最可能被 AI 采纳的证据、结构和表达方式。
当 AI 不再给链接,内容如何被答案采纳
先说一个场景。以前你想知道”哪款空气净化器性价比高”,你打开搜索引擎,看到一排标题和链接,自己点进去一个个比对。现在不一样了,你问AI助手或者Google的AI Overview,它直接给你写一段话:“综合多家评测,XX品牌在CADR和噪音控制上表现突出[1],而YY品牌的滤网更换成本更低[2]……”——答案是AI自己”写”出来的,你看到的不是十个链接,而是一段融合了多个网站信息、还带着引用编号的文字。
这件事看起来方便了用户,但对那些写测评、写商品介绍、写科普文章的内容创作者来说,游戏规则全变了。以前你拼的是”排名第几页第几位”,现在你拼的是”AI这段话里有没有提到我、提没提我的名字、我的话被引用了多大篇幅”。这门新的优化学问,论文里管它叫”生成式引擎优化”(Generative Engine Optimization,简称GEO)。这篇论文叫《AgenticGEO: A Self-Evolving Agentic System for Generative Engine Optimization》,作者是北航的Jiaqi Yuan等几位研究者,2026年3月挂在arXiv上。它做的事情,简单说就是:造一个会自我进化的”内容优化助手”,专门琢磨怎么把你的内容改写得更容易被AI采纳和引用,而且这个助手会越用越聪明,不需要你天天去问真实的AI引擎”我这样写行不行”。
下面我尽量用大白话把这篇论文从头到尾捋一遍,核心的图表也贴出来。
一、排名思维 vs 采纳思维
传统SEO(搜索引擎优化)关心的是”怎么让我的页面排到搜索结果第一页”,靠的是关键词、外链这些信号。但生成式引擎不是把你的页面排出来给用户看,而是把好几个来源的内容”嚼碎了”重新组织成一段答案,这套逻辑下,排名已经不是终点了。论文把GEO的目标拆成两块:
- 可见度(Visibility):你的内容有没有被写进AI生成的那段答案里;
- 归因(Attribution):写没写明出处,有没有给你挂上引用标记。
这两件事直接决定了用户会不会点回你的网站、会不会知道这条信息是你写的。这也是为什么论文说GEO”关乎整个网络生态的可持续性”——以后AI答案怎么分配注意力,某种程度上就是怎么分配流量和曝光。
二、为什么”万能优化模板”根本不存在
这篇论文一开头先做了个挺扎心的实验:拿9种常见的优化手法(比如硬塞关键词、用更专业的词汇、加权威引用、加名人名言、加统计数据等)分别套用在GEO-Bench数据集的内容上,看哪种手法效果好。结果发现,没有任何一种手法能通吃所有内容,而且差不多一半的内容,这9种手法全都救不回来。

上面这张图(论文Figure 1)横轴是”策略敏感度”——数值越高,说明只有少数策略管用,换个策略就失灵;纵轴是”最佳策略能带来的最大增益”。论文把样本分成四类:有些内容”随便怎么优化都涨”(左上,稳健可优化),有些是”必须挑对策略,挑错就白搭”(右上,策略依赖型),还有些”怎么优化都没什么用”(左下,优化抗性强),甚至有些”结果忽高忽低,运气成分很大”(右下)。
这给了一个很直白的结论:用同一套话术去改写所有内容,本身就是个错误的起点。 就好比你写居家好物推荐,给智能马桶盖写测评和给婴儿奶粉写测评,该强调的重点完全不一样——一个该讲精准的清洁参数和安全认证,一个该讲权威机构背书和真实家庭反馈,套用同一个模板,大概率两边都讨不到好。
三、AgenticGEO是怎么干这件事的
论文给出的方案核心思路就一句话:别死守一套策略,养一整个”策略仓库”,再配一个便宜好用的”模拟考官”来帮着挑。

如上图(Figure 2)对比的,传统GEO方法是套死的改写公式,而AgenticGEO维护一个会不断进化的策略档案库,加上一个评分模型,针对每一份具体内容动态挑、动态改。
整套系统分三个阶段跑:

第一阶段,离线热身。 先用9种基础策略(前面提到的关键词堆叠、引用来源、加统计数据等)在训练数据上跑一遍,记录每种策略到底带来了多少”可见度”提升,拿这些真实数据去训练一个轻量级的打分模型——论文管它叫”Critic”(评判官)。这个Critic说白了就是个便宜的替身考官:给它一段内容和一个候选策略,它能快速预估”这么改大概能涨多少分”,不用真的去问一遍AI引擎(真问一次是要花钱、花时间的)。
第二阶段,在线协同进化。 这是整篇论文最有意思的部分。系统维护一个叫”MAP-Elites档案库”的东西,你可以把它想象成一个分门别类的储藏柜,而不是一张”全场最佳排行榜”。它按五个维度给策略分类(论文Table 1):
| 维度 | 含义与举例 |
|---|---|
| Instruction(指令) | 定义改写目标和范围,比如目标读者是谁、强调哪些核心事实、扮演什么专家角色 |
| Constraints(约束) | 设定硬性边界,比如字数限制、引用核查、防止编造、事实一致性检查 |
| Reasoning(推理) | 加入逻辑步骤,比如冲突处理、自我校验、分步规划、逻辑验证 |
| Format(格式) | 控制输出排版,比如要不要用列表、代码块、固定的输出模板、前言提要 |
| Tone(语气) | 调整写作风格,比如是否强势自信、专业程度、用词简单还是正式 |
打个家居场景的比方:同样是写”扫地机器人测评”,一种策略组合可能是”指令=强调清洁覆盖率+约束=必须标明实测数据来源+语气=权威专业”,另一种策略组合可能是”指令=对比性价比+格式=用列表呈现各价位段+语气=接地气、像朋友聊天”。这两种组合在档案库里会被放进不同的格子里,互相之间不抢位置,只跟同类风格的策略比高低。这样系统就不会一股劲全往”权威专业腔”这一种风味上卷,而是各种风味都留着,遇到合适的内容就拿出来用。
新策略要想进格子,得过两道关:有没有比格子里现有的策略效果更好(价值关),是不是跟已有的策略长得不一样(新颖关,用n-gram相似度来判断)。哪怕一个新策略眼下分数不是最高,只要它够独特,也会被留下来,给将来留个备选项。
整个协同进化循环大致是这样转的(论文Algorithm 1,我把它捋成大白话四步):
- 生成:从档案库里挑几个”父代”策略,一部分靠AI(Evolver,进化器)做”神经网络式”的变异,一部分靠预设的规则做”硬改动”(比如直接把格式从段落换成列表、把语气从温和切成强势);
- 筛选:Critic先给所有候选策略打分,挑出最有希望的几个,再随机搭几个”陪跑”的,避免系统只会自我重复、陷入信息茧房;
- 验证:把挑出来的策略真正送到AI引擎那里跑一遍,拿到真实反馈,没送去验证的就先用Critic的估分顶着;
- 学习:用这些真实+估计的反馈,同时更新进化器(教它哪种改写动作更管用)和Critic(教它打分更准)。
这里有个挺细致的设计叫”同胞感知的优势计算(Sibling-Aware AWR)“。意思是,有些内容天生就比较难优化(比如内容本身已经写得很扎实,很难再涨),如果只看”涨了多少分”会误判某个改写动作的真实效果。所以系统会拿”同一个父代策略生出来的几个变种”互相比较,而不是跟全场所有策略比,这样能更准确地分辨出”是这个改写动作本身厉害”,还是”只是这份内容天生好优化”。
第三阶段,推理时的多轮改写。 等系统训练好了,真正给一份新内容做优化的时候,Critic会扮演”快速规划师”的角色:每一步都从档案库里挑出当前预估增益最大的策略来改写内容,改完看效果有没有继续提升,如果已经挑不出更好的、或者已经改了三轮(论文实验里设的上限),就停手。系统还设了个”禁用列表”,同一个策略用过就不会重复用,逼着每一轮改写都得带来新东西,而不是反复套同一招。
四、这套机制靠不靠得住,有没有数学保证
论文里给了一个理论分析,说在”回放缓冲区线性增长”和”Critic满足Lipschitz连续”这些常见假设下,这套评判官-进化器协同进化机制的累计遗憾(cumulative regret,通俗讲就是”跟理论最优策略之间差了多少”)是 $\mathcal{O}(\sqrt{T})$ 的——也就是说,随着系统跑的轮次T越多,平均下来跟最优策略的差距会越来越小,趋近于零。换成人话就是:这套系统不是瞎撞运气,跑得越久,选策略的水平理论上越接近天花板。 论文附录里给了完整的三步证明(回放缓冲区规模的集中不等式、Critic的泛化误差界、进化器的在线学习遗憾界),感兴趣的话可以去看原文附录A.3。
五、效果到底怎么样
实验设置上,论文拿GEO-Bench(主要来自Google搜索结果,内容偏长文)做训练和”自家地盘”评测,又额外拿MS MARCO(来自Bing搜索日志的短文本)和一个自建的电商数据集(亚马逊商品描述和评论)做”完全没训练过的新地盘”测试。下游用来生成答案的引擎换了两个不同架构和体量的模型:Qwen2.5-32B-Instruct和Llama-3.3-70B-Instruct。
自家地盘上的成绩(Table 2):
| 方法 | Qwen2.5-32B overall | Llama3.3-70B overall |
|---|---|---|
| 不做任何优化 | 20.21 | 19.20 |
| 关键词堆叠 | 20.69 | 20.02 |
| 权威语气 | 20.60 | 19.47 |
| 加引用来源 | 22.53 | 21.98 |
| 加名人名言 | 23.76 | 21.57 |
| AutoGEO(此前最强的对比方法) | 23.71 | 22.78 |
| AgenticGEO(本文方法) | 25.48 | 24.52 |
| 相对最强对比方法的提升 | 26.08% | 27.71% |
可以看到,简单粗暴的关键词堆叠、装权威语气这些老套路,提升非常有限,有的甚至比不优化还差(比如”使用更生僻的词汇”这一策略,在两个引擎上都掉到了17-18分,反而帮了倒忙)。AgenticGEO在两个完全不同架构、不同体量的引擎上都拿到了最好的成绩,说明它学到的不是某个引擎的”脾气”,而是更通用的优化逻辑。
换了新地盘之后呢(Table 3,跨域测试):
| MS MARCO overall(Qwen) | 电商数据overall(Qwen) | |
|---|---|---|
| AutoGEO | 30.67 | 21.18 |
| AgenticGEO | 34.10 | 26.58 |
| 提升幅度 | 约70% | 约47.6% |
这组数字其实更说明问题:在自家地盘上AgenticGEO领先两成多,换到完全没见过的内容类型(尤其是电商商品描述这种偏”实体词密集”的内容)上,领先优势反而扩大到接近五成到七成。这意味着系统学到的不是”死记硬背某类内容该怎么改”,而是一套能迁移的、内容自适应的优化逻辑。拿家居场景打个比方:这就像一个学会了给”扫地机器人”写测评的写手,换去写”婴儿推车”测评照样能上手,而不是一个只会套用扫地机器人模板的写手。
拆解每个部件的作用(Figure 4):

论文做了四组对照实验:(a)只用离线训练好的Critic、不做在线进化;(b)直接砍掉整个策略档案库;(c)用随机改写代替Critic指导的规划;(d)档案库只看分数高低、不考虑策略多样性。结果是砍掉档案库这一刀掉分最狠,说明”长期积累出一批多样化策略”才是真正的核心驱动力;只用离线Critic也明显更弱,说明在线持续校准很关键;随机规划和”只看分数不看多样性”也都会拖累效果,说明多样性本身是有用的,不是为了好看而存在的装饰。
超参数怎么选(Figure 5):

实验发现多轮改写在3轮的时候效果最好(整体分数25.48),再加轮次收益就很小了,说明”短小精悍”的规划就够用;档案库大小在25到35个策略之间效果最佳,峰值在35,太小太大都会变差——太小探索不够,太大反而容易稀释筛选效率,这是个典型的”探索与利用”权衡。
离线Critic到底准不准(Table 4):
| 数据集 | NDCG@1 | NDCG@3 | NDCG@5 |
|---|---|---|---|
| GEO-Bench | 84.01 | 93.89 | 94.98 |
| MS-Marco | 77.73 | 81.39 | 82.82 |
| E-Commerce | 68.47 | 73.77 | 78.46 |
NDCG是排序质量的常用指标,数值越高代表Critic预测的策略排序跟真实排序越吻合。在自家地盘上Critic的NDCG@5接近95%,几乎能精准还原真实引擎的偏好排序;就算换到完全陌生的领域,排序质量虽然会下降一些,但依然保持在七八成左右的高位,说明这个”模拟考官”学到的是有迁移性的判断逻辑,不是死记硬背训练集。
省钱效果(Figure 6):

这张图回答了一个很实际的问题:真去问AI引擎是要花成本的(调用次数、时间),能不能少问点也行?答案是:只用700次真实反馈(占全部41.2%),就能拿到25.12分,保住了满血状态25.60分的98.1%。 换句话说,Critic这个”廉价替身”帮系统省下了将近六成的真实查询成本,性能几乎没掉。这就像请一个学徒先帮你筛选候选方案,等胜算大的几个再真正拿去考场验证,而不是每个方案都老老实实排队去考。
改写之后,内容的”原意”还在不在(Figure 7):

这是个挺重要的检验:涨分有没有以”面目全非”为代价?论文用BERTScore衡量改写前后内容的语义相似度。结果是:大部分老套的启发式方法语义保留得很好,但涨分有限;AutoGEO涨分更猛,但语义相似度明显更低——也就是说它的提升有一部分是靠”改得太多、跑题了”换来的;而AgenticGEO在拿到最高分数的同时,语义相似度也保持得相对高,说明它靠的是”对症下药的小幅精准调整”,而不是大刀阔斧地重写。这点对内容创作者很重要——你不想为了被AI多引用几句,把自己原本想表达的意思都改没了。
六、三个真实案例,看它具体怎么改的

论文附录给了三个跨领域的真实优化轨迹(Figure 8):
- 关于GMO(转基因作物)的内容,系统给它加上了权威机构的引用和具体的统计数据,强化事实支撑;
- 关于亚热带雨林的内容,系统注入了精确的气候测量数据和专业术语,让内容显得更扎实、更”懂行”;
- 关于图书推荐的内容,系统走了另一条路——综合多个平台的真实评论,用”社会认同”(很多人都说好)的方式来增强说服力。
这三个案例放在一起特别能说明问题:同一套系统,面对不同性质的内容,选了完全不同的打法——硬知识类的内容靠”补证据、补数据”,社会化推荐类的内容靠”借大家的口碑”。这正好印证了论文最开头那个发现:没有一招吃遍天的万能模板,关键是要让系统学会”看菜下饭”。
如果换成更贴近日常生活的场景,可以这样类比:你在写”小米空气净化器和某品牌空气净化器怎么选”这类对比测评时,系统大概会给你补上CADR值、噪音分贝这些硬指标的具体数字,再挂上权威检测机构的认证来源;而如果你写的是”今年最值得囤的儿童绘本清单”,系统更可能给你加上各大平台读者的真实好评和”已加印多少次”之类的社会认同信号,而不是硬塞一堆专业术语——毕竟买绘本的家长更想看”别人都说好不好”,不是想看技术参数。
七、写在最后
这篇论文其实在回答一个很现实的问题:当搜索引擎从”给你一排链接”变成”直接帮你写好答案”,内容创作者该怎么适应。论文的态度挺务实——它没有去教大家”怎么钻AI的漏洞、怎么作弊式地骗引用”,而是反复强调”提升内容本身的内在质量、针对内容特点做有的放矢的调整”,同时尽量保留原意、不靠信息失真换取曝光。这也是论文结尾提到的方向:奖励”质量+多样性”,而不是奖励”投机式套模板”,才能让创作者和AI引擎形成一种双赢的生态,而不是创作者拼命猜AI喜欢什么、AI又不断换口味地”为难”创作者。