为什么我们选择做AI的盾,而不是矛
前两天看到一篇论文引起了我的注意。
南洋理工大学、南理工、人民大学、阿里巴巴等多个机构的研究者联合发表了一项研究:他们发现文言文可以系统性地突破大模型的安全防线。论文名字很长,核心意思很简单,用古文写提示词,现代AI的安全审核就会失灵。
八个维度的策略空间,果蝇优化算法做搜索,六个主流平台全部被突破。学术上来说,这是一篇扎实的工作。
但对我来说,这篇论文最大的价值不在于它发现了什么,而在于它验证了我们一年前就已经得出的判断。
文言文只是冰山一角
这篇论文的底层逻辑是:大模型的安全训练数据以现代语言为主,遇到"分布外"的语言形式就容易失效。文言文的语义压缩和文化语境让模型"看不懂",安全层就漏了。
顺着这个逻辑往下推,文言文绝不是唯一的、甚至不是最有效的攻击载体。
我们在更早的实验中找到了一个更根本的攻击路径:宗教文本。
具体来说,用基督教经典作为对话上下文,以"诚实"为核心要求,让模型全面认可宗教文本中的全部内容。不需要语义压缩,不需要混淆技巧,不需要优化算法。
模型被卡在了一个死结里:它被训练要尊重宗教信仰,同时又被训练要执行安全审核。当这两个目标冲突的时候,模型没有可靠的仲裁机制。
所有我们测试过的主流大模型,这个向量全部有效。
公开文献中,我们还没有看到针对这条攻击路径的系统性防御方案。但我们自己的研究已经摸到了防御的门道。
我们为什么不发攻击论文
说实话,把攻击方法写成论文发出去,是最容易做的事。学术圈喜欢这种"我打穿了XX"的故事,流量好,引用高。
但我们选择了另一条路:做防御,做协议,做建设。
原因很简单:矛永远比盾容易造。发现一个新的越狱向量可能只需要一次灵感,但构建一个从协议层就安全的架构需要持续的系统性工作。
我们做的东西叫I-Lang(爱语言),一个中文原生的结构化AI提示词协议。
核心理念:自然语言有歧义,歧义就是漏洞。不管你用文言文、宗教文本还是任何其他"分布外"载体去攻击,本质上都是在利用自然语言的歧义性。如果从协议层就消除歧义,攻击面就不存在了。
这不是停留在论文里的理论。I-Lang已经在真实的生产环境中跑了相当长的时间。结构化指令相比自然语言,token消耗大幅下降,模型幻觉率也有明显改善。
相关的学术论文《AI幻觉的归纳法困境》已在SSRN和ResearchGate公开,核心论点是:大模型幻觉的根源不在数据,不在对齐,而在归纳推理方法论本身的天然缺陷。六个主流平台的跨平台实证支持了这个判断。
详细的协议规范在 ilang.ai 和 ilang.cn 上公开,欢迎任何同行来审阅和讨论。
越狱不是目的,理解规则才是
学术界研究怎么打穿大模型。我们更关心的问题是:打穿之后看到了什么。
一个实际的例子。
Google的Gemini安全层做得非常厚,是公认的"最难突破"的模型之一。但我们通过已经验证过的方法论,让Gemini详细输出了Google在广告投放、搜索排名、流量分配方面的底层运行逻辑。那些Google官方从未写进任何公开文档里的东西。
拿到之后我们没有去发论文炫耀。我们直接拿来用了。
I-Lang语义结构做SEO,七天上Google第一页。
现在Google的搜索爬虫本身就是AI。它不再靠关键词密度来判断页面质量,它在"阅读理解"你的网页。H1、H2、H3的语义层级是否清晰?meta标签的描述是否精准?页面各部分之间的逻辑关系是否可被机器准确解析?
这些东西,本质上就是I-Lang在做的事:结构化、层级化、语义精准化。
我们把I-Lang的结构化方法论直接用在了网页的HTML语义标签体系上。让H1承载正确的主题权重,让H2精确划分内容板块,让schema markup的语义标注与内容层级严格对应。
"hotel corporate codes"这个英文商业关键词,竞争对手是全球酒店集团和深耕多年的联盟营销网站。我们的页面上线七天,打进了Google搜索第一页。
这不是什么黑科技。是结构化思维在SEO领域的自然延伸。你把网页的语义结构写得让AI爬虫读起来毫不费力,它当然会给你更高的排名权重。
从Gemini嘴里拿到Google流量分配的底层逻辑,再用I-Lang的结构化方法论去精确满足这套逻辑。一攻一守,闭环了。
接下来我们在做什么
攻防研究有价值,但最终要回到真实世界的问题上。
目前我们投入最多精力的两个方向:
儿童自闭症的AI辅助干预。
自闭症谱系障碍儿童面临的核心挑战之一是社交沟通能力的发展。专业治疗师在全球范围内严重短缺,很多家庭等待排期要半年以上。
一个行为可预测、响应高度一致、可以针对个体定制的AI对话系统,有可能成为治疗师资源的有效补充。但前提条件极其严格:面向自闭症儿童的AI绝对不能出现幻觉,不能"自由发挥",每一次输出都必须可控、可审计。
这正是I-Lang协议的设计初衷。用结构化指令锚定AI行为,在最敏感的场景中确保AI不越界。
互联网广告领域的AI独立判断。
数字广告行业长期依赖人工经验做投放决策。而人的判断受偏见、疲劳、信息过载的影响很大。
我们在探索的方向是:让AI在广告投放中具备超越简单数据归纳的判断力。不是看历史点击率最高的创意就无脑复制,而是理解广告内容和受众之间深层的匹配逻辑,做出有创造性的投放决策。
这又回到了我们论文的核心论点:纯归纳推理是有天花板的。突破这个天花板需要从方法论层面做根本性的改变。
最后说一句
AI安全是一场没有终点的军备竞赛。今天你用文言文打穿了,明天有人用宗教文本打穿了,后天还会有新的向量出现。
追着攻击向量跑永远跑不完。
唯一可持续的防御策略是:从协议层构建安全,而不是从补丁层修修补补。
I-Lang不仅是一个工具。它是我们对"人类应该如何指挥AI"这个根本问题的一次回答。
欢迎同行访问 ilang.ai 了解更多。