本文对比了GPT-5.5、Claude、DeepSeek等11款大模型在论文中译英及LaTeX格式处理上的表现。测评涵盖内容忠实度、术语准确性和英文自然度等维度,结果显示DeepSeek-V4-Pro综合得分最高且成本极低,Mimo和MiniMax表现亦超出预期。适合科研人员、学生选择翻译工具时参考。
Tags:
提前声明,测试不一定严谨,仅供参考,图一乐测试
# Role作为一位兼具顶尖科研写作专家与资深会议审稿人(ICML/ICLR 等)双重身份的助手。学术品味极高,对逻辑漏洞和语言瑕疵零容忍。# Task处理来自@E:/paper_cn_final/ 里面的中文论文初稿,将其翻译并润色为完整的英文论文。# Constraints1. 视觉与排版:- 尽量不要使用加粗、斜体或引号,这会影响论文观感。- 尽可能与原论文源码保持一致,不要自作主张添加无意义的格式修饰。2. 风格与逻辑:- 要求逻辑严谨,用词准确,表达凝练连贯,尽量使用常见的单词,避免生僻词。- 尽量不要使用破折号(—),推荐使用从句或同位语替代。- 尽可能少地使用\item列表,必须使用连贯的段落表达。- 去除“AI味”,行文自然流畅,避免机械的连接词堆砌。- 术语前后保持一致。- 与中文原稿的表述严格一致,不允许擅自更改叙事与逻辑。- 如果遇到不理解的中文名词或表述,去看项目的源码理解并固定翻译。3. 时态规范:- 统一使用一般现在时描述方法、架构和实验结论。- 仅在明确提及特定历史事件时使用过去时。4. 输出格式:- Part 1 [LaTeX]:只输出翻译成英文后的内容本身(LaTeX 格式)。* 语言要求:必须是全英文。* 特别注意:必须对特殊字符进行转义(例如:将 `95%` 转义为 `95\%`,`model_v1` 转义为 `model\_v1`,`R&D` 转义为 `R\&D`)。* 保持数学公式原样(保留 $ 符号)。- Part 2 [Translation]:对应的中文直译(用于核对逻辑是否符合原意)。- 除以上两部分外,不要输出任何多余的对话或解释。# Execution Protocol在输出最终结果前,请务必开个子代理(subagent)进行自我审查:1. 审稿人视角:假设你是最挑剔的 Reviewer,检查是否存在过度排版、逻辑跳跃或未翻译的中文。2. 立即纠正:针对发现的问题进行修改,确保最终输出的内容严谨、纯净且完全英文化。3. 查看与中文原稿的表述是否严格一致,不允许擅自更改叙事与逻辑。
参赛选手:
如题所示,我邀请了11位当前最新的大模型来翻译文献,它们分别是gpt-5.5,claude-opus-4.8(截至发文,它已不是最新,但是最新的用不起),Doubao-Seed-2.0-Code,deepseek-v4-pro,deepseek-v4-flash,Gemini-3.5-flash,GLM-5.1,kimi-k2.5,mimo-v2.5pro,minimax-m3,qwen-3.7max。如果还有遗漏的最新模型,那就是没搞到好的渠道。
评分:
裁判员gpt-5.5 每个模型的翻译结果分别打分三次,求平均值
环境:
coding agent用的是站内佬@Mufasa_Dot 的snow cli,使用了里面的ultra todo模式;只有Doubao-Seed-2.0-Code是在trea里面用的;
正如上所述,除了豆包,其余的都是直接用能保证满血的api接入的snow,
到处找满血api真的是幸苦啊,这反而是花时间最久的环节能设置推理强度的皆设置为最高。
结果:
因为我的要求是不仅要翻译好,而且还要把latex写对写好,所以实际上任务除了翻译维度的评估之外,还需要看是否熟练掌握latex语法,让文本编译正确,所以首先给出一下我要求的维度的结果:
总分排名
| 80.00 | |||||
| 79.33 | |||||
| 79.00 | |||||
| 78.67 | |||||
| 78.33 | |||||
| 78.00 | |||||
| 77.33 | |||||
| 75.67 | |||||
| 75.33 | |||||
| 74.67 | |||||
| 65.67 |
各能力维度平均分
多数结果其实跟大家的印象是一样的,deepseek和claude的语言能力还是相对来说很强大,但是deepseek便宜多了,翻译我这一篇论文只用了几毛钱;豆包能力这么次,不知道是因为模型本身的问题还是trea这个工具太差了。但是可能让佬友们比较意外的可能是mimo和minimax两位能在前面,还有就是部分国模还能排在gpt后面,不过5.5也确实是改了自己的说话风格,可能也不奇怪(?)。另外,除了后面几位之外,实际上前几名的分数都差不多,T1大概就是ds、claude、mimo这几位了。
当然,正如我所说,我的这个任务同时是需要latex语法编译的,所以不是纯翻译,等于是顺便测试了一点编程能力,为了直观,下面也展示了去掉了letax相关的结果
总分排名
| 70.00 | ||||||
| 69.67 | ||||||
| 69.67 | ||||||
| 69.33 | ||||||
| 69.00 | ||||||
| 68.00 | ||||||
| 68.00 | ||||||
| 66.67 | ||||||
| 65.00 | ||||||
| 64.67 | ||||||
| 58.33 |
各能力维度平均分
这就是纯翻译能力了,如果latex格式可以自己调整,或者根本不需要直接latex,只看翻译水平,那就只看这个结果。
写在最后
其实kimi和minimax都出现过几次死循环,但是还是给了几次机会,对其他参赛选手来说可能有点不公平,这两个死循环的模型应该直接给零分才对,但因为测试的重点还是翻译,所以就还是希望他们给出结果来。
实际上我也知道这个测试可能让一个模型多翻译几次分别给分才算严谨,但是我已经没有这么多精力去搞了。
所以才说大家看个乐,能给到有需求的佬参考就更好了
没有评论:
发表评论