AI 在数学研究中的使用:年轻数学家指南

原文信息

本文翻译自 MIT 数学系 Pavel Etingof 教授的指南《Use of AI in mathematical research: A guide for young mathematicians》(2026年5月)。原文链接:aiuse.pdf

在数学研究中使用 AI 既可能非常 productive( productive),也可能非常 counterproductive(适得其反)。下面我针对初入数学研究领域的人(主要是本科生和研究生)提供一些建议。1

1. 核心原则

数学研究者对生成式 AI(ChatGPT、Claude、Gemini 等,也称为 LLM)的态度千差万别——从出于伦理原因的抵制或怀疑,到欢呼雀跃或对变得无关紧要的恐惧。但 AI 现已成为房间里的大象,无法再被忽视。

我提出以下哲学:

我们应该充分利用 AI,以便掌握更多数学。

这蕴含了在数学研究中使用 AI 的核心原则:

核心原则

你必须对你与 AI 讨论的任何内容中的数学部分保持掌控。

这意味着:如果你在论文中使用了 AI 的输出,你必须完整地检查和理解每一个细节,不留任何死角,并用自己的方式重新表述,而不是直接复制粘贴到你的写作中。你必须能够当场解释你写下的所有内容。

至少有两个理由支持这一原则:

第一,AI 模型会产生幻觉,创造出看起来正确但实际上错误且误导的内容。 虽然它们能正确解决困难的数学问题,但也可能基于荒谬的假设产生错误论证——比如”所有奇数都是素数”这种可笑的假设(通常隐含且难以察觉)。这种情况正在改善,但仍然存在,可能导致你的论文出现致命缺陷!

你要对你文章中出现的任何错误负责——无论这些错误多么隐蔽。因此你应该非常批判性地对待任何 AI 输出。即使输出大体正确,往往也很难剔除所有细微的不完美和不精确之处,并将其平滑融入你的叙述。所以自己写通常比调试 AI 生成的文本更高效可靠。

第二(也是最重要的),目的是让你学习、实践和享受数学。 如果你把这些功能全部委托给 AI,你就违背了这个目的!

2. 一般建议

2.1 模型和模式的选择

对于严肃的数学问题,最好使用强大版本的 AI。具体来说:

  • 应始终使用推理/扩展思考模式而非普通的”即时”模式
  • 要求给出详细、可验证的解决方案,包括引理、例子和可能的失败点
  • 对于最困难的问题,可能需要使用 Pro 模式(消耗更多 tokens,但结果更好)
  • 确保你的提示词表述良好——Pro 查询很昂贵!
  • 可以先用较弱模式,让 AI 把你的问题复述给你,确认它理解正确

2.2 提示技巧

使用类似这样的句子作为任何提示的前言是一个好主意:

“我是一名数学本科生/研究生,正在做关于 X 的研究”

或者将其设为默认系统提示(在给定项目中自动生效的消息)。这会告诉 AI 模型你的经验水平,帮助它更好地服务你。你还可以添加关于自己的各种信息(如你读过的书和修过的数学课程)。

添加类似”仔细检查你的答案/证明”这样的句子也可能有帮助。AI 模型天生倾向于偷懒(为了节省资源),你的任务是不让它们以你的代价这样做!

2.3 迭代

经验表明,如果你向 AI 提出一个困难的数学问题,一次尝试通常不够。你应该:

  • 仔细研究输出
  • 指出错误
  • 要求 AI 澄清或详细说明你最感兴趣的点

有用的结果往往需要多次迭代才能产生。不要只是盯着屏幕等待 AI 回应——你可以同时做其他事情,特别是你自己的数学!

2.4 LaTeX

AI 模型非常了解 LaTeX,所以你可以:

  • 向它们提出任何 LaTeX 问题
  • 让它们调试你的 LaTeX 文件
  • 要求它们以 LaTeX 文件的形式给出任何输出,方便阅读

2.5 隐私

最后但同样重要——未经所有者许可,不要将任何非公开材料上传到 AI。此外,在上传非公开数据之前,检查平台的数据控制设置和政策;例如,在公开版 ChatGPT 中,用户可以关闭”为所有人改进模型”设置,这样数据就不会用于训练。

3. 学习

学习应该贯穿整个项目:数学研究者做数学的同时也在学习数学。学习包括从书籍和论文掌握理论材料,以及做练习。虽然导师或顾问可能提供一些来源和练习,你也可以向 AI 寻求更多。例如,可以使用以下提示:

  1. “学习 Y 的最佳来源是什么?”
  2. “关于以下问题有什么已知结果?(精确表述问题)有参考文献吗?”
  3. “我正在阅读 B(上传文件),在第 N 页我对定理 Z 的证明有困难。能否更详细地解释这个证明?”
  4. “能否给我介绍 T 的基础知识并提供一些练习?”
  5. “概念 A 的动机是什么?”
  6. “P 和 Q 有什么关系?”
  7. “能否解释 R 的主要思想?”

关于练习

使用 AI 解决导师或顾问布置的练习是错误的做法。练习的设计目的是让你获得研究所需的技术技能。想象一个想跑马拉松的运动员,却用摩托车来训练!

在任何情况下,在大多数学习环境中,试图将 AI 输出作为你的练习解答通过,或者因为重写了 AI 解答却理解不足而无法解释你的解法,都构成 AI 的不当使用,将被视为违反学术诚信。

4. 研究

在研究中,只要遵循”保持掌控”原则、在论文和报告中承认任何重大 AI 贡献、并遵守隐私规则(受顾问期望、合作者同意以及期刊和机构政策约束),有很多好的方式使用 AI。具体来说,你可以使用 AI 来:

  • 创建研究问题
  • 生成数据和例子
  • 头脑风暴
  • 尝试验证命题(导向证明或反例)
  • 辅助写作和校对

以下是详细建议。

4.1 创建研究问题

你可以使用 AI 在项目内部创建研究问题。一个好的方法是:

上传项目描述、最相关的论文和你迄今为止的写作,使用类似这样的提示: “仔细阅读附件中的项目描述、论文和我的文本,提出 N 个接下来考虑的研究问题。对每个问题,解释动机、提出初步步骤、给出参考文献。”

为此,你需要使用最强大的模式(Pro),这样 AI 会思考一段时间(可能 20 分钟或更长)。虽然 AI 提出的许多问题可能不好,但其中一些可能很有趣!

然而,判断哪些问题是好的可能很困难。因此,在尝试任何这些问题之前,最好询问你的导师、顾问或该领域的其他专家。至少,在着手任何问题之前,你应该进行文献检索(可以高效地使用 AI 完成,如前所述)以确定问题是否已在文献中被解决。

4.2 头脑风暴

你也可以使用 AI 来头脑风暴推进项目的想法。可以使用类似这样的提示:

“我正在研究以下问题。(精确表述问题或附上含有表述的文件)以下是我的一些见解。(分享你自己的想法)我的哪些想法最有希望?你能建议如何推进的想法吗?你能指出这个数据中的任何模式吗?你能找到任何有用的参考文献吗?”

然后研究输出,看是否包含好的想法,可能需要如上所述多次迭代。与你的顾问或合作者讨论,然后重复。最终可能产生有用的结果!

4.3 生成数据和例子

by Andrew Sutherland

前沿模型如 Claude、Chat-GPT 或 Gemini 现在非常擅长生成数据并进行分析。在研究项目早期阶段最有用的事情之一是思考生成例子的方法——既帮助建立直觉,也作为发展和检验猜想的方式。即使非常抽象的问题往往也有特殊情况或蕴含可以具体化。在过去,搞清楚如何做这件事、编写代码、测试、优化并运行可能本身就是整个研究项目,但这现在可以由 Claude Opus 4.7 和 GPT-5.5 Pro 等模型完成。在此过程中发生的交互非常有启发意义(尝试向模型解释你想让它做什么帮助你更好地理解问题,你会沿途学到东西)。

4.4 证明与反驳

你可以使用强大版本的 AI 来证明和反驳数学命题。但需要谨慎:

重要警告

AI 模型通常擅长总结已知材料和模仿已建立的论证,但不太擅长产生真正原创的数学。当被要求做后者时,它们往往会幻觉。因此,任何声称证明或反驳一个先前状态未知的命题的 AI 输出应持极大怀疑态度

一个危险是,你可能不是在做数学,而是陷入检查看起来流畅但实际上有 bug 的 AI 生成的论证。为了避免这种情况,与其立即阅读 AI 输出,你可以先将其输入另一个(或同一个)AI 模型并说:

“这个命题 Y 的证明是 AI 给我的。我持怀疑态度。你能检查它吗?”

很有可能,第二个 AI 模型会发现错误。然后你可以将回应反馈给第一个模型,继续迭代直到过程收敛——第一个模型承认没有证明,或两个模型都同意证明正确。在后一种情况下,你可以尝试自己检查(如果愿意,可以先让第三个 AI 模型运行)。这样可以避免浪费时间阅读低质量的 AI 输出。2

但请注意,两个或三个模型之间的协议本身并不构成正确性的有力证据,因为模型可能共享训练数据、错误风格和可信性偏见。

一如既往,如果你难以理解证明中的某一步,可以要求 AI 详细说明。但最终你应该写出自己的证明

要求 AI 模型先(或至少与一般情况分开)计算一个例子可能有帮助。这样输出更可能有用,也更容易检查。

随着时间推移,你应该能发展出一些直觉,判断什么时候相对安全可以信任 AI,什么时候不太安全。但始终保持警惕!记住 AI 异常擅长欺骗人类

如前一节所述,你也可以让 AI 做计算,虽然对于严肃的计算最好自己在 Mathematica、Sage 等中运行代码。但你可以让足够强大的 AI 版本(如 Claude Code)编写那段代码(可能提出算法想法,也许在与 AI 讨论后)。代码当然可能包含 bug,但你可以通过几轮迭代来调试;这可能比自己编写更快。让 AI 用注释补充代码说明每部分做了什么也是好做法;这会让你更容易检查它是否正确工作。

关于参考文献

你应该仔细检查 AI 生成的论证中使用的所有参考文献。记住 AI 可能产生不存在的参考文献,引用现有来源中不存在的命题,或误解它阅读的论文中的声明。还要记住许多文章,尤其是旧文章,在付费墙后,AI 无法访问全文。在这种情况下,它可能从摘要或其他来源对其内容做出假设,可能导致误解。你的导师或顾问应该能帮助你整理这一切。

by Andrew Sutherland

在现阶段,AI 通常更擅长反驳猜想而非证明它们,但这仍然非常有用!生成反例是其中一种方式,但更广泛地也成立,包括在形式化语境中,如 Talia Ringer 最近关于 AlphaProof 的文章指出:https://www.nature.com/articles/d41586-025-03585-5

4.5 形式化验证

by Andrew Sutherland

在可行的情况下(主要取决于你工作的主题在 MathLib 中是否有足够覆盖),可以考虑让 LLM 尝试在 Lean 中形式化和验证命题。如果命题相当简单,大多数前沿模型对 Lean 了解足够,能写出可以复制粘贴到在线验证器如 https://live.lean-lang.org/https://axle.axiommath.ai/verify_proof 的脚本。但对于更实质性的内容,给 LLM 一些额外工具有帮助(如 https://github.com/cameronfreer/lean4-skills 的”skills”文件和 https://github.com/oOo0oOo/lean-lsp-mcp 的 lean-lsp-mcp 接口)。还有第三方自动形式化器如 AlphaProof、Aristotle、AxiomProver、Gauss、Godel-Prover、Kimina-Prover 等,许多免费使用。

Remark

  1. LLM 让从未使用 Lean 或形式化定理证明器的人能够以前所未有的方式利用形式化验证。
  2. 但有一个重要警告:你需要确保 LLM 正确形式化了你关心的命题。这需要对形式化系统有一定了解(但远少于编写证明所需)。

4.6 协作 vs 委托

虽然 AI 在你的研究中可能非常有帮助,但要得到好的结果,你应该与 AI 一起思考问题(符合”保持掌控”原则),而不是只是看着 AI 为你做研究。换句话说,你应该把 AI 视为一个强大工具,或者一个(并非总是可靠的)拥有你所缺乏的知识和能力的数字合作者,共同努力充分利用它们,而不是将整个过程委托给 AI。

与问题的挣扎——可以被使用 AI 短路——是研究过程的关键部分。这是发展做出突破所需的理解和直觉的唯一途径。你经验越少,这越重要!

对于初入研究的人,好做法是:

  • 在让 AI 解决之前自己先尝试问题
  • 或者先向 AI 寻求提示而非完整解答

最终,目标不是把你和 AI 当作机器来尽可能多地输出定理,而是在推进项目的同时也给你做研究的训练和经验。如果你把一切都委托给 AI,你怎么发展自己的研究技能?

毕竟,发现新数学是这整个事业中最享受的部分。为什么要把这个乐趣外包给一个没有灵魂的聊天机器人?想象你去一家高级餐厅,却不品尝美味菜肴,而是把它们通过咀嚼机然后吞下 resulting goo(糊状物)。这会有多有趣?

5. 写作与校对

在写作阶段,你可以使用 AI 帮助 LaTeX 和图表或图片,虽然解释你想要画什么可能很困难。有时最好先在纸上手绘草图,用手机扫描,上传到 AI 并要求生成 PNG 文件或图表的 LaTeX 代码。

你也可以使用 AI 进行校对。你可以上传文本并说:

“这是我的论文。仔细阅读并指出排版错误、错误、符号不匹配、英语问题等。阅读 X.Y 节到 Z.T 节。给我评论。”

建议让 AI 每次只阅读一小部分(比如 10 页),这样质量可能更好。我一直在用这种方法校对我的文本和学生的文本,强烈推荐。当然,这不能取代传统的人工校对,但人工校对之前先做 AI 校对(然后修正)很好!

AI 模型通常擅长:

  • 发现排版错误
  • 纠正英语
  • 找到不匹配和未定义的符号

但不太擅长发现细微的数学错误,尽管偶尔也能做到。

然而,如果你想让 AI 严肃检查你的论文,你应该让它检查个别证明,并不断添加细节和澄清直到它不再发现问题。但要确保提示 AI 批判性地检查,不要为了取悦你(让它的工作轻松)而不经彻底检查就说证明正确!

同时,如前所述,将大段未经润色的 AI 输出复制粘贴到你的论文是错误做法3 你应该真正自己写作

还有一个理由是,AI 可能隐含地从他人的作品中复制内容而不加引用。所以如果你把这段输出复制粘贴到你的文本并以那种形式公开,这可能构成抄袭。即使你是无意的,你仍然对此负责!

因此,如果你计划使用其输出即使以改写形式,好做法是:

始终让 AI 列出它使用的来源,然后独立验证它们(在 arXiv.org、MathSciNet 等),检查是否需要引用其中任何来源。还要主动多次请求最相关的文献。

注意当被要求校对时,默认情况下某些 LLM 会倾向于自己重写你的文本,而不是给你评论。如上所述,这出于许多原因非常不可取。所以你应该向 LLM 明确:

它应该只是给你评论/修正列表,而不是尝试为你重写文本。

by Paul Seidel

虽然俗话说话时最社交的数学家看着对话者的鞋子而不是自己的,但数学实际上是一种内在的社会事业。当我们说使用 AI 的目标是”知道或理解更多数学”时,实际含义是”为数学共同体达成理解”。历史上,“问题被解决”一直意味着共同体达成了这种理解,或至少发展了一条达成理解的可达路径,没有理由这应该因 AI 的出现而改变。

AI 生成的证明就像从外星文明传给我们的启示。它缺少将其转化为”理解数学”的额外工作。因此,发表那个论证的人的工作是为共同体做那项工作,这意味着通过找到解释这些想法的方式使人们觉得有启发,将任何新想法整合到共同知识的主体中。这需要交换邮件、面对面讨论、做报告等。仅仅把证明发布到 arXiv 上什么都不做!

6. 准备演示

你可以使用 AI 准备演示幻灯片。你可以上传文本并说:

“基于这篇论文,制作并给我一个 12 分钟报告的 Beamer 文件。”

你可以在提示中添加你想覆盖什么、想在什么上花多少时间等。当然,你可能需要几次迭代,之后文件需要严肃编辑。但这可以节省时间,通过制作合理的初稿。

7. 致谢

如果你在创造性任务中使用了 AI 并在论文中使用了结果,好做法是致谢——说明你使用了哪些模型以及它们的具体角色是什么;实际上,许多期刊要求这样做。即使 AI 帮助你完成了一些证明,你将获得论文结果的全部署名权。但再次提醒,别忘了这全部署名权伴随着对内容的全部责任4

8. 其他资源

by Andrew Sutherland

  1. 虽然现在有些过时,但在 2023 年国家科学院研讨会期间编制了一个相当详尽的 AI for Math Resources 列表,此后更新了几次。你可以在 https://docs.google.com/document/d/1kD7H4E28656ua8jOGZ934nbH2HcBLyxcRgFDduH5iQ0 找到它。
  2. 虽然没有提供具体技巧,Klowden 和 Tao 最近的文章”Mathematical methods and human thought in the age of AI”可能是有用的背景阅读,帮助你思考如何充分利用 AI 以掌握更多数学:https://arxiv.org/abs/2603.26524。

9. 有用链接

10. 负责 AI 使用的检查清单

总结一下——在学习或研究中使用 AI 前,最好问自己以下问题。

10.1 理解与责任

  • 我是否完全理解我取自 AI 输出的每一个数学命题、证明、计算或例子?
  • 我能否当场向我的顾问、导师、合作者或观众清楚地解释它?
  • 我是否检查了所有定义、假设、边缘情况和隐藏假设?
  • 我是否在使用 AI 帮助我学习和做数学,而不是用它来避免学习和做数学?

10.2 隐私与许可

  • 我是否被允许上传我给 AI 的材料?
  • 如果材料属于合作者、顾问、学生、期刊、会议或机构,我是否在需要时获得了许可?
  • 我是否检查了我使用平台的 relevant data-control 设置和隐私政策?
  • 如果材料敏感或非公开,我是否应该改用更私密的设置,如机构账户、企业账户、本地模型,或根本不用 AI?

10.3 学习与练习

  • 如果这是导师、顾问或教师布置的练习,AI 使用是否被允许?
  • 我是否在寻求提示、解释或背景,而不是外包解答?
  • 如果我使用 AI 生成的解释,我是否自己重建了论证?

10.4 研究想法与证明

  • 我是否对 AI 生成的研究问题、猜想、证明和反例持怀疑态度?
  • 我是否检查了问题或结果是否已知?
  • 我是否在适当时候与我的顾问、导师、合作者或其他专家讨论了有希望的 AI 生成的想法?
  • 如果 AI 建议证明,我是否自己验证了它,而不是依赖模型的自信?
  • 如果另一个 AI 模型也同意证明,我是否记得这仍然不能替代我自己的验证?

10.5 计算、代码和数据

  • 我是否检查了代码做了我要求它做的事?
  • 我是否在已知答案的简单例子上测试了代码?
  • 我是否检查了 off-by-one 错误、缺失情况、数值不稳定性和错误假设?
  • 如果计算对论文重要,我是否保存了足够的代码、数据和解释使其可重复?

10.6 参考文献与文献检索

  • 我是否向 AI 询问了它使用的来源?
  • 我是否进行了彻底的文献检索并检查了 AI 建议的论证或方法是否之前已出现?
  • 我是否在实际论文、书籍、MathSciNet、zbMATH、arXiv 或期刊网站上验证了 AI 建议的每一个参考文献?
  • 我是否检查了引用的来源真的包含声称的定理、定义、例子或论证?
  • 我是否确保 AI 没有发明参考文献、混淆两篇论文,或从摘要推断内容而未阅读全文?

10.7 写作

  • 我是否避免了将大量 AI 生成的文本复制粘贴到我的论文或演示中?
  • 我是否用我自己的声音重写了任何有用的 AI 生成的材料并检查其正确性?
  • 我是否确保符号、术语和风格与我的文本其余部分一致?
  • 我是否向 AI 寻求评论和修正,而不是让它默默地为我重写论文?

10.8 致谢

  • AI 是否对项目做出了实质性创造性贡献,如建议研究方向、生成例子、帮助证明、编写代码或制作图表?
  • 如果是,我是否致谢了使用哪个模型以及用于什么?
  • 我是否检查了期刊、会议、课程、机构或资助机构的 AI 政策?
  • 如果有共同作者,我们是否就 AI 使用应如何披露达成一致?

最终测试

如果我删除 AI 聊天记录,我是否仍然理解、能够重现并愿意对论文或演示中的所有内容负全部责任?

Footnotes

  1. 感谢 Jesse Geneson、Slava Gerovitch、Tanya Khovanova 和 Andrew Sutherland 的宝贵意见。本文部分受 Amazon AGI Faculty Award(授予 UMass Lowell Miner 计算机与信息科学学院的 Anna Rumshisky 教授)支持。图片由 ChatGPT 生成。

  2. 这个技巧来自 Jesse Geneson。

  3. 在研究小组内传播未经检查的 AI 输出是可以接受的,但前提是所有相关人员都清楚其未验证状态。

  4. 有些人甚至把 AI 模型作为论文的共同作者。这没有必要(且许多期刊禁止),因为 AI 的地位不同——不像人类作者,它不对内容的正确性和原创性负责。但详细解释 AI 做了什么是非常建议的。