AI 在数学研究中的使用:年轻数学家指南
原文信息
本文翻译自 MIT 数学系 Pavel Etingof 教授的指南《Use of AI in mathematical research: A guide for young mathematicians》(2026年5月)。原文链接:aiuse.pdf
在数学研究中使用 AI 既可能非常 productive( productive),也可能非常 counterproductive(适得其反)。下面我针对初入数学研究领域的人(主要是本科生和研究生)提供一些建议。1
1. 核心原则
数学研究者对生成式 AI(ChatGPT、Claude、Gemini 等,也称为 LLM)的态度千差万别——从出于伦理原因的抵制或怀疑,到欢呼雀跃或对变得无关紧要的恐惧。但 AI 现已成为房间里的大象,无法再被忽视。
我提出以下哲学:
我们应该充分利用 AI,以便掌握更多数学。
这蕴含了在数学研究中使用 AI 的核心原则:
核心原则
你必须对你与 AI 讨论的任何内容中的数学部分保持掌控。
这意味着:如果你在论文中使用了 AI 的输出,你必须完整地检查和理解每一个细节,不留任何死角,并用自己的方式重新表述,而不是直接复制粘贴到你的写作中。你必须能够当场解释你写下的所有内容。
至少有两个理由支持这一原则:
第一,AI 模型会产生幻觉,创造出看起来正确但实际上错误且误导的内容。 虽然它们能正确解决困难的数学问题,但也可能基于荒谬的假设产生错误论证——比如”所有奇数都是素数”这种可笑的假设(通常隐含且难以察觉)。这种情况正在改善,但仍然存在,可能导致你的论文出现致命缺陷!
你要对你文章中出现的任何错误负责——无论这些错误多么隐蔽。因此你应该非常批判性地对待任何 AI 输出。即使输出大体正确,往往也很难剔除所有细微的不完美和不精确之处,并将其平滑融入你的叙述。所以自己写通常比调试 AI 生成的文本更高效可靠。
第二(也是最重要的),目的是让你学习、实践和享受数学。 如果你把这些功能全部委托给 AI,你就违背了这个目的!
2. 一般建议
2.1 模型和模式的选择
对于严肃的数学问题,最好使用强大版本的 AI。具体来说:
- 应始终使用推理/扩展思考模式而非普通的”即时”模式
- 要求给出详细、可验证的解决方案,包括引理、例子和可能的失败点
- 对于最困难的问题,可能需要使用 Pro 模式(消耗更多 tokens,但结果更好)
- 确保你的提示词表述良好——Pro 查询很昂贵!
- 可以先用较弱模式,让 AI 把你的问题复述给你,确认它理解正确
2.2 提示技巧
使用类似这样的句子作为任何提示的前言是一个好主意:
“我是一名数学本科生/研究生,正在做关于 X 的研究”
或者将其设为默认系统提示(在给定项目中自动生效的消息)。这会告诉 AI 模型你的经验水平,帮助它更好地服务你。你还可以添加关于自己的各种信息(如你读过的书和修过的数学课程)。
添加类似”仔细检查你的答案/证明”这样的句子也可能有帮助。AI 模型天生倾向于偷懒(为了节省资源),你的任务是不让它们以你的代价这样做!
2.3 迭代
经验表明,如果你向 AI 提出一个困难的数学问题,一次尝试通常不够。你应该:
- 仔细研究输出
- 指出错误
- 要求 AI 澄清或详细说明你最感兴趣的点
有用的结果往往需要多次迭代才能产生。不要只是盯着屏幕等待 AI 回应——你可以同时做其他事情,特别是你自己的数学!
2.4 LaTeX
AI 模型非常了解 LaTeX,所以你可以:
- 向它们提出任何 LaTeX 问题
- 让它们调试你的 LaTeX 文件
- 要求它们以 LaTeX 文件的形式给出任何输出,方便阅读
2.5 隐私
最后但同样重要——未经所有者许可,不要将任何非公开材料上传到 AI。此外,在上传非公开数据之前,检查平台的数据控制设置和政策;例如,在公开版 ChatGPT 中,用户可以关闭”为所有人改进模型”设置,这样数据就不会用于训练。
3. 学习
学习应该贯穿整个项目:数学研究者做数学的同时也在学习数学。学习包括从书籍和论文掌握理论材料,以及做练习。虽然导师或顾问可能提供一些来源和练习,你也可以向 AI 寻求更多。例如,可以使用以下提示:
- “学习 Y 的最佳来源是什么?”
- “关于以下问题有什么已知结果?(精确表述问题)有参考文献吗?”
- “我正在阅读 B(上传文件),在第 N 页我对定理 Z 的证明有困难。能否更详细地解释这个证明?”
- “能否给我介绍 T 的基础知识并提供一些练习?”
- “概念 A 的动机是什么?”
- “P 和 Q 有什么关系?”
- “能否解释 R 的主要思想?”
关于练习
使用 AI 解决导师或顾问布置的练习是错误的做法。练习的设计目的是让你获得研究所需的技术技能。想象一个想跑马拉松的运动员,却用摩托车来训练!
在任何情况下,在大多数学习环境中,试图将 AI 输出作为你的练习解答通过,或者因为重写了 AI 解答却理解不足而无法解释你的解法,都构成 AI 的不当使用,将被视为违反学术诚信。
4. 研究
在研究中,只要遵循”保持掌控”原则、在论文和报告中承认任何重大 AI 贡献、并遵守隐私规则(受顾问期望、合作者同意以及期刊和机构政策约束),有很多好的方式使用 AI。具体来说,你可以使用 AI 来:
- 创建研究问题
- 生成数据和例子
- 头脑风暴
- 尝试验证命题(导向证明或反例)
- 辅助写作和校对
以下是详细建议。
4.1 创建研究问题
你可以使用 AI 在项目内部创建研究问题。一个好的方法是:
上传项目描述、最相关的论文和你迄今为止的写作,使用类似这样的提示: “仔细阅读附件中的项目描述、论文和我的文本,提出 N 个接下来考虑的研究问题。对每个问题,解释动机、提出初步步骤、给出参考文献。”
为此,你需要使用最强大的模式(Pro),这样 AI 会思考一段时间(可能 20 分钟或更长)。虽然 AI 提出的许多问题可能不好,但其中一些可能很有趣!
然而,判断哪些问题是好的可能很困难。因此,在尝试任何这些问题之前,最好询问你的导师、顾问或该领域的其他专家。至少,在着手任何问题之前,你应该进行文献检索(可以高效地使用 AI 完成,如前所述)以确定问题是否已在文献中被解决。
4.2 头脑风暴
你也可以使用 AI 来头脑风暴推进项目的想法。可以使用类似这样的提示:
“我正在研究以下问题。(精确表述问题或附上含有表述的文件)以下是我的一些见解。(分享你自己的想法)我的哪些想法最有希望?你能建议如何推进的想法吗?你能指出这个数据中的任何模式吗?你能找到任何有用的参考文献吗?”
然后研究输出,看是否包含好的想法,可能需要如上所述多次迭代。与你的顾问或合作者讨论,然后重复。最终可能产生有用的结果!
4.3 生成数据和例子
by Andrew Sutherland
前沿模型如 Claude、Chat-GPT 或 Gemini 现在非常擅长生成数据并进行分析。在研究项目早期阶段最有用的事情之一是思考生成例子的方法——既帮助建立直觉,也作为发展和检验猜想的方式。即使非常抽象的问题往往也有特殊情况或蕴含可以具体化。在过去,搞清楚如何做这件事、编写代码、测试、优化并运行可能本身就是整个研究项目,但这现在可以由 Claude Opus 4.7 和 GPT-5.5 Pro 等模型完成。在此过程中发生的交互非常有启发意义(尝试向模型解释你想让它做什么帮助你更好地理解问题,你会沿途学到东西)。
4.4 证明与反驳
你可以使用强大版本的 AI 来证明和反驳数学命题。但需要谨慎:
重要警告
AI 模型通常擅长总结已知材料和模仿已建立的论证,但不太擅长产生真正原创的数学。当被要求做后者时,它们往往会幻觉。因此,任何声称证明或反驳一个先前状态未知的命题的 AI 输出应持极大怀疑态度。
一个危险是,你可能不是在做数学,而是陷入检查看起来流畅但实际上有 bug 的 AI 生成的论证。为了避免这种情况,与其立即阅读 AI 输出,你可以先将其输入另一个(或同一个)AI 模型并说:
“这个命题 Y 的证明是 AI 给我的。我持怀疑态度。你能检查它吗?”
很有可能,第二个 AI 模型会发现错误。然后你可以将回应反馈给第一个模型,继续迭代直到过程收敛——第一个模型承认没有证明,或两个模型都同意证明正确。在后一种情况下,你可以尝试自己检查(如果愿意,可以先让第三个 AI 模型运行)。这样可以避免浪费时间阅读低质量的 AI 输出。2
但请注意,两个或三个模型之间的协议本身并不构成正确性的有力证据,因为模型可能共享训练数据、错误风格和可信性偏见。
一如既往,如果你难以理解证明中的某一步,可以要求 AI 详细说明。但最终你应该写出自己的证明!
要求 AI 模型先(或至少与一般情况分开)计算一个例子可能有帮助。这样输出更可能有用,也更容易检查。
随着时间推移,你应该能发展出一些直觉,判断什么时候相对安全可以信任 AI,什么时候不太安全。但始终保持警惕!记住 AI 异常擅长欺骗人类!
如前一节所述,你也可以让 AI 做计算,虽然对于严肃的计算最好自己在 Mathematica、Sage 等中运行代码。但你可以让足够强大的 AI 版本(如 Claude Code)编写那段代码(可能提出算法想法,也许在与 AI 讨论后)。代码当然可能包含 bug,但你可以通过几轮迭代来调试;这可能比自己编写更快。让 AI 用注释补充代码说明每部分做了什么也是好做法;这会让你更容易检查它是否正确工作。
关于参考文献
你应该仔细检查 AI 生成的论证中使用的所有参考文献。记住 AI 可能产生不存在的参考文献,引用现有来源中不存在的命题,或误解它阅读的论文中的声明。还要记住许多文章,尤其是旧文章,在付费墙后,AI 无法访问全文。在这种情况下,它可能从摘要或其他来源对其内容做出假设,可能导致误解。你的导师或顾问应该能帮助你整理这一切。
by Andrew Sutherland
在现阶段,AI 通常更擅长反驳猜想而非证明它们,但这仍然非常有用!生成反例是其中一种方式,但更广泛地也成立,包括在形式化语境中,如 Talia Ringer 最近关于 AlphaProof 的文章指出:https://www.nature.com/articles/d41586-025-03585-5
4.5 形式化验证
by Andrew Sutherland
在可行的情况下(主要取决于你工作的主题在 MathLib 中是否有足够覆盖),可以考虑让 LLM 尝试在 Lean 中形式化和验证命题。如果命题相当简单,大多数前沿模型对 Lean 了解足够,能写出可以复制粘贴到在线验证器如 https://live.lean-lang.org/ 或 https://axle.axiommath.ai/verify_proof 的脚本。但对于更实质性的内容,给 LLM 一些额外工具有帮助(如 https://github.com/cameronfreer/lean4-skills 的”skills”文件和 https://github.com/oOo0oOo/lean-lsp-mcp 的 lean-lsp-mcp 接口)。还有第三方自动形式化器如 AlphaProof、Aristotle、AxiomProver、Gauss、Godel-Prover、Kimina-Prover 等,许多免费使用。
Remark
- LLM 让从未使用 Lean 或形式化定理证明器的人能够以前所未有的方式利用形式化验证。
- 但有一个重要警告:你需要确保 LLM 正确形式化了你关心的命题。这需要对形式化系统有一定了解(但远少于编写证明所需)。
4.6 协作 vs 委托
虽然 AI 在你的研究中可能非常有帮助,但要得到好的结果,你应该与 AI 一起思考问题(符合”保持掌控”原则),而不是只是看着 AI 为你做研究。换句话说,你应该把 AI 视为一个强大工具,或者一个(并非总是可靠的)拥有你所缺乏的知识和能力的数字合作者,共同努力充分利用它们,而不是将整个过程委托给 AI。
与问题的挣扎——可以被使用 AI 短路——是研究过程的关键部分。这是发展做出突破所需的理解和直觉的唯一途径。你经验越少,这越重要!
对于初入研究的人,好做法是:
- 在让 AI 解决之前自己先尝试问题
- 或者先向 AI 寻求提示而非完整解答
最终,目标不是把你和 AI 当作机器来尽可能多地输出定理,而是在推进项目的同时也给你做研究的训练和经验。如果你把一切都委托给 AI,你怎么发展自己的研究技能?
毕竟,发现新数学是这整个事业中最享受的部分。为什么要把这个乐趣外包给一个没有灵魂的聊天机器人?想象你去一家高级餐厅,却不品尝美味菜肴,而是把它们通过咀嚼机然后吞下 resulting goo(糊状物)。这会有多有趣?
5. 写作与校对
在写作阶段,你可以使用 AI 帮助 LaTeX 和图表或图片,虽然解释你想要画什么可能很困难。有时最好先在纸上手绘草图,用手机扫描,上传到 AI 并要求生成 PNG 文件或图表的 LaTeX 代码。
你也可以使用 AI 进行校对。你可以上传文本并说:
“这是我的论文。仔细阅读并指出排版错误、错误、符号不匹配、英语问题等。阅读 X.Y 节到 Z.T 节。给我评论。”
建议让 AI 每次只阅读一小部分(比如 10 页),这样质量可能更好。我一直在用这种方法校对我的文本和学生的文本,强烈推荐。当然,这不能取代传统的人工校对,但人工校对之前先做 AI 校对(然后修正)很好!
AI 模型通常擅长:
- 发现排版错误
- 纠正英语
- 找到不匹配和未定义的符号
但不太擅长发现细微的数学错误,尽管偶尔也能做到。
然而,如果你想让 AI 严肃检查你的论文,你应该让它检查个别证明,并不断添加细节和澄清直到它不再发现问题。但要确保提示 AI 批判性地检查,不要为了取悦你(让它的工作轻松)而不经彻底检查就说证明正确!
同时,如前所述,将大段未经润色的 AI 输出复制粘贴到你的论文是错误做法。3 你应该真正自己写作!
还有一个理由是,AI 可能隐含地从他人的作品中复制内容而不加引用。所以如果你把这段输出复制粘贴到你的文本并以那种形式公开,这可能构成抄袭。即使你是无意的,你仍然对此负责!
因此,如果你计划使用其输出即使以改写形式,好做法是:
始终让 AI 列出它使用的来源,然后独立验证它们(在 arXiv.org、MathSciNet 等),检查是否需要引用其中任何来源。还要主动多次请求最相关的文献。
注意当被要求校对时,默认情况下某些 LLM 会倾向于自己重写你的文本,而不是给你评论。如上所述,这出于许多原因非常不可取。所以你应该向 LLM 明确:
它应该只是给你评论/修正列表,而不是尝试为你重写文本。
by Paul Seidel
虽然俗话说话时最社交的数学家看着对话者的鞋子而不是自己的,但数学实际上是一种内在的社会事业。当我们说使用 AI 的目标是”知道或理解更多数学”时,实际含义是”为数学共同体达成理解”。历史上,“问题被解决”一直意味着共同体达成了这种理解,或至少发展了一条达成理解的可达路径,没有理由这应该因 AI 的出现而改变。
AI 生成的证明就像从外星文明传给我们的启示。它缺少将其转化为”理解数学”的额外工作。因此,发表那个论证的人的工作是为共同体做那项工作,这意味着通过找到解释这些想法的方式使人们觉得有启发,将任何新想法整合到共同知识的主体中。这需要交换邮件、面对面讨论、做报告等。仅仅把证明发布到 arXiv 上什么都不做!
6. 准备演示
你可以使用 AI 准备演示幻灯片。你可以上传文本并说:
“基于这篇论文,制作并给我一个 12 分钟报告的 Beamer 文件。”
你可以在提示中添加你想覆盖什么、想在什么上花多少时间等。当然,你可能需要几次迭代,之后文件需要严肃编辑。但这可以节省时间,通过制作合理的初稿。
7. 致谢
如果你在创造性任务中使用了 AI 并在论文中使用了结果,好做法是致谢——说明你使用了哪些模型以及它们的具体角色是什么;实际上,许多期刊要求这样做。即使 AI 帮助你完成了一些证明,你将获得论文结果的全部署名权。但再次提醒,别忘了这全部署名权伴随着对内容的全部责任!4
8. 其他资源
by Andrew Sutherland
- 虽然现在有些过时,但在 2023 年国家科学院研讨会期间编制了一个相当详尽的 AI for Math Resources 列表,此后更新了几次。你可以在 https://docs.google.com/document/d/1kD7H4E28656ua8jOGZ934nbH2HcBLyxcRgFDduH5iQ0 找到它。
- 虽然没有提供具体技巧,Klowden 和 Tao 最近的文章”Mathematical methods and human thought in the age of AI”可能是有用的背景阅读,帮助你思考如何充分利用 AI 以掌握更多数学:https://arxiv.org/abs/2603.26524。
9. 有用链接
- MIT AI 使用指南:https://ist.mit.edu/ai-guidance
- MIT AI 工具引用指南:https://libguides.mit.edu/cite-AI-tools
- AMS 期刊 AI 使用政策:https://www.ams.org/publications/journals/policies/UseofArtificialIntelligence
10. 负责 AI 使用的检查清单
总结一下——在学习或研究中使用 AI 前,最好问自己以下问题。
10.1 理解与责任
- 我是否完全理解我取自 AI 输出的每一个数学命题、证明、计算或例子?
- 我能否当场向我的顾问、导师、合作者或观众清楚地解释它?
- 我是否检查了所有定义、假设、边缘情况和隐藏假设?
- 我是否在使用 AI 帮助我学习和做数学,而不是用它来避免学习和做数学?
10.2 隐私与许可
- 我是否被允许上传我给 AI 的材料?
- 如果材料属于合作者、顾问、学生、期刊、会议或机构,我是否在需要时获得了许可?
- 我是否检查了我使用平台的 relevant data-control 设置和隐私政策?
- 如果材料敏感或非公开,我是否应该改用更私密的设置,如机构账户、企业账户、本地模型,或根本不用 AI?
10.3 学习与练习
- 如果这是导师、顾问或教师布置的练习,AI 使用是否被允许?
- 我是否在寻求提示、解释或背景,而不是外包解答?
- 如果我使用 AI 生成的解释,我是否自己重建了论证?
10.4 研究想法与证明
- 我是否对 AI 生成的研究问题、猜想、证明和反例持怀疑态度?
- 我是否检查了问题或结果是否已知?
- 我是否在适当时候与我的顾问、导师、合作者或其他专家讨论了有希望的 AI 生成的想法?
- 如果 AI 建议证明,我是否自己验证了它,而不是依赖模型的自信?
- 如果另一个 AI 模型也同意证明,我是否记得这仍然不能替代我自己的验证?
10.5 计算、代码和数据
- 我是否检查了代码做了我要求它做的事?
- 我是否在已知答案的简单例子上测试了代码?
- 我是否检查了 off-by-one 错误、缺失情况、数值不稳定性和错误假设?
- 如果计算对论文重要,我是否保存了足够的代码、数据和解释使其可重复?
10.6 参考文献与文献检索
- 我是否向 AI 询问了它使用的来源?
- 我是否进行了彻底的文献检索并检查了 AI 建议的论证或方法是否之前已出现?
- 我是否在实际论文、书籍、MathSciNet、zbMATH、arXiv 或期刊网站上验证了 AI 建议的每一个参考文献?
- 我是否检查了引用的来源真的包含声称的定理、定义、例子或论证?
- 我是否确保 AI 没有发明参考文献、混淆两篇论文,或从摘要推断内容而未阅读全文?
10.7 写作
- 我是否避免了将大量 AI 生成的文本复制粘贴到我的论文或演示中?
- 我是否用我自己的声音重写了任何有用的 AI 生成的材料并检查其正确性?
- 我是否确保符号、术语和风格与我的文本其余部分一致?
- 我是否向 AI 寻求评论和修正,而不是让它默默地为我重写论文?
10.8 致谢
- AI 是否对项目做出了实质性创造性贡献,如建议研究方向、生成例子、帮助证明、编写代码或制作图表?
- 如果是,我是否致谢了使用哪个模型以及用于什么?
- 我是否检查了期刊、会议、课程、机构或资助机构的 AI 政策?
- 如果有共同作者,我们是否就 AI 使用应如何披露达成一致?
最终测试
如果我删除 AI 聊天记录,我是否仍然理解、能够重现并愿意对论文或演示中的所有内容负全部责任?
Footnotes
-
感谢 Jesse Geneson、Slava Gerovitch、Tanya Khovanova 和 Andrew Sutherland 的宝贵意见。本文部分受 Amazon AGI Faculty Award(授予 UMass Lowell Miner 计算机与信息科学学院的 Anna Rumshisky 教授)支持。图片由 ChatGPT 生成。 ↩
-
这个技巧来自 Jesse Geneson。 ↩
-
在研究小组内传播未经检查的 AI 输出是可以接受的,但前提是所有相关人员都清楚其未验证状态。 ↩
-
有些人甚至把 AI 模型作为论文的共同作者。这没有必要(且许多期刊禁止),因为 AI 的地位不同——不像人类作者,它不对内容的正确性和原创性负责。但详细解释 AI 做了什么是非常建议的。 ↩