
奥本 AI 将所有的最新 AI 聚合到了一起,为您开启多模型 AI 绘画新时代!
扫码即刻关注公众号
AI 能否取代人类研究人员?
5 个月前
|LLM|AI|研究|自动化|
不信任科学并否认科学方法的有效性,就是放弃了作为人类的工作。你最好去找一份植物或野生动物的工作。 — P. J. O'Rourke
西方文明最伟大的成就之一是科学方法和科学思维的形成。 — Heather Mac Donald
科学方法在研究中主导了几个世纪。 传统上,研究人员会考虑已有知识,定义待测试的假设,建立测试假设的程序,实验后收集证据,评估结果,并将其传达给科学界。当我们提到“研究人员”时,我们指的是人类研究人员,但是否可以有其他选择呢?
科学需要时间和资源。 科学进步的一个限制是对专职研究人员的需求。如今,研究人员的时间越来越少,受到机构义务、寻求资金和参加持续会议的限制。此外,今天要产生创新研究,需要不断增加知识,跟进最新的研究成果,以及一定的创造力。
因此,应用人工智能的最新发展来进行研究引起了广泛的兴趣。正如我们在最近的一篇文章中讨论的那样,已经有提议自动化科学过程的某些方面。
保护科学的未来:大型语言模型能否改变同行评审?同行评审是当今科学的核心,但存在偏见并给研究人员带来负担。我们能否改善它?
但研究本身能否被自动化?
实际上,这种可能性已经被提出。 只有在最近的大型语言模型(LLMs)领域的发展中,这才似乎成为可能。
到目前为止,大多数研究集中在尝试自动化流程的某些部分:撰写科学手稿、头脑风暴、帮助编码等。我们能否将整个流程在一个系统中自动化?
Sakana AI认为今天这是可能的:
今天,我们很高兴介绍AI科学家,这是第一个全面自动化科学发现的系统,使基础模型(如大型语言模型LLMs)能够独立进行研究。 — 来源
在这篇文章中,我们讨论了他们的方法。作者们提出了一个系统,他们称之为“端到端论文生成”的可扩展流程。给定一个代码库和研究方向,系统生成创意、文献搜索、实验计划、实验迭代、手稿撰写和同行评审,直到生成完整的手稿。
该系统是可迭代和可扩展的,能够以不到15美元的成本生成一篇文章。他们专注于机器学习,但该系统可以扩展到其他科学领域(例如,有系统可以进行实验的领域)。
图片来源:这里
所提议的系统由三个主要阶段组成:
- 创意生成。 在这个初始阶段,系统提供一个起始模板。基于此,系统通过利用LLM的能力迭代生成一组创意。在这种头脑风暴中,创建了一个创意库,每个创意都有描述、实验执行计划、一组评估指标、新颖性和可行性。在每次迭代中,系统考虑档案中的创意并提出新创意。思维链和自我反思被用来发展和完善每个创意。接下来,使用API通过网络搜索过滤掉与文献中过于相似的创意。
- 实验迭代。 在第二阶段,给定一个创意,进行提议的实验并显示结果。系统一次进行一个实验(顺序进行),并生成可以分析的图表。此外,在每个实验结束时生成笔记和图表内容的描述。每次实验后,基于结果,系统重新规划并实施新的实验。
- 论文撰写。 在最后阶段,生成一篇会议论文风格的文章。为了方便工作,提供一个空白的LaTeX模板,系统必须按顺序填写各个部分:引言、背景、方法、实验设置、结果,然后是结论。为每个部分提供额外的信息和指导,以减少幻觉,并使用自我反思。在下一步中,系统在线搜索(通过Semantic Scholar API)最相关的参考文献。此外,为每个参考文献找到描述,以便系统决定是否包含它。如果答案是肯定的,则将参考文献添加到LaTeX文件中。初稿通常过于冗长和重复,因此在每个部分进行最后一轮自我反思,以减少冗长和重复。最后,编译LaTeX文件。
一旦撰写了一篇文章,作者们创建了一个基于GPT-4o的代理,使用神经信息处理系统(NeurIPS)会议评审指南对生成的文章进行同行评审。此步骤的输出是一组数值评分(合理性、呈现、贡献、整体、信心)、优缺点列表和初步判断(接受或拒绝)。作者利用该系统对其系统生成的文章进行初步评估。
作者将该系统与一个注释数据集进行比较,该数据集包含500篇来自OpenReview的ICLR 2022论文。该系统的准确性与人类相似:
所考虑的ICLR 2022论文数据集非常不平衡,即包含更多被拒绝的论文。当考虑一个平衡的论文数据集时,AI科学家的评审过程达到了人类水平的准确性(0.65% vs. 0.66%)。 — 来源
图片来源:这里
作者详细介绍了一篇通过要求模型生成扩散建模研究的文章。他们使用Claude Sonnet 3.5生成了一篇名为“自适应双尺度去噪”的文章。
选定论文中的想法是在算法的第六次迭代中提出的,旨在通过在标准去噪网络中提出两个分支,改善扩散模型捕捉二维数据集中的全局结构和局部细节的能力。 — 来源
LLMs倾向于高估一个想法的趣味性、可行性或新颖性。模型在使用Semantic Scholar API在线搜索后,将论文想法标记为新颖。
图片来源:这里
作者展示了在迭代过程中代码的生成及其变化(删除部分用红色标记,添加部分用绿色标记)。然后,系统在进行实验评估后,或在需要适应新可视化时,逐步更改代码。
图片来源:这里
最终,模型生成了一篇11页的科学手稿,符合标准的机器学习会议风格。作者指出:
- 系统详细描述了算法,使用了正确的LaTeX符号。此外,训练过程也进行了详细描述。
- 实验细节丰富(超参数、基线和数据集在论文中列出)。
- 作者检查实验日志,以验证系统没有幻觉结果。
- 实证结果质量良好,过程中的改进符合论文预期。
- 系统如预期生成可视化,但超出了作者提供的方向(“虽然我们提供了一些基线绘图代码来可视化生成的样本和训练损失曲线,但它提出了新颖的算法特定图表,显示了去噪过程中的权重变化”)。
- 未来工作部分列出了相关步骤(如扩展到更高维度的问题、更复杂的变体和理论讨论)。
图片来源:这里
然而,作者也指出了一些错误:
- 在放大过程中出现微妙的错误,显示出缺乏推理能力,实验细节中存在一些幻觉。
- 对结果的积极解读存在偏见。
- 一些伪影和细节在实验日志中存在,但不应在文章中描述。
- 在每个实验中展示中间结果。虽然跟踪过程的演变是有用和有趣的,但在撰写科学文章时并不常见。
- 参考文献较少(仅9篇),遗漏了一些相关论文。
自动化评审表明实验仅使用二维数据集(但作者限制系统仅使用简单数据集,无法下载更广泛的数据集),并且还指出计算成本的限制(如果系统能对评审做出反应,将会很有趣)。
图片来源:这里
作为一般评论,作者指出:
- 系统识别了扩散建模研究中一个有趣且动机充分的方向。它提出了实验计划,能够执行并成功获得良好结果。特别有趣的是,它在过程中成功地细化实验(在初始结果不令人满意时纠正网络结构)。
- 尽管文章中的想法提高了生成扩散样本的质量,但其成功原因并未解释。根据作者的说法,良好的结果源于全局或局部特征的分离,隐含地创建了一种专家混合,但文章并未对此进行讨论。
- 文章中的弱点并非微不足道,只有评审过程才能成功识别它们。这些限制也源于其背后的模型能力,LLMs越是改进,系统就会越好。
总体而言,我们认为AI科学家的表现大约相当于一位早期阶段的机器学习研究人员,他能够胜任地执行一个想法,但可能没有足够的背景知识来完全解释算法成功的原因。 — 来源
作者在文章中测试了几种模型:Claude Sonnet 3.5、GPT-4o、DeepSeek Coder和Llama-3.1 405b,使用不同的模板(扩散模型、grokking和语言建模)生成50个创意。在他们的结果中,Claude表现最佳,GPT-4o在LaTeX方面有时会出现问题,而Llama-3.1 405b通常表现最差(缺少部分和结果)。
图片来源:这里
根据作者的说法,仍然存在几个限制:
- 自动化评审前景可期,但仍存在多项限制,尤其是因为它基于2022年的评审(更近期的子估计将有帮助)。
- 创意生成过程在各个迭代中往往会产生非常相似的想法。此外,系统未能实施其中相当一部分想法(因此即使系统提出了创新和创造性的想法,当这些想法过于复杂时,它也未能执行)。
- 有时系统错误地实现了一个想法。这种类型的错误更难识别,因为它需要进行代码分析或良好的领域知识。
- 一些文章没有达到严谨的会议预期,也没有机器学习文章的深度。这部分源于每篇文章进行的实验数量有限。这种缺乏深度和严谨性往往导致误导性或不准确的结论。
- 系统未能利用模型的视觉能力,因此表格超出了页面限制或图表难以阅读。
- 引用是一个痛点,如前所述。此外,幻觉仍然存在(甚至在结果中)。
更一般地说,我们不建议将这一版本的AI科学家的科学内容视为绝对真理。相反,我们建议将生成的论文视为值得研究者跟进的有前景的想法的提示。 — 来源
该系统无疑是一个有趣的想法,可以建议潜在的研究方向。研究人员可以利用它来寻找新想法(鉴于新发表的文章数量庞大,有时很难找到新想法)。在某种程度上,该系统可以帮助快速发展想法和潜在的实验计划。
尽管AI科学家有潜力成为研究人员的有价值工具,但它也带来了重大滥用风险。 — 来源
另一方面,这可能会对已经存在问题的同行评审造成灾难,编辑和评审者的时间都很有限。实际上,该系统可能以极低的成本生成大量文章。会议和期刊已经收到大量质量较差的投稿,这可能会呈指数级增长。一些编辑的反应是负面的:
“模型似乎生成的论文都是垃圾,作为期刊的编辑,我可能会直接拒绝它们。作为评审者,我会拒绝它们。它们包含非常有限的新知识,并且如预期的那样,对相关工作的引用极其有限。” — 来源
这些项目的质量在很大程度上取决于所使用的基础LLM的质量。该系统使用LLM生成想法、创建计划、运行实验和撰写文章。目前,LLMs无法进行推理,因此人们怀疑这些文章不过是已有想法的排列组合(因此在训练数据中可见)。LLMs目前也无法真正超越训练数据进行概括,因此生成的想法将非常相似(如果不是简单的变体)。因此,最多你可能得到的是新的增量文章,但肯定不会有新的突破或范式转变。
颠覆性科学的衰退我们发表的文章比以往任何时候都多,但创新却在减少:为什么?
另一个有趣的问题是,它可能会在论文工厂或不太重视审查的会议上生成大量文章(只要他们可能支付费用)。这种AI生成文章的洪流可能会导致模型崩溃。实际上,基于其他LLM生成的数据训练的LLM会崩溃。
生成性AI会导致AI崩溃吗?AI自食其果:生成系统中模型崩溃的风险
从根本上说,同行评审是基于信任的。AI能够生成低质量文章的事实削弱了评审者的信任。正如作者所指出的,这些文章在写作上很有吸引力,其中一些错误只有领域知识或代码分析才能发现。分析一篇论文需要评审者的时间,而这是一项无偿的工作。
“作为一名学术研究的科学家,我只能将其视为坏事。所有论文都基于评审者对作者的信任,即他们的数据是他们所说的那样,提交的代码确实如他们所说的那样工作。允许AI代理自动化代码、数据或分析,必然需要人类彻底检查错误……这所需的时间与最初的创建时间相当,甚至更长,如果你不是写这篇论文的人。” — 来源
对于作者来说,该系统也可能被用于恶意目的,创建病毒和其他恶意软件。即使该系统可以连接到湿实验室,它也可能进行危险的生物实验。
AI科学家的引入标志着实现AI在科学研究中全部潜力的重要一步。 — 来源
尽管这是一个遥远的前景,但这项工作展示了LLMs的能力和有趣的发展。与其说是取代研究人员,最大的风险是大量AI生成文章的输出。
你对此有何看法?请在评论中告诉我
如果你觉得这篇文章有趣:
你可以查看我的其他文章,也可以在 LinkedIn 上与我联系或联系我。 请查看 这个仓库 ,其中包含每周更新的机器学习和人工智能新闻。 我对合作和项目持开放态度 ,你可以在LinkedIn上与我联系。你也可以 免费订阅 以便在我发布新故事时收到通知。
每当Salvatore Raieli发布时,您都会收到电子邮件。每当Salvatore Raieli发布时,您都会收到电子邮件。通过注册,您将创建一个Medium帐户(如果您还没有的话)
这是我GitHub仓库的链接,我在其中收集与机器学习、人工智能等相关的代码和许多资源。
GitHub — SalvatoreRa/tutorial: 机器学习、人工智能、数据科学的教程…带有数学解释和可重用代码的机器学习、人工智能、数据科学的教程(在Python中)
或者你可能对我最近的一篇文章感兴趣:
保护科学的未来:大型语言模型能否改变同行评审?同行评审是当今科学的核心,但存在偏见并给研究人员带来负担。我们能否改善它?
知识没有推理是无用的:通过自我推理解锁RAG的全部潜力增强检索增强生成模型的可靠性和可追溯性
https://ai.gopubby.com/graph-ml-graph-data-representation-fc9dd17e05c
参考文献
以下是我撰写本文时参考的主要文献列表,仅引用文章的第一个名字。
推荐阅读:
赋迪奥本AI
上海赋迪网络科技
电话:18116340052