2024年5月,英国皇家学会,发表了一篇报告《Science in the age of AI: How artificial intelligence is changing the nature and method of scientific research》,详细阐述了人工智能如何改变科学研究。AI for Science(AI4Science)这其实也是AI里最前沿、最突破和最厉害的领域了,对AI本身的要求也从帮助人实现内容生成、自动化和效率提升等,提升到了科学领域的探索和发现(辅助、半自主、自主等......)。报告中提到,对于科学研究者来说,AI并不是一个新鲜话题,几十年来一直以某种形式被采用。报告中也强调,虽然很明显,人工智能可以极大地促进科学的进步,但我们的目标仍然是确保这些突破能够造福人类和地球。报告强调了AI在科学研究中的机遇,并通过三个案例研究深入探讨了其在气候科学、材料科学和罕见疾病诊断中的应用。
https://royalsociety.org/-/media/policy/projects/science-in-the-age-of-ai/science-in-the-age-of-ai-report.pdf
下面,我们一起来看看这篇报告吧。因为篇幅原因,我们只介绍报告中的前言、摘要、发现、未来问题、建议和结论,更多详细的内容请自行阅读报告吧。
前言
随着大型数据集的可获得性不断提高,算法技术不断更新,以及计算能力的不断增强,人工智能(AI)正成为科学领域研究者们广泛使用的工具。现在比以往任何时候都更需要我们理解人工智能对科学的变革性影响程度,以及科学界需要做些什么来充分利用其优势。
本报告《科学在人工智能时代》探讨了这一话题。报告基于100多位已将人工智能纳入其工作流程的科学家的经验,深入探讨了深度学习或大型语言模型等人工智能技术如何改变科学探索的本质和方法。报告还探讨了研究诚信、研究技能和研究伦理等概念如何不可避免地发生变化,以及这些变化对科学和科学家未来的影响。
新的机遇正在涌现。本报告中的案例研究表明,人工智能正在提高科学家的效率、准确性和创造力。在多个领域,人工智能的应用正在开辟新天地,例如,促进罕见疾病的发现或推动更可持续材料的发展。
科学家们正扮演着导师、同伴或助手的角色,利用人工智能应用程序以以前无法达到的速度和规模执行任务。人们对人类智能和人工智能之间的协同作用,以及这种伙伴关系如何带来科学进步感到兴奋。然而,为了确保稳健性和减少危害,人类的判断和专业知识将继续至关重要。
科学界对人工智能的快速应用也带来了与安全、严谨使用相关的挑战。越来越多的不可重复性研究引发了人们对基于人工智能的发现稳健性的担忧。人工智能系统的黑箱操作和不透明性给验证和外部审查带来了挑战。此外,人工智能广泛但不平等的应用也引发了人们对其环境和社会影响的伦理问题。然而,人工智能系统的透明度和道德标准的不断提高有望克服这些挑战。
在这方面,本报告呼吁采取一种平衡的方法,在庆祝人工智能在科学中的潜力的同时,也不要忽视仍然需要克服的挑战。这些建议提供了一条途径,利用开放科学原则,实现可靠的人工智能驱动的科学贡献,同时为资源共享和合作创造机会。它们还呼吁制定政策和实践,承认科学与社会之间的联系,强调道德人工智能的必要性,公平地获得其好处,以及保持公众对科学研究的信任的重要性。
虽然很明显,人工智能可以极大地促进科学的进步,但我们的目标仍然是确保这些突破能够造福人类和地球。我们希望本报告能激励整个科学生态系统的参与者采纳这些建议,并致力于实现人工智能改变科学、造福我们共同福祉的未来。
执行摘要
近年来,人工智能(AI)以前所未有的速度和规模发展,这表明社会可能正处于一个转折点。像ChatGPT和Midjourney这样能够生成类似人类的文本和图像内容的平台的病毒式传播,加速了公众对该领域的兴趣,同时也引起了政策制定者的关注,他们担心基于AI的技术如何融入更广泛的社会。此外,著名计算机科学家和公众人物就AI对人类构成的风险所发表的评论,已将这一话题转变为主流政治问题。
对于科学研究者来说,AI并不是一个新鲜话题,几十年来一直以某种形式被采用。然而,学术和行业研究领域内不断增加的投资、兴趣和采用,已经引发了一场“深度学习革命”,正在改变科学发现的格局。
随着大数据(例如,从望远镜、卫星和其他先进传感器收集的大量且多样的数据)的出现,基于AI的技术正在帮助识别大型数据集中的新模式和关系,而这些模式和关系原本很难被识别。这为科学研究提供了巨大的潜力,并鼓励科学家们采用更复杂的技术,这些技术在各自领域优于现有方法。
AI工具从现有内容中识别模式并预测新内容的能力,还允许科学家进行更准确的模拟并创建合成数据。这些模拟从许多不同的来源(可能是实时的)获取数据,可以帮助决策者更准确地评估潜在干预措施的效果,并解决紧迫的社会或环境挑战。
本报告强调了AI在科学研究中的机遇,并通过三个案例研究深入探讨了其在气候科学、材料科学和罕见疾病诊断中的应用。
除了这些机会,AI的广泛采用也带来了各种挑战。这些挑战包括可重复性(其他研究人员无法使用AI工具复制进行的实验)、跨学科性(AI和非AI学科之间的有限合作可能导致AI在各个领域的应用不够严谨)和环境成本(运行大型计算基础设施所需的高能耗)。由于AI系统的黑箱性质和为基于AI的研究提供动力的商业模型的透明度有限,有效采用开放科学原则也面临着越来越多的障碍。此外,整个科学生态系统的激励机制正在发生变化,这可能会给研究人员带来压力,要求他们忽视更传统的方法论,采用先进的AI技术,或者变得“擅长AI”而非“擅长科学”。
本报告在研究诚信、技能和跨学科性、创新和私营部门以及研究伦理等章节中详细阐述了这些挑战和可能的解决方案。
作为旨在促进科学为人类带来福祉的组织,皇家学会非常重视这一主题。本报告《人工智能时代的科学》概述了人工智能积极改变科学事业需要解决的关键问题。这些建议如果得以实施,应能确保人工智能在科学研究中的应用能充分发挥其潜力,并有助于维持公众对科学和科学方法完整性的信任。
本报告由人工智能和应用科学领域的顶级专家组成的工作组指导,并参考了皇家学会开展的一系列活动。这些活动包括与皇家学会会员的访谈;全球专利态势分析;历史文献回顾;为科学应用委托的人工智能分类法;以及几个研讨会,主题涵盖大型语言模型到沉浸式技术等。这些活动在附录中详细列出。总共有来自不同学科的100多位顶尖科学研究人员为本报告做出了贡献。
虽然本报告涵盖了人工智能在科学研究中的作用的一些关键领域,但它并不全面,例如没有涵盖高性能计算基础设施的提供、人工通用智能的潜力,也没有详细分解各行业和学术界所需的新技能。
进一步的研究问题概述已经在后面列出。皇家学会的两个工作计划“数学未来”和“科学2040”将更深入地探讨与技能和大学相关的相关挑战。
主要发现
• 除了AlphaFold等标志性案例外,人工智能应用可见于所有STEM领域,主要集中在医学、材料科学、机器人技术、农业、遗传学和计算机科学等领域。STEM领域最突出的人工智能技术包括人工神经网络、深度学习、自然语言处理和图像识别。
• 高质量数据是人工智能应用的基础,但研究人员面临与数据量、异质性、敏感性和偏差相关的障碍。一些科学数据的大量数据(例如从望远镜和卫星收集的数据)可能达到数拍字节,使得数据共享和互操作性等目标难以实现。从传感器数据中收集的数据的异质性也给人类注释和标准化带来了困难,而在有偏差的输入上训练人工智能模型可能导致有偏差的输出。鉴于这些挑战,数据管理员和信息经理对于维持质量和解决与人工数据生成相关的风险(如数据伪造、中毒或污染)至关重要。
• 工业和学术机构正在推动人工智能在科学研究方面的创新。过去十年,与科学相关的人工智能专利申请激增,中国、美国、日本和韩国在这些地区提交的专利数量占据主导地位。为本报告委托的一项审查表明,全球人工智能市场(截至2022年)的价值约为1069.9亿英镑。
• 中国贡献了约62%的专利。在欧洲,英国在生命科学相关的人工智能专利数量上仅次于德国,牛津大学、帝国理工学院和剑桥大学等学术机构在英国顶尖专利申请人中占据突出地位。Alphabet、西门子、IBM和三星等公司似乎在科学和工程领域展现出相当的影响力。
• 人工智能工具的黑箱和潜在专有性质限制了基于人工智能的研究的可复现性。诸如文档不足、对关键基础设施(如代码、数据和计算能力)的访问有限以及不了解人工智能工具如何得出结论(可解释性)等障碍,使得独立研究人员难以审查、验证和复制实验。使用复杂的深度学习模型推进发现的巨大潜力也可能鼓励科学家或资助者将人工智能的使用置于严谨性之上。采用开放科学原则和实践有助于解决这些挑战并增强科学完整性。
• 跨学科合作对于弥补技能差距并优化人工智能在科学研究中的益处至关重要。通过分享彼此领域的知识和技能,人工智能和领域专家(包括来自艺术、人文和社会科学的研究人员)之间的合作有助于产生更有效和准确的人工智能模型。然而,孤立的研究环境和不奖励跨学科合作以推动职业发展的激励机制阻碍了这一点。
• 生成式人工智能工具可以协助推进科学研究。它们有望加快日常科学任务,如处理非结构化数据、解决复杂的编码挑战或支持学术文章的多语言翻译。此外,文本生成模型可能用于学术和非学术书面任务,对学术交流和研究评估产生潜在影响。对此,资助者和学术机构正在设定规范以防止不良用途。
未来研究问题
在研究活动中,以下主题被视为未来科学中人工智能发展的关键考量因素:
科学中的AI和计算基础设施:考虑到不同科学领域的多样化需求,如何优化AI工作负载以利用科学研究中的异构计算基础设施的全部潜力?
AI与小数据:对于那些只有小量数据可用的研究人员来说,AI的日益普及意味着什么?如何有效地使用AI技术来增强小数据集以用于训练目的?当应用于小数据场景时,模型大小缩减与性能保持之间存在哪些权衡?
AI与科学系统中的不平等:在为代表不足的社区提供公平获取AI技术方面存在哪些障碍?如何利用AI来扩大科学界和专家社区(包括代表不足的学者和非科学家公众)的参与?
AI与知识产权:AI系统的哪些输入(数据集、算法或输出)对于知识产权保护至关重要,以及它与科学中开放科学原则的应用如何相互作用?
AI与未来科学技能:随着AI的日益融合,科学研究中的技能要求如何变化?未来研究者需要具备哪些关键能力,以及需要做出哪些努力来促进跨不同科学学科的AI素养?
AI与未来学术交流:随着AI技术的整合,学术和科学交流领域如何演变?如何利用AI来改善知识转化、多语言主义和多模态性在学术产出中的应用?
AI与环境可持续性:AI在科学社区内促进可持续做法方面可以发挥什么作用?如何优化AI算法以提高环境建模的能源效率,并为气候科学、生态学和环境监测等领域贡献可持续做法?
AI标准与科学研究:AI标准如何帮助解决基于AI的科学研究中可复现性或互操作性的挑战?科学界如何为AI标准的建立做出贡献?
建议
建议1:政府、研究资助者和AI开发者应提高获取基本AI基础设施的便利性。
计算资源对于重大科学突破至关重要,例如使用AlphaFold进行蛋白质折叠。尽管如此,AI研究的计算能力和数据基础设施并未在所有研究社区中平等地获取或分布。来自不同学科的科学家需要获取基础设施,以便采用更复杂的AI技术,处理更高数量和类型的数据,并确保基于AI的研究质量。
改善获取途径的建议包括机构赞助超级计算访问和建立区域中心——类似于AI领域的CERN。更广泛的访问可以将AI的好处扩展到更多学科,提高非工业领域研究人员的竞争力,并通过实现大规模可复现性来促进更严谨的科学。扩大计算访问权限还必须遵循环境可持续计算科学(ESCS)的最佳实践,包括测量和报告环境影响。
增强对AI基础设施和工具的访问权限的行动可能包括:
资助者、行业合作伙伴和拥有计算设施的研究机构积极共享基本AI基础设施,如高性能计算能力和数据资源。
相关利益相关者(如政府机构、研究机构、行业和国际组织)确保跨部门和地区访问高质量数据集和互操作数据基础设施。这可能涉及通过隐私增强技术和受信任的研究环境推进对敏感数据的访问。
研究资助者支持监测和减轻与增加计算需求相关的环境影响,并推进AI应用中能量比例原则的策略。
建议2:资助者和AI开发者应优先考虑为科学研究开发的AI工具的可访问性和可用性。
获取AI并不能保证其有意义和负责任的使用。复杂且高性能的AI工具和方法对于非AI背景的研究人员来说,采用和有效利用可能具有挑战性。同样,在整个AI生命周期中都需要新的技能,例如了解元数据和数据整理重要性的数据科学家,或熟悉基于图像的GPU编程的工程师。因此,采取措施提高基于AI的工具的可用性(例如软件应用程序、库、API或通用AI系统)应该涉及一系列机制,使AI对非AI专家来说易于理解,并增强他们负责任地使用AI的能力。例如,培训应确保每位科学家都能认识到何时需要团队中的专业数据或编程专长,或者何时使用复杂且不透明的AI技术可能会破坏结果的完整性和质量。
提高可用性还可以增强非AI科学家作为共同设计者(而不是被动用户)的角色,他们可以确保AI工具满足科学界的需求。为共同设计创造条件需要通过开发共享语言、工作模式和工具来弥合AI和领域专家之间的学科壁垒。
提高AI工具可用性的行动可能包括:
研究机构和培训中心在科学领域建立AI扫盲课程,以培养研究人员了解他们所在领域和研究环境中基于AI的工具的机会、局限性和适用性。
研究机构和培训中心建立针对科学研究中AI应用特定需求的全面数据扫盲课程。这涉及构建数据管理、整理和管理能力,以及实施数据原则,如FAIR(可查找、可访问、可互操作和可重用)和CARE(集体利益、控制权、责任和伦理)。
研究资助者和AI开发者投资于提高非AI专家对AI理解和可用性的策略,重点是复杂且不透明的模型。这可能包括进一步研究特定领域的可解释AI(XAI)或可访问的AI工具,这些工具可以增强资源受限研究环境中的访问权限。
研究机构、研究资助者和科学期刊实施机制,以促进跨领域的知识转化和跨学科的有意义合作。这需要跨学科培训、导师制、出版渠道和资金的组合(例如通过英国研究与创新署(UKRI)的跨理事会职权范围协议等机构,该协议管理跨学科研究提案)。
建议3:研究资助者和科学界应确保基于AI的研究符合开放科学的原则和做法,以促进AI在科学中的益处。
越来越多的不可重复的基于AI和机器学习(ML)的研究引发了人们对基于AI的发现是否可靠的担忧。然而,科学家们在提高基于AI工作的可重复性方面面临着挑战。这些挑战包括关于方法、代码、数据或计算环境发布的文档不足;有限的计算能力来验证复杂的ML模型;以及实施开放科学实践的有限奖励。这不仅对科学构成风险,也对社会构成风险,因为如果部署不可靠或不可信的基于AI的输出会导致有害的结果。
为了应对这些挑战,科学中的AI可以从遵循开放科学的原则和做法中受益。例如,联合国教科文组织关于开放科学的建议提供了相关指导方针,以提高科学的严谨性,同时指出,不同部门和地区在实践开放性方面没有一刀切的方法。这与日益倾向于采用“渐进式”开放模式的趋势相吻合,该模式将模型的开放发布与对可信风险的详细指导和保护措施相结合。开放科学的原则也有助于更公平地获取AI的益处,并帮助更广泛的专家群体为科学应用AI做出贡献。这包括代表性不足和资源不足的学者、数据所有者或非科学家公众。
需要进一步的工作来理解开放科学与科学中的AI之间的相互作用,以及如何最小化模型和数据的开放发布带来的安全和风险。
促进在基于AI的科学中采用开放科学的行动可能包括:
研究资助者和研究机构通过采用开放科学的原则和做法来激励提高基于AI研究的可重复性。例如,通过为开放科学和AI培训分配资金,要求在资助申请中使用可重复性清单和数据共享协议,或支持制定社区和领域特定的可重复性标准(如TRIPOD-AI)。
研究机构和期刊在职业晋升机会中奖励和认可开放科学实践。例如,通过促进失败结果的传播,接受预注册和注册报告作为输出,或认可数据集和文档的发布作为职业晋升的相关出版物。
研究资助者、研究机构和行业参与者通过投资开放科学基础设施、工具和实践来激励国际合作。例如,通过投资开放存储库,使数据集、软件版本和工作流程的共享成为可能,或支持开发上下文感知文档,使AI模型能够在不同的研究环境中进行本地适应。后者也有助于纳入代表性不足的研究社区和在低资源环境中工作的科学家。
相关决策者考虑阻止科学中AI封闭生态系统发展的方式,例如,强制要求由行业主导的研究负责任地发布基准测试、训练数据和方法论。
建议4:科学界应建立监督科学中使用的AI系统的能力,并确保其为了公共利益而得到道德使用。
AI在跨科学领域的应用需要仔细考虑潜在的风险和误用情况。这些可能包括数据偏差的影响、数据中毒、科学错误信息的传播以及AI模型的恶意再利用。此外,AI的资源密集型特性(如能源、数据和人力劳动方面)引发了关于科学家使用的AI可能无意中导致环境和社会危害的道德问题。
围绕AI风险的不确定性使道德担忧更加复杂。截至2023年底,关于AI安全的公共辩论尚未明确界定科学家在各自领域内监测和减轻风险的角色。此外,领域专家之间AI技术专长水平的差异以及缺乏进行伦理影响评估的标准化方法,限制了科学家提供有效监督的能力。其他因素包括商业模型的透明度有限、ML系统的非透明性以及滥用开放科学实践可能加剧的安全风险。
随着AI进一步融入科学,需要AI保障机制来维持公众对AI的信任,并确保负责任的科学进步造福人类。AI专家、领域专家以及人文和科学、技术、工程、艺术和数学(STEAM)学科的研究人员之间的合作可以提高科学家监督AI系统并预测潜在危害的能力。
同样,与在AI训练数据集中有代表或缺失的社区进行互动,可以改善当前对基于AI的研究项目背后可能存在的风险和危害的理解。
支持科学中AI道德应用的行动可以包括:
研究资助者和机构投资于工作,以操作化和建立科学中特定领域的AI风险分类,特别是在敏感领域(如化学和生物研究)。
研究资助者、研究机构、行业参与者和相关科学界采纳广泛可用的AI道德框架,如联合国教科文组织关于人工智能伦理的建议或经合组织的人工智能伦理准则,并实施将开放科学与防范潜在风险保障措施相结合的实践。
资助者、研究机构和培训中心提供AI伦理培训,并培养科学家进行前瞻活动(如视野扫描)、预部署测试(如红队测试)或AI模型的伦理影响评估的能力,以识别与其领域相关的风险和防护栏。
研究资助者、研究机构和培训中心支持安全审计的跨学科和参与性方法的发展,确保AI和非AI科学家以及受影响的社区参与对科学研究AI应用的评估。
结论
正如本报告所探讨的,人工智能在科学研究中的应用正带来一个充满可能性和挑战的新时代。由大数据和先进技术推动的人工智能的变革潜力为各领域提供了巨大的机会。从绘制森林砍伐图到辅助药物发现和预测罕见疾病,这些应用广泛且前景光明。通过气候科学、材料科学和罕见疾病诊断的案例研究,本报告展望了一个未来,在这个未来中,人工智能可以成为科学研究人员的一个强大工具。
然而,这些机会也带来了一系列与可重复性、跨学科合作和伦理相关的挑战。如何在确保研究完整性和负责任地使用人工智能的同时,让科学家利用自动化和加速发现的好处,找到平衡将是至关重要的。本报告呼吁科学界和相关政策制定者共同努力应对这些挑战,以符合皇家学会确保科学——以及人工智能——为人类利益而应用的承诺。
展望未来,根据本报告的发现,科学界和相关政策制定者需要关注三个行动领域。
首先,要解决在科学中使用人工智能的获取和使用能力问题。获取计算资源、高质量数据集、人工智能工具和相关专业知识对于实现科学突破至关重要。在报告发布时,获取基本基础设施的分布仍不平等。这与第4章中强调的私营部门日益增长的影响力相结合,可能对基于大学的AI研究的未来产生影响。这一领域的另一个挑战是AI专家和科学领域专家之间的知识壁垒(第3章)。为确保AI在研究社区中的公平分配,行动需要超越促进获取,专注于增强在不同科学领域和研究环境中协作、共同设计和使用AI的能力。
其次,开放科学的原则和实践为提高透明度、可重复性和公众监督提供了明确的途径——所有这些都已被证明在基于AI的科学项目中具有挑战性。正如第2章所强调的,如果不解决这些问题,风险很高,不仅对科学构成风险,而且如果部署不可靠或错误的基于AI的输出导致伤害,也会对社会构成风险。需要进一步的工作来理解开放科学与科学中的AI之间的相互作用,以及如何最好地减少模型和数据的公开发布带来的安全和风险。
第三,随着人工智能在科学中的作用不断扩大,需要在其设计和实施中以伦理和安全考虑为中心(第5章)。对大型数据集的日益依赖引发了关于敏感信息的潜在误用和可能加剧不平等或导致错误结论的偏见的问题。AI系统的自主性质也引入了安全风险,特别是在医疗或环境监测等领域,错误可能产生严重后果;或在化学和生物学等领域,数据集和模型可能被恶意利用。解决这些挑战需要跨学科合作,并增强科学家预测风险并提供监督以最小化潜在伤害的能力。
展望未来,科学界和政策制定者需要进一步探索人工智能对科学未来的影响。关于大学如何适应培训和技能要求、资助者如何继续支持非AI科学工作以及如何优化人工智能以实现环境可持续性等问题,对于理解这一趋势对科学、社会和地球的技术影响至关重要。
4000520066 欢迎批评指正
All Rights Reserved 新浪公司 版权所有