2022 年是生成式人工智能 (AI) 进入公众的一年,2023 年是它开始在商业世界中扎根的一年。因此,2024 年是 AI 未来的关键一年,因为研究人员和企业都在寻求确定如何将这种技术的进化性飞跃最实际地融入我们的日常生活。
生成式 AI 的发展与计算机的发展相映成趣,尽管时间急剧加快。少数参与者的大型集中操作的大型计算机让位于企业和研究机构可以使用的更小、更高效的机器。在随后的几十年里,渐进式的进步产生了业余爱好者可以修补的家用电脑。随着时间的推移,具有直观无代码界面的强大个人计算机变得无处不在。
生成式 AI 已经进入了“业余爱好者”阶段,与计算机一样,进一步的进展旨在以更小的封装实现更高的性能。2023 年,具有开放许可证的更高效的基础模型呈爆炸式增长,首先是 Meta 的 LlaMa 系列大型语言模型(LLMs)的推出,随后是 StableLM、Falcon、Mistral 和 Llama 2 等。DeepFloyd 和 Stable Diffusion 已经实现了与领先的专有模型的相对同等。通过开源社区开发的微调技术和数据集进行增强,许多开放模型现在可以在大多数基准测试中胜过除最强大的闭源模型之外的所有模型,尽管参数数量要小得多。
随着进步步伐的加快,先进模型的不断扩展功能将获得最多的媒体关注。但最具影响力的发展可能是那些专注于治理、中间件、训练技术和数据管道的发展,这些发展使生成式 AI 对企业和最终用户来说都更加值得信赖、可持续和可访问。
以下是来年需要关注的一些重要 AI 趋势:
更现实的期望
多模态AI
小型语言模型和开源进步
GPU 短缺和云成本
模型优化越来越容易获得
自定义本地模型和数据管道
更强大的虚拟代理
监管、版权和道德 AI 问题
影子 AI (和企业 AI 策略)
1
更现实的期望
当生成式 AI 首次引起大众关注时,典型的商业领袖的知识主要来自营销材料和令人窒息的新闻报道。有形的经验(如果有的话)仅限于摆弄 ChatGPT 和 DALL-E。现在尘埃落定,商业界现在对 AI 驱动的解决方案有了更精细的理解。
Gartner 技术成熟度曲线将生成式 AI 直接定位在“高估期望的顶峰”,正处于滑入“幻灭低谷”的风口浪尖,换句话说,即将进入一个(相对)平淡无奇的过渡期,而德勤 2024 年第一季度的《企业中生成的 AI 现状》报告指出,许多领导者“预计在短期内会产生重大的变革性影响”。现实情况可能介于两者之间:生成式 AI 提供了独特的机会和解决方案,但它不会是每个人的一切。
现实世界的结果与炒作相比如何,部分是一个视角问题。像 ChatGPT 这样的独立工具通常在大众的想象中占据中心位置,但顺利集成到已建立的服务中通常会产生更多的持久力。在当前的炒作周期之前,像 Google 在 2018 年推出的“Smart Compose”功能这样的生成式机器学习工具并没有预示着范式转变,尽管它们预示着当今的文本生成服务。同样,许多高影响力的生成式 AI 工具正在作为企业环境的集成元素实施,以增强和补充,而不是彻底改变或取代现有工具:例如,Microsoft Office 中的“Copilot”功能、Adobe Photoshop 中的“Generative Fill”功能或生产力和协作应用程序中的虚拟代理。
生成式 AI 首先在日常工作流程中建立动力的地方,对 AI 工具的未来影响将大于任何特定 AI 功能的假设优势。根据 IBM 最近对企业级公司 1,000 多名员工的调查,推动 AI 采用的前三个因素是 AI 工具的进步,这些工具更易于访问,降低成本和自动化关键流程的需求,以及嵌入到标准现成业务应用程序中的 AI 数量不断增加。
2
多模态AI(和视频)
话虽如此,先进的生成式 AI 的雄心正在增长。下一波进步不仅将集中在提高特定域内的性能上,还将集中在可以将多种类型的数据作为输入的多模态模型上。虽然跨不同数据模态运行的模型并不是一个严格的新现象——像 CLIP 这样的文本到图像模型和像 Wave2Vec 这样的语音到文本模型已经存在多年——但它们通常只在一个方向上运行,并且经过训练可以完成特定任务。
新一代跨学科模型,包括 OpenAI 的 GPT-4V 或 Google 的 Gemini 等专有模型,以及 LLaVa、Adept 或 Qwen-VL 等开源模型,可以在自然语言处理 (NLP) 和计算机视觉任务之间自由移动。新模型也将视频引入其中:1 月下旬,Google 宣布推出 Lumiere,这是一种文本到视频的扩散模型,还可以执行图像到视频任务或使用图像作为样式参考。
多模态 AI 最直接的好处是更直观、更通用的 AI 应用程序和虚拟助手。例如,用户可以询问图像并收到自然语言答案,或者大声询问修复某些内容的说明,并获得视觉帮助以及分步文本说明。
在更高层面上,多模态 AI 允许模型处理更多样化的数据输入,丰富和扩展可用于训练和推理的信息。尤其是视频,为整体学习提供了巨大的潜力。“有些摄像头是 24/7 全天候运行的,它们可以捕捉发生的事情,无需任何过滤,也没有任何故意性,”斯坦福大学以人为本的人工智能研究所 (HAI) 的杰出教育研究员 Peter Norvig 说。“AI 模型以前没有这种数据。这些模型将更好地理解一切。”
3
小型语言模型和开源进步
在特定于领域的模型中,特别是LLMs,我们可能已经达到了从更大的参数数量中获得收益递减的地步。OpenAI(据传其 GPT-4 模型有大约 1.76 万亿个参数)的首席执行官山姆·阿尔特曼 (Sam Altman) 在去年 4 月的麻省理工学院 Imagination in Action 活动中提出了同样的建议:“我认为我们正处于时代的末期,这些巨型模型将成为这些模型,我们将以其他方式让它们变得更好,”他预测道。我认为人们太关注参数计数了。
大型模型开启了这个正在进行的 AI 黄金时代,但它们并非没有缺点。只有最大的公司才有资金和服务器空间来训练和维护具有数千亿个参数的高能耗模型。根据华盛顿大学的一项估计,训练一个 GPT-3 大小的模型需要 1,000 多个家庭每年的用电量;一天的 ChatGPT 查询可以与 33,000 个美国家庭的每日能源消耗相媲美。
与此同时,较小的模型占用的资源要少得多。Deepmind 2022 年 3 月发表的一篇有影响力的论文(链接位于 ibm.com 外部)表明,与在较少数据上训练较大的模型相比,在更多数据上训练较小的模型会产生更好的性能。因此,LLMs都集中在从更少的参数产生更大的输出。正如 3-700 亿参数范围内的模型的最新进展所证明的那样,特别是那些在 2023 年基于 LLaMa、Llama 2 和 Mistral 基础模型构建的模型,可以在不牺牲太多性能的情况下缩小模型。
开放模型的功能将继续增长。2023 年 12 月,Mistral 发布了“Mixtral”,这是一个专家混合 (MoE) 模型,集成了 8 个神经网络,每个神经网络有 70 亿个参数。Mistral 声称,Mixtral 不仅在大多数基准测试中以 70 倍的推理速度优于 Llama 2 的 6B 参数变体,而且在大多数标准基准测试中,它甚至与OpenAI 更大的 GPT-3.5 相匹配或优于 OpenAI。此后不久,Meta 在 1 月份宣布已经开始训练 Llama 3 模型,并确认它们将开源。虽然细节(如模型尺寸)尚未确认,但有理由预期 Llama 3 将遵循前两代建立的框架。
较小模型中的这些进步具有三个重要优势:
它们有助于实现 AI 的大众化:可以在更容易实现的硬件上以更低的成本运行的更小模型使更多的业余爱好者和机构能够研究、训练和改进现有模型。
它们可以在较小的设备上本地运行:这允许在边缘计算和物联网 (IoT) 等场景中使用更复杂的 AI。此外,在本地(如用户的智能手机)运行模型有助于避免因与敏感的个人或专有数据交互而引起的许多隐私和网络安全问题。
它们使 AI 更易于解释:模型越大,就越难确定它如何以及在何处做出重要决策。可解释的 AI 对于理解、改进和信任 AI 系统的输出至关重要。
4
GPU短缺和云成本
小型模型的趋势将受到必要性和创业活力的推动,因为云计算成本随着硬件可用性的减少而增加。
“大公司(以及更多公司)都在尝试将 AI 功能引入内部,并且在 GPU 上出现了一些运行,”斯坦福大学 HAI 副主任兼研究部主任 James Landay 说。“这不仅会给增加 GPU 产量带来巨大压力,还会给创新者带来巨大压力,让他们想出更便宜、更容易制造和使用的硬件解决方案。”
正如 2023 年底的一份 O'Reilly 报告所解释的那样,云提供商目前承担了大部分计算负担:相对较少的 AI 采用者维护自己的基础设施,而硬件短缺只会增加设置本地服务器的障碍和成本。从长远来看,这可能会给云成本带来上行压力,因为提供商会更新和优化自己的基础设施以有效满足生成式 AI 的需求。
对于企业来说,驾驭这种不确定的环境需要灵活性,包括两种模型(必要时依赖更小、更高效的模型,或在可行的情况下依赖更大、性能更高的模型)和部署环境。“我们不想限制人们部署 [模型] 的位置,”IBM 首席执行官 Arvind Krishna 在 2023 年 12 月接受 CNBC 采访时说(链接位于 ibm.com 外部),指的是 IBM 的 Watson 平台。“因此,如果他们想在大型公共云上部署它,我们会在那里进行部署。如果他们想在 IBM 部署它,我们将在 IBM 进行部署。如果他们想自己做,而且他们恰好有足够的基础设施,我们会在那里做。
5
模型优化越来越容易获得
开源社区最近的输出很好地满足了最大化更紧凑模型性能的趋势。
许多关键进步已经(并将继续)由新的基础模型驱动,而且由用于训练、调整、微调或对齐预训练模型的新技术和资源(如开源数据集)驱动。2023 年流行的与模型无关的著名技术包括:
低秩适应 (LoRA): LoRA 不是直接微调数十亿个模型参数,而是需要冻结预先训练的模型权重并在每个 transformer 块中注入可训练层,这些层将模型权重的变化矩阵表示为 2 个更小(较低秩)的矩阵。这大大减少了需要更新的参数数量,进而大大加快了微调速度,并减少了存储模型更新所需的内存。
量化: 与降低音频或视频的比特率以减少文件大小和延迟一样,量化会降低用于表示模型数据点的精度(例如,从 16 位浮点到 8 位整数),以减少内存使用并加快推理速度。QLoRA 技术将量化与 LoRA 相结合。
直接偏好优化 (DPO): 聊天模型通常使用来自人类反馈的强化学习 (RLHF) 来使模型输出与人类偏好保持一致。RLHF 虽然功能强大,但复杂且不稳定。DPO 承诺了类似的好处,同时计算轻量级且大大简化。
随着 3-700 亿个参数空间中开源模型的并行进步,这些不断发展的技术可以通过为初创公司和业余爱好者等较小的参与者提供以前遥不可及的复杂 AI 功能来改变 AI 领域的动态。
6
自定义本地模型和数据管道
因此,2024 年的企业可以通过定制模型开发来追求差异化,而不是围绕“Big AI”的重新打包服务构建包装器。借助正确的数据和开发框架,现有的开源 AI 模型和工具可以针对几乎任何实际场景进行定制,从客户支持使用到供应链管理,再到复杂的文档分析。
开源模型使组织有机会快速开发强大的自定义 AI 模型,这些模型基于其专有数据进行训练,并针对其特定需求进行了微调,而无需昂贵的基础设施投资。这在法律、医疗保健或金融等领域尤其重要,在这些领域,基础模型在预训练中可能没有学习高度专业化的词汇和概念。
法律、金融和医疗保健也是可以从足够小的模型中受益的主要示例,这些模型可以在适度的硬件上本地运行。将 AI 训练、推理和检索增强生成 (RAG) 保持在本地,可以避免专有数据或敏感个人信息被用于训练闭源模型或以其他方式通过第三方之手的风险。使用 RAG 访问相关信息,而不是将所有知识直接存储在 LLM 本身有助于减小模型大小,进一步提高速度并降低成本。
随着 2024 年模型竞争环境继续公平,竞争优势将越来越多地由专有数据管道驱动,这些管道可实现行业微调。
7
更强大的虚拟代理
凭借更复杂、更高效的工具和一年的市场反馈,企业已准备好将虚拟代理的使用案例扩展到简单的客户体验聊天机器人之外。
随着 AI 系统加速并整合新的信息流和格式,它们不仅扩展了通信和指令遵循的可能性,还扩展了任务自动化的可能性。“2023 年是能够与 AI 聊天的一年。多家公司推出了一些东西,但互动总是你输入一些东西,然后它又输入一些东西,“斯坦福大学的 Norvig 说。“到 2024 年,我们将看到代理商能够为您完成工作。预订、计划旅行、连接其他服务。
尤其是多模式 AI,它显著增加了与虚拟代理无缝交互的机会。例如,用户不是简单地向机器人询问食谱,而是可以将摄像头对准打开的冰箱并请求可以使用可用成分制作的食谱。Be My Eyes 是一款移动应用程序,可将盲人和低视力人士与志愿者联系起来,以帮助完成快速任务,它正在试用 AI 工具,帮助用户通过多模态 AI 直接与周围环境互动,而不是等待人类志愿者。
探索 IBM watsonx™ Assistant:市场领先的对话式 AI,无缝集成支持业务→的工具
8
监管、版权和道德 AI 问题
增强的多模式能力和降低的进入门槛也为滥用打开了新的大门:深度伪造、隐私问题、偏见的延续,甚至逃避 CAPTCHA 保护措施,对于不良行为者来说可能变得越来越容易。2024 年 1 月,社交媒体上出现了一波露骨的名人深度伪造浪潮;2023 年 5 月的研究表明,与 2022 年同期相比,网上发布的语音深度伪造数量是 8 倍。
监管环境的模糊性可能会减缓中短期内的采用,或者至少会减缓更积极的实施。对新兴技术或实践的任何重大、不可逆转的投资都存在固有风险,这些投资可能需要在未来几年的新立法或不断变化的政治阻力之后进行重大重组,甚至成为非法投资。
2023 年 12 月,欧盟 (EU) 就《人工智能法案》达成了临时协议(链接位于 ibm.com 外部)。除其他措施外,它禁止不分青红皂白地抓取图像以创建面部识别数据库、具有潜在歧视性偏见的生物识别分类系统、“社会评分”系统以及使用人工智能进行社会或经济操纵。它还试图定义一类“高风险”人工智能系统,这些系统可能会威胁到安全、基本权利或法治,并将受到额外的监督。同样,它为所谓的“通用 AI (GPAI)”系统(基础模型)设定了透明度要求,包括技术文档和系统性对抗性测试。
但是,虽然 Mistral 等一些关键参与者居住在欧盟,但大多数开创性的 AI 开发都发生在美国,私营部门的 AI 实质性立法需要国会采取行动——这在选举年可能不太可能。10 月 30 日,拜登政府发布了一项全面的行政命令(链接位于 ibm.com 外部),详细说明了联邦机构使用 AI 技术的 150 项要求;几个月前,政府获得了著名 AI 开发人员(链接位于 ibm.com 外部)的自愿承诺,以遵守某些信任和安全护栏。值得注意的是,加利福尼亚州和科罗拉多州都在积极寻求自己的立法,以维护人工智能方面的个人数据隐私权。
中国更积极地采取了正式的人工智能限制措施,禁止社交媒体上推荐算法的价格歧视,并强制要求对人工智能生成的内容进行明确标记。关于生成式 AI 的未来法规旨在要求用于训练 LLMs以及模型随后生成的内容必须“真实准确”,专家已采取这些措施来表明审查 LLM 输出的措施。
与此同时,受版权保护的材料在用于内容生成的 AI 模型(从语言模型到图像生成器和视频模型)的训练中的作用仍然是一个备受争议的问题。《纽约时报》对 OpenAI 提起的备受瞩目的诉讼(链接位于 ibm.com 外部)的结果可能会对 AI 立法的轨迹产生重大影响。对抗性工具,如 Glaze(链接位于 ibm.com 外部)和 Nightshade(链接位于 ibm.com 外部)——都是在芝加哥大学开发的——已经出现在创作者和模型开发人员之间的某种军备竞赛中。
9
影子AI
对于企业来说,这种不断升级的法律、监管、经济或声誉后果的可能性,与生成式 AI 工具的普及和可访问性相结合。组织不仅必须围绕生成式 AI 制定谨慎、连贯和清晰阐述的公司政策,而且还必须警惕影子 AI: 员工在工作场所对 AI 的“非官方”个人使用。
影子 AI 也被称为“影子 IT”或“BYOAI”,当不耐烦的员工寻求快速解决方案(或者只是想以比谨慎的公司政策允许的速度更快地探索新技术)在工作场所实施生成式 AI 而不通过 IT 部门获得批准或监督时,就会出现影子 AI。许多面向消费者的服务(有些是免费的)甚至允许非技术人员即兴使用生成式 AI 工具。在安永会计师事务所的一项研究中,90%的受访者表示他们在工作中使用人工智能。
这种进取精神在真空中可能很棒,但热心的员工可能缺乏有关安全、隐私或合规性的相关信息或观点。这可能会使企业面临巨大风险。例如,员工可能会在不知不觉中将商业机密提供给面向公众的 AI 模型,该模型不断根据用户输入进行训练,或者使用受版权保护的材料来训练用于内容生成的专有模型,并使他们的公司面临法律诉讼。
与许多正在进行的发展一样,这突显了生成式 AI 的危险如何几乎随其功能线性增加。能力越大,责任越大。
展望
随着人工智能进入关键的一年,了解和适应新兴趋势对于最大限度地发挥潜力、最大限度地降低风险和负责任地扩大生成式 AI 的采用至关重要。