技术featured

人工智能的起源、发展和未来

By 2024年10月14日 No Comments

能够像人类一样行走、说话和思考的人工智能机器人,过去常常是科幻漫画和电影中的热门题材。曾经只存在于人类想象中的人工智能和机器人,如今已不再是梦想,因为它正在走进现实并且改变着人们的日常生活。那么,人工智能始于何时,经历了怎样的演变,又会创造怎样的未来呢?

“人工智能”的起源与发展

人工智能发展的历史演变进程

人工智能发展的历史演变进程

 

人工智能的起源可以追溯到20世纪50年代。1950年,英国数学家艾伦·图灵(Alan Turing)声称机器能够思考,并设计了“图灵测试(The Turing Test)”作为验证方法以佐证这个观点,这被认为是首次提出人工智能概念的研究。1956年,达特茅斯会议(Dartmouth Conference)召开,向世界介绍了人工智能的概念。会议讨论了机器能否像人类一样学习和发展,并首次使用了“人工智能”这一术语。

在这一时期,人们对人工神经网络(Artificial Neural Network)模型的研究也很活跃。1957年,弗兰克·罗森布拉特(Frank Rosenblatt)用他的 “感知器(Perceptron)”模型实证了计算机可以识别和学习模式的概念,这是对”神经网络”理论的一次实践检验。“神经网络”理论是由神经生理学家沃伦·斯特吉斯·麦卡洛克(Warren Sturgis McCulloch)和沃尔特·皮茨(Walter Pitts)于1943年提出的,他们根据神经细胞的相互作用原理组建了一个简单的计算模型。尽管这些早期的研究成果引发了公众的期待,但由于计算能力、逻辑和数据缺乏等方面的限制,人工智能的研究很快就停滞不前。

20世纪80年代出现了 “专家系统(Expert System)”,它可以根据人类输入的规则自动做出决策。“专家系统”在医学、法律和零售业等实用领域发挥的诊断、分类和分析等功能,暂时性地再度引起了人们对人工智能的关注。然而,该系统的局限性在于仅依赖人工设定的规则运行,缺乏理解现实世界的复杂性的能力,因此发展受到了限制。

20世纪90年代,过去只能听从人类指令的人工智能,利用“机器学习(Machine Learning)”算法开始自主发现规则进行学习,这得益于数码技术及互联网的出现。有了来自网络的大量数据,人工智能可以自主学习规则,甚至发现人类无法发现的规则。基于“机器学习”的人工智能研究开始重新产出成果。

人工智能的核心技术,”深度学习”的发展

人工神经网络和深度学习发展的时间线

人工神经网络和深度学习发展的时间线

 

人工神经网络的早期研究在1969年进入了长期停滞期,因为人们发现先前提出的感知器模型无法有效解决非线性问题1。此后,重新将这一研究推向前沿的正是被誉为”深度学习之父”的杰弗里·辛顿(Geoffrey Hinton)。

1986年,辛顿将反向传播算法2应用到由多层人工神经网络构成的多层感知器(Multi-Layer Perceptrons)理论中,证明其可以解决感知器存在的现有问题。这一举措重燃了人工神经网络研究的热情。然而,随着神经网络深度的增加,出现了学习过程和结果异常的问题。

2006年,辛顿发表了题为《深度信念网络的快速学习算法(A Fast Learning Algorithm for Deep Belief Nets)》的论文,确立了深度学习的基本概念,并介绍了深度信念网络(DBN,Deep Belief Network),这种生成式模型可大幅提升多层感知器的性能。深度信念网络通过无监督学习3对每一层进行预训练,然后对整个网络进行微调,显著地提高了神经网络的学习速度和效率, 这一进展为未来深度学习的发展铺平了道路。

1早期感知器模型为单层感知器(Single-layer Perceptron),不能处理XOR等非线性问题,处理这类问题时,在两个输入值相同时需输出0,而不同时则需输出1。
2反向传播(Backpropagation):神经网络中的一种算法,用于计算输出值与真实值之间的差值,并从输出值开始按相反顺序调整权重,以减少误差。
3无监督学习(Unsupervised Learning):机器学习中的一种学习理论,不给出输入数据的正确答案,而是让其发现和理解隐藏结构或模式的学习方法。

Kien Nguyen, Arun Ross,《基于现有CNN特征的虹膜识别:深度学习视角》,IEEE ACCESS SEPT(2017),第 3 页

Kien Nguyen, Arun Ross,《基于现有CNN特征的虹膜识别:深度学习视角》,IEEE ACCESS SEPT(2017),第 3 页

 

2012年,发生了一件历史性事件,证明了深度学习的卓越性能。由辛顿率领的AlexNet在图像识别挑战赛(ILSVRC, ImageNet Large Scale Visual Recognition Challenge)中夺得冠军。基于深度学习的AlexNet模型实现了84.7%的图像识别率,远超其他模型,值得一提的是,它将上一年冠军的错误率从25.8%降至16.4%。

自2010年以来,深度学习已成为人工智能研究的主流,其迅速发展的背后有两个主要原因。首先是包括图形处理器(GPU ,Graphics Processing Unit)在内的计算机系统的进步。GPU最初是为处理计算机图形而创建的,与中央处理器(CPU ,Central Processing Unit)相比,GPU并行处理类似的重复运算速度更快。2010年,GPU通用计算(GPGPU ,General-Purpose computing on GPU)技术的出现,使GPU取代了CPU的角色。GPU的应用领域愈发广泛,特别是在训练人工神经网络方面,极大地加快了深度学习的发展。深度学习需要对海量训练数据进行分析以提取特征,并且需要进行迭代计算,而GPU具备的并行计算结构则非常适合这一需求。

其次是由于数据量的增加,因为训练人工神经网络需要大量数据。过去,数据仅限于输入计算机的信息,但自20世纪90年代以来,随着互联网的普及和搜索引擎的发展,可处理的数据范围呈指数级增长。2000年以来,智能手机和物联网(IoT, Internet of Things)得到发展,催生了大数据(Big Data)的概念,现实世界到处都能实时收集数不清的数据。深度学习算法经过更多数据的训练后变得更加精细化,数据模式的转变无疑为深度学习技术奠定了基础。

2016年,深度学习再次改变了世界。谷歌DeepMind开发的人工智能AlphaGo以4胜1负的比分战胜了围棋大师李世石九段,这一壮举让全世界都铭记人工智能的存在。AlphaGo是通过融合深度学习算法、强化学习(Reinforcement Learning)4和蒙特卡洛树搜索(MCTS,Monte Carlo Tree Search)5算法而创建的。借助此种方式,它能够进行数万次的自我对弈、自主学习,并模仿人类直觉以预测数值,甚至是制定战略。“战胜人类的AI”问世,标志着人工智能时代正式到来。

4强化学习(Reinforcement Learning):人工智能学习行为的方法之一,以奖励的形式告知行动结果,并且可以在特定情况下选择最佳行动的策略。
5蒙特卡洛树搜索(Monte Carlo tree search):一种通过反复生成一系列随机数来处理近似函数值的概率算法。 其功能是将目前情况下可选择的行为结构化为探索树,并通过随机模拟推论各行为的得失来决定最佳行为。

“生成式人工智能”热潮始于ChatGPT

生成式人工智能概念图

生成式人工智能概念图

 

2022年末,人类迎来了人工智能技术的巨大变革。OpenAI推出了ChatGPT,由大语言模型(LLM,Large Language Model)6GPT(Generative Pre-trained Transformer)3.5驱动,标志着生成式人工智能时代的开启。生成式人工智能渗透到了曾被视为人类独有的“创作”领域,能够生成各种格式的高质量内容。它超越了基于数据进行预测或分类的深度学习层面,可根据用户需求,使用LLM或各种图像生成模型(如 VAE、GAN、扩散模型等),自行生成结果。

6大语言模型(Large Language Model):以海量数据基础,进行多种自然语言处理任务的深度学习算法。

生成式人工智能的诞生可以追溯到2014年,当时伊恩·古德费洛(Ian Goodfellow)发布了生成对抗网络(GANs,Generative Adversarial Networks)模型,该模型由两个神经网络相互竞争学习的结构而组成。一个神经网络生成与真实数据无异的新数据,另一个神经网络将其与真实数据进行比较,并做出判断,随着这一竞争和判断的过程不断重复,生成的数据也越来越精细。随着时间推移,GANs模型不断得到修改和完善,目前已被广泛应用于图像生成和转换等多个领域中。

2017年,名为Transformer的自然语言处理(NLP,Natural Language Processing)模型问世。Transformer将数据间的关系视为重要变量,通过对特定信息给予更多”关注”,它可以学习数据之间的复杂关系和模式,捕捉更多重要信息,从而产生更高质量的输出结果。Transformer模型为语言理解、机器翻译和交互系统等自然语言处理任务带来了革命性变化,尤其是它对前文提到的GPT等LLM的出现产生了重大影响。

GPT于2018年首次发布,由于每年都会使用更多的参数和训练数据,其性能一直在飞速提升。2022年,搭载GPT 3.5的交互式人工智能系统ChatGPT发布,彻底改变了人工智能的模式。ChatGPT能通过理解用户对话的上下文来提供适当的回复,并回答各种问题。ChatGPT推出一周内,用户数量就突破了100万,两个月内活跃用户数量就超过了1亿,在全球范围内引发了爆炸性的关注。

2023年,Open AI推出了GPT-4,再次实现技术飞跃。GPT-4使用的数据集约为GPT-3.5的500倍,已进化为大型多模态模型(LMM,Large Multimodal Model)7,可同时处理文本之外的图像、音频和视频等各种输入数据,并生成各种数据格式。随着ChatGPT引发的生成式人工智能热潮,各企业纷纷推出了多种生成式人工智能服务。其中,谷歌推出的可同时识别并理解文本、图像和音频的Gemini、Meta推出的能准确识别并分离出图像中特定对象的SAM,和Open AI推出的可根据文本提示制作视频的Sora等均为具有代表性的生成式人工智能。

7大型多模式模型(Large Multimodal Model):一种深度学习算法,除文本外,还可处理多种不同类型的数据,包括图像、音频等。

生成式人工智能市场才刚刚起步。根据全球市场调研公司IDC(International Data Corporation)的报告,2024年生成式人工智能市场规模有望达到401亿美元,是上一年的2.7倍。同时,该报告还预测,该市场增长速度将逐年加快,到2027年有望达到1511亿美元。展望未来,生成式人工智能将超越软件,并转向硬件和互联网服务及其他领域。其性能和便利性也将不断提升,让更多人轻松使用。

改变日常生活的人工智能,未来走向会如何?

就如同2000年的谷歌搜索和2010年的移动社交媒体一样,人工智能正在成为焦点,成为整个社会新变化和新机遇的驱动力。其技术进步的速度前所未有,而在此过程中,人类面临的挑战和担忧也与日俱增。

那么,“下一代生成式人工智能技术”将是什么呢?当前最受瞩目的未来人工智能技术无疑是“端侧AI(On-Device AI)”。通常情况下,人工智能服务需要与大型云服务器进行通信,将数据传输到边缘设备。然而,端侧AI往往可以通过在手机、个人电脑或其他电子设备上安装人工智能芯片组和小型LLM (sLLM, Smaller LLM)自主运行人工智能服务。这种替代方案不仅可以解决与运行人工智能相关的安全和资源问题,同时还可以提供更加个性化的人工智能服务。

云侧人工智能和端侧人工智能的架构比较

云侧人工智能和端侧人工智能的架构比较

 

与端侧AI一样,未来人工智能也将搭载在更多的设备上,其形式也将不断进化。市场上已经出现了一些我们只在电影中见过的创新产品。美国人工智能初创公司Humane于2023年推出的AI Pin是一款可穿戴的人工智能设备,搭载激光墨水显示屏,可以将菜单投射到用户的手掌上。2024年,在CES上引起关注的Rabbit R1和Brilliant Labs推出的Frame,同样是具有创新性的人工智能可穿戴设备。此外,如苹果公司的Vision Pro和Meta公司的Quest等采用了人工智能技术的混合现实(MR, Mixed Reality)头戴式设备,正在开辟一个超越传统虚拟现实(VR,Virtual Reality)和元宇宙的新市场。

科技的迅猛发展为人类创造了新的机遇,但同时也带来了一系列社会问题。人工智能技术的快速发展引起了人们的担忧,担心社会无法跟上这些技术进展的步伐。同时,在现实世界中出现了不少滥用人工智能的案例,制造精巧虚假内容导致大量假新闻的产生,加剧了社会混乱。最近,围绕着美国等多个面临大型选举的国家,人们对虚假视频和图片等 “深度伪造(Deepfake)”内容泛滥的情况表示深切担忧。

生成式人工智能(DALL·E)描述的深度伪造技术引起的社会焦虑和混乱

生成式人工智能(DALL·E)描述的深度伪造技术引起的社会焦虑和混乱

 

人工智能在开发和使用过程中可能存在一些风险因素。由于生成式人工智能会从网络上抓取并重新组合可公开获得的资料进行预训练,许多创作作品可能会成为抄袭对象。此外,人们还担心用相同的生成式人工智能程序并用相似的提示语所生成的内容可能会产生版权纠纷。人工智能不仅可以帮助人们完成工作、提高生产率,还有可能取代一些工作岗位,对劳动力市场结构带来改变,这种前景显然并不受欢迎。

人工智能创造的世界已经超出了人类的想象。一个我们从未经历过的世界正在快速逼近。面对这突如其来的未来变革,我们该如何应对?为了做出正确的回应,我们需要深入理解和分析人工智能,并进行更具体的关注和社会讨论。

// // wechat qr 현재 URL 로 변경 // https://github.com/mkdynamic/jquery-popupwindow /*! * Display popup window. * * Requires: jQuery v1.3.2 */ // weibo show