作为生活中最为常见的沟通形式,语言的介质与载体并不限于声音或文字,它同样也以数据的形式存储于计算机等硬件设施中,经历复制、传输、翻译等过程,完成传播信息、沟通思想的使命。调查显示,世界范围内仍在使用的语言数量超过7,100种1。全球化时代下,语言的隔阂为人类造成诸多困扰,翻译则成为连接起各个国家和民族的沟通桥梁
“一个没有隔阂的世界”(A World without Barriers)——这是今年9月30日国际翻译日的主题,也是我们长期对世界所寄予的美好憧憬。如今,人工智能等技术为人类的未来想象提供了有力支持,AI翻译的兴起使人们可以畅想一个语言无界、沟通无阻的世界。
现实与挑战:不断上涨的翻译需求
随着全球联系不断增强,各国经济、贸易、文化等领域的发展彼此影响、相辅相成。有效沟通、相互理解构成了各国合作的基础,突破语言沟壑并达成准确共识成为了迫在眉睫的议题。研究表明,在跨文化交际中,外语仍是实现沟通互动的首要障碍,高于价值观差异、刻板印象等其他文化因素2。全球语言市场也因此不断扩大,预计今年可达577亿美元3。
与此同时,在英语成为世界性语言并被广泛学习、传播与使用的今天,全球约四成语言正濒临消亡。保护语言的多样性,亦是在保护全球文化多样性。为了防止少数文化的流失,世界也需要听到濒危语种的声音,而翻译也因而成为走近这些文化的媒介。
目前,翻译服务可大致分为人工翻译与机器翻译两类。人工翻译往往以“信、达、雅”为追求,保证了翻译质量。然而,随着全球沟通愈发密切,翻译量成倍增长,仅靠人工翻译已难以胜任。在庞大的翻译数据量中还夹杂了诸多无意义的噪声,人工处理需投入大量时间,相较于高昂的人力成本则显得大材小用。此外,人为介入还难免会对翻译内容产生主观因素的影响。因此,机器翻译自上世纪中后期开始出现,如今也已成为人们生活中的常用工具之一。
图1:全球机器翻译市场规模发展趋势
回溯与展望:机器翻译的发展历程
回顾机器翻译的发展历程,主要可分为三个阶段:基于规则的机器翻译(RBMT, Rule-based Machine Translation)、统计机器翻译(SMT,Statistical Machine Translation)与神经机器翻译(NMT,Neural Machine Translation)。
图2:机器翻译的发展历程
神经机器翻译采用一种端到端的编码器-解码器结构,无需应用预设的翻译规则,亦不会割裂语句、孤立地进行翻译,而是直接解码源文本,整体性地考虑输入和输出的句子内容。 以神经网络数十年的发展为基础,神经机器翻译获得了极快速的发展。
图3:神经机器翻译优化翻译流程
2015年至2016年,百度与谷歌先后发布自主开发的互联网神经机器翻译系统,使用当时最为先进的训练技术,引领机器翻译进入神经网络翻译时代。其后,各大互联网及信息企业皆加入神经机器翻译的发展轨道,并与企业理念或产品服务进行深度结合。
Meta公司推出的“无语言遗漏计划”(No Language Left Behind)以帮助全球数十亿人就其所使用的200多种语言进行高质量翻译为目标,于今年7月宣布构建并开源无语言遗漏人工智能模型。该模型包括超过500亿参数,借助AI超级计算机加以训练,预计每天可以进行超过250亿次翻译4。 英伟达(NVIDIA)推出的Maxine软件开发套件则以提供更为良好的实时通讯体验为宗旨,通过AI驱动的软件开发工具包(SDK,Software Development Kit)提供高质量的实时翻译功能,并可通过图像处理完成视线矫正,保证眼神沟通5。
技术与未来:存储技术升级促进语言共生共荣
机器翻译的不断进化无疑为计算机技术的发展提出了更高的要求与更为强大的动能。自统计机器翻译提出以来,文本语料库的建立与不断扩容成为数据存储的又一挑战。
通信技术的发展令人类日常沟通产出所代表的数据量达到了难以估计的规模:IBM的统计数据表明,全球范围内每天有2.5百亿亿字节的数据产生6,随着人类社会的进步及技术应用的多样化与复杂化,这一数字无疑会继续膨胀。若要真正实现全球文化的良好沟通与共生共荣,信息技术应为跨语言的文化内容传播提供及时而有力的支持,数据传输速度、芯片数据读取速度等性能则成为关键性的硬件指标。
图4:SK海力士全球首发238层 512Gb TLC 4D NAND闪存
在人工智能、大数据等技术的发展下,若要最大限度地发挥海量数据规模语料库的作用,使机器翻译更有效地服务语言市场,快速的数据访问成为首要技术需求。闪存技术的发展即为此做出了巨大贡献。今年8月,SK海力士宣布成功研发全球首款业界最高层数238层的512Gb TLC 4D NAND闪存,并将于明年上半年投入量产。这款NAND闪存的数据传输速度达到2.4Gbps,相比前一代产品提高了50%。它还采用了4D架构,具有单元面积更小,生产效率更高的优点。此产品未来将使用范围逐渐扩展至高容量的服务器SSD,可望有助于运作海量的语料库。
与此同时,神经机器翻译的实现离不开深度学习的运用。作为高度复杂的机器学习算法,深度学习以赋能机器、使其像人一样具有分析学习能力为目标。它将待学习的数据放在算力设备上运行,经过神经网络亿万次的计算和调整,最终得到最优解。
为了不断优化其学习成果,令翻译产出更加贴合语境,研究人员需要增加语言模型在每个语对分区的训练数据量。语言模型、学习算法的复杂程度以及误差容限范围等要素又进一步决定了深度学习所需的数据总量7。数据的数量与质量最终则会影响其在算法模型上的应用效果,对神经机器翻译的输出质量而言至关重要。
图5: SK海力士DDR5 DRAM CXLTM存储器
图6:SK海力士HBM3 DRAM存储器
因此,神经机器翻译需要大规模浮点运算的支持,以提升模型的推断速度等指标。计算机算力的提升成为神经机器翻译的必要技术支撑8。应对这一市场需求,SK海力士近期开发的HBM3 DRAM及首款CXL存储器就以技术创新与产品突破为人工智能及深度学习提供了更多优势与可能性。最新研发的DDR5 DRAM CXLTM存储器基于DDR5 DRAM,以其扩展性见长,可以弥补服务器市场中存储器容量和性能的局限性,灵活扩展内存。其总线带宽达360-480GB/s,总容量达1.15TB,在各大高性能计算领域备受瞩目。此外,HBM3目前已投入量产,它采用16通道架构,运行速度为6.4Gbps,带宽可达819GB/s,能显著增强加速计算的性能。通过算力的升级,更多的语言将被转化为数据,实现更为准确的语言转换与意义转达,为创造一个语言无界、沟通无阻的未来提供技术支持与实力支撑。
随着科学技术持续突破难关,人类对未来的想象也不断打破原有框架与局限,曾经的“不可能”已转变为现实。全球化串联起世界各国及各类群体,人类社会的发展不再因地域或语言的隔阂而各自孤立,每一次的技术创造都可面向整个世界,以人类福祉为最终目的。
在直面挑战、不断创新、力求产品与技术焕新的道路上,SK海力士始终关切全球社会的发展,以自身技术优势助力一个更美好的世界。在宏大的世界叙事下,藏于计算机硬件之内的半导体或许显得微小。但正是这微小的半导体,推动并创造着未来社会的无限可能。
1https://blog.busuu.com/most-spoken-languages-in-the-world/
3https://www.statista.com/statistics/257656/size-of-the-global-language-services-market/
4https://ai.facebook.com/research/no-language-left-behind/
5https://blogs.nvidia.cn/2022/03/22/maxine-reinvents-communication-ai/
7https://postindustria.com/how-much-data-is-required-for-machine-learning/