1.2 自然语言处理的发展历程

自然语言处理是一个包含计算机科学、语言学、心理学等多个学科的交叉学科,旨在让计算机能够处理以及运用自然语言。近年来随着深度学习技术和网络技术的飞速发展、数据库知识库的不断增大以及相关算法研究的进步,人工智能领域的研究有了巨大进步。自然语言处理的许多成果已经落地并应用于社会的方方面面,比如互联网评论分析、语音识别、文本生成等。

本节首先从自然语言处理的发展历史出发,探究在这个过程中不同的新技术对自然语言处理的推动作用,分析进步的原因。然后总结其研究现状,存在的局限性以及面临的挑战。最后对自然语言处理的发展前景进行展望。

1.2.1 自然语言处理的发展历史

根据发展程度以及研究热度的不同,自然语言处理的发展历史大致可以分为四个时期:20世纪50年代以前的萌芽期,50年代到70年代的发展期,70年代到90年代的低谷期,90年代中期至今的繁荣期。

1.萌芽期

1936年,英国数学家图灵(A. M. Turing)发明了“图灵机”,搭建了联系数理逻辑与现实世界的桥梁,为后来的自然语言处理系统的构建奠定了理论基础。20世纪50年代,被认为是现代计算机科学基础的自动机理论在图灵算法的计算模型的基础上面世了。这一理论为后续自然语言处理系统的产生奠定了基础。在1954年的乔治城实验中,通过机器自动翻译的方式,将60多句俄文翻译成英文,这是最早的自然语言处理系统之一。被广泛认为是人工智能学科起源的1956年达特茅斯会议上,如何教会机器使用人类语言也被提出作为人工智能的核心问题之一。

在这一时期,根据对自然语言处理所采用的方法以及数学工具的不同,可以划分出两个派别,即依据规则的符号派和依据概率的随机派。符号派坚持要对自然语言进行完整的处理,从而得到十分精确以及完整的结果。概率派则希望通过概率统计的方法如经典的贝叶斯方法对自然语言进行处理,这样更高效,也便于推广到不同的细分领域。

两派学者都进行了大量的研究,在许多领域尤其是语音识别处理和机器翻译两大领域取得了一定的成功,并在部分细分领域研发了能够落地的系统。这些学者的研究搭建了自然语言处理的理论和技术的基础建筑,为后面的高速发展期奠定了坚实的基础。

2.发展期

20世纪60年代,法国格勒诺布尔理科医科大学启动了一个机器翻译的项目,该项目的负责人、法国数学家沃古瓦教授提出将自动语言翻译的过程归纳为以下几个步骤:原语词法分析、原语句法分析、原语翻译语词汇转换、原语翻译结构转换、译语句法生成、译语词法生成。基于以上步骤构建的翻译系统已经接近实用水平。除了机器翻译之外,概率统计的方法也在机器语音识别领域的研究中取得了一定的成功。与此同时,隐性马尔可夫模型和噪声信道与解码模型的提出,极大地丰富了自然语言处理的基础理论,也得到了广泛的应用。除了概率统计的方法以外,逻辑推理方法的应用也取得了一定成绩,比如法国的阿兰·科尔默劳尔建立的Prolog语言及其系统,在机器翻译的任务中取得了良好的效果。

3.低谷期

自然语言处理的发展也并非一帆风顺。在20世纪70~80年代,当时计算机语料库规模有限,加上不少理论和技术的局限性,尽管美国、苏联、欧洲等投入了许多的人力物力财力,这期间缺少实质性的创新与突破,许多系统也未能取得令人满意的发展结果,自然语言处理发展一度陷入低谷。

4.繁荣期

1993年日本神户召开了第四届机器翻译高层会议。在这个会议上,英国学者哈钦斯指出,机器翻译领域的研究进入了一个新时代。这个时代的标志是机器翻译领域引入了语料库,再用基于规则的技术进行处理。机器翻译研究上的变革,也推动自然语言处理进入了繁荣期。

在此期间,统计语言模型被应用于自然语言处理的研究中。2003年,Bengio第一次将神经网络用于处理自然语言问题。发展至今,基于预训练模型的自然语言处理日趋成熟,被广泛应用于各个任务中。

这一时期的自然语言处理研究主要有三个特点:首先是自然语言处理的各个领域都开始大批量地使用概率统计的方法;其次是计算机的处理速度和数据容量的大幅度提高,使得计算机能够获得以及处理更多数据,同时越来越多的数据库也提高了信息的真实可用性;最后是信息传输技术也即网络技术的不断发展,从3G、4G再到5G,信息传输的成本不断降低,速度不断加快,提高了信息的处理能力。这三大因素成为自然语言处理繁荣发展的内在核心动力。

1.2.2 自然语言处理的研究现状

基于神经网络的深度学习方法为自然语言处理注入新的血液,神经网络把自然语言处理问题拓展到了连续的值域,使得问题求解所使用的数学工具与以前完全不同,有了更多丰富的选择,极大地促进了自然语言处理研究的发展。但由于自然语言处理涉及许多领域并拥有许多分支,各个领域和分支的发展时间和速度也不一样,不好一一进行分析,故从以下几个方面对自然语言处理领域总体的研究现状进行介绍。

1.基础搭建

自然语言处理的一大难点在于想要让机器处理自然语言甚至理解,不仅需要逻辑,还要知识储备,也就是需要有庞大的数据库的支撑才能对文本做进一步的处理,这时语料库就发挥了巨大的作用。现阶段研究学者已经开发完成了一批具有一定规模的语料库,可以在实际应用中帮助发挥巨大作用,比如北京大学语料库和综合型语言知识库。与此同时,有关汉字、汉语拼音和普通话的一系列标准和规范已经形成,中文文本信息处理的国内外研究环境以及合作交流环境已经建立,这对于中文自然语言处理是良好的支撑。

2.研究活力

得益于人工智能神经网络的不断发展,自然语言处理领域也不断出现新的研究方向,如近几年十分火热的预训练模型,它的出现具有划时代的意义。BERT、GPT等模型的提出也掀起了迁移学习的热潮,不断涌现出基于预训练模型的深度学习模型。目前预训练技术已经成为研究热点,并被广泛应用到解决下游各种自然语言处理的任务中,这足以反映自然语言处理的活力。

随着深度学习时代的来临,自然语言处理有了许多突破性的发展,诸如情感分析、智能问答、机器翻译等领域都在飞速发展。除了将自然语言处理应用到对话机器人上,自然语言处理与各行业的结合更能体现其价值,银行、电器、医药、教育等领域对自然语言处理的需求非常大,自然语言处理的重要性和发展的迫切性可见一斑。

3.研究局限

现阶段,自然语言处理领域的研究仍存在许多局限性,比如常用的深度学习算法,对数据量、数据质量以及计算机的运算速度都有很高的要求。尤其在当今的预训练模型时代,模型往往都在极大规模的文本上进行自监督训练,然后在下游具体的任务上进行适配。在这个场景下,如何在不同领域提高学习效率,如何进行领域和任务之间的迁移,以及如何在这个过程中保证安全性将成为下一步研究重心。

1.2.3 自然语言处理的发展前景

过去十年,基于深层神经网络的深度学习方法为自然语言处理注入新鲜的血液,提供了全新的工具以及方法,极大地促进了自然语言处理研究的发展。2018年出现的预训练语言模型,包括基于RNN(循环神经网络)的ELMo和基于Transformer的BERT、GPT,更是为自然语言处理研究领域带来了惊艳的成果。预训练语言模型的良好表现充分证明了基于海量的无标注文本,计算机也能学习到大量潜在的知识,从而节省了为每一项任务都标注数据而浪费的人力物力以及时间,这是具有颠覆性的。而在应用方面,Google的Duplex技术让人耳目一新,国内几家公司提供的会议同传翻译技术也令人印象深刻。机器语音同传虽然与人类同声传译相比还有很大差距,但已经朝着实用落地的方向迈了一大步。目前更是出现了更前沿的大模型,如GPT-4和ChatGPT等。

随着自然语言处理不断地发展成熟,它在越来越多的领域得到了广泛的应用。比如在金融领域,自然语言处理可以为证券投资提供各种数据以及解析,如热点挖掘、舆情分析等,还可以对金融风险进行分析、辨别欺诈。在医疗健康领域,自然语言处理技术可以帮助减轻医生的压力,辅助医生进行病历录入、检索和分析医学资料、对患者进行诊断等。在商业领域,自然语言处理可以帮助分析商家快速地从消费者对于商品的反馈中寻找关键点,进而帮助产品的改进以及销量的提升,商家与消费者互利互惠。

未来,自然语言处理技术会极大地改变人们的生活,并且随着语言的规律被不断挖掘,相信距离实现真正的“人工智能”不再遥远,语言将作为人机协同最重要的桥梁被广泛地应用于各类场景。为了实现这一个宏伟的目标,需要各个国家的相互支持、企业的创新、有关科研人员的不懈努力。如果自然语言处理技术能够不断发展,它终将更好地为人类社会服务。