文/唐良元(作者单位:英国伦敦大学高等研究院)
中国著名学者周海中先生曾经指出:“语言智能是人工智能皇冠上的明珠,它对于发展人类的表达能力、思维能力、理解能力等具有十分重要的意义。”近年来,由于人工智能的快速发展,语言智能越来越受到学术界,尤其是语言学界的高度重视和深入研究;在这方面,学术界已经取得了不少可喜的成果。
(相关资料图)
语言智能(英文language intelligence)是语言信息智能化的过程,也是运用信息技术模仿人类的智能,分析和处理人类语言的过程,更是人工智能的重要组成部分及人机交互认知的重要基础和手段。另外,语言智能还有力促进语言教学、语言学习的智能化,拓展语言学研究的新领域,在未来教育发展中将发挥越来越重要的作用。
语言智能是信息技术创新发展的时代产物。发展语言智能必须增强科学意识,只有深刻认识语言智能的科学原理,才能深入研究语言智能这个前沿领域。语言智能基于人脑生理属性、言语认知路径、语义生成规律,利用大数据与人工智能技术,对语言信息进行标注、抽取、加工、存储和特征分析,构拟人机语义同构关系,让机器实施类人言语行为。
语言智能具有文化传承的服务优势;语言是文化载体,语言精神反映民族精神。从浩瀚的古典文献中精选优秀传统文化素材,从当下日新月异的语言信息洪流中洗练文化精华,传递给当代国人,需要语言智能独特的算力。从既有的语言文字数据中分析发现文化素养和家国情怀,精准实施优秀文化教育,可以成为语言智能的常态服务。
上世纪80年代,美国著名学者霍华德•加德纳先生认为,语言智能就是人们运用语言的能力。这种能力是人的认知力、思维力、逻辑力、创造力和表达力的综合体现;而提高语言能力是对语言智能提出的挑战性问题。这需要采集相应数据,科学分析个人的知识基础、思维类型、能力潜质等,分析经验积累和知识摄取状况,并通过智能技术手段来推荐个性化知识学习内容。
语言理解是语言智能的主要任务,涉及到语言理解的目标、途径和主要模型。机器对语言的理解就是确定了概念与语言单元的映射,以及知道承载概念单元的语言属性,和知晓不同语言单元之间的关系。而语义理解是语言理解的核心,它包括对自然语言知识和常识的学习;语义理解可以通过一系列的人工智能算法以及多场景智能语义分析,将文本解析为结构化的、机器可读的意图与词槽信息。
目前语言智能在多个领域都有应用,主要是四种类型:分类、生成、抽取和校对。分类问题就是给语言对象打标签,语言对象可以是句子、篇章等;生成问题主要是给原文本生成另一种文本表达,典型的应用是机器翻译以及人机对话、自动写作等;抽取问题就是从研究对象提取想要的答案,让文本信息处理更加方便;校对问题主要是让机器对给定的处理对象,回答对应信息是否齐全、是否一致、是否准确的问题。
近期由美国人工智能公司OpenAI开发的软件ChatGPT-4带来了比ChatGPT背后GPT-3.5更强的推理、计算、逻辑能力,也引发了全民使用的热潮。在技术发展方面,GPT-4的训练数据涵盖了互联网上的大量网页、书籍、新闻报道等,数据量达到了45TB,模型规模也更大,拥有1750亿个参数。我们期待看到更多的语言模型应用在实际场景中,为语言智能带来突破性进展,也为人类社会带来更多的便利和创新。
由上可知,语言智能在人工智能研究中扮演着非常重要的角色。其实,人类对语言的学习与理解并不是完全通过文本本身来完成的,语言只是其背后具体概念与含义的抽象载体。所以,也许通过多模态的建模才能让机器更好地去理解语言的含义。如何让机器学习与语言学结合得更加紧密,比如对语言的语义信息、语用信息构建合适的任务形式、模型结构、数据采集与存储等也是未来值得关注的研究方向。