语言模型是根据语言客观事实而进行的语言抽象数学建模,是一种对应关系;语言模型与语言客观事实之间的关系,如同数学上的抽象直线与具体直线之间的关系。它的任务是预测一个句子或单词在语言中出现的概率。
语言模型主要有三种类型:生成性模型、分析性模型、辨识性模型。生成性模型从一个形式语言系统出发,生成语言的某一集合,如美国哲学家、语言学家乔姆斯基的形式语言理论和转换语法。分析性模型从语言的某一集合开始,根据对这个集合中各个元素的性质的分析,阐明这些元素之间的关系,并在此基础上用演绎的方法建立语言的规则系统,如苏联数学家库拉金娜和罗马尼亚数学家马尔库斯用集合论方法提出的语言模型。
在生成性模型和分析性模型的基础上,把二者结合起来,便产生了一种很有实用价值的模型,即辨识性模型。辨识性模型可以从语言元素的某一集合及规则系统出发,通过有限步骤的运算,确定这些元素是一堆乱七八糟的词还是语言中合格的句子,如以色列数学家、逻辑学家巴尔-希勒尔用数理逻辑方法提出的句法类型演算模型。
语言模型可用于提升语音识别和机器翻译的性能。例如,在语音识别中,给定一段“厨房里食油用完了”的语音,有可能会输出“厨房里食油用完了”和“厨房里石油用完了”这两个读音完全一样的文本序列。如果语言模型判断出前者的概率大于后者的概率,我们就可以根据相同读音的语音输出“厨房里食油用完了”的文本序列。
又如,在机器翻译中,如果对英文“you go first”逐词翻译成中文的话,可能得到“你走先”“你先走”等排列方式的文本序列。如果语言模型判断出“你先走”的概率大于其他排列方式的文本序列的概率,我们就可以把“you go first”翻译成“你先走”。
语言模型通常基于概率模型来构建,它考虑了语言的各种特征,例如语法、语义和上下文。具体来说,语言模型可以根据一定的训练数据学习到一个概率分布,该分布可以描述一个给定的文本序列中每个单词出现的概率,或者是下一个单词的预测概率。
语言模型在自然语言处理(NLP)中占有十分重要的地位;而自然语言处理对计算机和人机交互等有着许多重要的影响。正如中国数学家、语言学家周海中曾经所言:“自然语言处理是极有吸引力的研究领域,它具有重大的理论意义和实用价值。”
文/彭洁茹(作者单位:西北工业大学计算机学院)
本文属原作者授权投稿专栏,须取得本网站的书面授权,未经授权严禁转载或用于其它商业用途