语言模型的基本概念

来源：中国舆情网时间：2015-12-18

导读：

自然语言处理的基本任务

自然语言（NaturalLanguage）其实就是人类语言，自然语言处理（NLP）就是对人类语言的处理，当然主要是利用计算机。自然语言处理是关于计算机科学和语言学的交叉学科，常见的研究任务包括：

分词（WordSegmentation或WordBreaker，WB）
信息抽取（InformationExtraction，IE）：命名实体识别和关系抽取（NamedEntityRecognition&RelationExtraction，NER）
词性标注（PartOfSpeechTagging，POS）
指代消解（CoreferenceResolution）
句法分析（Parsing）
词义消歧（WordSenseDisambiguation，WSD）
语音识别（SpeechRecognition）
语音合成（TextToSpeech，TTS）
机器翻译（MachineTranslation，MT）
自动文摘（AutomaticSummarization）
问答系统（QuestionAnswering）
自然语言理解（NaturalLanguageUnderstanding）
OCR
信息检索（InformationRetrieval，IR）

早期的自然语言处理系统主要是基于人工撰写的规则，这种方法费时费力，且不能覆盖各种语言现象。上个世纪80年代后期，机器学习算法被引入到自然语言处理中，这要归功于不断提高的计算能力。研究主要集中在统计模型上，这种方法采用大规模的训练语料（corpus）对模型的参数进行自动的学习，和之前的基于规则的方法相比，这种方法更具鲁棒性。

统计语言模型

统计语言模型（Statistical Language Model）就是在这样的环境和背景下被提出来的。它广泛应用于各种自然语言处理问题，如语音识别、机器翻译、分词、词性标注，等等。简单地说，语言模型就是用来计算一个句子的概率的模型，即

利用语言模型，可以确定哪个词序列的可能性更大，或者给定若干个词，可以预测下一个最可能出现的词语。举个音字转换的例子来说，输入拼音串为nixianzaiganshenme，对应的输出可以有多种形式，如你现在干什么、你西安再赶什么、等等，那么到底哪个才是正确的转换结果呢，利用语言模型，我们知道前者的概率大于后者，因此转换成前者在多数情况下比较合理。再举一个机器翻译的例子，给定一个汉语句子为李明正在家里看电视，可以翻译为Li Ming is watching TV at home、Li Ming at home is watching TV、等等，同样根据语言模型，我们知道前者的概率大于后者，所以翻译成前者比较合理。

那么如何计算一个句子的概率呢？给定句子（词语序列）

由于上式中的参数过多，因此需要近似的计算方法。常见的方法有n-gram模型方法、决策树方法、最大熵模型方法、最大熵马尔科夫模型方法、条件随机域方法、神经网络方法，等等。

n-gram语言模型

n-gram模型的概念

n-gram模型也称为n-1阶马尔科夫模型，它有一个有限历史假设：当前词的出现概率仅仅与前面n-1个词相关。因此上面的公式可以近似为：

n-gram模型的解码算法

为什么n-gram模型需要解码算法呢？举个例子来说，对于音字转换问题，输入拼音nixianzaiganshenme，可能对应着很多转换结果，对于这个例子，可能的转换结果如下图所示（只画出部分的词语节点），各节点之间构成了复杂的网络结构，从开始到结束的任意一条路径都是可能的转换结果，从诸多转换结果中选择最合适的结果的过程就需要解码算法。

常用的解码算法是viterbi算法，它采用动态规划的原理能够很快地确定最合适的路径。这里就不详细介绍该算法了。

转载自：http://blog.sciencenet.cn/blog-357889-371189.html

编辑：admin

上一篇：数据可视化的成功要素
下一篇：读懂大数据医疗