中国舆情网手机客户端工作人员查询
中国舆情网官网二维码

舆情网官网

中国舆情网手机二维码

舆情网手机

您的当前位置:主页 > 舆情情报 > 正文
中国舆情网-一带一路BANNER

语言模型的基本概念

来源:中国舆情网 时间:2015-12-18
导读:

自然语言处理的基本任务

自然语言(NaturalLanguage)其实就是人类语言,自然语言处理(NLP)就是对人类语言的处理,当然主要是利用计算机。自然语言处理是关于计算机科学和语言学的交叉学科,常见的研究任务包括:

  • 分词(WordSegmentationWordBreakerWB
  • 信息抽取(InformationExtractionIE):命名实体识别和关系抽取(NamedEntityRecognition&RelationExtractionNER
  • 词性标注(PartOfSpeechTaggingPOS
  • 指代消解(CoreferenceResolution
  • 句法分析(Parsing
  • 词义消歧(WordSenseDisambiguationWSD
  • 语音识别(SpeechRecognition
  • 语音合成(TextToSpeechTTS
  • 机器翻译(MachineTranslationMT
  • 自动文摘(AutomaticSummarization
  • 问答系统(QuestionAnswering
  • 自然语言理解(NaturalLanguageUnderstanding
  • OCR
  • 信息检索(InformationRetrievalIR

早期的自然语言处理系统主要是基于人工撰写的规则,这种方法费时费力,且不能覆盖各种语言现象。上个世纪80年代后期,机器学习算法被引入到自然语言处理中,这要归功于不断提高的计算能力。研究主要集中在统计模型上,这种方法采用大规模的训练语料(corpus)对模型的参数进行自动的学习,和之前的基于规则的方法相比,这种方法更具鲁棒性。

统计语言模型

统计语言模型(Statistical Language Model)就是在这样的环境和背景下被提出来的。它广泛应用于各种自然语言处理问题,如语音识别、机器翻译、分词、词性标注,等等。简单地说,语言模型就是用来计算一个句子的概率的模型,即

利用语言模型,可以确定哪个词序列的可能性更大,或者给定若干个词,可以预测下一个最可能出现的词语。举个音字转换的例子来说,输入拼音串为nixianzaiganshenme,对应的输出可以有多种形式,如你现在干什么你西安再赶什么、等等,那么到底哪个才是正确的转换结果呢,利用语言模型,我们知道前者的概率大于后者,因此转换成前者在多数情况下比较合理。再举一个机器翻译的例子,给定一个汉语句子为李明正在家里看电视,可以翻译为Li Ming is watching TV at homeLi Ming at home is watching TV、等等,同样根据语言模型,我们知道前者的概率大于后者,所以翻译成前者比较合理。

那么如何计算一个句子的概率呢?给定句子(词语序列)

由于上式中的参数过多,因此需要近似的计算方法。常见的方法有n-gram模型方法、决策树方法、最大熵模型方法、最大熵马尔科夫模型方法、条件随机域方法、神经网络方法,等等。

n-gram语言模型

n-gram模型的概念

n-gram模型也称为n-1阶马尔科夫模型,它有一个有限历史假设:当前词的出现概率仅仅与前面n-1个词相关。因此上面的公式可以近似为:

n-gram模型的解码算法

为什么n-gram模型需要解码算法呢?举个例子来说,对于音字转换问题,输入拼音nixianzaiganshenme,可能对应着很多转换结果,对于这个例子,可能的转换结果如下图所示(只画出部分的词语节点),各节点之间构成了复杂的网络结构,从开始到结束的任意一条路径都是可能的转换结果,从诸多转换结果中选择最合适的结果的过程就需要解码算法。

常用的解码算法是viterbi算法,它采用动态规划的原理能够很快地确定最合适的路径。这里就不详细介绍该算法了。

 

转载自:http://blog.sciencenet.cn/blog-357889-371189.html

编辑:admin
中央机构 | 人大机构 | 国家主席 | 国务院 | 政协机构 | 民主党派 | 群众团体 | 驻外机构
Copyright © 2010-2018 中国舆情网 版权所有 | 中国舆情网简介
网络文化经营许可证 广播电视节目制作经营许可证 电信增值业务经营许可证
编辑:tougao@yuqingz.com 运营:operate@yuqingz.com
本网站所刊载信息,不代表中国舆情网观点。转载本网站原创信息请注明出处。
网站地图 | XML地图 | 手机版 | 电脑版 | 标签
Top