NLP一些基本概念的摘抄

2019-12-01 08:30:13 | 科研NLP

NLP

机器翻译
情感分析
智能问答
文摘生成
文本分类
舆论分析
分析话题热度，分析传播路径以及发展趋势。对于不好的趋势进行宏观控制
知识图谱（KG）
显示知识发展进程与结构关系的一系列不同图形。用可视化技术描述知识资源以及载体，挖掘、分析、构建、绘制和显示知识及其相互联系。

NLP基本术语

（1）分词（segment）
（2）词性标注（标n，adj。。。）
（3）命名实体识别（Named Entity Recognition）
（4）句法分析（syntax parsing，基于规则的专家系统解析句子中各个成分的依赖关系）
（5）指代消解（把代词还原为原来的意思）
（6）情感识别（现在流行的是词向量模型+RNN）
（7）纠错（correction）（基于N-gram，字典树，有限状态机等）
（8）问答系统（QA system）

NLP的基本应用

句法语义分析
关键词抽取（如从一条新闻中抽取关键信息，设计实体识别，时间抽取，因果关系抽取等）
文本挖掘（文本局内、分类、信息抽取、摘要、情感分析以及对挖掘到的知识都信息可视化、交互式呈现）
机器翻译
信息检索（可简单对文档中的词汇赋不同权重来建立索引，查询时首先对输入比进行分析，然后在索引里查找匹配的候选文档。再排序打分）
问答系统（对查询语句进行语义分析，包括实体链接、关系识别、形成逻辑表达式，再到知识库查找可能对候选答案，打分排序）
对话系统

深度学习在NLP应用

主要优势原因有以下两点：
####（1）海量的数据
很多应用积累了相当大量数据可以用于学习。当数据量增大，以SVM、CRF（条件随机场）为代表的传统浅层模型无法对数据的高维非线性映射建模。因此，以CNN、RNN为代表的深度模型可以随着模型复杂度增大而增强，更贴近数据本质映射。
####（2）DL算法的革新
一方面由于深度学习的word2vec的出现，可以降低输入层的维度；另一方面，深度学习让之前很多任务进行端到端的训练。如机器翻译等。避免了误差的传递。

目前局限和未来发展

1、人在表达时，背景知识的存在会省略非常多的东西，使自然语言的表达更加简洁，文本携带的信息也具有很大的局限性。
2、样本数量有限情况下的训练
3、如何融合DL和其它知识信息，以提升整个系统的性能
4、如何实现自学习、自适应学习
5、如何利用强化学习提升系统的性能，如如何利用上下文增强对当前任务的决策能力。