NLP
- 机器翻译
- 情感分析
- 智能问答
- 文摘生成
- 文本分类
- 舆论分析
分析话题热度,分析传播路径以及发展趋势。对于不好的趋势进行宏观控制 - 知识图谱(KG)
显示知识发展进程与结构关系的一系列不同图形。用可视化技术描述知识资源以及载体,挖掘、分析、构建、绘制和显示知识及其相互联系。
NLP基本术语
(1)分词(segment)
(2)词性标注(标n,adj。。。)
(3)命名实体识别(Named Entity Recognition)
(4)句法分析(syntax parsing,基于规则的专家系统解析句子中各个成分的依赖关系)
(5)指代消解(把代词还原为原来的意思)
(6)情感识别(现在流行的是词向量模型+RNN)
(7)纠错(correction)(基于N-gram,字典树,有限状态机等)
(8)问答系统(QA system)
NLP的基本应用
- 句法语义分析
- 关键词抽取(如从一条新闻中抽取关键信息,设计实体识别,时间抽取,因果关系抽取等)
- 文本挖掘(文本局内、分类、信息抽取、摘要、情感分析以及对挖掘到的知识都信息可视化、交互式呈现)
- 机器翻译
- 信息检索(可简单对文档中的词汇赋不同权重来建立索引,查询时首先对输入比进行分析,然后在索引里查找匹配的候选文档。再排序打分)
- 问答系统(对查询语句进行语义分析,包括实体链接、关系识别、形成逻辑表达式,再到知识库查找可能对候选答案,打分排序)
- 对话系统
深度学习在NLP应用
主要优势原因有以下两点:
####(1)海量的数据
很多应用积累了相当大量数据可以用于学习。当数据量增大,以SVM、CRF(条件随机场)为代表的传统浅层模型无法对数据的高维非线性映射建模。因此,以CNN、RNN为代表的深度模型可以随着模型复杂度增大而增强,更贴近数据本质映射。
####(2)DL算法的革新
一方面由于深度学习的word2vec的出现,可以降低输入层的维度;另一方面,深度学习让之前很多任务进行端到端的训练。如机器翻译等。避免了误差的传递。
目前局限和未来发展
1、人在表达时,背景知识的存在会省略非常多的东西,使自然语言的表达更加简洁,文本携带的信息也具有很大的局限性。
2、样本数量有限情况下的训练
3、如何融合DL和其它知识信息,以提升整个系统的性能
4、如何实现自学习、自适应学习
5、如何利用强化学习提升系统的性能,如如何利用上下文增强对当前任务的决策能力。