文本纠错 | Hugh's Blog

一、语言模型
应用通过计算给定词组成的句子的概率，判断句子是否符合语言表达习惯
场景
1.拼写纠错
2.对话系统
3.机器翻译

探索方向
1.N-gram语言模型（已完成）
2.BiLSTM字级语言模型（已完成）
3.Bert-Masked语言模型（已实现masked词预测和ppl打分）
待解决问题
评价语言模型（通过ppl，ppl越低句子越通顺）
思路：构建音似、形似数据集，对原句和错句ppl打分，
统计原句<错句占比，相当于统计判断流畅度的准确率

二、文本纠错
场景：1.写作辅助 2.搜索纠错 3.对话语音识别纠错
思路：从用户行为出发、从文章角度出发（语法、句子、词语、字）
1.文本纠错流程
1.1 错误检测
实现方法：
1.基于深度学习：二分类任务
2.基于规则和语言模型：（1）字粒度通过语言模型计算似然概率值，根据设定的阈值筛选出概率较低的词（2）词粒度分词，词语不在词典为错误词
1.2 错误定位（此步骤可与第一步或第三步结合）
实现方法：
1.基于规则和语言模型：同1.1.2（字粒度、词粒度检测）
2.基于深度学习：序列标注任务（BiLSTM-CRF或使用bert标出错误的位置，缺点：训练预料较少）
1.3 错误纠正
实现方法：
生成候选句后，通过语言模型计算ppl，选取ppl最低的句子
备选词生成方法：
1.基于规则：音似、形似替换（缺点是依赖词库大小）
2.基于依存句法提取词语搭配对
3.基于语言模型：预测单词序列或预测空缺词（Bert、端到端网络）
2.前沿技术分析
2.1 2017阿里巴巴技术亮点

1.引入无监督的语法知识，结合了集成学习等方法
2.在bilstm-crf模型的基础上，结合了分词、词性、依存句法等特征，同时将language model等无监督的知识embedding到神经网络
3.针对比赛的3个不同level，设计了不同的基于神经网络的snapshot emsembles方法
论文地址：https://www.aclweb.org/anthology/I17-4006
2.2 2018哈工大讯飞技术亮点
AI实验室NLP平台组 > 语言模型&文本纠错调研 > v2-bf7eee6ebe16e1b13a67d207a0b24b14_r.jpg

1.语病修正：采取了端到端的神经网络模型与词汇点信息互相结合，将语病位置空出，根据上下文以及语病信息对于该位置正确的词汇进行推测
2.序列标注模型BiLSTM-CRF优化：
（1）将词向量、统计、先验的语法知识相融合，如汉语语言习惯用法等统计特征，比如“静静的顿河”和“静静地等待”中结构助词“的”和“地”的使用会根据上下文的词性而决定；
（2）采用模型内部融合的技术，将多个BiLSTM单模型的输出加权融合，再经过CRF计算最终结果；
（3）采用了模型选取、模型排序等外部融合方法，发挥了不同模型的优势。
论文地址：https://www.aclweb.org/anthology/W18-3707
2.3 百度技术亮点
AI实验室NLP平台组 > 语言模型&文本纠错调研 > 20190201111520367.png
AI实验室NLP平台组 > 语言模型&文本纠错调研 > 20190201111538518.png
AI实验室NLP平台组 > 语言模型&文本纠错调研 > 20190201111545869.png
AI实验室NLP平台组 > 语言模型&文本纠错调研 > 20190201111550437.png
AI实验室NLP平台组 > 语言模型&文本纠错调研 > 20190201111557510.png
AI实验室NLP平台组 > 语言模型&文本纠错调研 > 20190201111601716.png
AI实验室NLP平台组 > 语言模型&文本纠错调研 > 20190201111607559.png
AI实验室NLP平台组 > 语言模型&文本纠错调研 > 20190201111613481.png
AI实验室NLP平台组 > 语言模型&文本纠错调研 > 20190201111618164.png
2.3 QQ音乐
基于语义关联的中文查询纠错框架
qq music是腾讯公司推出的中文最大的网络音乐平台，每天约6000w左右的搜索量。从一个月的query logs中，随机抽取3w条query，分别抓取baidu网页搜索纠错结果和自身纠错结果，取两个纠错结果的并集共3.1k，进行人工标注，其中有200条存在关联纠错，作为实验的数据集合。
参考地址：https://cloud.tencent.com/developer/article/1030059