文本纠错

1/14/2019 - 11:16 AM

《Chinese Spelling Error Detection and Correction Based on Language Model, Pronunciation, and Shape》[1, Yu, 2013] 论文提供了一种准确较高、召回较低的纠错方法。

系统流程图：

各步骤展开，具体简述如下：

判断何处有输入错误，两种方式：
- a. 使用正向反向的character级别的ngram语言模型，对每个位置进行打分，得分低的地方标记为待纠错片段。
- b. 切词切出独立的字符。
这里的ngram语言模型为5-gram，为了避免过多召回，阈值设定较为严苛。通过语言模型判断出的可疑位置将与上下文组合进行词典查词。
召回：上一步词典过滤出的最终可疑词进行同音字和形近字的召回。召回候选与前后近邻组合为词进行词典查词过滤出有效候选。
打分：候选中语言模型最高分，且得分大于阈值，则胜出。

source:ccheng

Cacher is the code snippet organizer for pro developers