因为从网站获取的TEDTalks lrc字幕文件断句不是很合理,很多完整的句子分几段显示,为了将整句合并,查找以下条件字段替换成空格即可
//句末标点 [a-z0-9]. ? ” ) :
(?<![a-z0-9]\.|[\?\”\)\:])\n\[[0-9\:\.]{8}\]
//句中标点 [a-z0-9]换行 , -
(?<=[a-z0-9\,\-])\n\[[0-9\:\.]{8}\]
//有的时候行末标点为句号的情况不一定为句末,也有可能是简写最后的“点”,比如NO.,此时判断句号后面紧跟的单词首字母大小写即可判断
(?<=\.)\n\[[0-9\:\.]{8}\](?=[a-z])