Japanese sentence tokenizer - 日本語 - 文に分ける簡易版

5/9/2017 - 1:28 AM

Japanese sentence tokenizer - 日本語 - 文に分ける簡易版

import re
import nltk

sent_detector = nltk.RegexpTokenizer(u'[^　！？。]*[！？。.\n]')

sents = sent_detector.tokenize(u"　原子番号９２のウランより重い元素は全て人工的に合成され、１１８番まで発見の報告がある。\
      １１３番については、理研と米露の共同チームがそれぞれ「発見した」と報告し、国際純正・応用化学連合と国際純粋・応用物理学連合の合同作業部会が審査していた。両学会は「データの確実性が高い」ことを理由に、理研の発見を認定し、３１日に森田さんに通知した。未確定だった１１５番と１１７番、１１８番の新元素は米露チームの発見を認めた。森田さんは「周期表に名前が残ることは感慨深い。大勢の共同研究者にまずは感謝したい」と述べた。 \n")

for s in sents:
    print s, len(s)

Cacher is the code snippet organizer for pro developers

We empower you and your team to get more done, faster

Japanese sentence tokenizer - 日本語 - 文に分ける 簡易版

Japanese sentence tokenizer - 日本語 - 文に分ける簡易版