lance0108
7/25/2018 - 4:56 AM

Segmenter

#nlp #segmenter #chinese #python #sentence #split

# clean special characters and URL
p_break = re.compile(r"\\u[0-9]+|\\xa[0-9]{1,}|\n|\r")
p_url = re.compile(r"http://[^ ]+|https://[^ ]+")
p_space = re.compile(r" {2,}")

texts2 = []
for text in texts:
    text = p_break.sub(" ", "%r" % text)
    text = p_url.sub(" ", text)
    text = p_space.sub(" ", text)
    text = text.strip()
    texts2.append(text)
import re

# sentence split
p_punct = re.compile("。{1,}|?{1,}|!{1,}|\?{1,}|!{1,}|;|;|~{1,}|\.{3,}")
sentences = []
for text in texts:
    for sentence in p_punct.split(text):
        sentences.append(sentence)
print(len(sentences))
import jieba
import jieba_fast as jieba

tokenizer = jieba.Tokenizer()
nulls = set(["", " "])
tokens = []
for sentence in sentences:
    tokens.append([token for token in tokenizer.cut(sentences[0],HMM=True) if token not in nulls])
print(len(tokens))
import os
java_path = r"C:\Program Files\Java\jdk-10.0.2\bin\java.exe"
os.environ["JAVAHOME"] = java_path

from nltk.tokenize.stanford_segmenter import StanfordSegmenter

seg_jar = r"D:\_java\_packages\stanford-segmenter-2018-02-27\stanford-segmenter-3.9.1.jar"

seg = StanfordSegmenter(seg_jar,
                        java_class = 'edu.stanford.nlp.ie.crf.CRFClassifier',
                        path_to_slf4j=r"D:\_java\_packages\stanford-segmenter-2018-02-27\slf4j-api.jar",
                        path_to_model=r"D:\_java\_packages\stanford-segmenter-2018-02-27\data\pku.gz",
                        path_to_dict=r"D:\_java\_packages\stanford-segmenter-2018-02-27\data\dict-chris6.ser.gz",
                        path_to_sihan_corpora_dict=r"D:\_java\_packages\stanford-segmenter-2018-02-27\data")
                        
text = """
\n芥末堆3月28日讯,美国东部时间3月28日上午9点30分,K12教育集团精锐教育在纽交所挂牌上市(NYSE:ONE)。发行价为每股11美元,开盘价为每股10.99美元,总股本1.63亿股,市值达17.9亿美元。此次将发行1630万股,计划募资1.79亿美元。数据来源:雅虎财经开盘后,精锐教育股价持续下跌。截至美国东部时间12:04,股价跌至10.15美元。芥末堆注意到,可能受中美双边贸易关系影响,最近一周,教育中概股两大巨头好未来、新东方,以及刚刚上市的尚德机构,股价均出现不同程度下跌。由此看来,精锐教育IPO时机似乎不太好。精锐教育近3财年营收数据精锐教育成立于2008年,主要为中高收入家庭提供高端K12课外培训服务。据招股书,精锐教育2015年-2017财年,总营收入分别为11亿元人民币、15亿元人民币、21亿元人民币,年复合增长率为37.4%。精锐教育2017财年营收情况精锐教育以K12课外辅导起家,此后向国际教育、素质教育产业链拓展,已形成高端课外辅导、高端幼教、国际教育三个业务版块。其中K12辅导收入占绝对比重,连续三年占比均超85%。按照发行价格,精锐教育此次公开募集资金达1.793亿美元。据招股书显示,精锐教育此次IPO募资资金将主要用于强化师资招聘与培训,开发新产品与新技术应用以及投资并购完善教育生态圈三方面。据北京大学中国教育财政科学研究所2017年12月发布的《中国教育业态蓝皮书》,K12课外培训整体市场超4500亿元。然而国内高端教培行业市场格局尤其分散,报告显示,前五大龙头企业市场总占比仅为7.6%。近年来,随着新东方、好未来等教育龙头企业在美股市场市值大涨,教育中概股也因此获得更多投资人的关注。同样主打K12辅导的精锐教育能否如新东方、好未来一样保持持续快速发展,还要拭目以待。 \n                                    1、本文是芥末堆网原创文章,转载可点击 芥末堆内容合作 了解详情,未经授权拒绝一切形式转载,违者必究;\n                                    2、芥末堆不接受通过公关费、车马费等任何形式发布失实文章,只呈现有价值的内容给读者;\n                                     3、如果你也从事教育,并希望被芥末堆报道,请您 填写信息告诉我们。\n\n来源:\n                                    芥末堆\n                                \n
"""
seg.segment(text)