作者|汾多艾
一中文分词
分词服务界面列表
二准确率评测:
THULAC :与代表分词软件的性能比较
选择了LTP-3.2.0、ictclas2015版)、jiebaC ) c版)等国内具有代表性的分词软件与THULAC进行了性能比较。 选择Windows作为测试环境,基于第二届国际汉语分词评估thesecondinternationalchinesewordsegmentationbakeoff )发布的国际汉语分词评估标准,针对不同的软件进行速度和准确率
第二次国际中文分词评估包括四个机构提供的测试资料Academia Sinica、City University、Peking University、MicrosoftResearch )、评估提供的资源ICW B2-dddd 来自这四个单位的训练集training )、测试集testing )和相应分词标准提供的相应测试集的标准答案icwb2-data/scripts/gold ) .
在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型是各分词软件自带的模型。 THULAC使用软件附带的简单模型Model_1。 基于英特尔酷睿I 5.4 GHz的环境测量结果如下。
评价结果1
除了上述标准测试集的评价外,还对各分词工具在大数据中的速度进行了评价,结果如下。
CNKI_journal.txt51MB ) )。
评价结果2
分词数据的准备和评价由BosonNLP完成。 11种开放中文分词引擎大竞争。 2015年发布) ) ) ) ) ) ) ) ) ) ) )。
分词的客观量化测试离不开标注数据,即人工准备的分词“标准答案”。 在数据源上,测试分为: 1.新闻数据: 140篇,共30517个词; 2 .微博数据: 200篇,共12962个词; 3 .汽车论坛数据汽车之家) 100篇)共27452个词4 .餐饮点评数据大众点评) 100条,共8295个词。
准确度计算规则:
删除所有标点符号,不进行比较
参加测试的部分系统进行实体识别,可能导致语言认定的不统一。 将对应的位置置换为人工标记的结果,得到了精度推测的上限。
经过以上处理,采用SIGHAN分词评分脚本对最终准确率、召回率、F1值进行了比较。
以上所有数据均以采用北大现代汉语基本加工规范对所有数据进行分词为准。 具体数据的下载地址请参考附录。 通过这四种数据综合比较不同分词系统的分词精度。
词连写系统的正确性比较
三付费价格:
阿里云:
AlibabaCloud 阿里巴巴云)收费价格
腾讯云:
腾云收费价格
玻森中文
免费限额:
博森中文免费限额
收费价格:
博森中文收费价格
四官网
开源工具
HanLP :
https://github.com/hankcs/HanLP
结缕草分词:
https://github.com/fxsjy/jieba
盘古分词:
http://留胡子的小懒汉. codeplex.com/
庖丁解牛:
https://code.Google.com/p/pao ding /
SWS中文分词:
33558 www.Xun search.com/scws/docs.PHP
高校工具
FudanNLP :
https://github.com/FudanNLP/fnlp
LTP :
33558 www.LTP-cloud.com/document
THULAC :
http://thulac.thunlp.org/
NLPIR :
http://ictclas.nlpir.org/docs
商业服务
BosonNLP :
http://bosonnlp.com/dev/center
百度NLP :
3359 cloud.Baidu.com/doc/NLP/NLP-API.html
Sogou分词:
33558www.sogou.com/labs/web服务/
腾讯文智:
3359 cloud.Tencent.com/document/product/271/2071
腾讯价目表:
3359 cloud.Tencent.com/document/product/271/1140
AlibabaCloud 阿里巴巴云) NLP :
3359 data.a liyun.com/product/NLP
新浪云:
33558 www.Sina cloud.com/doc/SAE/python/segment.html
测试数据集
1、SIGHANBakeoff 2005 MSR,560KB
3358 sigh an.cs.uchicago.edu/bake off 2005 /
2、SIGHANBakeoff 2005 PKU,510KB
3358 sigh an.cs.uchicago.edu/bake off 2005 /
3、人民日报2014,65mb
https://pan.baidu.com/s/1hq3KKXe
前两个数据集是用于sigh an 2005年组织的中文分词比赛的数据集,也是学术界测试分词工具的标准数据集。 本文用于测试各大分词工具的正确性,最后一组数据集规模较大,用于测试分词速度。
磐创AI: http://www.panchuangai.com/
tensorflownews:http://www.tensorflownews.com /