ICTCLAS分词工具Python封装

ICTCLAS(Institute of Computing Technology,Chinese Lexical Analysis System),由中国科学院计算技术研究开发,功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持gb2312、GBK、UTF8等多种编码格式,是世界上最好的汉语词法分析器之一。 下载地址:http://ictclas.org/ictclas_download.aspx

原系统只提供了C++和Java版本,为了方便广大Pythoner,决定用python对其进行重新封装。目前仅支持Linux,Windows版本开发中。 pyictclas模块中包含三个类:一个PyICTCLAS类,用于分词工具的调用;一个是CodeType?类,用于存放各种编码的枚举类型;一个是POSMap类用于存放标注集枚举类型。

项目主页:http://code.google.com/p/python-ictclas/

该项目废除,新项目参考:http://www.yidooo.net/archives/nlpir-python-version.html