简介¶
语言技术平台(Language Technology Platform,LTP)是 哈工大社会计算与信息检索研究中心 历时十年开发的一整套中文语言处理系统。LTP制定了基于XML的语言处理结果表示,并在此基础上提供了一整套自底向上的丰富而且高效的中文语言处理模块(包括词法、句法、语义等6项中文处理核心技术),以及基于动态链接库(Dynamic Link Library, DLL)的应用程序接口,可视化工具,并且能够以网络服务(Web Service)的形式进行使用。
从2006年9月5日开始该平台对外免费共享目标代码,截止目前,已经有国内外400多家研究单位共享了LTP,也有国内外多家商业公司购买了LTP,用于实际的商业项目中。2010年12月获得中国中文信息学会颁发的行业最高奖项:“钱伟长中文信息处理科学技术奖”一等奖。
2011年6月1日,为了与业界同行共同研究和开发中文信息处理核心技术,我中心正式将LTP开源。
2013年9月1日,语言技术平台云端服务” 语言云 “正式上线。
新闻¶
语言技术平台 3.3.2 版发布
- [修复] 修复了 3.3.1 版本一些 bug
语言技术平台 3.3.1 版发布
- [修复] 修复了 3.3.0 版本模型加载的 bug
- [增加] 提供 Windows 下的 ltp_test 和 xxx_cmdline 二进制下载,无需再手工编译
语言技术平台 3.3.0 版发布
- [增加] 词性标注模型加入微博数据,使得在开放域上的词性标注性能更好(+3.3 precision)
- [增加] 依存句法分析模型加入微博数据,使得在开放域上的句法分析性能更好(+3 UAS)
- [增加] 依存句法分析算法切换到 transition-based neural network parser,速度从 40 tokens/s 提升到 8000 tokens/s。同时通过加入聚类特征以及优化训练算法,(在新闻领域)准确率也得到小幅提升(+0.2 UAS)
- [增加] ltp_test 默认支持多线程,线程数可配置。
- [增加] 新加入子模块命令行程序,cws_cmdline,pos_cmdline,par_cmdline,ner_cmdline,使用户可以很容易替换中间模块,从而实现语言分析的组合。
- [修改] 优化了训练套件的交互方式
- [增加] 添加模型验证,单元测试模块。