在Python中调用Java扩展包HanLP测试记录-白红宇

最近在研究中文分词及自然语言相关的内容，关注到JAVA环境下的HanLP，HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包，支持中文分词（N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注），命名实体识别（中国人名、音译人名、日本人名、地名、实体机构名识别），关键词提取，自动摘要，短语提取，拼音转换，简繁转换，文本推荐，依存句法分析（MaxEnt依存句法分析、神经网络依存句法分析）。

由于自己才疏学浅，对JAVA方面了解不多，所以打算在Python环%2, line 5, in <module>

startJVM(getDefaultJVMPath())

File “C:\Python27\lib\site-packages\jpype\_core.py”, line 44, in startJVM

_jpype.startup(jvm, tuple(args), True)

RuntimeError: First paramter must be a string or unicode at src/native/python/jpype_module.cpp:31

很有可能是没有配置

JDK的环境变量或安装的JDK的位数与Python的位数不一致。导致 getDefaultJVMPath() 方法返回的是 None。

下载

HanLP

（1）你可以直接下载Portable版的jar，零配置。

（2）也可以使用自定义的HanLP——HanLP由3部分组成：类库hanlp.jar包、模型data包、配置文件hanlp.properties，请前往项目主页下载最新版：github.com/hankcs/HanLP/releases。对于非portable版，下载后，你需要编辑配置文件第一行的root指向data的父目录。这里，假设新建了一个目录（假定为

C:\hanlp），把hanlp.jar和hanlp.properties（portable版的话，仅需一个hanlp-portable.jar）放进去。

Python调用

以下是我的测试：（使用的是Python，与Python3 相比多了 .toString() 这一操作）