在Python中调用Java扩展包:HanLP

25 sec read

最近在研究中文分词及自然语言相关的内容,关注到JAVA环境下的HanLP,HanLP是一个致力于向生产环境普及NLP技术的开源Java工具包,支持中文分词(N-最短路分词、CRF分词、索引分词、用户自定义词典、词性标注),命名实体识别(中国人名、音译人名、日本人名、地名、实体机构名识别),关键词提取,自动摘要,短语提取,拼音转换,简繁转换,文本推荐,依存句法分析(MaxEnt依存句法分析、神经网络依存句法分析)。

由于自己才疏学浅,对JAVA方面了解不多,所以打算在Python环%2, line 5, in <module>
startJVM(getDefaultJVMPath())
File “C:\Python27\lib\site-packages\jpype\_core.py”, line 44, in startJVM
_jpype.startup(jvm, tuple(args), True)
RuntimeError: First paramter must be a string or unicode at src/native/python/jpype_module.cpp:31

很有可能是没有配置JDK的环境变量或安装的JDK的位数与Python的位数不一致。导致 getDefaultJVMPath()  方法返回的是 None

下载HanLP

  • 你可以直接下载Portable版的jar,零配置。
  • 也可以使用自定义的HanLP——HanLP由3部分组成:类库hanlp.jar包、模型data包、配置文件hanlp.properties,请前往项目主页下载最新版:https://github.com/hankcs/HanLP/releases。对于非portable版,下载后,你需要编辑配置文件第一行的root指向data的父目录。

这里,假设新建了一个目录(假定为C:\hanlp),把hanlp.jar和hanlp.properties(portable版的话,仅需一个hanlp-portable.jar)放进去。

Python调用

以下是我的测试:(使用的是Python,与Python3 相比多了 .toString() 这一操作)

参考文章:

Update:2019-11-20

HanLP目前提供了Python接口,安装方法:pip install pyhanlp

测试代码:

第一次执行会报如下错误:

解决方案:下载相关的文件并解压到对应文件夹。下载地址:http://nlp.hankcs.com/download.php?file=data

打赏作者
微信支付标点符 wechat qrcode
支付宝标点符 alipay qrcode

使用Docker安装多用户版的JupyterHub

宿主服务器使用的是Ubuntu 18.04,需要注意的是Docker目前不支持Ubuntu 19.10。如要在
标点符
3 min read

使用tqdm显示Python代码执行进度

在使用Python执行一些比较耗时的操作时,为了方便观察进度,通常使用进度条的方式来可视化呈现。Python中
标点符
34 sec read

利用SWIG实现Python调用C/C++

SWIG简介 SWIG是Simplified Wrapper and Interface Generator的
标点符
1 min read

4 Replies to “在Python中调用Java扩展包:HanLP”

  1. File “C:/Users/Administrator/PycharmProjects/untitled5/unn.py”, line 8, in
    HanLP = JClass(‘com.hankcs.hanlp.HanLP’)
    File “C:\Python34\lib\site-packages\jpype\_jclass.py”, line 55, in JClass
    raise _RUNTIMEEXCEPTION.PYEXC(“Class %s not found” % name)
    若报错是这样的话 是有什么问题呢 请问

  2. jpype._jexception.ExceptionPyRaisable: java.lang.Exception: Class com.hankcs.hanlp.HanLP not found,类找不到,请问你是怎么放置com下面的文件夹的?先谢谢啦

发表评论

电子邮件地址不会被公开。 必填项已用*标注