博客
关于我
强烈建议你试试无所不能的chatGPT,快点击我
Python - jieba分词
阅读量:7165 次
发布时间:2019-06-29

本文共 723 字,大约阅读时间需要 2 分钟。

1.分词

1.1主要分词函数

  • jieba.cut(sentence, cut_all, HMM):sentence-需要分词的字符串;cut_all-控制是否采用全模式;HMM-控制是否使用HMM模型;jieba.cut()返回的结构是一个可迭代的 generator。

  • jieba.cut_for_search(sentence, HMM):sentence-需要分词的字符串;HMM-控制是否使用HMM模型;这种分词方法粒度比较细,成为搜索引擎模式;jieba.cut_for_search()返回的结构是一个可迭代的 generator。

  • jieba.lcut()以及jieba.lcut_for_search用法和上述一致,最终返回的结构是一个列表list。

1.2示例

import jieba as jbseg_list = jb.cut("我来到北京清华大学", cut_all=True)print("全模式: " + "/ ".join(seg_list))  # 全模式seg_list = jb.cut("我来到北京清华大学", cut_all=False)print("精确模式: " + "/ ".join(seg_list))  # 精确模式seg_list = jb.cut("他来到了网易杭研大厦")  print("默认模式: " + "/ ".join(seg_list)) # 默认是精确模式seg_list = jb.cut_for_search("小明硕士毕业于中国科学院计算所,后在日本京都大学深造")  print("搜索引擎模式: " + "/ ".join(seg_list)) # 搜索引擎模式

转载地址:http://cvqwm.baihongyu.com/

你可能感兴趣的文章
php/web缓存Cache为王
查看>>
化妆品零售变革 电子商务VS传统零售
查看>>
我的友情链接
查看>>
Truncate/Delete/Drop table的特点和区别
查看>>
我的友情链接
查看>>
nginx http core模块学习
查看>>
逢二进一 、逢八进一、逢十六进一
查看>>
搞懂 JAVA 内部类
查看>>
Android中创建与几种解析xml的方法!
查看>>
程序员有趣的十八个事实
查看>>
数据库导出数据字典
查看>>
scala中的option[T]、Any、Nothing、Null和Nil
查看>>
面试算法
查看>>
activemq cluster安装
查看>>
zabbix snmp 常见OID
查看>>
spring cloud 与 docker-compose构建微服务
查看>>
Ext4 Disk Layout
查看>>
rrdtool 详解
查看>>
firefox NS_ERROR_DOM_BAD_URI: Access to restricted URI denied
查看>>
Git常见相关知识与命令
查看>>