(1)精确模式: 把句子最精确的切分开, 比较适合文本分析. 默认精确模式.
(2)全模式: 把句子中所有可能成词的词都扫描出来, cut_all = True, 缺点: 速度快, 不能解决歧义
(3)paddle: 利用百度的paddlepaddle深度学习框架. 简单来说就是使用百度提供的分词模型. use_paddle=True.
(4)搜索引擎模式: 在精确模式的基础上, 对长词再进行切分, 提高召回率, jieba.cut_for_search
1.精确模式分词
分词列表输出结果:
['我', '在', '北京大学', '上学']
2.全模式分词
输出结果: ['我', '在', '北京', '北京大学', '大学', '学上', '上学']
3.搜索引擎模式分词
输出结果:
['我', '在', '北京', '大学', '北京大学', '上学']
输出结果: [pair('我', 'r'), pair('在', 'p'), pair('北京大学', 'nt'), pair('上学', 'n')]
在jieba包的路径下,创建dict_2.txt文件,里面写入自定义的分词
words_5输出结果:
['大学', '教育', '倡导', '自主', '学习']words_text1输出结果:
['大学教育', '倡导', '自主', '学习']
3.2增加一个临时分词的方法:
3.2.1jieba.add_word()
words_text2输出结果:
['好', '男人']words_text3输出结果:
['好男人']
3.2.2jieba.suggest_word()
原本输出:['三好 ',' 小孩']
words_text4输出结果:
['三好小孩']
输出结果:
[('变美', 0.8539119644928571),('点滴', 0.6958424691871429), ('生活', 0.6619803475814285), ('山沟', 0.638917899597857), ('骄傲', 0.5833811696485715)]
输出结果:
以上就是本篇文章【NLP_jieba中文分词的常用模块】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/quote/14569.html 栏目首页 相关文章 动态 同类文章 热门文章 网站地图 返回首页 企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多