热门推荐
NLP_jieba中文分词的常用模块
2024-12-27 12:38

(1)精确模式: 把句子最精确的切分开, 比较适合文本分析. 默认精确模式.
(2)全模式: 把句子中所有可能成词的词都扫描出来, cut_all = True, 缺点: 速度快, 不能解决歧义
(3)paddle: 利用百度的paddlepaddle深度学习框架. 简单来说就是使用百度提供的分词模型. use_paddle=True.
(4)搜索引擎模式: 在精确模式的基础上, 对长词再进行切分, 提高召回率, jieba.cut_for_search

1.精确模式分词

 

 分词列表输出结果

['我', '在', '北京大学', '上学']

2.全模式分词 

 
输出结果:
['我', '在', '北京', '北京大学', '大学', '学上', '上学']

 3.搜索引擎模式分词

 

 输出结果

['我', '在', '北京', '大学', '北京大学', '上学']
 
输出结果:
[pair('我', 'r'), pair('在', 'p'), pair('北京大学', 'nt'), pair('上学', 'n')]
 
 

在jieba包的路径下,创建dict_2.txt文件,里面写入自定义的分词 

 

words_5输出结果:

['大学', '教育', '倡导', '自主', '学习']

words_text1输出结果

['大学教育', '倡导', '自主', '学习']
 3.2增加一个临时分词的方法
3.2.1jieba.add_word()
 

words_text2输出结果

['好', '男人']

words_text3输出结果

['好男人']
 3.2.2jieba.suggest_word()
 
原本输出:['三好 ',' 小孩']
words_text4输出结果
['三好小孩']
 

输出结果

[('变美', 0.8539119644928571),

NLP_jieba中文分词的常用模块

('点滴', 0.6958424691871429), ('生活', 0.6619803475814285), ('山沟', 0.638917899597857), ('骄傲', 0.5833811696485715)]
 

 输出结果:

    以上就是本篇文章【NLP_jieba中文分词的常用模块】的全部内容了,欢迎阅览 ! 文章地址:https://sicmodule.kub2b.com/quote/14569.html 
     栏目首页      相关文章      动态      同类文章      热门文章      网站地图      返回首页 企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多   
发表评论
0评