推广 热搜: page  小红  红书  考试  数据  论文  数据分析  关键词  哪些  搜索 

NLP_jieba中文分词的常用模块

   日期:2024-12-27     移动:https://sicmodule.kub2b.com/mobile/quote/14569.html

(1)精确模式: 把句子最精确的切分开, 比较适合文本分析. 默认精确模式.
(2)全模式: 把句子中所有可能成词的词都扫描出来, cut_all = True, 缺点: 速度快, 不能解决歧义
(3)paddle: 利用百度的paddlepaddle深度学习框架. 简单来说就是使用百度提供的分词模型. use_paddle=True.
(4)搜索引擎模式: 在精确模式的基础上, 对长词再进行切分, 提高召回率, jieba.cut_for_search

1.精确模式分词

 

 分词列表输出结果

['我', '在', '北京大学', '上学']

2.全模式分词 

 
输出结果:
['我', '在', '北京', '北京大学', '大学', '学上', '上学']

 3.搜索引擎模式分词

 

 输出结果

['我', '在', '北京', '大学', '北京大学', '上学']
 
输出结果:
[pair('我', 'r'), pair('在', 'p'), pair('北京大学', 'nt'), pair('上学', 'n')]
 
 

在jieba包的路径下,创建dict_2.txt文件,里面写入自定义的分词 

 

words_5输出结果:

['大学', '教育', '倡导', '自主', '学习']

words_text1输出结果

['大学教育', '倡导', '自主', '学习']
 3.2增加一个临时分词的方法
3.2.1jieba.add_word()
 

words_text2输出结果

['好', '男人']

words_text3输出结果

['好男人']
 3.2.2jieba.suggest_word()
 
原本输出:['三好 ',' 小孩']
words_text4输出结果
['三好小孩']
 

输出结果

[('变美', 0.8539119644928571),

NLP_jieba中文分词的常用模块

('点滴', 0.6958424691871429), ('生活', 0.6619803475814285), ('山沟', 0.638917899597857), ('骄傲', 0.5833811696485715)]
 

 输出结果:

本文地址:https://sicmodule.kub2b.com/quote/14569.html     企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示:本信息由相关用户自行提供,真实性未证实,仅供参考。请谨慎采用,风险自负。


0相关评论
相关最新动态
推荐最新动态
点击排行
网站首页  |  关于我们  |  联系方式  |  使用协议  |  版权隐私  |  网站地图  |  排名推广  |  广告服务  |  积分换礼  |  网站留言  |  RSS订阅  |  违规举报  |  鄂ICP备2020018471号