NLP_jieba中文分词的常用模块

日期：2024-12-27 移动：https://sicmodule.kub2b.com/mobile/quote/14569.html

（1）精确模式: 把句子最精确的切分开, 比较适合文本分析. 默认精确模式.
（2）全模式: 把句子中所有可能成词的词都扫描出来, cut_all = True, 缺点: 速度快, 不能解决歧义
（3）paddle: 利用百度的paddlepaddle深度学习框架. 简单来说就是使用百度提供的分词模型. use_paddle=True.
（4）搜索引擎模式: 在精确模式的基础上, 对长词再进行切分, 提高召回率, jieba.cut_for_search

1.精确模式分词

分词列表输出结果：
['我', '在', '北京大学', '上学']

2.全模式分词

输出结果：
['我', '在', '北京', '北京大学', '大学', '学上', '上学']

3.搜索引擎模式分词

输出结果：

['我', '在', '北京', '大学', '北京大学', '上学']

输出结果：
[pair('我', 'r'), pair('在', 'p'), pair('北京大学', 'nt'), pair('上学', 'n')]

在jieba包的路径下，创建dict_2.txt文件，里面写入自定义的分词

words_5输出结果:

['大学', '教育', '倡导', '自主', '学习']

words_text1输出结果：

['大学教育', '倡导', '自主', '学习']

3.2增加一个临时分词的方法：

3.2.1jieba.add_word()

words_text2输出结果：
['好', '男人']
words_text3输出结果：
['好男人']

3.2.2jieba.suggest_word()

原本输出：['三好 ',' 小孩']

words_text4输出结果：

['三好小孩']

输出结果：

[('变美', 0.8539119644928571),

 ('点滴', 0.6958424691871429),
 ('生活', 0.6619803475814285),
 ('山沟', 0.638917899597857),
 ('骄傲', 0.5833811696485715)]

输出结果:
本文地址：https://sicmodule.kub2b.com/quote/14569.html 企库往 https://sicmodule.kub2b.com/ , 查看更多

特别提示：本信息由相关用户自行提供，真实性未证实，仅供参考。请谨慎采用，风险自负。

0 条相关评论

相关最新动态

推荐最新动态

点击排行