NLP_jieba中文分词的常用模块 - 企库往资讯移动站

NLP_jieba中文分词的常用模块

2024-12-27 12:38

（1）精确模式: 把句子最精确的切分开, 比较适合文本分析. 默认精确模式.
（2）全模式: 把句子中所有可能成词的词都扫描出来, cut_all = True, 缺点: 速度快, 不能解决歧义
（3）paddle: 利用百度的paddlepaddle深度学习框架. 简单来说就是使用百度提供的分词模型. use_paddle=True.
（4）搜索引擎模式: 在精确模式的基础上, 对长词再进行切分, 提高召回率, jieba.cut_for_search

1.精确模式分词

分词列表输出结果：
['我', '在', '北京大学', '上学']

2.全模式分词

输出结果：
['我', '在', '北京', '北京大学', '大学', '学上', '上学']

3.搜索引擎模式分词

输出结果：

['我', '在', '北京', '大学', '北京大学', '上学']

输出结果：
[pair('我', 'r'), pair('在', 'p'), pair('北京大学', 'nt'), pair('上学', 'n')]

在jieba包的路径下，创建dict_2.txt文件，里面写入自定义的分词

words_5输出结果:

['大学', '教育', '倡导', '自主', '学习']

words_text1输出结果：

['大学教育', '倡导', '自主', '学习']

3.2增加一个临时分词的方法：

3.2.1jieba.add_word()

words_text2输出结果：
['好', '男人']
words_text3输出结果：
['好男人']

3.2.2jieba.suggest_word()

原本输出：['三好 ',' 小孩']

words_text4输出结果：

['三好小孩']

输出结果：

[('变美', 0.8539119644928571),

 ('点滴', 0.6958424691871429),
 ('生活', 0.6619803475814285),
 ('山沟', 0.638917899597857),
 ('骄傲', 0.5833811696485715)]

输出结果:

以上就是本篇文章【NLP_jieba中文分词的常用模块】的全部内容了，欢迎阅览！文章地址：https://sicmodule.kub2b.com/quote/14569.html
栏目首页相关文章动态同类文章热门文章网站地图返回首页企库往资讯移动站https://sicmodule.kub2b.com/mobile/,查看更多