首页 / 汽车 / 汽车导购 / 正文

分词算法(手把手教你用Jieba做中文分词)

放大字体  缩小字体 来源:康莉女鞋 2026-04-17 17:32  浏览次数:9

作者:杜振东 涂铭

1. 社区活跃

2. 功能丰富

3. 提供多种编程语言实现

4. 使用简单

Jieba分词结合了基于规则基于统计两类方法。首先基于前缀词典进行词图扫描,前缀词典是指词典中的词按照前缀包含的顺序排列,如词典中出现了“上”,之后以“上”开头的词都会出现在一起,如词典中出现“上海”一词,进而会出现“上海市”等词,从而形成一种层级包含结构。

其次,基于标注语料、使用动态规划的方法可以找出最大概率路径,并将其作为最终的分词结果。对于未登录词,Jieba使用了基于汉字成词的HMM模型,采用了Viterbi算法进行推导。

02 Jieba的3种分词模式

下面是使用这3种模式的对比。

import jiebasent = '中文分词是文本处理不可或缺的一步!'seg_list = jieba.cut(sent, cut_all=True)print('全模式:', '/ ' .join(seg_list)) seg_list = jieba.cut(sent, cut_all=False)print('精确模式:', '/ '.join(seg_list)) seg_list = jieba.cut(sent)  print('默认精确模式:', '/ '.join(seg_list))seg_list = jieba.cut_for_search(sent)  print('搜索引擎模式', '/ '.join(seg_list))

可以看到,在全模式和搜索引擎模式下,Jieba会把分词的所有可能都打印出来。一般直接使用精确模式即可,但是在某些模糊匹配场景下,使用全模式或搜索引擎模式更适合。

涂铭,数据架构师和人工智能技术专家,曾就职于阿里,现就职于腾讯。对大数据、自然语言处理、图像识别、Python、Java等相关技术有深入的研究,积累了丰富的实践经验。

推荐语:腾讯、国家标准委AI专家撰写,详解NLP和人机交互,从算法、实战3维度讲解聊天机器人原理、实现与工程实践。

打赏
0相关评论
热门搜索排行
精彩图片
友情链接
声明:本站信息均由用户注册后自行发布,本站不承担任何法律责任。如有侵权请告知立立即做删除处理。
违法不良信息举报邮箱:115904045
头条快讯网 版权所有
中国互联网举报中心