网站建设资讯

NEWS

网站建设资讯

Python中文分词库jieba,pkusegwg性能准确度比较-创新互联

中文分词(Chinese Word Segmentation),将中文语句切割成单独的词组。英文使用空格来分开每个单词的,而中文单独一个汉字跟词有时候完全不是同个含义,因此,中文分词相比英文分词难度高很多。

成都创新互联主要为客户提供服务项目涵盖了网页视觉设计、VI标志设计、成都全网营销、网站程序开发、HTML5响应式网站建设成都手机网站制作、微商城、网站托管及成都网站维护、WEB系统开发、域名注册、国内外服务器租用、视频、平面设计、SEO优化排名。设计、前端、后端三个建站步骤的完善服务体系。一人跟踪测试的建站服务标准。已经为房屋鉴定行业客户提供了网站改版服务。

分词主要用于NLP 自然语言处理(Natural Language Processing),使用场景有:

  • 搜索优化,关键词提取(百度指数)
  • 语义分析,智能问答系统(客服系统)
  • 非结构化文本媒体内容,如社交信息(微博热榜)
  • 文本聚类,根据内容生成分类(行业分类)
Python的中文分词

Python的中文分词库有很多,常见的有:

  • jieba(结巴分词)
  • THULAC(清华大学自然语言处理与社会人文计算实验室)
  • pkuseg(北京大学语言计算与机器学习研究组)
  • SnowNLP
  • pynlpir
  • CoreNLP
  • pyltp

通常前三个是比较经常见到的,主要在易用性/准确率/性能都还不错。我个人常用的一直都是结巴分词(比较早接触),最近使用pkuseg,两者的使用后面详细讲。

结巴分词 简介

“结巴”中文分词:做最好的 Python 中文分词组件

  • 支持三种分词模式:
    • 精确模式,试图将句子最精确地切开,适合文本分析;
    • 全模式,把句子中所有的可以成词的词语都扫描出来, 速度非常快,但是不能解决歧义;
    • 搜索引擎模式,在精确模式的基础上,对长词再次切分,提高召回率,适合用于搜索引擎分词。
  • 支持繁体分词
  • 支持自定义词典

jieba分词实例

我们使用京东商场的美的电器评论来看看结巴分词的效果。如果你没有安装结巴分词库则需要在命令行下输入pip install jieba,安装完之后即可开始分词之旅。

评论数据整理在文件meidi_jd.csv文件中,读取数据前先导入相关库。因为中文的文本或文件的编码方式不同编码选择gb18030,有时候是utf-8、gb2312、gbk自行测试。

# 导入相关库
import pandas as pd
import jieba

# 读取数据
data = pd.read_csv('meidi_jd.csv', encoding='gb18030')

# 查看数据
data.head()

网页题目:Python中文分词库jieba,pkusegwg性能准确度比较-创新互联
网页地址:http://cdweb.net/article/dggsep.html