酒泉市长河康华网络通信设备厂
首页 | 联系方式 | 加入收藏 | 设为首页 | 手机站

产品目录

联系方式

联系人:业务部
电话: 00149-634103
邮箱:service@xrhg88.com

当前位置:首页 >> 新闻中心 >> 正文

基于sklearn计算tfidf时支持char + word模式(单字)

字号:
摘要:基于sklearn计算tfidf时支持char + word模式(单字)

本文不介绍sklearn计算tfidf的过程,网上文章很多,只指出一个坑及其解决方案。

做tfidf计算有几行核心代码:
vectorizer = CountVectorizer()
transformer = TfidfTransformer()
tfidf = transformer.fit_transform(vectorizer.fit_transform(corpus))
如果corpus中包含这样的数据:[‘高 血 压 的 定 义’,’…’,…]
那执行vectorizer.fit_transform一定会报错:
*** ValueError: empty vocabulary; perhaps the documents only contain stop words
但是如果修改为
[‘高 血 压 的 定 义’,’…’,…]
执行vectorizer.fit_transform就正常。
原因是,创建CountVectorizer实例时,有一个默认参数analyzer=’word’,在该参数作用下,词频矩阵构建过程会默认过滤所有的单字token,所以上面的’高 血 压 的 定 义’以空格分隔以后全是单字,也就全被过滤了,所以就empty vocabulary了。

如果想针对单字进行tfidf计算,可以加上参数vectorizer = CountVectorizer(analyzer=’char’),此时,输入字符串无需做空格分隔, CountVectorizer会自动按照 单字 进行分隔统计词频。

要想同时支持 字+词 的tfidf计算,需自定义token正则:
vectorizer = CountVectorizer(analyzer=’word’,token_pattern=u”(?u)\\b\\w+\\b”)