如何为sklearn CountVectorizer设置自定义停用词？

淘宝上传图片 • 2022-6-4 • python • 阅读 38

概述我正在尝试在非英语文本数据集上运行LDA(Latent Dirichlet Allocation). 从sklearn的教程中,您可以在此部分中计算要提供给LDA的单词的术语频率： tf_vectorizer = CountVectorizer(max_df=0.95, min_df=2, max_features=n_features, 我正在尝试在非英语文本数据集上运行LDA(Latent Dirichlet Allocation).

从sklearn的教程中,您可以在此部分中计算要提供给LDA的单词的术语频率：

tf_vectorizer = CountVectorizer(max_df=0.95,min_df=2,max_features=n_features,stop_words='english')

其中有内置停用词功能,我认为只适用于英语.我怎么能用这个我自己的停用词列表呢？

解决方法您可以将自己的单词的冻结集分配给 stop_words argument,例如：

stop_words = froZenset(["word1","word2","word3"])

总结

以上是内存溢出为你收集整理的如何为sklearn CountVectorizer设置自定义停用词？全部内容，希望文章能够帮你解决如何为sklearn CountVectorizer设置自定义停用词？所遇到的程序开发问题。

如果觉得内存溢出网站内容还不错，欢迎将内存溢出网站推荐给程序员好友。

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/langs/1207463.html

用词设置

打赏

微信扫一扫

支付宝扫一扫

淘宝上传图片一级用户组

字典的字典数组？

上一篇 2022-06-04

从python中运行需要root访问权限的命令

下一篇 2022-06-04

发表评论

登录后才能评论

评论列表（0条）