如何调整NLTK句子标记器

如何调整NLTK句子标记器,第1张

如何调整NLTK句子标记器

您需要向令牌生成器提供缩写列表,如下所示:

from nltk.tokenize.punkt import PunktSentenceTokenizer, PunktParameterspunkt_param = PunktParameters()punkt_param.abbrev_types = set(['dr', 'vs', 'mr', 'mrs', 'prof', 'inc'])sentence_splitter = PunktSentenceTokenizer(punkt_param)text = "is THAT what you mean, Mrs. Hussey?"sentences = sentence_splitter.tokenize(text)

现在的句子是:

['is THAT what you mean, Mrs. Hussey?']

更新:如果句子的最后一个单词附有撇号或引号(例如 Hussey?’
),则此方法不起作用。因此,一种快速而又肮脏的方法是在撇号和引号之前加上空格,并在句子结尾的符号(。!?)之后:

text = text.replace('?"', '? "').replace('!"', '! "').replace('."', '. "')


欢迎分享,转载请注明来源:内存溢出

原文地址: https://www.outofmemory.cn/zaji/5646895.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-16
下一篇 2022-12-16

发表评论

登录后才能评论

评论列表(0条)

保存