使用python提取url中的顶级域名及其后缀

使用python提取url中的顶级域名及其后缀,第1张

        提取url中的信息,可以使用python中的urlparse模块进行解析,但是有个缺陷是无法提取顶级域名。参考博文:https://blog.csdn.net/weixin_44799217/article/details/124591187

        提取较为复杂的url信息,还可以使用tld模块。

安装方法:

         通过tld模块可以提取一个url中的顶级域名(不包含后缀部分)、顶级域名(包含后缀部分)、域名后缀和子域名部分(不含后缀)。

注意:使用tld模块时,域名中必须包含协议(HTTP等),否则会报错。

示例代码1:

import tld

url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'

ret = tld.get_fld(url1)
print(ret)

 示例代码2:

import tld

url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'

ret = tld.get_fld(url2)
print(ret)

 示例代码3:

import tld

url = 'http://www.baidu.com/test/index.php?username=dgw'

ret = tld.get_tld(url, as_object=True)
print(ret)


print(ret.domain)
print(ret.extension)
print(ret.fld)
print(ret.subdomain)
print(ret.suffix)

详见tld库:tld · PyPI 

欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/langs/869148.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-05-13
下一篇 2022-05-13

发表评论

登录后才能评论

评论列表(0条)

保存