使用python提取url中的顶级域名及其后缀_python

提取url中的信息，可以使用python中的urlparse模块进行解析，但是有个缺陷是无法提取顶级域名。参考博文：https://blog.csdn.net/weixin_44799217/article/details/124591187

提取较为复杂的url信息，还可以使用tld模块。

安装方法：

通过tld模块可以提取一个url中的顶级域名（不包含后缀部分）、顶级域名（包含后缀部分）、域名后缀和子域名部分（不含后缀）。

注意：使用tld模块时，域名中必须包含协议（HTTP等），否则会报错。

示例代码1：

import tld

url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'

ret = tld.get_fld(url1)
print(ret)

示例代码2：

import tld

url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'

ret = tld.get_fld(url2)
print(ret)

示例代码3：

import tld

url = 'http://www.baidu.com/test/index.php?username=dgw'

ret = tld.get_tld(url, as_object=True)
print(ret)


print(ret.domain)
print(ret.extension)
print(ret.fld)
print(ret.subdomain)
print(ret.suffix)

详见tld库：tld · PyPI

欢迎分享，转载请注明来源：内存溢出

原文地址: http://www.outofmemory.cn/langs/869148.html

使用python提取url中的顶级域名及其后缀

发表评论

评论列表（0条）