提取url中的信息,可以使用python中的urlparse模块进行解析,但是有个缺陷是无法提取顶级域名。参考博文:https://blog.csdn.net/weixin_44799217/article/details/124591187
提取较为复杂的url信息,还可以使用tld模块。
安装方法:
通过tld模块可以提取一个url中的顶级域名(不包含后缀部分)、顶级域名(包含后缀部分)、域名后缀和子域名部分(不含后缀)。
注意:使用tld模块时,域名中必须包含协议(HTTP等),否则会报错。
示例代码1:
import tld
url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'
ret = tld.get_fld(url1)
print(ret)
示例代码2:
import tld
url1 = 'www.baidu.com/test/index.php?username=dgw'
url2 = 'http://www.baidu.com/test/index.php?username=dgw'
ret = tld.get_fld(url2)
print(ret)
示例代码3:
import tld
url = 'http://www.baidu.com/test/index.php?username=dgw'
ret = tld.get_tld(url, as_object=True)
print(ret)
print(ret.domain)
print(ret.extension)
print(ret.fld)
print(ret.subdomain)
print(ret.suffix)
详见tld库:tld · PyPI
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)