下面是内存溢出 jb51.cc 通过网络收集整理的代码片段。
内存溢出小编现在分享给大家,也给大家做个参考。
DOWNLOADER_MIDDLEWARES = { 'scrapy.contrib.downloadermIDdleware.useragent.UserAgentMIDdleware' : None,'Crawler.comm.rotate_useragent.RotateUserAgentMIDdleware' :400 }
注意: Crawler 是你项目的名字 ,通过它是一个目录的名称 下面是蜘蛛的代码
#!/usr/bin/python#-*-Coding:utf-8-*- import randomfrom scrapy.contrib.downloadermIDdleware.useragent import UserAgentMIDdleware class RotateUserAgentMIDdleware(UserAgentMIDdleware): def __init__(self,user_agent=''): self.user_agent = user_agent def process_request(self,request,spIDer): #这句话用于随机选择user-agent ua = random.choice(self.user_agent_List) if ua: request.headers.setdefault('User-Agent',ua) #the default user_agent_List composes Chrome,I E,firefox,Mozilla,opera,netscape #for more user agent strings,you can find it in http://www.useragentstring.com/pages/useragentstring.PHP user_agent_List = [\ "Mozilla/5.0 (windows NT 6.1; WOW64) AppleWebKit/537.1 (KHTML,like Gecko) Chrome/22.0.1207.1 Safari/537.1"\ "Mozilla/5.0 (X11; CrOS i686 2268.111.0) AppleWebKit/536.11 (KHTML,like Gecko) Chrome/20.0.1132.57 Safari/536.11",\ "Mozilla/5.0 (windows NT 6.1; WOW64) AppleWebKit/536.6 (KHTML,like Gecko) Chrome/20.0.1092.0 Safari/536.6",\ "Mozilla/5.0 (windows NT 6.2) AppleWebKit/536.6 (KHTML,like Gecko) Chrome/20.0.1090.0 Safari/536.6",\ "Mozilla/5.0 (windows NT 6.2; WOW64) AppleWebKit/537.1 (KHTML,like Gecko) Chrome/19.77.34.5 Safari/537.1",\ "Mozilla/5.0 (X11; linux x86_64) AppleWebKit/536.5 (KHTML,like Gecko) Chrome/19.0.1084.9 Safari/536.5",\ "Mozilla/5.0 (windows NT 6.0) AppleWebKit/536.5 (KHTML,like Gecko) Chrome/19.0.1084.36 Safari/536.5",\ "Mozilla/5.0 (windows NT 6.1; WOW64) AppleWebKit/536.3 (KHTML,like Gecko) Chrome/19.0.1063.0 Safari/536.3",\ "Mozilla/5.0 (windows NT 5.1) AppleWebKit/536.3 (KHTML,\ "Mozilla/5.0 (Macintosh; Intel Mac OS X 10_8_0) AppleWebKit/536.3 (KHTML,\ "Mozilla/5.0 (windows NT 6.2) AppleWebKit/536.3 (KHTML,like Gecko) Chrome/19.0.1062.0 Safari/536.3",like Gecko) Chrome/19.0.1061.1 Safari/536.3",\ "Mozilla/5.0 (windows NT 6.1) AppleWebKit/536.3 (KHTML,like Gecko) Chrome/19.0.1061.0 Safari/536.3",\ "Mozilla/5.0 (X11; linux x86_64) AppleWebKit/535.24 (KHTML,like Gecko) Chrome/19.0.1055.1 Safari/535.24",\ "Mozilla/5.0 (windows NT 6.2; WOW64) AppleWebKit/535.24 (KHTML,like Gecko) Chrome/19.0.1055.1 Safari/535.24" ]
以上是内存溢出(jb51.cc)为你收集整理的全部代码内容,希望文章能够帮你解决所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
总结以上是内存溢出为你收集整理的scrapy在采集网页时使用随机user-agent的方法全部内容,希望文章能够帮你解决scrapy在采集网页时使用随机user-agent的方法所遇到的程序开发问题。
如果觉得内存溢出网站内容还不错,欢迎将内存溢出网站推荐给程序员好友。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)