您好!
在 Firefox 中,Cookie 是被默认启用的。
要想查看您的 Cookie 设置:
点击 Firefox 窗口顶部的Firefox按钮并选择选项菜单。
选择隐私面板。
将Firefox 将会:选项设置为使用自定义历史记录设置。选中接受来自站点的 Cookie选项即可启用 Cookie,取消选择可以禁用 Cookie。如果您在针对有关 Cookie 的问题进行排查,请确保接受第三方 Cookie选项旁的下拉菜单显示的不是“总不”,详细信息请参考禁用第三方cookies。
选择 Cookie 保存时限:
保存,直到:它们过期:每个 Cookie 过期后将被删除,而过期时间是由使用该 Cookie 的网站设置的。
保存,直到:我退出Firefox:您关闭 Firefox 的时候在您计算机上保存的 Cookie 将会自动删除。
保存,直到:每次均询问:每一次网站试图写入 Cookie 时,都显示一则提示信息,询问是否希望存储该 Cookie。
火狐浏览器是一款开源、安全的浏览器,拥有非常强大的扩展功能,可以根据自己的需求定制浏览体验。使用的是Gecko内核。了解更多火狐浏览器的使用小技巧,请到火狐社区:http://mozilla.com.cn/topic/1/
感谢您对火狐浏览器的支持!
1.伪装http header,我们可以使用phanomjs的API来实现:
派生到我的代码片
1. <span style="font-family:SimSunfont-size:18px">page.customHeaders = {
2. "Referer" : referrer,
3. "User-Agent" : "Mozilla/5.0 (Windows NT 6.1WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER 1.1"
4. }</span>
2.伪造referer欺骗js,这一点其实就要麻烦一些:我们需要首先打开referer页面,然后再模拟点击消息转到目的网站,具体方法如下:
1. <span style="font-family:SimSunfont-size:18px">page.onLoadFinished = function(status){
2.
3. // Only once do
4. if ( page.firstLoad ) {
5. page.firstLoad = false
6. // Inject and Click a Link to our target
7. page.evaluate(function (href) {
8. // Create and append the link
9. var link = document.createElement('a')
10. link.setAttribute('href', href)
11. document.body.appendChild(link)
12.
13. // Dispatch Click Event on the link
14. var evt = document.createEvent('MouseEvents')
15. evt.initMouseEvent('click', true, true, window, 1, 1, 1, 1, 1, false, false, false, false, 0, link)
16. link.dispatchEvent(evt)
17. }, targetUrl)
18. } else {
19.// 此处我们已经成功伪造referer信息,并且打开Target url页面
20. console.log(targetUrl+"\t"+page.url)
21.
22. }
23. }</span>
3.伪造User Agent欺骗js,这一点其实就要麻烦一些,但是我们也可以通过phantomjs的API来实现:
在CODE上查看代码片
1. <span style="font-family:SimSunfont-size:18px">page.settings.userAgent = "Mozilla/5.0 (Windows NT 6.1WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/34.0.1847.137 Safari/537.36 LBBROWSER"</span>
4. 使用代理,这个phantomjs支持的就更好啦,调用的时候加入代理的参数即可:
派生到我的代码片
1. <span style="font-family:SimSunfont-size:18px">phantomjs --proxy=ip:port</span>
5.添加cookies(我知道phantomjs设置cookies可行,目前还没有验证,据称有以下三种方法):
page.customHeaders = {Cookie: xxx}
phantom.addCookie({
'name': 'yandexuid',
'value':'21611441383258191',
'domain': '.yandex.ru'))
})
phantomjs --cookies-file=cookies.txt
说到这里其实我们已经得到了一个动态的爬虫,它可以之行js代码,可以抓取到网页的动态内容,具有浏览器的header并且无法被js、ajax、java、php代码识别,甚至也无法被后台的日志分析识别。目前为止该方法的qps并不高,因为加载js和phantomjs并发性能不高。
其实这个爬虫有很多的用处:
1.伪造点击信息,最近CNZZ公布了中小网站的流量来源中30%是来自奇虎360的,众所周知CNZZ是植入js代码统计网站的访问量和来源的。这些完全可以用我们的代码伪造访问量,并且伪造访问来源呀。
2. 爬取网站动态内容,有很多网站是基于ajax和js设计的,现在我们就可以爬取到这些代码执行得到的数据。
3.逃避反爬虫策略,这个就太明显了。
欢迎分享,转载请注明来源:内存溢出
评论列表(0条)