爬虫笔记_python_内存溢出

爬虫：
网络爬虫（又称为网页蜘蛛，网络机器人，在FOAF社区中间，更经常的称为网页追逐者），是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

另外一些不常使用的名字还有蚂蚁、自动索引、模拟程序或者蠕虫。

2.自己理解：
通过代码、模拟浏览器上网然后抓取数据的过程

2.爬虫是否合法？
1.法律允许
2.有法律风险的

3.统一规定？【法律界限】
robots.txt协议

4.爬虫的分类：
   1.获取一整张页面【通用爬虫】
   2.获取一整张页面部分数据【聚焦爬虫】
   3.检查页面更新、获取页面最新的更新的数据【增量式爬虫】

5.爬虫的规则：
   1.反爬策略：
       门户网站通过技术手段防止爬虫程序对页面爬取数据
   2.反反爬策略
       爬虫程序通过技术手段对页面爬取数据

http 与https
   service 与 client 进行数据交互的一种形式
request：
   User-Agent：请求载体的身份标识
response：
   Content-Type:服务器响应client的数据类型

欢迎分享，转载请注明来源：内存溢出

爬虫笔记