热门推荐
网络爬虫之规则
2024-10-31 20:33

自动爬取HTML页面,自动网络请求提交

网络爬虫之规则

url:拟获取页面的url链接
params:url中的额外参数,字典或字节流格式,可选
**kwargs:12个控制访问的参数
get()方法
Response对象包含服务器返回的所有信息,也包含请求的Request信息

Reaponse对象的属性说明HTTP请求的返回状态,200表示连接成功,404表示失败HTTP响应内容的字符串形式,即url对应的页面内容从HTTP header中猜测的响应内容编码方式从内容中分析出的响应内容编码方式(备选编码方式)HTTP响应内容的二进制形式
异常说明网络连接错误异常,如DNS查询失败、拒绝连接等HTTP错误异常URL缺失异常超过最大重定向次数,产生重定向异常连接远程服务器超时异常请求URL超时,产生超时异常如果不是200(正确),产生异常 requests.HTTPError

HTTP协议——Hypertext Transfer Protocol,超文本传输协议

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议

URL——通过HTTP协议存取资源的internet路径,一个URL对应一个数据资源

URL格式—— http://host[:port][path]

  • host:合法的internet主机域名或IP地址
  • port:端口号,缺省端口为80
  • path:请求资源的路径
方法说明构造一个请求,支撑以下各方法获取HTML网页的主要方法,对应HTTP的GET获取HTML网页头信息的方法,对应HTTP的GET向HTML网页提交POST请求的方法,对应HTTP的POST向HTML网页提交PUT请求的方法,对应HTTP的PUT向HTML网页提交局部修改请求,对应HTTP的PATH向HTML网页提交删除请求,对应HTTP的DELETE


method 请求方式,对于get/put/post/patch/head/delete
url 拟获取页面的url链接
**kwargs 控制访问的参数

params 字典或字节序列,作为参数增加到url中
data 字典、字节序列或文件对象,作为request的内容
json JSON格式的数据,作为Request的内容
headers 字典,HTTP定制头
cookies 字典或cookieJar,request中的cookie
auth 元组,支持HTTP认证功能
files 字典类型,传输文件
timeout 设定超时时间,秒为单位
proxies 字典类型,设定访问代理服务器,可以增加登录认证
allow_redirects True/False ,默认为true,重定向开关
stream True/False ,默认为true,获取内容立即下载开关
verify True/False ,默认为true,认证SSL开关
cert 本地SSL证书路径

Robots Exclusion Standard 网络爬虫排除标准
作用:网站告知网络爬虫有些页面可以抓取,哪些不行
形式:在网站根目录下的robots.txt文件

遵守方式

    以上就是本篇文章【网络爬虫之规则】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/1856.html 
     行业      资讯      企业新闻      行情      企业黄页      同类资讯      网站地图      返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多