自动爬取HTML页面,自动网络请求提交
url:拟获取页面的url链接
params:url中的额外参数,字典或字节流格式,可选
**kwargs:12个控制访问的参数
Response对象包含服务器返回的所有信息,也包含请求的Request信息
HTTP协议——Hypertext Transfer Protocol,超文本传输协议
HTTP是一个基于“请求与响应”模式的、无状态的应用层协议
URL——通过HTTP协议存取资源的internet路径,一个URL对应一个数据资源
URL格式—— http://host[:port][path]
- host:合法的internet主机域名或IP地址
- port:端口号,缺省端口为80
- path:请求资源的路径
method: 请求方式,对于get/put/post/patch/head/delete
url: 拟获取页面的url链接
**kwargs: 控制访问的参数
params: 字典或字节序列,作为参数增加到url中
data: 字典、字节序列或文件对象,作为request的内容
json: JSON格式的数据,作为Request的内容
headers: 字典,HTTP定制头
cookies: 字典或cookieJar,request中的cookie
auth: 元组,支持HTTP认证功能
files: 字典类型,传输文件
timeout: 设定超时时间,秒为单位
proxies: 字典类型,设定访问代理服务器,可以增加登录认证
allow_redirects: True/False ,默认为true,重定向开关
stream: True/False ,默认为true,获取内容立即下载开关
verify: True/False ,默认为true,认证SSL开关
cert: 本地SSL证书路径
Robots Exclusion Standard 网络爬虫排除标准
作用:网站告知网络爬虫有些页面可以抓取,哪些不行
形式:在网站根目录下的robots.txt文件
遵守方式:
以上就是本篇文章【网络爬虫之规则】的全部内容了,欢迎阅览 ! 文章地址:http://dfvalve.xrbh.cn/quote/1856.html 行业 资讯 企业新闻 行情 企业黄页 同类资讯 网站地图 返回首页 迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多