网络爬虫之规则 - 迅博思语资讯移动站

网络爬虫之规则

2024-10-31 20:33

自动爬取HTML页面，自动网络请求提交

网络爬虫之规则

url：拟获取页面的url链接
params：url中的额外参数，字典或字节流格式，可选
**kwargs：12个控制访问的参数
get()方法
Response对象包含服务器返回的所有信息，也包含请求的Request信息

Reaponse对象的属性说明HTTP请求的返回状态，200表示连接成功，404表示失败HTTP响应内容的字符串形式，即url对应的页面内容从HTTP header中猜测的响应内容编码方式从内容中分析出的响应内容编码方式（备选编码方式）HTTP响应内容的二进制形式

异常说明网络连接错误异常，如DNS查询失败、拒绝连接等HTTP错误异常URL缺失异常超过最大重定向次数，产生重定向异常连接远程服务器超时异常请求URL超时，产生超时异常如果不是200(正确)，产生异常 requests.HTTPError

HTTP协议——Hypertext Transfer Protocol，超文本传输协议

HTTP是一个基于“请求与响应”模式的、无状态的应用层协议

URL——通过HTTP协议存取资源的internet路径，一个URL对应一个数据资源

URL格式—— http://host[:port][path]

host：合法的internet主机域名或IP地址
port：端口号，缺省端口为80
path：请求资源的路径

方法说明构造一个请求，支撑以下各方法获取HTML网页的主要方法，对应HTTP的GET获取HTML网页头信息的方法，对应HTTP的GET向HTML网页提交POST请求的方法，对应HTTP的POST向HTML网页提交PUT请求的方法，对应HTTP的PUT向HTML网页提交局部修改请求，对应HTTP的PATH向HTML网页提交删除请求，对应HTTP的DELETE

method： 请求方式，对于get/put/post/patch/head/delete
url： 拟获取页面的url链接
**kwargs： 控制访问的参数

params： 字典或字节序列，作为参数增加到url中
data： 字典、字节序列或文件对象，作为request的内容
json： JSON格式的数据，作为Request的内容
headers： 字典，HTTP定制头
cookies： 字典或cookieJar，request中的cookie
auth： 元组，支持HTTP认证功能
files： 字典类型，传输文件
timeout： 设定超时时间，秒为单位
proxies： 字典类型，设定访问代理服务器，可以增加登录认证
allow_redirects： True/False ，默认为true，重定向开关
stream： True/False ，默认为true，获取内容立即下载开关
verify： True/False ，默认为true，认证SSL开关
cert： 本地SSL证书路径

Robots Exclusion Standard 网络爬虫排除标准
作用：网站告知网络爬虫有些页面可以抓取，哪些不行
形式：在网站根目录下的robots.txt文件

遵守方式：

以上就是本篇文章【网络爬虫之规则】的全部内容了，欢迎阅览！文章地址：http://dfvalve.xrbh.cn/quote/1856.html
行业资讯企业新闻行情企业黄页同类资讯网站地图返回首页迅博思语资讯移动站 http://keant.xrbh.cn/ , 查看更多