Python爬虫(一)—爬虫的预备知识(爬虫概念、HTTP与HTTPS、请求与响应)
in python爬虫 with 0 comment

Python爬虫(一)—爬虫的预备知识(爬虫概念、HTTP与HTTPS、请求与响应)

in python爬虫 with 0 comment

这篇博文,主要是结合CriseLYJ/Python-crawler-tutorial-starts-from-zero内关于Python爬虫的预备知识进行记录的。


爬虫的定义、分类和流程

HTTP

来自科来网络通讯协议图

格式说明: scheme://host[:port]/path/…/?query-string

HTTP请求

根据 HTTP 标准,HTTP 请求可以使用多种请求方法。
HTTP1.0 定义了三种请求方法: GET, POST 和 HEAD 方法。
HTTP1.1 新增了五种请求方法:OPTIONS, PUT, DELETE, TRACE 和 CONNECT 方法。

请求方式描述
GET请求指定的页面信息,并返回实体主体。
HEAD类似于 get 请求,只不过返回的响应中没有具体的内容,用于获取报头
POST向指定资源提交数据进行处理请求(例如提交表单或者上传文件)。数据被包含在请求体中。POST 请求可能会导致新的资源的建立和/或已有资源的修改。
PUT从客户端向服务器传送的数据取代指定的文档的内容
DELETE请求服务器删除指定的页面。
CONNECTHTTP/1.1 协议中预留给能够将连接改为管道方式的代理服务器。
OPTIONS允许客户端查看服务器的性能。
TRACE回显服务器收到的请求,主要用于测试或诊断。
请求头作用
CookieCookie
User-Agent浏览器名称
Referer页面跳转处
Host主机和端口号
Connection链接类型
Upgrade-Insecure-Requests升级为 HTTPS 请求
Accept传输文件类型
Accept-Encoding文件编解码格式
x-requested-with : XMLHttpRequestajax 请求

点击查看更多:CriseLYJ/Python-crawler-tutorial-starts-from-zero 或是掘金文章:关于常用的http请求头以及响应头详解

HTTP响应

响应头作用
Location这个头配合 302 状态码使用,告诉用户端找谁。
Set-Cookie设置和页面关联的 Cookie
Content-Type服务器通过这个头,回送数据的类型
Server服务器通过这个头,告诉浏览器服务器的类型
Content-Length服务器通过这个头,告诉浏览器回送数据的长度
Connection服务器通过这个头,响应完是保持链接还是关闭链接
分类分类描述
1**信息,服务器收到请求,需要请求者继续执行操作
2**成功,操作被成功接收并处理
3**重定向,需要进一步的操作以完成请求
4**客户端错误,请求包含语法错误或无法完成请求
5**服务器错误,服务器在处理请求的过程中发生了错误

点击查看更多关于响应头内容:CriseLYJ/Python-crawler-tutorial-starts-from-zero 或是掘金文章:关于常用的http请求头以及响应头详解
点击查看更多关于响应状态码内容:百度百科-HTTP状态码

HTTPS

HTTP + SSL (安全套接字层),即带有安全套接字层的超本文传输协议,默认端口号:443,HTTP为默认80

目前 HTTPS 是未来主流,微信小程序,iOS 客户端,android 客户端的接口提供都需要 HTTPS 接口支持。
更多可以查看:https和http的主要区别

千与千寻.jpg

Responses