爬虫的requests教程

178阅读 · 0评论 · 2020/04/12发布   前往评论

前言

  该文章主要提供交流学习使用,请勿利用其进行不当行为!

  如本篇文章侵犯了贵公司的隐私,请联系我立刻删除!

  如因滥用解密技术而产生的风险与本人无关!

关于requests爬虫

首先要从什么是爬虫说起,爬虫指的是爬取数据。而爬虫程序是通过模拟浏览器 向往目标站点发送请求得到接收响应数据从其中提取有用的数据然后再保存到本地的数据库。浏览器发送的是http协议的请求,其请求的是url,请求方式有 GET、POST。请求头包含字段的有cookies、user-agent、referer等,也可能包换某些可变参数,这就需要我们在爬虫的时间注意分辨,通过requests登录时,要带上这些参数,否则的话会导致登录不上去。 爬虫的全过程:

1、发送请求 (请求库)
        互联网建立的目的?
        数据的传递与数据的共享。
        requests模块
        selenium模块
2、获取响应数据
3、解析并提取数据
        re正则表达式
        bs4
        Xpath
4、保存数据
        sqlit
        mysql

基于requests的登录

  通常的登录有一下步骤

import requests
header = {
'User-Agent': '****',
'Connection': '***',
'Cookie': '***',
'referer': '***',
}#获取所需参数
url = ''#获取网址
seesion = requests.session()#帮我们跨请求保持某些参数
response = seesion.get(url,headers=header) #登录
#打印response当返回200时候,会发现登陆成功!!!

这样一个简单的爬虫就完成了后面获取网页数据xpath等方式调取本地数据就好了!!!




本文作者: 天行者
发布时间: 2020年04月12日 - 13:31
最后更新: 2020年04月15日 - 23:49
转载请保留原文链接及作者


登录 后回复

共有0条评论