Python爬虫基础
本文字数: 3.4k 阅读时长 ≈ 3 分钟
HTTP
URL格式:http://host[:port][path]
host:合法的Internet主机域名或IP地址
port:端口号,默认为80
path:请求资源的路径
Urllib
Urllib库|说明
:|:
urllib.request | 请求模块
urllib.error | 异常处理模块
urllib.parse | url解析模块
urllib.robotparser | robots.txt解析模块
urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,cadefault=False,context=None)
Requests
1 | r = requests.get(url,params=None,**kwargs) |
Requests方法 | 说明
:|:
requests.request() | 构造一个请求,支撑以下各方法
requests.get() | 获取HTML网页,对应HTTP的GET
requests.head() | 获取HTMLheader,对应HTML的HEAD
requests.post() | 向HTML网页提交POST请求
requests.put() | 向HTML网页提交PUT请求
requests.patch() | 向HTML网页提交局部修改请求
requests.delete() | 向HTML网页提交删除请求
Requests对象属性|说明
:|:
r.status_code |HTTP请求返回的状态,200连接成功,404表示失败
r.text |HTTP响应内容的字符串形式,URL对应的页面内容
r.encoding |HTTP header中猜测的响应内容编码方式
r.apparent_encoding |内容中分析出的响应内容编码格式(备选编码格式)
r.content | HTTP响应内容的二进制格式
r.encoding:如果header中不存在charset,则默认编码为ISO-8859-1(不支持解析中文)
将r.apparent_encoding设置为utf-8可解决上述可能出现乱码问题
baidu搜索关键词
百度搜索关键词对应:wd=keyword
1 | kv = {'wd':'Python'} |
通用代码框架
1 | import requests |
信息标记形式
XML
标签、属性、内容
1 | <name> ... </name> |
JSON
有类型的键值对表示
无法注释
1 | "key":"value" |
YAML
无类型键值对
1 | key:value |
Selenium
声明浏览器对象
1 | from selenium import webdriver |
1 | # 打开网页 |
元素交互
实现淘宝搜索功能
1 | from selenium import webdriver |
实例
爬取图片、视频等
1 | import requests |
网络学习随记
本文字数: 788 阅读时长 ≈ 1 分钟
Python script save somethings
Python learning - Script
CSharp调用SQL存储过程
上汽通用五菱
上汽通用五菱现场软件说明记录
git command
IDMDownload
本文字数: 108 阅读时长 ≈ 1 分钟
IBMMQ错误代码
IBM MQ 错误代码说明
现场工作代码路径说明
国六排放指令说明
Rabbit MQ
C# Rabbit MQ
IBM MQ
C# IBMMQ
数据库自动备份、删除数据
文中指令可在windows命令行中执行测试
本文介绍的是实用简单的方式实现所需功能,所有功能均可写在上位机软件中自动实现,但不同现场很难通用
通过脚本的形式实现简单易改
数据库链接字符串汇总
部分需要运行在本公司环境下
现场软件安装包下载
现场设备软件安装包分享
诊断指令说明--OBD模块
上位机通过OBD模块与车辆通讯指令说明
工作-BBK
HTML常用标签
常用HTML标签整理