Selenium WebDriver 笔记
刷网课随记
本文字数: 5.3k 阅读时长 ≈ 5 分钟
Visual Studio Code配置记录
本文字数: 537 阅读时长 ≈ 1 分钟
GAE AppID
本文字数: 4.6k 阅读时长 ≈ 4 分钟
SQL Server存储过程
HttpWeb
本文字数: 12k 阅读时长 ≈ 11 分钟
JSON字符串
本文字数: 5k 阅读时长 ≈ 5 分钟
刷题记
本文字数: 4k 阅读时长 ≈ 4 分钟
字符串匹配算法
本文字数: 0 阅读时长 ≈ 1 分钟
栈与队列Stack&Queue
本文字数: 2.5k 阅读时长 ≈ 2 分钟
Hashmap、Hashtabel、Dictionary
本文字数: 1.8k 阅读时长 ≈ 2 分钟
动态EV(ETP)测试
PostgreSQL数据库
BBK检测线联网
BBKTimeLock
本文字数: 873 阅读时长 ≈ 1 分钟
BBK软件设置密码方法
本文字数: 474 阅读时长 ≈ 1 分钟
VCU
本文字数: 694 阅读时长 ≈ 1 分钟
lambda Expressions
本文字数: 958 阅读时长 ≈ 1 分钟
工作日志
Python爬虫基础
本文字数: 3.2k 阅读时长 ≈ 3 分钟
HTTP
URL格式:http://host[:port][path]
host:合法的Internet主机域名或IP地址
port:端口号,默认为80
path:请求资源的路径
Urllib
Urllib库|说明
:|:
urllib.request | 请求模块
urllib.error | 异常处理模块
urllib.parse | url解析模块
urllib.robotparser | robots.txt解析模块
urllib.request.urlopen(url,data=None,[timeout,]*,cafile=None,cadefault=False,context=None)
Requests
1 | r = requests.get(url,params=None,**kwargs) |
Requests方法 | 说明
:|:
requests.request() | 构造一个请求,支撑以下各方法
requests.get() | 获取HTML网页,对应HTTP的GET
requests.head() | 获取HTMLheader,对应HTML的HEAD
requests.post() | 向HTML网页提交POST请求
requests.put() | 向HTML网页提交PUT请求
requests.patch() | 向HTML网页提交局部修改请求
requests.delete() | 向HTML网页提交删除请求
Requests对象属性|说明
:|:
r.status_code |HTTP请求返回的状态,200连接成功,404表示失败
r.text |HTTP响应内容的字符串形式,URL对应的页面内容
r.encoding |HTTP header中猜测的响应内容编码方式
r.apparent_encoding |内容中分析出的响应内容编码格式(备选编码格式)
r.content | HTTP响应内容的二进制格式
r.encoding:如果header中不存在charset,则默认编码为ISO-8859-1(不支持解析中文)
将r.apparent_encoding设置为utf-8可解决上述可能出现乱码问题
baidu搜索关键词
百度搜索关键词对应:wd=keyword
1 | kv = {'wd':'Python'} |
通用代码框架
1 | import requests |
信息标记形式
XML
标签、属性、内容
1 | <name> ... </name> |
JSON
有类型的键值对表示
无法注释
1 | "key":"value" |
YAML
无类型键值对
1 | key:value |
Selenium
声明浏览器对象
1 | from selenium import webdriver |
1 | # 打开网页 |
元素交互
实现淘宝搜索功能
1 | from selenium import webdriver |
实例
爬取图片、视频等
1 | import requests |