Silencejql

Requests方法	说明
requests.request()	构造一个请求，支撑以下各方法
requests.get()	获取HTML网页，对应HTTP的GET
requests.head()	获取HTMLheader，对应HTML的HEAD
requests.post()	向HTML网页提交POST请求
requests.put()	向HTML网页提交PUT请求
requests.patch()	向HTML网页提交局部修改请求
requests.delete()	向HTML网页提交删除请求

Requests对象属性	说明
r.status_code	HTTP请求返回的状态，200连接成功，404表示失败
r.text	HTTP响应内容的字符串形式，URL对应的页面内容
r.encoding	HTTP header中猜测的响应内容编码方式
r.apparent_encoding	内容中分析出的响应内容编码格式（备选编码格式）
r.content	HTTP响应内容的二进制格式

r.encoding：如果header中不存在charset，则默认编码为ISO-8859-1(不支持解析中文)
将r.apparent_encoding设置为utf-8可解决上述可能出现乱码问题

baidu搜索关键词

百度搜索关键词对应：wd=keyword

1
2
3

kv = {'wd':'Python'}
r = requests.get("http://www.baidu.com/s",params = kv)

通用代码框架

import requests

def GetHTMLText(url):
  try:
    header = {'user-agent':'Mozilla/5.0'}
    r = requests.get(url,headers=header)
    r.raise_for_status() #如果状态不是200则引发HTTPError异常
    r.encoding = r.apparent_encoding
    return r.text
  except:
    return "异常"

if __name__ == "__main__":
  url = "http://"
  print(GetHTMLText(url))

信息标记形式

XML

标签、属性、内容

1
2
3

<name> ... </name>
<name />
<!-- -->

JSON

有类型的键值对表示
无法注释

1
2
3

"key":"value"
"key":["value1","value2"]
"key":{"subkey":"subvalue"}

YAML

无类型键值对

key:value
key:#comments
-value1
-value2
key:
  subkey:subvalue

Selenium

声明浏览器对象

from selenium import webdriver

browser = webdriver.Chrome()
browser = webdriver.Firefox()
browser = webdriver.Edge()
browser = webdriver.Safari()
browser = webdriver.PhantomJS()

# 打开网页
browser = webdriver.Chrome()
browser.get("https://www.baidu.com")
print(browser.page_source)
browser.close()

#查找单个元素
first = browser.find_element_by_id('q')
second = browser.find_element_by_css_selector('#q')# #表示id,.表示类,不加前缀表示标签
third = browser.find_element_by_xpath('//*[@id="q"]')
print(first,second,third)

## 通用方法
from selenium.webdriver.common.by import By
common = browser.find_element(By.ID,'q')
commons = browser.find_elements(By.ID,'q') # 查找多个元素
browser.close()

元素交互

实现淘宝搜索功能

from selenium import webdriver
import time

browser = webdriver.Chrome()
browser.get("https://www.taobao.com")
input = browser.find_element_by_id('q') #找到网页中搜索框对应的id
input.send_keys('iPhone') #向搜索框中传递的参数
time.sleep(1)
input.clear()
input.send_keys('iPad')
button = browser.find_element_by_class_name('btn_search') #找到搜索按钮对应的name
button.click()

实例

爬取图片、视频等

import requests
import os
url = ""
root = "D://Python//Pic"
path = root + url.split('/')[-1]
try:
  if not os.path.exists(root):
    os.mkdir(root)
  if not os.path.exists(path):
    r = requests.get(url)
    with open(path,'wb') as f
      f.write(r.content)
      f.close()
      print("文件保存成功")
  else:
    print("文件已存在")
except:
  print("爬取失败")