python 数据分析之 HTML文件解析

一：Html
- 1. Html 理解
- 2. Html 介绍
- 3. Html 构成
- 4. HTML结构介绍
- - 1> HTML文件结构
  - - A: 文档类型声明
    - B: 根标签
    - C: 头部 -head 元素
    - D: title 标签
    - E: meta 标签
    - F: 主体-body 标签
  - 2> 各部分详解
  - - A: 标题
    - B: 段落
    - C: 链接
    - D: 图像
    - E: 表格
  - 3> 列表速查
  - - A: 基本文档
    - B: 基本标签
    - C: 文本格式化
    - D: 链接
    - E: 图片
    - F: 样式/区块
    - G: 列表
    - H: 定义列表
    - I: 表格
    - J: 框架
    - K: 实体
    - M: 文本修饰
  - 5> HTML语法基本规则
  - 6> Htlm特点
二: python 对Html 文件分析
- 1. BeautifulSoup
- 2. BeautifulSoup应用
- - 1> 常用参数
  - 2> 遍历文档树
  - 3> 文档的搜索
  - 4> BeautifulSoup解析器
  - 5> BeautifulSoup 高阶
  - - A： find_all 参数举例
三：urllib.requests
- 1. urllib库的作用-解析网页
- 2. urllib子模块
- 3. 使用流程
- 4. urllib.request 发送请求
- - 1> demo
  - 2> 函数
- 5. urllib.request.urlopen()
- - 1> data
  - 2> timeout
  - 3> Request
  - - 1. Request 详解
    - 2. 传入多个参数构建一个 Request
  - 6. urllib.request高级特性
  - - 1> urllib.request.BaseHandler
  - 2> Cookie设置
四： python 数据分析之 xlsxwriter文件解析

一：Html

1. Html 理解

HTML 是用来描述网页的一种语言。HTML 是一种在 Web 上使用的通用标记语言。HTML 允许你格式化文本，添加图片，创建链接、输入表单、框架和表格等等，并可将之存为文本文件，浏览器即可读取和显示。

HTML 指的是超文本标记语言: HyperText Markup Language

HTML 不是一种编程语言，而是一种标记语言

标记语言是一套标记标签 (markup tag)

HTML 使用标记标签来描述网页

HTML 文档包含了HTML 标签及文本内容

HTML文档也叫做 web 页面

2. Html 介绍

HTML：是 Hypertext Marked Language，即超文本标记语言，是一种用来制作超文本文档的简单标记语言；

HTTP超文本传输协议规定了浏览器在运行 HTML 文档时所遵循的规则和进行的操作。HTTP协议的制定使浏览器在运行超文本时有了统一的规则和标准。

HTML文件本质上是文本文件，而普通的文本文件只能显示字符。但是HTML技术则通过HTML标签把其他网页、图片、音频、视频等各种多媒体资源引入到当前网页中，让网页有了非常丰富的呈现方式，这就是超文本的含义——本身是文本，但是呈现出来的最终效果超越了文本。

3. Html 构成

html开发，本质上就是编写一个.html格式的文档，最终通过浏览器执行该文档，一个html文档中包含三部分:HTML部分、HTML部分、JS部分

Html组成	含义
HTML部分	HTML：hyper text markup language；hyper text：超文本，是指写在html文档中，并在网络上传输的文字、图片、视频、音频；markup language：标记语言。所谓标记：就是指由一对尖括号扩起来，当中具有特定英文单词的标识。标记的其他叫法：标签元素 element。
CSS部分	CSS：cascading style sheet 层叠样式表；用来对文档中的标签设置样式，从而改变超文本在浏览器上的渲染效果
JS部分	JS：javaScript；运行在浏览器端的脚本语言。平时我们看到网页，除了可以看以外，还可以处理一些用户的交互行为，例如：鼠标的点击，键盘的控制等等。这些功能需要通过JS来完成

html文档中只有两种类型的标记

html文档标记类型	含义
单标记	不能存放内容，多是一些功能性的标记
双标记	有开始有结束，主要功能是存放内容，可以是超文本，也可以是其他标记

4. HTML结构介绍

1> HTML文件结构

A: 文档类型声明

写在html文档的第一行是文档中唯一个非标签字符，起文档说明作用，用来告知浏览器，当前文档是一个支持html5标准的文档，不可省略，其中最重要的就是当前HTML文档遵循的语法标准。

HTML4版本的文档类型声明是：

HTML5版本的文档类型声明是：

B: 根标签

html标签是整个文档的根标签，所有其他标签都必须放在html标签里面。上面的文档类型不能当做普通标签看待。该标签包含两个子标签：head 和 body

C: 头部 -head 元素

head标签用于定义文档的头部，其他头部元素都放在head标签里。头部元素包括title标签、script标签、style标签、link标签、meta标签等等。

D: title 标签

作用：设置文档的标题或者名称。浏览器通常将该标签的内容显示在窗口顶部或者标签页上。每个 HTML 文档只能有一个，必须有一个 title 标签。

E: meta 标签

声明字符的编码格式为 utf-8

F: 主体-body 标签

body标签定义网页的主体内容，在浏览器窗口内显示的内容都定义到body标签内;也就是我们的主要内容（比如文本、超链接、图像、表格和列表等）

E: 注释

描述当前代码功能，代码信息、编写日期、作者、维护日期、维护者

HTML注释的写法是：

F: demo




Html test


 
我的第一个标题
我的第一个段落。
 


===================================
 声明为 HTML5 文档
 元素是 HTML 页面的根元素
 元素包含了文档的元（meta）数据，如  定义网页编码格式为 utf-8（由于在大部分浏览器中直接输出中文会出现乱码，所以要在头部将字符声明为UTF-8）
 元素描述了文档的标题
 元素包含了可见的页面内容
<h1> 元素定义一个大标题
<p> 元素定义一个段落</pre><h4>2> 各部分详解</h4><h5>A: 标题</h5><p>HTML 标题（Heading）是通过</p>
<h1> – </p>
<h6> 标签来定义的</p>
<pre class="brush:python;toolbar:false">



<title>Html test


 
我的第一个标题
我的第二个标题
我的第三个标题

B: 段落

HTML 段落是通过标签

来定义的

Html test

这是一个段落。

C: 链接

HTML 链接是通过标签来定义的

 
这是一个链接使用了 href 属性

D: 图像

HTML 图像是通过标签来定义的。注意：图像的名称和尺寸是以属性的形式提供的。

E: 表格

表格由

标签来定义。每个表格均有若干行（由

标签定义），每行被分割为若干单元格（由

标签定义）。字母 td 指表格数据（table data），即数据单元格的内容。数据单元格可以包含文本、图片、列表、段落、表单、水平线、表格等等。表格的表头使用

标签进行定义。如果不定义边框属性，表格将不显示边框。有时这很有用，但是大多数时候，我们希望显示边框。使用边框属性来显示一个带有边框的表格：


    
        Header 1
        Header 2
    
    
        row 1, cell 1
        row 1, cell 2
    
    
        row 2, cell 1
        row 2, cell 2

3> 列表速查

A: 基本文档



文档标题


可见文本...

B: 基本标签

h1-h6 块元素独立成行行间距

属性：

align

对齐方式 left center right

color

不存在如果需要设置样式要嵌套font标签

最大的标题

. . .

我是标题1

这是一个段落。

（换行）

（水平线）

C: 文本格式化

粗体文本计算机代码 强调文本 斜体文本 键盘输入

预格式化文本

更小的文本
重要的文本

（缩写）
（联系信息）
（文字方向）

（从另一个源引用的部分）
（工作的名称）
（删除的文本）
（插入的文本）
_{（下标文本）
^{（上标文本）}}

D: 链接
普通的链接：链接文本
图像链接： 
邮件链接： 发送e-mail
书签：
提示部分
跳到提示部分
E: 图片
F: 样式/区块
h1 {color:red;}
p {color:blue;}

文档中的块级元素
文档中的内联元素
G: 列表

无序列表
    项目
    项目
有序列表
    第一项
    第二项
H: 定义列表
  项目 1
    描述项目 1
  项目 2
    描述项目 2
I: 表格
`








苹果
香蕉
樱桃


 
`
    
  表格标题
    表格标题
  
  
    表格数据
    表格数据
  
J: 框架
K: 实体
< 等同于 
© 等同于 ©
M: 文本修饰

font 行内标签

属性：

size

字体大小最大值是7

color

颜色值颜色单词 red green blue 颜色的RGB rgb(0,0,255)

十六进制表示 #0000ff

face

字体族黑体楷体宋体华文彩云必须浏览器支持
    
    Title



     主题内容。
我还是主体内容
5> HTML语法基本规则

序列规则内容

1 根标签有且只能有一个

2 标签可以嵌套但不能交叉嵌套

3 注释不能嵌套

4 属性必须有值，值必须加引号，单引号或双引号均可

5 标签名不区分大小写但建议使用小写

6> Htlm特点

序列内容

1 使用是一对一对的标签组成;双标签可以嵌套其他标签

2 标签之间可以相互嵌套，但是不可以交叉嵌套;;;

3 使用属性去区分标签不同; ;

二: python 对Html 文件分析

1. BeautifulSoup

在使用BeautiSoup对其进行解析，解析的时候要使用相应类型的解析器html.parser
from bs4 import BeautifulSoup

file = open(r'C:/Users/CHH_PC/Desktop/test.html','rb')
html = file.read()
bs = BeautifulSoup(html,'html.parser')
BeautifulSoup 将复杂的HTML文档转换成一个复杂的树形结构，每个结点都是一个Python对象，所有对象可以分为四种：

对象含义

Tag 标签及其内容：拿到它所找到的第一个内容；

NavigableString 这个内容就是NavigableString（标签里的内容，string）

BeautifulSoup 表示对整个文档的访问

Comment 是一个特殊的NavigableString，输出内容不包括注释符号

2. BeautifulSoup应用

1> 常用参数

用法解释

bs.title Tag 标签及其内容：拿到它所找到的第一个内容

bs.title.string 只获得标签的内容，不要标签

bs.a.attrs 快速拿到标签里面的所有属性

bs.NavigableString NavigableString用.string获取标签内部的文字。

bs…head 获取head标签的所有内容

bs.head.contents head文档的遍历

bs.body.contents body文档的遍历

bs.body.contents[1] body中第一个文档的遍历；content可遍历的内容有很多，获取Tag所有的子节点，返回一个list;contents[1] 用列表索引获取它的某一个元素

bs…prettify() 获取HTML的缩进格式

bs…title 获取title标签的所有内容

bs.title.name 获取title标签的名称

bs.title.string 获取title的文本内容

bs.div 获取第一个div标签中的所有内容

bs.div[‘id’] 获取第一个div标签的id的值

bs.a 获取第一个a标签中的所有内容

bs.find_all(‘a’) 获取所有的a标签中的所有内容

2> 遍历文档树

其他参数 demo

children for child in bs.body.contents[9].children: print(child);hildren 获取 Tag 所有的子节点，返回一个生成器

.descsndants 获取 Tag 所有的子孙节点

.strings 如果Tag包含多个字符串，即在子孙节点中，可以用此获取，再进行遍历；

.striped_strings 与strings 用法一致，清除多余的空白字符串；for child in bs.body.contents[9].stripped_strings: print(child)

.parent 获取Tag 父节点

.parents 递归得到父辈元素的所有节点，返回一个生成器；

.previous_sibling 获取当前Tag上一个节点，属性通常是字符串或者空白，真实结果其实是当前标签与上一个标签之间的顿号与换行符；

.next_sibling 获取当前Tag下一个节点，属性通常是字符串或者空白，真实结果其实是当前标签与下一个标签之间的顿号与换行符;

.previous_siblings 获取当前Tag上面所有的兄弟节点，返回一个生成器；

.next_siblings 获取当前Tag下面所有的兄弟节点，返回一个生成器；

.previous_element 获取解析过程中上一个被解析的对象，可能与previous_sibling相同，但通常都不同，

.next_element 获取解析过程中下一个被解析的对象，可能与previous_sibling相同，但通常都不同；

.previous_elements 返回一个生成器，可以向前访问文档的解析内容；

.next_elements 返回一个生成器，可以向后访问文档的解析内容；

3> 文档的搜索

参数含义

find_all() divs_bs = bs.find_all(‘div’) print(divs_bs)找到所有的列标签，统一放到divs_bs ;也可以编译一个find_all(re.compile(‘a’)）对象，然后find_all其中的内容

kwargs（参数） divs_bs = bs.find_all( id=“wp”)或者 divs_bs = bs.find_all(‘div’, id=“wp”) 再进行遍历

text divs_bs = bs.find_all( text=“请输入搜索内容”);其他属性divs_bs = bs.find_all( value=“请输入搜索内容”)

limit divs_bs = bs.find_all(‘div’, limit=1) print(divs_bs);输出一个div信息

css选择器含义

titlehead\body divs_bs = bs.select(‘title’) 通过title查询；

# divs_bs = bs.select(“#toptb”) 加# 通过ID查找

. divs_bs = bs.select(“.pg_index”) 加 . 通过类名查找

head > title divs_bs = bs.select(‘head > title’) 通过子标签查询；

a ivs_bs = bs.select(“a[class=‘sister’]”) 按照属性查找

4> BeautifulSoup解析器

解析器语法优势劣势

Python标准库 BeautifulSoup(html, ‘html.parser’) Python的内置标准、执行速度适中、文档容错能力强 Python2.7.3及Python3.2.2之前的版本文档容错能力差

lxml HTML解析库 BeautifulSoup(html, ‘lxml’) 速度快、文档容错能力强需要安装C语言库

lxml XML解析库 BeautifulSoup(html, ‘xml’) 速度快、唯一支持XML的解析器速度快、唯一支持XML的解析器

html5lib解析库 BeautifulSoup(html, ‘html5lib’) 最好的容错性、以浏览器的方式解析文档，生成HTMLS格式的文档速度慢、不依赖外部扩展

例如：

soup = BeautifulSoup(html, ‘lxml’)创建对象

soup = BeautifulSoup(open(‘test.html’),‘lxml’)读取HTML文件

5> BeautifulSoup 高阶

A： find_all 参数举例

举例含义

soup.find_all(‘a’) 查找与字符串完整匹配的内容，用于查找文档中所有的标签

soup.find_all(re.compile(‘^b’)) 传入正则表达式，BeautifulSoup会通过正则表达式的match()来匹配内容。返回所有表示和标签。

soup.find_all([‘p’,‘a’]) 传入列表参数，BeautifulSoup会与列表中任一元素匹配的内容返回。返回所有的

和标签
soup.find_all(text=re.compile(‘^b’)) 匹配正则表达式
soup.find_all(传方法) soup.find_all(test_def);def test_def: return tag.has_attr(“class”) 此处传参方法，判断标签是否含有class信息
三：urllib.requests
1. urllib库的作用-解析网页
作用：urllib 模块是一个高级的 web 交流库，其核心功能就是模仿web浏览器等客户端，去请求相应的资源，并返回一个类文件对象。可以使用代码模拟浏览器发起请求

urllib 是python3 的内置库，urllib库最大的作用就是可以去设定相关的头部信息然后和网站建立请求连接，请求连接建立完成后就能够去获取到网页的整体数据，这也是python爬虫脚本实现的核心

2. urllib子模块

urllib模块包括：urllib.request, urllib.error, urllib.parse,urllib.robotparser

子模块解释

urllib.request 请求模块-可以用来发送request和获取request的结果

urllib.error 异常处理模块-包含了urllib.request产生的异常

urllib.parse url解析模块-用来解析和处理/img/16/URL

urllib.robotparser robots.txt解析模块-用来解析页面的robots.txt文件

模拟请求使用的最主要的库便是urllib.request，异常处理用urllib.error库

3. 使用流程

序列步骤

1 指定url

2 发起请求：针对指定的url发起一个请求

3 获取页面数据：获取服务器响应回来的页面数据

4 持久化存储

4. urllib.request 发送请求

urllib.request 模块提供了最基本的构造 HTTP 请求的方法，利用它可以模拟浏览器的一个请求发起过程，同时它还带有处理 authenticaton （授权验证）， redirections （重定向)， cookies (浏览器Cookies）以及其它内容

demo

1> demo
import urllib.request
response = urllib.request.urlopen("https://www.baidu.com")
print(response)
====================

返回一个一个 HTTPResposne 类型的对象，它包含方法有 read() 、 readinto() 、getheader(name) 、 getheaders() 、 fileno() 等函数和 msg 、 version 、 status 、 reason 、 debuglevel 、 closed 等属性，所以可以通过response 调用这些方法和属性
2> 函数

函数含义

response.status 返回结果的状态码，如200代表请求成功，404代表网页未找到等

response.getheaders() 返回list 格式head 信息

response.getheader(“Server”) 查询具体信息

response.read() 读取返回信息

5. urllib.request.urlopen()
def urlopen(url, data=None, timeout=socket._GLOBAL_DEFAULT_TIMEOUT,
            *, cafile=None, capath=None, cadefault=False, context=None)
属性理解

data 参数是可选的；如果要添加 data ，它要是字节流编码格式的内容，即 bytes 类型，通过 bytes() 函数可以进行转化，另外如果你传递了这个 data 参数，它的请求方式就不再是 GET 方式请求，而是 POST

timeout timeout 参数可以设置超时时间，单位为秒，意思就是如果请求超出了设置的这个时间还没有得到响应，就会抛出异常，如果不指定，就会使用全局默认时间。它支持 HTTP 、 HTTPS 、 FTP 请求

cafile 和 capath 两个参数是指定CA证书和它的路径，这个在请求 HTTPS 链接时会有用

cadefault 参数现在已经弃用了，默认为 False

1> data
import urllib.parse
import urllib.request
data = bytes(urllib.parse.urlencode({'word': 'hello'}), encoding=
'utf8')
response = urllib.request.urlopen('http://httpbin.org/post', data=data)
print(response.read().decode()) # 把bety转换为字典形式数据
========================
{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "word": "hello"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "10", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Python-urllib/3.7", 
    "X-Amzn-Trace-Id": "Root=1-63f61236-4616d33d219931e3332ba8b5"
  }, 
  "json": null, 
  "origin": "117.143.152.208", 
  "url": "http://httpbin.org/post"
}
POST 请求:

这里我们传递了一个参数 word ，值是 hello 。它需要被转码成 bytes （字节流）类型。其中转字节流采用了 bytes() 方法；

第一个参数需要是 str (字符串)类型，需要用 urllib.parse.urlencode() 方法来将参数字典转化为字符串。

第二个参数指定编码格式，在这里指定为 utf8

2> timeout
import urllib.request
response = urllib.request.urlopen("https://www.baidu.com/?tn=65081411_1_oem_dg",timeout=1)
print(response.read().decode())
设置了超时时间是1秒，程序1秒过后服务器依然没有响应，于是抛出了 urllib.error./img/16/URLError: 异常，错误原因是 timed out;因此我们可以通过设置这个超时时间来控制一个网页如果长时间未响应就跳过它的抓取，利用 try,except 语句就可以实现这样的操作
import urllib.request
import  socket
import urllib.error
try:
    response = urllib.request.urlopen('http://httpbin.org/get',timeout=0.1)
except urllib.error./img/16/URLError as e:
    if  isinstance(e.reason, socket.timeout):
            print("Time out!")
3> Request

1. Request 详解
import urllib.request
request = urllib.request.Request("https://www.baidu.com")
response = urllib.request.urlopen(request)
print(response.read().decode("utf-8"))
依然是用 urlopen() 方法来发送这个请求，只不过这次 urlopen() 方法的参数不再是一个/img/16/URL，而是一个 Request ，通过构造这个这个数据结构，一方面我们可以将请求独立成一个对象，另一方面可配置参数更加

丰富和灵活
def __init__(self, url, data=None, headers={},
                 origin_req_host=None, unverifiable=False,
                 method=None):
参数含义

url 参数是请求链接，这个是必传参数，其他的都是可选参数

data 参数如果要传必须传 bytes （字节流）类型的，如果是一个字典，可以先用 urllib.parse.urlencode() 编码。

headers 参数是一个字典，你可以在构造 Request 时通过 headers 参数传递，也可以通过调用 Request 对象的 add_header() 方法来添加请求头。请求头最常用的用法就是通过修改 User-Agent 来伪装浏览器，默认的 User-Agent 是 Python-urllib ，你可以通过修改它来伪装浏览器，比如要伪装火狐浏览器，你可以把它设置为 Mozilla/5.0 (X11; U; Linux i686)Gecko/20071127 Firefox/2.0.0.11

origin_req_host 指的是请求方的 host 名称或者 IP 地址

unverifiable 指的是这个请求是否是无法验证的，默认是 False 。意思就是说用户没有足够权限来选择接收这个请求的结果。例如我们请求一个HTML文档中的图片，但是我们没有自动抓取图像的权限，这时 unverifiable 的值就是 True

method 是一个字符串，它用来指示请求使用的方法，比如 GET ， POST ， PUT 等等

2. 传入多个参数构建一个 Request

通过四个参数构造了一个 Request ， url 即请求链接，在 headers 中指定了 User-Agent 和 Host ，传递的参数 data 用了 urlencode() 和 bytes() 方法来转成字节流，另外指定了请求方式为 POST
from urllib import request,parse
url = "http://httpbin.org/post"
headers = {
    #伪装一个火狐浏览器
    "User-Agent":'Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)',
    "host":'httpbin.org'
}
dict = {
    "name":"Germey"
}
data = bytes(parse.urlencode(dict),encoding="utf8")
req = request.Request(url=url,data=data,headers=headers,method="POST")
response = request.urlopen(req)
print(response.read().decode("utf-8"))
==========================

{
  "args": {}, 
  "data": "", 
  "files": {}, 
  "form": {
    "name": "Germey"
  }, 
  "headers": {
    "Accept-Encoding": "identity", 
    "Content-Length": "11", 
    "Content-Type": "application/x-www-form-urlencoded", 
    "Host": "httpbin.org", 
    "User-Agent": "Mozilla/4.0 (compatible; MSIE 5.5; Windows NT)", 
    "X-Amzn-Trace-Id": "Root=1-63f61795-1ff741e6101a79d9442e056c"
  }, 
  "json": null, 
  "origin": "117.143.152.208", 
  "url": "http://httpbin.org/post"
}


Process finished with exit code 0
headers 也可以用 add_header() 方法来添加。

req = request.Request(url=url, data=data, method=‘POST’)

req.add_header(‘User-Agent’, ‘Mozilla/4.0 (compatible; MSIE 5.5;Windows NT)’)

如此一来，我们就可以更加方便地构造一个 Request ，实现请求的发送

6. urllib.request高级特性

虽然可以构造 Request ，但是一些更高级的操作，比如 Cookies 处理，代理该怎样来设置？需要更强大的工具 Handler ;

简而言之你可以把它理解为各种处理器，有专门处理登录验证的，有处理 Cookies 的，有处理代理设置的，利用它们我们几乎可以做到任何 HTTP 请求中所有的事情

1> urllib.request.BaseHandler

它是所有其他 Handler 的父类，它提供了最基本的 Handler 的方法，例

如 default_open() 、 protocol_request() 等

BaseHandler 子类含义

HTTPDefaultErrorHandler 用于处理HTTP响应错误，错误都会抛出 HTTPError 类型的异常

HTTPRedirectHandler 用于处理重定向

HTTPCookieProcessor 用于处理 Cookie

ProxyHandler 用于设置代理，默认代理为空

HTTPPasswordMgr 用于管理密码，它维护了用户名密码的表

HTTPBasicAuthHandler 用于管理认证，如果一个链接打开时需要认证，那么可以用它来解决认证问题

实例代码1
import urllib.request
auth_handler = urllib.request.HTTPBasicAuthHandler()
auth_handler.add_password(realm='PDQ Application',
                          uri='https://mahler:8092/site-updates.py',
                          user='klem',
                          passwd='kadidd!ehopper')
opener = urllib.request.build_opener(auth_handler)
urllib.request.install_opener(opener)
urllib.request.urlopen('http://www.example.com/login.html'
=============================
说明 Handler 和 Opener 的使用方法。在这里，首先实例化了一个 HTTPBasicAuthHandler 对象，利用 add_password() 添加进去用户名和密码，相当于建立了一个处理认证的处理器；接下来利用 urllib.request.build_opener() 方法来利用这个处理器构建一个 Opener ，那么这个 Opener 在发送请求的时候就具备了认证功能了。接下来利用 Opener 的 open() 方法打开链接，就可以完成认证了
实例代码2

代理
import urllib.request
proxy_handler = urllib.request.ProxyHandler({
'http': 'http://218.202.111.10:80',
'https': 'https://180.250.163.34:8888'
})
opener = urllib.request.build_opener(proxy_handler)
response = opener.open('https://www.baidu.com')
print(response.read())
=============================
用于说明代理的设置方法，代理可能已经失效。

在这里使用了 ProxyHandler ， ProxyHandler 的参数是一个字典，key是协议类型，比如 http 还是 https 等，value是代理链接，可以添加多个代理。
然后利用 build_opener() 方法利用这个 Handler 构造一个 Opener ，然后发送请求即可
2> Cookie设置

获取网站的 Cookie
import http.cookiejar, urllib.request
cookie = http.cookiejar.CookieJar() 或则cookie = http.cookiejar.LWPCookieJar(filename)# LWPCookieJar ，同样可以读取和保存 Cookie ，但是保存的格式和 MozillaCookieJar 的不一样，它会保存成与libwww-perl的Set-Cookie3文件格式的 Cookie
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
for item in cookie:
   print(item.name+"="+item.value)
========================
打印
BAIDUID=8D12919D30F39DFDD8FC36AC5F965BD4:FG=1
BIDUPSID=8D12919D30F39DFDD1ED7D576F0628B2
H_PS_PSSID=36561_38129_37906_37861_38264_38173_38289_38243_38034_38263_37928_38285_26350_22157_37881
PSTM=1678009542
BDSVRTM=0
BD_HOME=1
===============================================
首先必须声明一个 CookieJar 对象，接下来我们就需要利用 HTTPCookieProcessor 来构建一个 handler ，最后利用 build_opener 方法构建出 opener ，执行 open() 即可
Cookie 实际也是以文本形式保存
filename = 'cookie.txt'
cookie = http.cookiejar.MozillaCookieJar(filename)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
cookie.save(ignore_discard=True, ignore_expires=True)
===================
这时的 CookieJar 就需要换成 MozillaCookieJar ，生成文件时需要用到它，它是 CookieJar 的子类，可以用来处理 Cookie 和文件相关的事件，读取和保存 Cookie ，它可以将 Cookie 保存成 Mozilla 型的格式；运行之后可以发现生成了一个 cookie.txt 文件
从文件读取并利用Cookie 信息
cookie = http.cookiejar.LWPCookieJar()
cookie.load('cookie.txt', ignore_discard=True, ignore_expires=True)
handler = urllib.request.HTTPCookieProcessor(cookie)
opener = urllib.request.build_opener(handler)
response = opener.open('http://www.baidu.com')
print(response.read().decode('utf-8'))
===========================
利用上面的方式生成了 LWPCookieJar 格式的 Cookie ，然后利用 load() 方法，传入文件名称，后面同样的方法构建 handler 和 opener 即可
四： python 数据分析之 xlsxwriter文件解析

python 数据分析之 xlsxwriter文件解析

https://blog.csdn.net/weixin_42914706/article/details/129116587

本文来自网络，不代表协通编程立场，如若转载，请注明出处：https://www.net2asp.com/9267ab5881.html

html python 数据分析

赞 (0)

生成海报

Access to XMLHttpRequest at ‘域名1 ‘ from origin ‘域名2‘ has been blocked by CORS java跨域问题详细解决方案
« 上一篇 1天前

Zookeeper数据持久化与数据备份
下一篇 » 1天前

相关推荐

后缀为.vep文件转换成.mp4文件

问题描述后缀为.vep的视频无法用普通的播放器播放原因分析： vep格式是大黄蜂加密格式后缀，如果有账号密码即可直接打开；如果没有就得用提取器转换成mp4格式，使用普通播放器播…

人工智能 1天前

 人工智能

树莓派配置Opencv（C++）

首先准备一个摄像头，连接到树莓派上树莓派配置首先执行命令 sudo raspi-config 进入设置页面后，之后按照下面步骤设置选择 Interfacing Options…

1天前

 人工智能

STM32智能小车（循迹、跟随、避障、测速、蓝牙、wife、4g、语音识别）总结

目录 1.电机模块开发 1.1 让小车动起来 1.2 串口控制小车方向 1.3 如何进行小车PWM调速 1.4 PWM方式实现小车转向 2.循迹小车 2.1 循迹模块使用 2.2…

1天前

 人工智能

高阶数据增强：Cutmix 原理讲解&零基础程序实现

1 前言在上一篇文章一只猫引出的数据增强[Data Augmentation]中，介绍了十四种常用的深度学习数据增强方法，这些方法能满足日常大部分使用需求。但是在处理一些特殊问题…

1天前

 人工智能

ECCV 2024 European Conference on Computer Vision

【！严禁直接转载】目录一、重要二、Dates 三、Submission Requirements 四、ECCV 2024 Submission Policies 五、论文模…

1天前

 人工智能

零基础手把手训练实践-图像分类模型-基于达摩院modelscope

零基础手把手训练实践：图像分类模型 -基于达摩院modelscope 导读：图像分类模型是最简单的，也是最基础的计算机视觉任务，应用非常广泛。本文将手把手介绍零基础训练图像分类模型…

1天前

 算法结构

【算法小记】深度学习——循环神经网络相关原理与RNN、LSTM算法的使用

文中程序以Tensorflow-2.6.0为例部分概念包含笔者个人理解，如有遗漏或错误，欢迎评论或私信指正。卷积神经网络在图像领域取得了良好的效果，卷积核凭借优秀的特征提取能力…

1天前

 算法结构

C语言哈希查找（哈希表的创建、处理冲突、查找等）

前言哈希查找（Hash Search）是一种基于哈希表实现的数据查找算法，也可以被称为散列查找。在哈希查找中，首先根据给定的键值通过哈希函数计算出对应的哈希值，然后利用该哈希值…

1天前

 算法结构

C · 初阶 | 数组？看一遍就够了

啊我摔倒了..有没有人扶我起来学习…. 目录前言一、一维数组的创建和初始化 1.1 数组的创建 1.2 数组的初始化 1.3 一维数组的使用 1.4 一维数组在内存…

1天前

 算法结构

归并排序应用——剑指 Offer 51. 数组中的逆序对

文章目录题目 1.错误示范 2. 分析逆序对的判断统计出某个数后面有多少个数比它小举例(完整过程解析) 第一次循环第二次循环第三次循环第四次循环第五次循环循环结束…

1天前

最新

后缀为.vep文件转换成.mp4文件

树莓派配置Opencv（C++）

STM32智能小车（循迹、跟随、避障、测速、蓝牙、wife、4g、语音识别）总结

高阶数据增强：Cutmix 原理讲解&零基础程序实现

ECCV 2024 European Conference on Computer Vision

零基础手把手训练实践-图像分类模型-基于达摩院modelscope

【算法小记】深度学习——循环神经网络相关原理与RNN、LSTM算法的使用

C语言哈希查找（哈希表的创建、处理冲突、查找等）

C · 初阶 | 数组？看一遍就够了

归并排序应用——剑指 Offer 51. 数组中的逆序对

elasticsearch[二]-DSL查询语法：全文检索、精准查询(term/range)、地理坐标查询(矩阵、范围)、复合查询(相关性算法)、布尔查询

蜣螂优化(DBO)算法的5种最新变体(含MATLAB代码)

完全解读低通滤波，并且用其C语言实现

关于旅行商问题的多种算法求解

高并发内存池项目（C++实战项目）

Copyright © 2022 Www.Net2asp.COM Rights Reserved.

苏ICP备2025168566号-5

python 数据分析之 HTML文件解析

python 数据分析之 HTML文件解析

一 ：Html

1. Html 理解

2. Html 介绍

3. Html 构成

4. HTML结构 介绍

1> HTML文件结构

A: 文档类型声明

B: 根标签

C: 头部 -head 元素

D: title 标签

E: meta 标签

F: 主体-body 标签

我的第一个标题

我的第一个标题

我的第二个标题

我的第三个标题

B: 段落

C: 链接

D: 图像

E: 表格

3> 列表速查

A: 基本文档

B: 基本标签

最大的标题

. . .

. . .

. . .

. . .

我是标题1

C: 文本格式化

D: 链接

E: 图片

F: 样式/区块

G: 列表

H: 定义列表

I: 表格

J: 框架

K: 实体

M: 文本修饰

5> HTML语法基本规则

6> Htlm特点

二: python 对Html 文件分析

1. BeautifulSoup

2. BeautifulSoup应用

1> 常用参数

2> 遍历文档树

3> 文档的搜索

4> BeautifulSoup解析器

5> BeautifulSoup 高阶

A： find_all 参数举例

三：urllib.requests

1. urllib库的作用-解析网页

2. urllib子模块

3. 使用流程

4. urllib.request 发送请求

1> demo

2> 函数

5. urllib.request.urlopen()

1> data

2> timeout

3> Request

1. Request 详解

2. 传入多个参数构建一个 Request

6. urllib.request高级特性

1> urllib.request.BaseHandler

2> Cookie设置

四 ： python 数据分析之 xlsxwriter文件解析

相关推荐

一：Html

4. HTML结构介绍

四： python 数据分析之 xlsxwriter文件解析