归档: 2019/7 | 阿星𝑷𝒍𝒖𝒔

2019

07

08

match从开始的位置进行匹配，如果开始的位置没有匹配到，就直接匹配失败 text = 'hello' ret = re.match('h', text) print(ret.group()) # >> h 如果第一个字母不是

2019-07-08 Python

数据提取 re

07

什么是正则表达式世界上分为两种人，一种是懂正则表达式的，一种是不懂正则表达式的按照一定的规则，从某个字符串中匹配出想要的数据，这个规则就是正则表达式正则表达式常用的匹配规则匹配某个字符串text = 'hello' ret = re

2019-07-07 Python

数据提取正则表达式

06

和 lxml 一样，Beautiful Soup 也是一个 HTML/XML 的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。 lxml 只会局部遍历，而 Beautiful Soup 是基于 HTML DOM（Docum

2019-07-06 Python

BeautifulSoup 数据提取

05

lxml 介绍 lxml 是一个 HTML/XML 的解析器，主要的功能是如何解析和提取 HTML/XML 数据 lxml 和正则一样，用 C 语言实现的，是一款高性能的 Python HTML/XML 解析器，可以利用 XPath 语法，

2019-07-05 Python

数据提取 lxml

04

什么是 XpathXPath(XML Path Language) 是一门在 XML 和 HTML 文档中查找信息的语言，可以用来在 XML 和 HTML 文档中对元素和属性进行遍历 XPath 工具 Chrome 插件 XPath Hel

2019-07-04 Python

数据提取 XPath

03

requests虽然 Python 的标准库中 urllib 模块已经包含了平常我们使用的大多数功能，但是它的 API 使用起来让人感觉不太好，而 Requests 宣传是 “HTTP for Humans”，说明使用更简洁方便。安装和文

2019-07-03 Python

网络请求 requests

02

urlliburllib 库是 Python 中一个最基本的网络请求库，可以模拟浏览器的行为，向指定服务器发送一个请求，并可以保存服务器返回的数据。 urlopen 函数在 Python3 的 urllib 库中，所有和网络相求相关的方法都

2019-07-02 Python

网络请求 urllib

01

http 和 https http 协议：全称是 HyperText Transfer Protocol，意思是超文本传输协议，是一种发布和接收 HTML 页面的方法，服务器端口号是 80。 https 协议：是 HTTP 协议的加密版本，

2019-07-01 Python

HTTP 网络请求