Scrapy 1.1 Documentation
1.12 MB
260 页
0 评论
| 语言 | 格式 | 评分 |
|---|---|---|
英语 | .pdf | 3 |
| 摘要 | ||
文档记录了Scrapy 1.1系列版本的更新内容,包括错误修复、新增功能和文档改进。主要版本更新包括1.1.0至1.1.4,修复了多个关键问题,如HTTPS代理连接、响应处理、Compatibility问题等。新功能如 genspider命令的支持、 SSL证书验证改进等。文档部分涵盖了Scrapy的架构、组件交互、版本历史和API稳定性,提供了详细的使用指南和问题解决方法。 | ||
| AI总结 | ||
# 《Scrapy 1.1 Documentation》总结
##版本更新
###1.1.1(2016-07-13)
- **Bug修复**:
- 在CONNECT请求中添加“Host”头字段,支持HTTPS代理(issue 2069)。
- 使用响应正文选择响应类(issue 2001,修复issue 2000)。
- 修复canonical化URL时的netlocs错误(issue 2038,修复issue 2010)。
- 修复HttpCompressionMiddleware:
- 不解码HEAD响应(issue 2008,修复issue 1899)。
- 处理gzip Content-Type头中的charset参数(issue 2050,修复issue 2049)。
- 不解压缩gzip octet-stream响应(issue 2065,修复issue 2063)。
-.catch (和忽略并警告)验证证书时的异常(issue 2094,修复issue 2092)。
- 修复FilesPipeline和ImagesPipeline的后向兼容性问题(issue 1989,修复issue 1985)。
- **新特性**:
- 可以在项目文件夹外部使用genspider命令(issue 2052)。
- 默认情况下重试HTTPS CONNECT TunnelError(issue 1974)。
- **文档更新**:
- 添加FEED_TEMPDIR设置文档。
- 在概述中使用.extract_first()(issue 1994)。
- 更新版权声明中的年份。
- 添加errbacks的信息和示例(issue 1995)。
- 在下载器中间件示例中使用“url”变量(issue 2015)。
- 修复语法错误(issue 2054, 2120)。
- 添加使用BeautifulSoup的FAQ条目(issue 2048)。
- 添加Scrapy在Windows和Python 3的不兼容性说明(issue 2060)。
- 鼓励提交请求时使用完整标题(issue 2026)。
- **测试**:
- 升级Travis CI上的py.test要求,并固定pytest-cov版本为2.2.1(issue 2095)。
###1.1.2(2016-08-18)
- **Bug修复**:
- 添加missing IMAGES_STORE_S3_ACL设置,用于在S3上传时重写默认ACL策略。
- 将IMAGES_EXPIRES默认值恢复为90(在1.1.1中引入了回归问题)。
###1.1.3(2016-09-22)
- **Bug修复**:
- 修复ImagesPipeline和FilesPipeline子类的类属性兼容性问题(issue 2243,修复issue 2198)。
- **文档更新**:
- 重新编写概述和教程,以使用http://toscrape.com网站(issue 2236, 2249, 2252)。
###1.1.4(2017-03-03)
- **打包修复**:
- 在setup.py中禁止使用不支持的Twisted版本。
---
##功能概述
###核心组件
Scrapy的核心组件包括:
- **Extensions**:扩展模块。
- **Item pipelines**:数据后处理管道。
- **Downloader middlewares**:下载器中间件。
- **Spider middlewares**:爬虫中间件。
###异常处理
- **NotSupported**:表示不支持的功能。此异常应在组件的`__init__`方法中引发。
###命令行工具
主要命令包括:
- **scrapy shell**:测试提取代码。
- **scrapy parse**:解析指定URL。
- **scrapy settings**:获取设置值。
###数据流
Scrapy的架构包括组件交互和数据流向。组件包括:
- **Scrapy Engine**:核心引擎。
- **Scheduler**:调度器。
- **Downloader**:下载器。
- **Spiders**:爬虫。
- **Item Pipelines**:数据管道。
---
##技术细节
- **版本控制与API稳定性**:
- API稳定性是1.0版本的主要目标。
- 以单下划线开头的方法或函数为私有,可能不稳定。
- 稳定的API可能会添加新功能,但现有方法保持兼容。
- **支持的Python版本**:
- Scrapy支持Python 2.7和3.3+。
- Python 3.3+在Windows上不受支持。
- **FAQ**:
- Scrapy支持HTTP代理(通过HttpProxyMiddleware)。
- 可通过errbacks和FormRequest.from_response()实现用户登录模拟。
- 需要pywin32以修复Twisted在Windows上的问题。
---
以上是《Scrapy 1.1 Documentation》的核心内容总结,涵盖版本更新、功能概述、技术细节等关键信息。 | ||
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余
253 页请下载阅读 -
文档评分














Hyperledger Fabric 1.1 Documentation