Scrapy 1.1 Documentation - IT文库

语言	格式	评分
英语	.pdf	3
摘要
文档记录了Scrapy 1.1系列版本的更新内容，包括错误修复、新增功能和文档改进。主要版本更新包括1.1.0至1.1.4，修复了多个关键问题，如HTTPS代理连接、响应处理、Compatibility问题等。新功能如 genspider命令的支持、 SSL证书验证改进等。文档部分涵盖了Scrapy的架构、组件交互、版本历史和API稳定性，提供了详细的使用指南和问题解决方法。
AI总结
# 《Scrapy 1.1 Documentation》总结 ##版本更新 ###1.1.1（2016-07-13） - Bug修复： - 在CONNECT请求中添加“Host”头字段，支持HTTPS代理（issue 2069）。 - 使用响应正文选择响应类（issue 2001，修复issue 2000）。 - 修复canonical化URL时的netlocs错误（issue 2038，修复issue 2010）。 - 修复HttpCompressionMiddleware： - 不解码HEAD响应（issue 2008，修复issue 1899）。 - 处理gzip Content-Type头中的charset参数（issue 2050，修复issue 2049）。 - 不解压缩gzip octet-stream响应（issue 2065，修复issue 2063）。 -.catch (和忽略并警告)验证证书时的异常（issue 2094，修复issue 2092）。 - 修复FilesPipeline和ImagesPipeline的后向兼容性问题（issue 1989，修复issue 1985）。 - 新特性： - 可以在项目文件夹外部使用genspider命令（issue 2052）。 - 默认情况下重试HTTPS CONNECT TunnelError（issue 1974）。 - 文档更新： - 添加FEED_TEMPDIR设置文档。 - 在概述中使用.extract_first()（issue 1994）。 - 更新版权声明中的年份。 - 添加errbacks的信息和示例（issue 1995）。 - 在下载器中间件示例中使用“url”变量（issue 2015）。 - 修复语法错误（issue 2054, 2120）。 - 添加使用BeautifulSoup的FAQ条目（issue 2048）。 - 添加Scrapy在Windows和Python 3的不兼容性说明（issue 2060）。 - 鼓励提交请求时使用完整标题（issue 2026）。 - 测试： - 升级Travis CI上的py.test要求，并固定pytest-cov版本为2.2.1（issue 2095）。 ###1.1.2（2016-08-18） - Bug修复： - 添加missing IMAGES_STORE_S3_ACL设置，用于在S3上传时重写默认ACL策略。 - 将IMAGES_EXPIRES默认值恢复为90（在1.1.1中引入了回归问题）。 ###1.1.3（2016-09-22） - Bug修复： - 修复ImagesPipeline和FilesPipeline子类的类属性兼容性问题（issue 2243，修复issue 2198）。 - 文档更新： - 重新编写概述和教程，以使用http://toscrape.com网站（issue 2236, 2249, 2252）。 ###1.1.4（2017-03-03） - 打包修复： - 在setup.py中禁止使用不支持的Twisted版本。 --- ##功能概述 ###核心组件 Scrapy的核心组件包括： - Extensions：扩展模块。 - Item pipelines：数据后处理管道。 - Downloader middlewares：下载器中间件。 - Spider middlewares：爬虫中间件。 ###异常处理 - NotSupported：表示不支持的功能。此异常应在组件的`__init__`方法中引发。 ###命令行工具主要命令包括： - scrapy shell：测试提取代码。 - scrapy parse：解析指定URL。 - scrapy settings：获取设置值。 ###数据流 Scrapy的架构包括组件交互和数据流向。组件包括： - Scrapy Engine：核心引擎。 - Scheduler：调度器。 - Downloader：下载器。 - Spiders：爬虫。 - Item Pipelines：数据管道。 --- ##技术细节 - 版本控制与API稳定性： - API稳定性是1.0版本的主要目标。 - 以单下划线开头的方法或函数为私有，可能不稳定。 - 稳定的API可能会添加新功能，但现有方法保持兼容。 - 支持的Python版本： - Scrapy支持Python 2.7和3.3+。 - Python 3.3+在Windows上不受支持。 - FAQ： - Scrapy支持HTTP代理（通过HttpProxyMiddleware）。 - 可通过errbacks和FormRequest.from_response()实现用户登录模拟。 - 需要pywin32以修复Twisted在Windows上的问题。 --- 以上是《Scrapy 1.1 Documentation》的核心内容总结，涵盖版本更新、功能概述、技术细节等关键信息。

来源	docs.scrapy.org

P1

P2

P3

P4

P5

P6

P7

下载文档到本地，方便使用

- 可预览页数已用完，剩余 253 页请下载阅读 -

文档评分

copilot

文档

3439

文章

0

码力

798

个性签名

暂无个性签名