pdf文档 Scrapy 1.1 Documentation

1.12 MB 260 页 0 评论
语言 格式 评分
英语
.pdf
3
摘要
文档记录了Scrapy 1.1系列版本的更新内容,包括错误修复、新增功能和文档改进。主要版本更新包括1.1.0至1.1.4,修复了多个关键问题,如HTTPS代理连接、响应处理、Compatibility问题等。新功能如 genspider命令的支持、 SSL证书验证改进等。文档部分涵盖了Scrapy的架构、组件交互、版本历史和API稳定性,提供了详细的使用指南和问题解决方法。
AI总结
# 《Scrapy 1.1 Documentation》总结 ##版本更新 ###1.1.1(2016-07-13) - **Bug修复**: - 在CONNECT请求中添加“Host”头字段,支持HTTPS代理(issue 2069)。 - 使用响应正文选择响应类(issue 2001,修复issue 2000)。 - 修复canonical化URL时的netlocs错误(issue 2038,修复issue 2010)。 - 修复HttpCompressionMiddleware: - 不解码HEAD响应(issue 2008,修复issue 1899)。 - 处理gzip Content-Type头中的charset参数(issue 2050,修复issue 2049)。 - 不解压缩gzip octet-stream响应(issue 2065,修复issue 2063)。 -.catch (和忽略并警告)验证证书时的异常(issue 2094,修复issue 2092)。 - 修复FilesPipeline和ImagesPipeline的后向兼容性问题(issue 1989,修复issue 1985)。 - **新特性**: - 可以在项目文件夹外部使用genspider命令(issue 2052)。 - 默认情况下重试HTTPS CONNECT TunnelError(issue 1974)。 - **文档更新**: - 添加FEED_TEMPDIR设置文档。 - 在概述中使用.extract_first()(issue 1994)。 - 更新版权声明中的年份。 - 添加errbacks的信息和示例(issue 1995)。 - 在下载器中间件示例中使用“url”变量(issue 2015)。 - 修复语法错误(issue 2054, 2120)。 - 添加使用BeautifulSoup的FAQ条目(issue 2048)。 - 添加Scrapy在Windows和Python 3的不兼容性说明(issue 2060)。 - 鼓励提交请求时使用完整标题(issue 2026)。 - **测试**: - 升级Travis CI上的py.test要求,并固定pytest-cov版本为2.2.1(issue 2095)。 ###1.1.2(2016-08-18) - **Bug修复**: - 添加missing IMAGES_STORE_S3_ACL设置,用于在S3上传时重写默认ACL策略。 - 将IMAGES_EXPIRES默认值恢复为90(在1.1.1中引入了回归问题)。 ###1.1.3(2016-09-22) - **Bug修复**: - 修复ImagesPipeline和FilesPipeline子类的类属性兼容性问题(issue 2243,修复issue 2198)。 - **文档更新**: - 重新编写概述和教程,以使用http://toscrape.com网站(issue 2236, 2249, 2252)。 ###1.1.4(2017-03-03) - **打包修复**: - 在setup.py中禁止使用不支持的Twisted版本。 --- ##功能概述 ###核心组件 Scrapy的核心组件包括: - **Extensions**:扩展模块。 - **Item pipelines**:数据后处理管道。 - **Downloader middlewares**:下载器中间件。 - **Spider middlewares**:爬虫中间件。 ###异常处理 - **NotSupported**:表示不支持的功能。此异常应在组件的`__init__`方法中引发。 ###命令行工具 主要命令包括: - **scrapy shell**:测试提取代码。 - **scrapy parse**:解析指定URL。 - **scrapy settings**:获取设置值。 ###数据流 Scrapy的架构包括组件交互和数据流向。组件包括: - **Scrapy Engine**:核心引擎。 - **Scheduler**:调度器。 - **Downloader**:下载器。 - **Spiders**:爬虫。 - **Item Pipelines**:数据管道。 --- ##技术细节 - **版本控制与API稳定性**: - API稳定性是1.0版本的主要目标。 - 以单下划线开头的方法或函数为私有,可能不稳定。 - 稳定的API可能会添加新功能,但现有方法保持兼容。 - **支持的Python版本**: - Scrapy支持Python 2.7和3.3+。 - Python 3.3+在Windows上不受支持。 - **FAQ**: - Scrapy支持HTTP代理(通过HttpProxyMiddleware)。 - 可通过errbacks和FormRequest.from_response()实现用户登录模拟。 - 需要pywin32以修复Twisted在Windows上的问题。 --- 以上是《Scrapy 1.1 Documentation》的核心内容总结,涵盖版本更新、功能概述、技术细节等关键信息。
P1
P2
P3
P4
P5
P6
P7
下载文档到本地,方便使用
- 可预览页数已用完,剩余 253 页请下载阅读 -
文档评分
请文明评论,理性发言.