【PyTorch深度学习-龙龙老师】-测试版202112,为了防止过拟合,需要的数据集的规 模通常也是巨大的。现代社交媒体的流行也让收集海量数据成为可能,如 2010 年发布的 ImageNet 数据集收录了共 14197122 张图片,整个数据集的压缩文件大小就有 154GB。图 1.10、图 1.11 列举了一些数据集的样本数和数据集大小随时间的变化趋势。 尽管深度学习对数据集需求较高,收集数据,尤其是收集带标签的数据,往往是代价 昂贵的。 https://www.python.org/网站下载最新版本(Python 3.7)的解释器, 像普通的应用软件一样安装完成后,就可以调用 python.exe 程序执行 Python 语言编写的源 代码文件(.py 格式)。 这里选择安装集成了 Python 解释器和虚拟环境等一系列辅助功能的 Anaconda 软件, 用户通过安装 Anaconda 软件,可以同时获得 Python 解释器、包管理和虚拟环境等一系列 1 手写数字图片数据集 机器学习需要从数据中间学习,因此首先需要采集大量的真实样本数据。以手写的数 字图片识别为例,如图 3.1 所示,需要收集较多的由真人书写的 0~9 的数字图片,为了便 于存储和计算,通常把收集的原始图片缩放到某个固定的大小(Size 或 Shape),比如 224 个 像素的行和 224 个像素的列(224 × 224),或者 96 个像素的行和 96 个像素的列(960 码力 | 439 页 | 29.91 MB | 1 年前3
动手学深度学习 v2.02 带参数的层 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 207 5.5 读写文件 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 208 5.5 内存 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 517 12.4.3 存储器 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 518 12.4.4 CPU 多机训练 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 545 12.7.4 键值存储 . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 547 13 计算机视觉 5490 码力 | 797 页 | 29.45 MB | 1 年前3
机器学习课程-温州大学-01机器学习-引言2016年 C轮融资 估值20亿美元 9 机器学习的范围 10 • 给定数据的预测问题 ✓ 数据清洗/特征选择 ✓ 确定算法模型/参数优化 ✓ 结果预测 • 不能解决什么 ✓ 大数据存储/并行计算 ✓ 做一个机器人 机器学习可以解决什么问题 11 机器学习发展史 总的来说,人工智能经历了逻辑推理、知识工程、机器 学习三个阶段。 机器学习伴随着人工智能的发展而诞生,它是人工智能 Python 的环境的安装 54 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 55 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器,列表用[ ]来表示,其中元素的类型可不相同。 ⚫元组(tuple) 元组类似列表,元组里面的元素也是进行索引计算。列表里面的元素的值可以修改,而元组 里面的元素的值不能修改,只能读取。元组的符号是( 集合主要有两个功能,一个功能是进行集合操作,另一个功能是消除重复元素。 集合的格式 是:set( ),其中()内可以是列表、字典或字符串,因为字符串是以列表的形式存储的 ⚫字典(dict) 字典dict也叫做关联数组,用大括号{ }括起来,在其他语言中也称为map,使用键-值( key-value)存储,具有极快的查找速度,其中key不能重复。 56 Python控制流 ⚫顺序结构 ⚫分支结构 ⚫循环结构 ⚫break、continue和pass0 码力 | 78 页 | 3.69 MB | 1 年前3
机器学习课程-温州大学-01深度学习-引言Python 的环境的安装 55 Python 的主要数据类型 ⚫字符串 ⚫整数与浮点数 ⚫布尔值 ⚫日期时间 ⚫其它 56 Python 的数据结构 ⚫列表(list) 用来存储一连串元素的容器,列表用[ ]来表示,其中元素的类型可不相同。 ⚫元组(tuple) 元组类似列表,元组里面的元素也是进行索引计算。列表里面的元素的值可以修改,而元组 里面的元素的值不能修改,只能读取。元组的符号是( 集合主要有两个功能,一个功能是进行集合操作,另一个功能是消除重复元素。 集合的格式 是:set( ),其中()内可以是列表、字典或字符串,因为字符串是以列表的形式存储的 ⚫字典(dict) 字典dict也叫做关联数组,用大括号{ }括起来,在其他语言中也称为map,使用键-值( key-value)存储,具有极快的查找速度,其中key不能重复。 57 Python控制流 ⚫顺序结构 ⚫分支结构 ⚫循环结构 ⚫break、continue和pass Python模块-Pandas 文件读写 从文件中读取数据(DataFrame) pd.read_csv() | 从CSV文件读取 pd.read_table() | 从制表符分隔文件读取,如TSV pd.read_excel() | 从 Excel 文 件 读 取 pd.read_sql() | 从 SQL 表 或 数 据 库 读 取 pd.read_json() | 从JSON格式的URL或文件读取 pd0 码力 | 80 页 | 5.38 MB | 1 年前3
Keras: 基于 Python 的深度学习库35 3.3.18 如何在 Keras 中使用 HDF5 输入? . . . . . . . . . . . . . . . . . . . . . . . 35 3.3.19 Keras 配置文件保存在哪里? . . . . . . . . . . . . . . . . . . . . . . . . . . 36 3.3.20 如何在 Keras 开发过程中获取可复现的结果? . . 易扩展性。新的模块是很容易添加的(作为新的类和函数),现有的模块已经提供了充足 的示例。由于能够轻松地创建可以提高表现力的新模块,Keras 更加适合高级研究。 • 基于 Python 实现。Keras 没有特定格式的单独配置文件。模型定义在 Python 代码中,这 些代码紧凑,易于调试,并且易于扩展。 1.3 快速开始:30 秒上手 Keras Keras 的核心数据结构是 model,一种组织网络层的方式。最简单的模型是 (stateful RNNs)? • 如何从 Sequential 模型中移除一个层? • 如何在 Keras 中使用预训练的模型? • 如何在 Keras 中使用 HDF5 输入? • Keras 配置文件保存在哪里? • 如何在 Keras 开发过程中获取可复现的结果? • 如何在 Keras 中安装 HDF5 或 h5py 来保存我的模型? 3.3.2 如何引用 Keras? 如果 Keras0 码力 | 257 页 | 1.19 MB | 1 年前3
AI大模型千问 qwen 中文文档max_new_tokens=512, streamer=streamer, ) 除了使用 TextStreamer 之外,我们还可以使用 TextIteratorStreamer ,它将可打印的文本存储在一 个队列中,以便下游应用程序作为迭代器来使用: # Repeat the code above before model.generate() # Starting here, we add streamer com/ggerganov/llama.cpp cd llama.cpp 然后运行 make 命令: make 然后你就能使用 llama.cpp 运行 GGUF 文件。 8 Chapter 1. 文档 Qwen 1.4.2 运行 Qwen 的 GGUF 文件 我们在 Hugging Face 组织中提供了一系列 GGUF 模型,为了找到您需要的模型,您可以搜索仓库名称中包含 -GGUF 的部分。要下载所需的 prompts/chat-with- �→qwen.txt -n 指的是要生成的最大 token 数量。这里还有其他超参数供你选择,并且你可以运行 ./main -h 以了解它们。 1.4.3 生成你的 GGUF 文件 We introduce the method of creating and quantizing GGUF files in quantization/llama.cpp. You can refer0 码力 | 56 页 | 835.78 KB | 1 年前3
《TensorFlow 快速入门与实战》6-实战TensorFlow验证码识别Clark 及社区贡献者 一起开发和维护的一款分叉自 PIL 的图像工具库。 至今,社区依然非常活跃,Pillow 仍在快速迭代。 Pillow提供广泛的文件格式支持,高效的内部表示和相当强大的图像处理功能。 核心图像库旨在快速访问以几种基本像素格式存储的数据, 它应该为一般的图像处理工 具提供坚实的基础。 https://github.com/python-pillow/Pillow captcha GraphViz 接口,支持使用 GraphViz 解析和存储 DOT语言 (graph description language)。其主要依赖 pyparsing 和 GraphViz 这两个工具库。 pyparsing:仅用于加载DOT文件,在 pydot 安装期间自动安装。 GraphViz:将图形渲染为PDF,PNG,SVG等格式文件,需独立安装。 https://github.com/lepture/captcha org/wiki/captcha 使用 Pillow(PIL Fork) 和 captcha 库生成验证码图像: PIL.Image.open(fp, mode=‘r’) - 打开和识别输入的图像(文件) captcha.image.ImageCaptcha(width, height,) – 创建 ImageCaptcha 实例 captcha.image.ImageCaptcha.write(‘1234’0 码力 | 51 页 | 2.73 MB | 1 年前3
QCon2018北京-基于深度学习的视频结构化实践-姚唐仁• 长期服务70多万企业用户和开发者 • 文件数超过2000亿,每日新增文件20亿 • 覆盖全球300个节点 • 覆盖金融、公安、广电媒体、互联网等行业 • 国内领先的云计算厂商 关于七牛云 智能多媒体服务 数据洞察 机器学习 内容生产者 内容消费者 内容采集 (上传加速) 内容分发 海量存储 海量富媒体数据的业务布局 视觉智能 Vision Vision Intelligence 数据智能 Data Intelligence 海量存储 ���� ���� ���� 弹性计算 ��� ��� 智能网络 API �� �� CDN ��� ������� ��� ����� ������ ��������� ������ ���API ���� ��+�� 83% 视觉 11% 听觉 1.5%0 码力 | 39 页 | 38.01 MB | 1 年前3
TensorFlow on Yarn:深度学习遇上大数据同时支持单机和分布式TensorFlow程序� • 支持GPU资源管理和调度� • 不再需要⼿动配置CluserSpec信息,仅需要设置work 和ps的数量� • 训练数据和训练模型基于HDFS统⼀存储� • 作业训练结束自动回收work、ps和Tensorboard进程� • 训练效果和性能没有损失� 基本目标:� TensorFlow on Yarn设计 • 支持GPU亲和性调度(提⾼通信效率)� SparkFlow介绍 SparkFlow与TensorFlow on Yarn对比:� SparkFlow TensorFlow on Yarn 通过RDD读取训练样本数据,关心 文件存储格式 直接读取HDFS数据,不关心文件存 储格式 Worker和PS的资源同构 Worker和PS可以各自配置资源 不支持GPU调度 支持GPU调度 迁移成本较高 迁移成本低 嵌入到Spark计算框架里,方便打通0 码力 | 32 页 | 4.06 MB | 1 年前3
《TensorFlow 2项目进阶实战》1-基础理论篇:TensorFlow 2设计思想data:功能强大的数据管理模块 支持多种数据处理 图像解码 Shuffle py_function 重采样 支持多种数据格式 图像文件 文本文件 CSV 文件 NumPy 数组 Python 生成器 TFRecord 支持多种数据来源 本地文件 分布式文件系统 对象存储系统 tf.distribute:一行代码实现分布式 Training API MirroredStrategy TPUStrategy0 码力 | 40 页 | 9.01 MB | 1 年前3
共 32 条
- 1
- 2
- 3
- 4













