Deepseek R1 本地部署完全手册数 Windows 配置要求 Mac 配置要求 适⽤场景 1.5B - RAM: 4GB - GPU: 集成显卡/现代CPU - 存储: 5GB - 内存: 8GB (M1/M2/M3) - 存储: 5GB 简单⽂本⽣成、基础代 码补全 7B - RAM: 8-10GB - GPU: GTX 1680(4-bit量 化) - 存储: 8GB - 内存: 16GB(M2 Pro/M3) Pro/M3) - 存储: 8GB 中等复杂度问答、代码 调试 14B - RAM: 24GB - GPU: RTX 3090(24GB VRAM) - 存储: 20GB - 内存: 32GB(M3 Max) - 存储: 20GB 复杂推理、技术⽂档⽣ 成 32B+ 企业级部署(需多卡并联) 暂不⽀持 科研计算、⼤规模数据 处理 2. 算⼒需求分析 模型 参数规 模 2*XE9680(16*H20 GPU) DeepSeek-R1-Distill- 70B 70B BF16 ≥180GB 4*L20 或 2*H20 GPU 三、国产芯⽚与硬件适配⽅案 1. 国内⽣态合作伙伴动态 企业 适配内容 性能对标(vs NVIDIA) 华为昇 腾 昇腾910B原⽣⽀持R1全系列,提供端到端推理优化 ⽅案 等效A100(FP16) 沐曦 GPU MXN系列⽀持70B模型BF16推理,显存利⽤率提升0 码力 | 7 页 | 932.77 KB | 8 月前3
清华大学 普通人如何抓住DeepSeek红利会议准备: 自动提取上周销售数据生成可视化图表框架 调取历史报告模板进行语义重组 ④ 风险预警: 灶台计时器同步手机震动提醒 通勤路况实时监控(若堵车超15分钟触发备用方案) 技术红利: 时间利用率提升40%,晨间压力值降低65%,关键事务完成率100% 情景还原:7:15分,被幼儿园家长群消息惊醒,发现今天轮到自己带班级手工材料。同时想起丈夫出差前嘱咐的干洗店取 衣,冰箱牛奶已空需采购,0 码力 | 65 页 | 4.47 MB | 8 月前3
Trends Artificial Intelligence
Impressive61 NVIDIA AI Ecosystem Tells Over Four Years = >100% Growth in Developers / Startups / Apps Note: GPU = Graphics Processing Unit. Source: NVIDIA (2021 & 2025) NVIDIA Computing Ecosystem – 2021-2025, per Cloud vs. AI Patterns105 Tech CapEx Spend Partial Instigator = Material Improvements in GPU PerformanceNVIDIA GPU Performance = +225x Over Eight Years 106 1 GPT-MoE Inference Workload = A type of workload Source: NVIDIA (5/25) Performance of NVIDIA GPU Series Over Time – 2016-2024, per NVIDIA Tech CapEx Spend Partial Instigator = Material Improvements in GPU Performance Pascal Volta Ampere Hopper Blackwell0 码力 | 340 页 | 12.14 MB | 4 月前3
开源中国 2023 大模型(LLM)技术报告大模型框架有哪些特点: :大模型开发框架通过提供高 层次的 API 简化了复杂模型的构建过程。这 些 API 抽象掉了许多底层细节,使开发者能 够专注于模型的设计和训练策略。 :这些框架经过优化,以充分利用 GPU、TPU 等高性能计算硬件,以加速模型 的训练和推理过程。 :为了处理大型数据集和大规模参 数网络,这些框架通常设计得易于水平扩展, 支持在多个处理器或多个服务器上并行处理。 :它们提供工具来有效地加 Platform 和 Microsoft Azure Machine Learning 都是提供端到 端机器学习服务的云平台。 这些工具和库专门为加速机器学习模型的训练和推理而设计,通常利 用 GPU 或 TPU 等硬件。这类工具可以显著提高训练和推理的速度, 使得处理大规模数据集和复杂模型变得可行。NVIDIA CUDA 和 Google Cloud TPU 均是此类工具。 这类工具通常由 的算力指的是执行这些模型所需的计算资源。这包括用于训练和运行模型的硬件(如 GPU 或 TPU)、内存、存储空间以及处理 大量数据的能力。LLM 需要非常强大的算力来处理、理解和生成文本,因为它们涉及到数十亿甚至数万亿个参数的训练和推理。 LLM 的基石是算力,而算力的基石是硬件,硬件的性能直接影响着计算任务的速度、效率和能力。 是全球领先的 GPU 制造商,提供了强大的图形处理单元,专门用于深度学习和AI计算。0 码力 | 32 页 | 13.09 MB | 1 年前3
TVM Meetup: Quantizationpasses Target-optimized graph Target-dependent Relay passes Intel x86 ARM CPU Nvidia GPU ARM GPU Schedule templates written in TVM Tensor IR .. More targets AutoTVM – Tuning the kernels Relay passes Target-optimized Int8 Relay Graph Intel x86 schedule ARM CPU schedule Nvidia GPU schedule ARM GPU schedule Relay Int8 Graph Target-dependent Relay layout opt© 2019, Amazon Web Services Relay passes Target-optimized Int8 Relay Graph Intel x86 schedule ARM CPU schedule Nvidia GPU schedule ARM GPU schedule Relay Int8 Graph Target-dependent Relay layout opt© 2019, Amazon Web Services0 码力 | 19 页 | 489.50 KB | 5 月前3
TVM@AliOS人 e 人 e@ TVM Q@ AliOs Overview TVM @ AliOs ARM CPU TVM @ AliOos Hexagon DSP TVM @ Alios Intel GPU Misc /NiiOS ! 驱动万物智能 PART ONE TVM Q@ AliOs Overview AiOS 1驱动万物智能 AliOs overview 。 AliOs (www AN 2X MobilenetV2 TFLite 1.34X MobilenetV2 QNNPACK AliOs @ Roewe RX5 MAX OpenVINO @ Intel GPU AliDS AR-Nav Product @ SUV Release and adopt TVM (Apollo Lake Gold) Vmem( rO++#1) = V31.new 上 r0 = #0; jumpr r31 } PART FOUR Alios TVM @ Intel GPU AiOS 1驱动万物智能 Alios TVM @ Intel GPU 。 Implement the schedule from scratch Subgroups 。 Leverage Intel0 码力 | 27 页 | 4.86 MB | 5 月前3
Bring Your Own Codegen to TVMRelay Runtime (VM, Graph Runtime, Interpreter) Your Dispatcher Target Device General Devices (CPU/GPU/FPGA) Mark supported operators or subgraphs 1. Implement an operator-level annotator, OR 2. Implement Relay Runtime (VM, Graph Runtime, Interpreter) Your Dispatcher Target Device General Devices (CPU/GPU/FPGA) Mark supported operators or subgraphs 1. Implement extern operator functions, OR 2. Implement Relay Runtime (VM, Graph Runtime, Interpreter) Your Dispatcher Target Device General Devices (CPU/GPU/FPGA) Mark supported operators or subgraphs 1. Implement extern operator functions, OR 2. Implement0 码力 | 19 页 | 504.69 KB | 5 月前3
DeepSeek-V2: A Strong, Economical, and Efficient
Mixture-of-Experts Language Model100 150 200 250 300 DeepSeek-V2 DeepSeek 67B saving 42.5% of training costs Training Costs (K GPU Hours/T Tokens) 0 100 200 300 400 DeepSeek-V2 DeepSeek 67B reducing KV cache by 93.3% KV Cache cluster, for training on each trillion tokens, DeepSeek 67B requires 300.6K GPU hours, while DeepSeek-V2 needs only 172.8K GPU hours, i.e., sparse DeepSeek-V2 can save 42.5% training costs compared with high demands on the training framework. It requires careful engineering optimization to manage the GPU memory and RAM pressure, and meanwhile maintain a fast training speed. For this goal, we implement0 码力 | 52 页 | 1.23 MB | 1 年前3
TVM Meetup Nov. 16th - Linaro(bcm2837) -target=armv7l-linux-gnueabihf -mattr=+neon pynq -target=armv7a-linux-eabi -mattr=+neon GPU mali (midgard) firefly rk3399, rock960 (mali t860) N/A opencl bifrost hikey960 (mali g71) N/A FPGA closely in an organized way ○ Arm - Cortex-A/Cortex-M/Neoverse CPU, Mali GPU, Ethos NPU ○ Qualcomm - Hexagon DSP, Adreno GPU ○ Hisilicon, Xilinx, NXP, TI, ST, Fujitsu, Riken, and etc ● Collaborations0 码力 | 7 页 | 1.23 MB | 5 月前3
TVM@Alibaba AI Labs阿里巴巴人工智能实验室 AiILabs & TVM PART 1 : ARM32 CPU CONTENT PART 2 : HIFI4 DSP PART 3 : _ PowervVR GPU [和| Alibaba AL.Labs 阿里巴巴人工智能实验室 ARM 32 CPU Resolution Quantization Orize Kernel ALIOS TVM Alibaba DSP HIFI4 DSP HIFI4 DSP [和| Alibaba AL.Labs 阿里巴巴人工智能实验室 PowerVR GPU Alibaba Al.Labs 阿里巴巴人工智能实验室 PowerVR support by TVM NNVM Compiler -Execution graph -Model layers0 码力 | 12 页 | 1.94 MB | 5 月前3
共 14 条
- 1
- 2













