运维上海2017-Kubernetes与AI相结合架构、落地解析-赵慧智networking和GPU TensorFlow 介绍 • TensorFlow™ 是一个使用数据流图进行数值计算的开源软件 库。图中的节点代表数学运算, 而图中的边则代表在这些节 点之间传递的多维数组(张量 。这种灵活的架构可让您使 用一个 API 将计算工作部署到桌面设备、服务器或者移动设 备中的一个或多个 CPU 或 GPU。 TensorFlow 最初是由 Google 机器智能研究部门的 员和工程师开发的,用于进行机器学习和深度神经网络研 究, 但它是一个非常基础的系统,因此也可以应用于众多其 他领域。 分布式 TensorFlow 存储对接 通过 Kubernetes 的 Volume 机制将分布式存储的具体地址 mount 到 TensorFlow PS 和 Worker 的 Container 内部, 使 Container 可以得到需要处 理的数据 资源队列 3. 进行多 Kubernetes Cluster 的配置(需要进行跨集群的操 作 Caicloud TaaS 云平台 TensorFlow as a Service (TaaS) 平台专注于将Google级 AI 模型生成及服务工具TensorFlow打造成一个成熟的商业 级人工智能平台为个人和企业解决计算资源短缺、环境配 置复杂、资源管理缺失等问题. ● 集群资源弹性管理0 码力 | 77 页 | 14.48 MB | 1 年前3
A Day in the Life of a Data Scientist Conquer Machine Learning Lifecycle on Kubernetesmanage the deployment of training jobs • TFJob – custom resource to handle drivers and config • Tensorflow, PyTorch, MXNet, Chainer, and more • JupyterHub to create and manage interactive Jupyter notebooks learning Demo: Run TensorFlow Training with Containers Demo: Serving the Model with TF Serving • Options for serving • Wrap model in a web framework (eg – Flask) • Tensorflow Serving • Seldon Seldon Demo: Run TensorFlow Training with Kubeflow Demo: Scale and Test Experiments in Parallel using Kubernetes, TFJob, and Helm • Spin up pods for each variation of hyperparameters • One centralized0 码力 | 21 页 | 68.69 MB | 1 年前3
基于 KUBERNETES 的 容器器 + AI 平台的应⽤用 • Kubeflow 社区的联合创始⼈人 • kubeflow/tf-operator • 定义 TFJob Spec (CRD) • 跟踪 TensorFlow 任务运⾏行行状态 • ⽀支持分布式 TensorFlow 任务 KUBEFLOW 之上 • 借⼒力力容器器平台提供⽣生产级的集群资源管理理 • ⼯工作区隔离与共享 • 数据、模型、环境、应⽤用等 • 全⾯面⽀支持0 码力 | 19 页 | 3.55 MB | 1 年前3
Alluxio 助力 Kubernetes, 加速云端深度学习Alluxio Worker Pod RAM/SSD/HDD fuse K8S node Alluxio Worker Pod RAM/SSD/HDD fuse TensorFlow TensorFlow Alluxio Master Pod Pod MXNet MXNet Pod Pod Caffe Caffe oss 阿里云 对象存储 statefulset0 码力 | 22 页 | 11.79 MB | 1 年前3
Kubernetes for Edge Computing across
Inter-Continental Haier Production SitesCMU 校友与世界金牌、冠军 • 中国技术社区引领者 • Kubernetes 中文官网组织者 • github.com/kubernetes/kubernetes-docs-cn • TensorFlow 中文社区运营者 • tensorflowers.cn • Kubeflow Chinese community initiator • 企业级产品与解决方案 • Compass: 打通业务与数据、从数字化到智能化转 • OpenTSDB • Prometheus • ES 数据展现方式: • 自开发页面 • Kibana 海尔工业互联网 – 才云数据解决方案 Clever 提交多框架(TensorFlow、PyTorch 、MxNet等)的模型训练作业,支 持分布式和 GPU 加速,以及训练过 程的可视化。 模型训练 模型版本管理,模型推理服务的部署 、监控、管理和升级,提供 A/B0 码力 | 33 页 | 4.41 MB | 1 年前3
多雲一體就是現在:
GOOGLE CLOUD 的
KUBERNETES
混合雲戰略out or both? Google is a recognized leader in Open Source Cloud Kubernetes Istio Apache Beam TensorFlow Service Communication Management Container Orchestration Data Processing Pipelines Data Flow0 码力 | 32 页 | 2.77 MB | 1 年前3
202106 KubeOperator:开源的轻量级 Kubernetes 发行版
GitLab、Jenkins、Harbor、Argo CD、Sonarqube 等 CI/CD ⼯工具;提供 Kuboard、Weave Scope、Redmine 等管理理⼯工具;提供深度学习AI 应⽤用,⽐比如 TensorFlow。 KubeOperator 企业版⽀支持服务内容 ⽀支持服务 7×24 ⼯工单及电话⽀支持服务,1 个⼩小时内响应客户⼯工单;接到故障申报后,⼯工程师通过电话⽀支持、远程接 ⼊入等⽅方式协助客户及时排除软件故障。0 码力 | 20 页 | 1.62 MB | 1 年前3
腾讯基于 Kubernetes 的企业级容器云实践-罗韩梅的GPU资源并实现不同容器间的资源隔离。 Native_time (seconds) GaiaGPU_ti me (seconds) Difference (%) Tensorflow 47.82 47.88 0.13 Caffe 22.47 22.50 0.15 PyTorch 69.33 69.64 0.44 CNTK 7.39 7.410 码力 | 28 页 | 3.92 MB | 1 年前3
共 8 条
- 1













