房源质量打分中深度学习应用及算法优化-周玉驰COM ALL COPYRIGHTS RESERVED 3 自我介绍 周玉驰 硕士毕业于中科院 先后就职于华为,百度和医渡云 目前就职于贝壳找房 主要负责两个方向 房源策略算法 房客人关系图谱 扫一扫二维码图案,加我微信 2019 KE.COM ALL COPYRIGHTS RESERVED 4 目录 为什么要做AI选房 如何做AI选房 COPYRIGHTS RESERVED 6 贝壳找房发展&挑战 20万 经纪人 98 门店平均房源 2.1万 门店 10-25 经纪人熟悉房源 70% 跨店成交占比 1.87亿 房屋 3000万 月活跃用户 • 需要强大的房源质量盘点工具 • 找到好房难度大,成本高 挑战 200万 贝壳全部房源 2019 KE.COM ALL COPYRIGHTS RESERVED 7 目标&价值 • 无法盘点所有房源质量 存在问题 人工选房流程 2019 KE.COM ALL COPYRIGHTS RESERVED 9 AI选房本质上是TopN排序问题 2019 KE.COM ALL COPYRIGHTS RESERVED 10 AI选房 - 房源质量打分 好房定义 AI选房建模 Y = f (X) Y:未来?天能否成交 X:最近?天房源产生的所有行为0 码力 | 48 页 | 3.75 MB | 1 年前3
Curve质量监控与运维 - 网易数帆C u r v e 质 量 、 监 控 与 运 维 秦 亦 1/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系Curve 是网易针对块存储、对象存储、云原生数据库、EC等 多种场景自研的分布式存储系统: 高性能、低延迟 当前实现了高性能块存储,对接OpenStack和 K8s 网易内部线上无故障稳定运行近两年 已完整开源 作为一个复杂的大型分布式存储系统,Curve 需要利用科学的方法论和专业的工具,在整个 软件生命周期内更好地为用户服务: 质量——向用户交付稳定可靠的软件; 监控——直观地展示Curve运行状态; 运维——保障Curve始终稳定高效运行。 质量 ✓ 质量管理体系(设计、开发、review、CI) ✓ 测试方法论(单元测试、集成测试、系统测试) 监控 ✓ 监控架构 ✓ 指标采集、后端处理、可视化展示 (易部署、易升级、自治) ✓ 运维工具(部署工具、管理工具) 4/33背景 01 02 03 04 Curve质量控制 Curve监控体系 Curve运维体系软件质量 软件质量的定义是:软件与明确地和隐含地定义的需求相一致的程度。 为了确保最终交付的软件满足需求,必须将质量控制贯穿于设计、开发到测试的整个流程中。 设计 设计流程 文档规范 开发 编码规范与提交流程0 码力 | 33 页 | 2.64 MB | 6 月前3
微服务架构及ServiceComb实践https://github.com/apache?q=servicecomb 服务间的通信 背景:为什么服务间通信重要? • 每个微服务有自己的数据库(层) • 服务架构应用的质量很大程度取决于服务的拆分的高内聚,低耦合,不了解服务间通信,无法做出高质量的拆分。 不同的业务,涉及的不同的服务间通信有不同的要求 1. 关注事务性要求(ACID) 2. 关注对性能的要求 举例:商品维护和下订单是2个微服务,下订 声誉和法律风险。 4. 抢购体验 商家的技术能力 产品质量。 [社区网站] http://servicecomb.apache.org [Github ] https://github.com/apache?q=servicecomb 一个电商抢房系统举例简介 从一个简单的电商Demo开始。 背景:开发商开盘时,让客户“抢购”其当前推售的所有房源,先抢到先得。 客户管理 Customer- User-center 认证鉴权 login 管理客户的基本信息, 录 入客户的选房资格。 管理楼盘的基本信息,楼盘 1-n 楼栋 1-n 房源。 管理开售活动,进行开售时 的抢购 用户查看自己的开售活动和 抢房资格,管理查看收藏的 房源,查看自己的抢房结果。 用户和管理员登录/修改密 码等功能。可扩展为多种登 录方式。 [社区网站] http://servicecomb.apache0 码力 | 14 页 | 2.04 MB | 1 年前3
使用微服务架构快速开发万级TPS高可用电商系统背景:开发商开盘时,让客户“抢购”其当前推售的所有房源,先抢到先得。 客户管理 customer- manage 楼盘管理 realestate 抢购/下订单 house-order 用户中心 user-center 认证鉴权 login 管理客户的基本信息, 录 入客户的选房资格。 管理楼盘的基本信息,楼盘 1-n 楼栋 1-n 房源。 管理开售活动,进行开售时 的抢购 用户查看自己的开售活动和 用户查看自己的开售活动和 抢房资格,管理查看收藏的 房源,查看自己的抢房结果。 用户和管理员登录/修改密 码等功能。可扩展为多种登 录方式。 [社区网站] http://servicecomb.apache.org [Github ] https://github.com/apache?q=servicecomb 从客户管理应用谈起—简单性 表 内容 关键字段 customers 存客户的基本信息,包括名字,联系方式等 https://github.com/apache?q=servicecomb 服务间的通信 背景:为什么服务间通信重要? • 每个微服务有自己的数据库(层) • 服务架构应用的质量很大程度取决于服务的拆分的高内聚,低耦合,不了解服务间通信,无法做出高质量的拆分。 不同的业务,涉及的不同的服务间通信有不同的要求 1. 关注事务性要求(ACID) 2. 关注对性能的要求 举例:客户维护和订单是2个微服务,订单系0 码力 | 15 页 | 1.46 MB | 1 年前3
2022年美团技术年货 合辑工程效能 CI/CD 之流水线引擎的建设实践 912 美团外卖搜索基于 Elasticsearch 的优化实践 933 美团图灵机器学习平台性能起飞的秘密(一) 953 提升资源利用率与保障服务质量,鱼与熊掌不可兼得? 971 标准化思想及组装式架构在后端 BFF 中的实践 992 外卖广告大规模深度学习模型工程实践 | 美团外卖广告工程实践专题连载 1013 数据库全量 SQL 分析与审计系统性能优化之旅 美团集群调度系统的云原生实践 1149 广告平台化的探索与实践 | 美团外卖广告工程实践专题连载 1161 数据 1193 Kafka 在美团数据平台的实践 1193 美团综合业务推荐系统的质量模型及实践 1218 业务数据治理体系化思考与实践 1233 数据治理一体化实践之体系化建模 1263 vi > 2022年美团技术年货 运维 / 安全 1277 数字化新业态下数据安全创新——Token 的实验调研,我们发现,相较于 算法 < 9 Anchor-based 检测器的复杂度而带来的额外延时,Anchor-free 检测器在速度上 有 51% 的提升。 SimOTA 标签分配策略 为了获得更多高质量的正样本,YOLOv6 引入了 SimOTA [4] 算法动态分配正样本, 进一步提高检测精度。YOLOv5 的标签分配策略是基于 Shape 匹配,并通过跨网格 匹配策略增加正样本数量,从而使0 码力 | 1356 页 | 45.90 MB | 1 年前3
2020美团技术年货 算法篇团内部都有比较好的实践。美团也提供了高性能的 TF-Serving 服务(参见《基于 TensorFlow Serving 的深度学习在线预估》一文)以及自研的 MLX 模型打分服务, 都可以进行高性能的 Batch 打分。基于此,我们针对不同的模型,采取不同的策略: ● 深度学习模型:特征多,计算复杂,性能要求高;我们将计算过程放到公司统 一提供的 TF-Serving/MLX 预估服务上; 同,需要分别计算。 一个典型的模型预估请求,如下图所示: Augur 启动时会加载所有特征的表达式和模型,一个模型预估请求 ModelScore- 算法 < 13 Request 会带来对应的模型名、要打分的文档 id(docid)以及一些必要的全局信 息 Context。 Augur 在请求命中模型之后,将模型所用特征构建成一颗树,并区分 ContextLevel 特征和 DocLevel 特征。由于 维度,由于对每一个 Doc 都 要加载和计算对应的特征,所以在 Doc 加载阶段会对 Doc 列表进行分片,并发完成 特征的加载,并且各分片在完成特征加载之后就进行打分阶段。也就是说,打分阶段 本身也是分片并发进行的,各分片在最后打分完成后汇总数据,返回给调用方。 期间 还会通过异步接口将特征日志上报,方便算法同学进一步迭代。 在这个过程中,为了使整个流程异步非阻塞,我们要求引用的服务提供异步接口。0 码力 | 317 页 | 16.57 MB | 1 年前3
2023 中国开源开发者报告Midjourney 这两大图像生成系统 的出现,极大地拓展和加速了 LLM 在计算机视觉领域的应 用,它们突破了传统图像生成方式的局限,仅需要用户提供 文字描述,就可以生成高质量的数字艺术作品。它们的图像 生成质量、样式多样性和用户便捷性都是极大的突破。这为 广大的个人用户和创意行业提供了强有力的工具,彻底改变 了数字艺术内容的创作方式。同时,它们也引发了人工智能 在创作领域的伦理和法律讨论。LLM 2023 年 10 月,百川智能发布 Baichuan2-192K 大模型,上下文窗口长度高 达 192K,号称是当时全球最长的上下文窗口,能够处理约 35 万个汉字。 在上下文窗口长度、长窗口文本生成质量、长上下文理解以及长文本问答、 摘要等方面的表现均全面领先 Claude2。 2023 年 9 月,蚂蚁集团正式开 源代码大模型 CodeFuse——基 于蚂蚁基础大模型研发。 这是蚂蚁自研的代码生成专属 年 12 月,有 “欧洲版 OpenAI” 之称的大模型创业公司——Mistral AI 用「磁链链接」开源了 87 GB 的 8x7B MoE 模型:Mixtral 8x7B。 这是一个开放权重的高质量稀疏混合专家模型(SMoE),采用 Apache 2.0 License 开源。在大多数基准测试中,Mixtral 的成绩都优于 Llama 2-70B, 且推理速度提升了 6 倍。而且在大多数标准基准测试中超过0 码力 | 87 页 | 31.99 MB | 1 年前3
2019-2021 美团技术年货 前端篇体验,提供的服务包括民宿、酒 店、公寓、客栈、短租、宾馆、旅行住宿等,同时包括树屋、房车、INS 风等新奇的 网红民宿。美团民宿自上线之后,业务发展迅猛,在供给侧,房源类型不断丰富,各 类分销、直销、直连、境外陆续推出,房源信息维度不断扩展,筛选、推荐、信息 呈现也不断变得复杂。同时伴随着营销方式的丰富、房东管理、经营、服务的不断扩 充,民宿的业务也越来越复杂。美团民宿大前端伴随业务的发展不断自我迭代,移动 需求,以用户留 存、用户认知、用户体验为主,两者在产品功能上存在较大的差异,如何恰当 地处理产品差异化问题是跨端复用的场景下的一个重要挑战。 ● 跨端复用质量隐患:实现了复用便要考虑两端的各种兼容性问题,这就会产生 各种质量上的隐患。如何在复用组件不断迭代中,保障组件接口、输入、输出 的兼容性问题?如何保障各个复用组件底层依赖的统一、适配层接口的统一? 双端复用场景下,如何更好的做 孕育 而生,同需解决。 3.2 跨端复用应用架构 为了解决跨端复用在业务实践中遇到的各种问题,我们重新设计了跨端复用应用架 构,从架构分层管理、复用方式设计、流程规范、质量保障方面入手,重点解决跨端 差异化、质量隐患、流程规范各种问题,并寻求复用的最大化和性能上的均衡。 174 > 2021年美团技术年货 3.2.1 跨端复用应用架构演进 在这里,先贴出动态的架构演进过程,让大家有一个宏观的认识。我们先简单地描述0 码力 | 738 页 | 50.29 MB | 1 年前3
动手学深度学习 v2.0在我们开始写这本书的时候,没有资源能够同时满足一些条件:(1)是最新的;(2)涵盖了现代机器学习的 所有领域,技术深度丰富;(3)在一本引人入胜的教科书中,人们可以在实践教程中找到干净的可运行代码, 并从中穿插高质量的阐述。我们发现了大量关于如何使用给定的深度学习框架(例如,如何对TensorFlow中 的矩阵进行基本的数值计算)或实现特定技术的代码示例(例如,LeNet、AlexNet、ResNet的代码片段),这 如,亚马逊上的产品评级和评论。 在其他一些情况下,客户会提供隐性反馈。例如,某用户跳过播放列表中的某些歌曲,这可能说明这些歌曲 对此用户不大合适。总的来说,推荐系统会为“给定用户和物品”的匹配性打分,这个“分数”可能是估计 的评级或购买的概率。由此,对于任何给定的用户,推荐系统都可以检索得分最高的对象集,然后将其推荐 给用户。以上只是简单的算法,而工业生产的推荐系统要先进得多,它会将详细的用户活动和项目特征考虑 引言 图1.3.4: 亚马逊推荐的深度学习书籍 尽管推荐系统具有巨大的应用价值,但单纯用它作为预测模型仍存在一些缺陷。首先,我们的数据只包含“审 查后的反馈”:用户更倾向于给他们感觉强烈的事物打分。例如,在五分制电影评分中,会有许多五星级和一 星级评分,但三星级却明显很少。此外,推荐系统有可能形成反馈循环:推荐系统首先会优先推送一个购买 量较大(可能被认为更好)的商品,然而目前用户的购买0 码力 | 797 页 | 29.45 MB | 1 年前3
经典算法与人工智能在外卖物流调度中的应用2 3 4 5 路线规划 • 动态规划最优配送路线,且合理 并单,以最低的配送成本最大化 满足用户配送体验。 • 考虑用户期望时间的TSP问题 • 构建模型综合评估用户体验与配 送成本打分 • 采用动态规划和模拟退火算法等 算法,求得最优路线 1 8 时间预估 用户下单 开始配送 骑士到店 骑士取餐 到达用户 完成交付 商户接单 商户出餐 到店时间 出餐时间 送餐时间 DNN对特征工程要求较低,自身可以学习有用的特征,PCA降维影响较小,但时间复杂度较高 • XGBoost模型 - 采用近似求解算法,找出可能的分裂点,避免选用贪心算法的过高时间复杂度 - 计算采用不同分裂点时,叶子打分函数的增益;并选择增益最高的分裂点,作为新迭代树的最终分裂 节点,构造新的迭代树 - 通过调节迭代树数目、学习倍率、迭代树最大深度、L2正则化参数等进一步避免过拟合 2 获取样本数据 过滤数据 距离的节省: 订单组与骑士打分: 根据商圈压力调整: 3 分配方案 12 Greedy + 多轮KM算法分配方案 • Greedy分配解决特殊业务需求相关 • KM算法找到其余全局最优的分配方案 订单 骑士 订单 骑士 4 KM求解骑士和订单全局最优的分配 • 调度系统先对骑士和订单组(根据骑士的位置、身上的单量 等)进行打分,得到订单组和骑士的打分矩阵,然后根据业 务需0 码力 | 28 页 | 6.86 MB | 1 年前3
共 558 条
- 1
- 2
- 3
- 4
- 5
- 6
- 56













