当前位置: 首页 > article >正文

推荐系统中的特征工程

有这么一句话在业界广泛流传数据和特征决定了机器学习的上限而模型和算法只是逼近这个上限而已。所以特征工程的目的是最大限度地从原始数据中提取特征, 以供算法和模型使用。特征类型普通离散特征职业, 婚姻状态等, 同常枚举值不超过100个.id类特征如淘宝上的活跃卖家, 可能就上千万了.连续实值特征即 continuous real-valed feature.如 身高,体重.tf中的特征处理见参考[3].诸如连续值按区间边界分桶,string枚举值分配整数id, 还有对稀疏高维特征做 embedding等.清洗特征交叉figure gif动图, 描述特征交叉一般用在LR中. LR只有线性的表达能力, 所以做特征交叉可以额外获得一些非线性表达.如在个性化推荐中, 将用户的年龄离散化成10个档, 用户的性别又是2个档, 彼此交叉后就有了额外的20个特征.采样为了让样本均衡, 可以对某些类别的样本做欠采样或过采样处理.欠采样undersampling.以一定的概率采样.过采样oversampling.重复采样.数据变换离散化分布律如图所示.等频划分划分后, 图中每档的面积相同, 即每档的人数相同. 建议使用maxcompute的percentrank()函数,等宽划分对横坐标按照固定间距p进行划分, 即第一档为[a,ap), 第二档为[ap,a2p)正规化见参考[2]指定列的正规化正规化, Normalization, 又叫归一化.它会改变原有数据的分布, 使之落入一个小的特定区间.他会将原有数据转化为无量纲的纯数值, 便于不同单位的指标进行比较.在多指标评价体系中由于各评价指标的性质不同通常具有不同的量纲和数量级。当各指标间的水平相差很大时如果直接用原始指标值进行分析就会突出数值较高的指标在综合分析中的作用相对削弱数值水平较低指标的作用。因此为了保证结果的可靠性需要对原始指标数据进行标准化处理。min-max标准化KaTeX parse error: Got function \min with no arguments as subscript at position 15: x^*\frac{x-x_\̲m̲i̲n̲}{x_\max-x_\min…结果落入[0,1]之间.这种方法有一个缺陷就是当有新数据加入时可能导致max和min的变化需要重新定义。log函数转换x ∗ log ⁡ 10 x l o g 10 max ⁡ x^*\frac{\log_{10} x}{log_{10}\max}x∗log10​maxlog10​x​z-score标准化最常见的标准化方法就是Z标准化也是SPSS统计软件中最为常用的标准化方法.x ∗ x − μ σ x^*\frac{x-\mu}{\sigma}x∗σx−μ​其中μ为所有样本数据的均值σ为所有样本数据的标准差。向量的正规化把一个向量转化为单位向量, 即为向量的正规化.正规化的好处是, 计算 a,b 的cosine similarity, 只算 dot product 就可以了.a ( x 1 , x 2 , . . . , x n ) a(x_1,x_2, ... , x_n)a(x1​,x2​,...,xn​)a ′ ( x 1 ∣ a ∣ , x 2 ∣ a ∣ , x n ∣ a ∣ ) a(\frac {x_1}{|a|} , \frac {x_2}{|a|}, \frac {x_n}{|a|} )a′(∣a∣x1​​,∣a∣x2​​,∣a∣xn​​)原向量为a, 正规化后的单位向量为a’.python 代码见下:# 向量的正规化importnumpyasnpdefnormalize(v):normnp.linalg.norm(v)ifnorm0:returnvreturnv/norm对数变换对数据做平滑处理时可以用到. 待补充.l o g 2 ( 1 x ) log_2(1x)log2​(1x)经过的点有 (0,0)(≈30, ≈5)(≈128, ≈7)(≈255, ≈8),(≈512, ≈9), (≈1023, ≈10)(≈33000,≈15.00) 等y 1 l o g 2 ( 1 x ) y\frac1{log_2(1x)}ylog2​(1x)1​搜索排序评价指标ndcg会用到.令定义域x1, 经过的点 (1,1)(≈2, ≈0.62)(≈3, ≈0.5)(≈4, ≈0.43)(≈10, ≈0.29) .y l o g 2 x ylog_2xylog2​x经过的点有 (1,0),(2,1)等参考使用sklearn做单机特征工程皮皮blog的 数据标准化/归一化normalizationtf中的特征处理, tf.feature_column

相关文章:

推荐系统中的特征工程

有这么一句话在业界广泛流传:数据和特征决定了机器学习的上限,而模型和算法只是逼近这个上限而已。所以特征工程的目的是最大限度地从原始数据中提取特征, 以供算法和模型使用。 特征类型 普通离散特征 职业, 婚姻状态等, 同常枚举值不超过100个.id类特…...

RN 0.63 双端冷启动线程流转

RN 0.63 旧架构下,Android 和 iOS 的冷启动都经历了相同的思路:主线程入口 → 后台线程做重活(创建引擎、加载 Bundle)→ JS Thread 接管 → Shadow 计算布局 → 主线程渲染首帧。两端实现细节不同,但线程模型一致。一…...

别再手动画码了!C#搭配ZXing.Net库,5分钟搞定商品标签一维码与会员卡二维码生成

企业级条码生成实战:用C#和ZXing.Net实现高效标签与会员卡管理 在仓储物流和会员管理的数字化浪潮中,条码技术早已从简单的商品标识进化为企业数据流转的核心枢纽。想象一下这样的场景:当仓库管理系统(WMS)收到订单时,系统自动生成…...

数据结构之伸展树(Splay Tree)详解

伸展树(Splay Tree)详解 目录 引言伸展树的基本概念伸展操作伸展树的操作 插入操作查找操作删除操作 时间复杂度分析伸展树与其他平衡二叉搜索树的比较应用场景代码实现示例总结 引言 伸展树(Splay Tree)是一种自调整的二叉搜…...

Win11Debloat:通过系统精简与优化实现Windows性能提升的自动化方案

Win11Debloat:通过系统精简与优化实现Windows性能提升的自动化方案 【免费下载链接】Win11Debloat A simple, lightweight PowerShell script that allows you to remove pre-installed apps, disable telemetry, as well as perform various other changes to decl…...

FastAdmin自定义Excel导入功能:从数据读取到灵活处理

1. 为什么需要自定义Excel导入功能 FastAdmin自带的Excel导入功能虽然开箱即用,但在实际项目中经常会遇到各种限制。最常见的问题就是系统强制要求Excel表头必须与数据库字段备注完全一致,这种强耦合的设计会导致三个主要痛点: 首先&#xff…...

从需求到代码:基于快马平台快速构建javaweb在线考试系统实战

今天想和大家分享一个实战项目——基于SpringBootVue的在线考试系统。这个系统从需求分析到代码实现,我全程使用了InsCode(快马)平台来加速开发流程,效果出乎意料的好。 系统架构设计 采用前后端分离架构,后端使用SpringBootSpringSecurity&a…...

从零到一:手把手教你用TruckSim搭建你的第一辆虚拟牵引车模型

从零到一:手把手教你用TruckSim搭建你的第一辆虚拟牵引车模型 第一次打开TruckSim时,面对密密麻麻的参数和复杂的界面,很多新手会感到无从下手。作为一款专业的商用车动力学仿真软件,TruckSim确实有一定的学习门槛,但掌…...

开源智能体的安全第一课:OpenClaw案例

网罗开发(小红书、快手、视频号同名)大家好,我是 展菲,目前在上市企业从事人工智能项目研发管理工作,平时热衷于分享各种编程领域的软硬技能知识以及前沿技术,包括iOS、前端、Harmony OS、Java、Python等方…...

别再用临时邮箱了!用Python+Selenium自动化管理你的Augment AI多账户(附完整脚本)

构建可持续的Augment AI自动化账户管理系统 在AI辅助编程工具日益普及的今天,开发者们对高效工具的依赖程度越来越高。Augment AI作为一款强大的代码助手,其免费版本300次的使用限制常常成为开发者工作流中的瓶颈。传统解决方案如手动重置或使用临时邮箱…...

告别DCOM噩梦:手把手教你用KepOPC DA2UA中间件搞定OPC DA到UA的转换(附Python读写测试代码)

工业数据互通新范式:零配置实现OPC DA到UA的无缝迁移实战 如果你是一名工业自动化工程师,一定对这样的场景不陌生:凌晨两点还在客户现场调试DCOM配置,反复检查防火墙规则、用户权限和网络策略,却依然无法让OPC DA客户端…...

手把手教你学Simulink——基于Simulink的扰动观测器(DOB)补偿坡道重力分量

目录 手把手教你学Simulink——基于Simulink的扰动观测器(DOB)补偿坡道重力分量​ 摘要​ 一、背景与挑战​ 1.1 坡道重力扰动的痛点与传统控制局限​ 1.1.1 应用场景与核心指标​ 1.1.2 传统PI控制的缺陷​ 1.2 DOB控制的核心优势​ 1.3 设计目标​ 二、系统架构与D…...

YOLOv11卷积模块深度剖析:从参数解析到实战应用

1. YOLOv11卷积模块设计精要 第一次接触YOLOv11的配置文件时,我和大多数开发者一样被那些看似简单却暗藏玄机的参数搞得一头雾水。特别是当我在backbone部分看到[-1, 1, Conv, [64, 3, 2]]这样的配置时,直觉告诉我输出通道数应该是64,但实际运…...

高并发系统的“救命稻草”——BASE 理论

今天我们要聊的话题,是互联网架构的“遮羞布”,也是高并发系统的“救命稻草”——BASE 理论。如果说 ACID(原子性、一致性、隔离性、持久性)是传统数据库的“洁癖”,要求数据必须时刻保持完美,那 BASE 就是…...

Path of Building汉化版终极指南:5步掌握流放之路角色构建神器

Path of Building汉化版终极指南:5步掌握流放之路角色构建神器 【免费下载链接】PoeCharm Path of Building Chinese version 项目地址: https://gitcode.com/gh_mirrors/po/PoeCharm 还在为流放之路复杂的角色构建而头疼吗?PoeCharm作为Path of …...

在WSL2上搞定PyTorch模型转昇腾OM:我的Atlas 200DK部署踩坑实录

在WSL2上实现PyTorch模型到昇腾OM的高效转换:避坑指南与实战解析 对于希望在Windows环境下完成昇腾模型转换的开发者来说,WSL2提供了一个近乎完美的解决方案。本文将深入探讨如何在这一环境中高效完成从PyTorch到昇腾OM模型的完整转换流程,同…...

3个突破性方案让游戏玩家实现Steam创意工坊资源自由获取

3个突破性方案让游戏玩家实现Steam创意工坊资源自由获取 【免费下载链接】WorkshopDL WorkshopDL - The Best Steam Workshop Downloader 项目地址: https://gitcode.com/gh_mirrors/wo/WorkshopDL 在数字娱乐日益普及的今天,Steam创意工坊作为游戏模组的重要…...

5分钟快速上手BepInEx:Unity游戏插件开发的终极解决方案

5分钟快速上手BepInEx:Unity游戏插件开发的终极解决方案 【免费下载链接】BepInEx Unity / XNA game patcher and plugin framework 项目地址: https://gitcode.com/GitHub_Trending/be/BepInEx BepInEx(Bepis Injector Extensible)是…...

HunyuanVideo-Foley保姆级教程:Docker Compose编排WebUI+API+Redis缓存

HunyuanVideo-Foley保姆级教程:Docker Compose编排WebUIAPIRedis缓存 1. 环境准备与快速部署 在开始之前,请确保您的硬件配置满足以下要求: 显卡:RTX 4090/4090D 24GB显存内存:≥120GBCPU:10核及以上磁盘…...

OpenLens节点和Pod菜单扩展完整指南:恢复Kubernetes管理的关键功能

OpenLens节点和Pod菜单扩展完整指南:恢复Kubernetes管理的关键功能 【免费下载链接】openlens-node-pod-menu Node and pod menus for OpenLens 项目地址: https://gitcode.com/gh_mirrors/op/openlens-node-pod-menu 引言:解决OpenLens 6.3.0的功…...

新手友好:借助快马平台的免费token轻松迈出AI应用开发第一步

作为一名刚接触AI开发的新手,我最近在InsCode(快马)平台上完成了一个文本摘要生成器的项目,整个过程非常顺畅。这个平台对初学者特别友好,尤其是提供了免费token,让我们可以零成本体验AI开发的乐趣。 理解token的概念 刚开始我对…...

Unity射线检测Raycast避坑指南:从LayerMask到HitInfo,新手最容易踩的5个坑

Unity射线检测Raycast避坑指南:从LayerMask到HitInfo的实战解析 在Unity开发中,射线检测(Raycast)就像游戏世界的触觉神经,它让虚拟物体有了"感知"能力。但这条看似简单的直线背后,却藏着不少让新手开发者抓狂的陷阱。…...

Qwen3-0.6B-FP8从部署到应用:完整流程详解,新手必看

Qwen3-0.6B-FP8从部署到应用:完整流程详解,新手必看 你是不是刚接触AI模型,看着各种复杂的部署命令和配置就头疼?想快速体验一个能聊天、能推理、还能帮你写东西的智能助手,但又担心自己的电脑配置不够,或…...

脑机接口(BCI)全景解析:从原理到产业,开发者入局指南

脑机接口(BCI)全景解析:从原理到产业,开发者入局指南 引言 从帮助渐冻症患者“开口说话”,到用“意念”操控无人机,脑机接口(BCI)正从科幻走进现实,成为“AI for Scienc…...

Docker网络扫盲:除了host.docker.internal,还有哪些方法能让Dify容器访问宿主机的服务?

Docker容器与宿主机通信的5种实战方案及选型指南 当你第一次在Docker容器里尝试连接宿主机上的MySQL或Redis服务时,那个经典的"Connection refused"错误可能会让你困惑不已。为什么明明在宿主机上运行得好好的服务,到了容器里用localhost就访问…...

Whisper.cpp 跨平台编译与语音识别实战指南

1. Whisper.cpp 是什么?能做什么? 第一次接触 Whisper.cpp 是在一个语音转文字的需求场景中。当时需要处理大量会议录音,但发现主流的语音识别工具要么需要联网,要么对硬件要求极高。直到发现了这个基于 C 实现的轻量级解决方案&a…...

AI建站工具避坑指南:10个高频问题与真相解答

面对AI建站这个新事物,心动的人多,但真正敢下手的人,心里都藏着不少问号。“这东西靠谱吗?”“我的数据会不会丢了?”“用这个做了网站,以后会不会被圈住?”这些顾虑非常正常。今天这篇文章&…...

Vue多文件学习项目综合案例——面经基础版,黑马vue教程

文章目录一、项目截图二、主要知识点三、main.js四、App.vue五、viewsArticle.vueArticleDetail.vueCollect.vueLayout.vueLike.vueUser.vuerouterindex.js一、项目截图 二、主要知识点 路由跳转路由传参缓存组件:keep-alive 三、main.js import Vue from vue im…...

Palworld存档工具:高效解决游戏存档格式转换与数据解析的技术方案

Palworld存档工具:高效解决游戏存档格式转换与数据解析的技术方案 【免费下载链接】palworld-save-tools Tools for converting Palworld .sav files to JSON and back 项目地址: https://gitcode.com/gh_mirrors/pa/palworld-save-tools Palworld存档工具是…...

Bifrost:三星固件处理的跨平台工具解决方案

Bifrost:三星固件处理的跨平台工具解决方案 【免费下载链接】SamloaderKotlin 项目地址: https://gitcode.com/gh_mirrors/sa/SamloaderKotlin 在三星设备的维护与开发过程中,固件管理始终是核心环节。无论是官方系统更新、自定义ROM开发还是设备…...