信息摘要:
在互联网行业中,数据分析或数据挖掘结论常用于产品开发、驱动产品优化、提高产品KPI指标、数据挖掘和数据分析等数据挖掘或机器学习算法的背后。KNN算法及其在互联网行业中的具
在互联网行业中,数据分析或数据挖掘结论常用于产品开发、驱动产品优化、提高产品KPI指标、数据挖掘和数据分析等数据挖掘或机器学习算法的背后。KNN算法及其在互联网行业中的具体应用。该算法的具体实现(R语言和Python语言)将在后面介绍。
如果我们有一个样本,每个样本被称为个体,我们已经知道这些个体的类别,现在我们有一个新的未知的个体类别,我们可以计算它与样本中所有个体之间的相似度,然后找出特定的更小K指数。个体是更大的K个体,范畴是新个体的预测范畴。
在计算之前,需要对数据中的每个属性进行归一化,以防止数据过大对距离计算的影响。
例如,如果属性值为20, 40, 80,100,则平均值首先计算:20 + 30 + 80 +100)/4=60。
现在一款关于歌词制作功能的应用程序,每天都有一定的用户使用歌词制作功能,由外包团队制作的歌词将被审核,以确定歌词是否能够投入使用。
现在,根据歌词的质量,我们可以将用户分为高质量用户,即歌词的数量和质量;由普通用户生成的歌词的数量和质量都是通用的;垃圾用户的数量,即生成的歌词的数量是n。质量高,质量差。
企业需要提高歌词生产的整体质量,所以我们希望能够根据现有高质量用户的特点找到更多的相似用户,不断改进UGC歌词的整体质量。
基于对业务的理解,数据分析师与业务侧进行沟通,以探索可以确定歌词用户是否是高质量用户的特性,以及根据业务熟悉度和SEN的业务侧给出的分析建议。然后分析需求的要求和目标以及需求实现的可行性,是否存在支持数据。
根据通信后的结论,数据分析人员从数据仓库中提取相应的数据,即提取三种类型的用户的一些属性和用户ID,如下图所示:
在本例中,如果没有丢失的值和离群值,一般情况下,处理数据中的缺失值和离群值。例如,删除离群值并用平均值或模式替换丢失的值。
前三个更小距离分别为0.373948311、1.16863508、1.537825481,对应的类型是2,即高质量用户。
与业务方沟通模型的预测过程和结果,安排模型的着陆,监控在线效果,不断改进模型。
根据该模型,业务端发现高质量用户的特征属性,并通过操作方式吸引大量高质量用户,从而大大增加了高质量歌词在整体中的比例,提高了KPI指数。