数据驱动优化：如何使用KNN算法来驱动产品优化

作者： 1 来源：朗创seo公司发布日期： 2018-09-27 10:59:22

信息摘要：

在互联网行业中，数据分析或数据挖掘结论常用于产品开发、驱动产品优化、提高产品KPI指标、数据挖掘和数据分析等数据挖掘或机器学习算法的背后。KNN算法及其在互联网行业中的具

在互联网行业中，数据分析或数据挖掘结论常用于产品开发、驱动产品优化、提高产品KPI指标、数据挖掘和数据分析等数据挖掘或机器学习算法的背后。KNN算法及其在互联网行业中的具体应用。该算法的具体实现（R语言和Python语言）将在后面介绍。

     如果我们有一个样本，每个样本被称为个体，我们已经知道这些个体的类别，现在我们有一个新的未知的个体类别，我们可以计算它与样本中所有个体之间的相似度，然后找出特定的更小K指数。个体是更大的K个体，范畴是新个体的预测范畴。

     在计算之前，需要对数据中的每个属性进行归一化，以防止数据过大对距离计算的影响。

     例如，如果属性值为20, 40, 80，100，则平均值首先计算：20 + 30 + 80 +100）/4＝60。

     现在一款关于歌词制作功能的应用程序，每天都有一定的用户使用歌词制作功能，由外包团队制作的歌词将被审核，以确定歌词是否能够投入使用。

     现在，根据歌词的质量，我们可以将用户分为高质量用户，即歌词的数量和质量；由普通用户生成的歌词的数量和质量都是通用的；垃圾用户的数量，即生成的歌词的数量是n。质量高，质量差。

     企业需要提高歌词生产的整体质量，所以我们希望能够根据现有高质量用户的特点找到更多的相似用户，不断改进UGC歌词的整体质量。

     基于对业务的理解，数据分析师与业务侧进行沟通，以探索可以确定歌词用户是否是高质量用户的特性，以及根据业务熟悉度和SEN的业务侧给出的分析建议。然后分析需求的要求和目标以及需求实现的可行性，是否存在支持数据。

     根据通信后的结论，数据分析人员从数据仓库中提取相应的数据，即提取三种类型的用户的一些属性和用户ID，如下图所示：

     在本例中，如果没有丢失的值和离群值，一般情况下，处理数据中的缺失值和离群值。例如，删除离群值并用平均值或模式替换丢失的值。

     前三个更小距离分别为0.373948311、1.16863508、1.537825481，对应的类型是2，即高质量用户。

     与业务方沟通模型的预测过程和结果，安排模型的着陆，监控在线效果，不断改进模型。

     根据该模型，业务端发现高质量用户的特征属性，并通过操作方式吸引大量高质量用户，从而大大增加了高质量歌词在整体中的比例，提高了KPI指数。

数据驱动优化：如何使用KNN算法来驱动产品优化

新闻资讯

营销型网站

公司新闻

行业资讯

常见问题

案例分享

在线留言

联系朗创

关注朗创网络