北京短视频代运营,北京抖音广告片,北京抖音代运营公司欢迎您 ! 联系朗创|收藏本站|网站地图

朗创seo公司

北京专业抖音代运营广告片拍摄10年短视频运营经验!

咨询电话:13683819778

北京seo服务首选朗创网络营销
您的位置: 资讯中心 > 公司新闻 >

利用SPARK、LSH和TunsFooad检测图像相似性

作者: 1 来源:朗创seo公司 发布日期: 2018-09-26 10:05:59
信息摘要:
雷锋。公众:雷锋。这是一篇为人工智能研究所编写的技术博客。原来的标题是检测图像相似性使用火花,LSH和Tensor Flow。作者是Andrey Gusev(Pinterest工程师,内容质量分析员)。 作为一

雷锋。公众:雷锋。这是一篇为人工智能研究所编写的技术博客。原来的标题是检测图像相似性使用火花,LSH和Tensor Flow。作者是Andrey Gusev(Pinterest工程师,内容质量分析员)。
    
     作为一个可视化的数据处理平台,从大量的图像中学习和理解内容非常重要。为了检测几乎重复的相似图像,我们使用了一个基于Spark和TensorFlow的数据流处理系统.Dup。一个使用Spark和TensorFlow分类器实现的位置敏感哈希(LSH)搜索器。数据流处理系统每天可以比较数以亿计的分析对象,并逐步更新每个图像类别的信息。o利用这种技术更好地了解海量图像内容,使我们的产品前端界面推荐和搜索结果具有更高的信息准确性,更大的数据密度。
    
     我们把画廊里的所有图片分成不同的类别,每个类别由几乎相同的(基于人类观察者的判断)组成。这个分类标准有些主观。为了给您一种感知,下图显示了根据.Dup阈值对图片进行分类的一些示例。注意,这些相似的图像不一定来自相同的图像源(参见右下角),也不一定具有相同的背景(参见左下角)。同时,图像可能包含一些几何失真(参见左上角),或者旋转、剪切和反转(参见中心和右上角)。
    
     在图像库中对所有图片进行分类和分割的过程在数学上不可能严格定义和解决,因为在.Dup系统中,图片之间的关系不具有传递性和相等性。用1000步把猫的图片转换成狗的图片。很容易推断出,在每次微小变形之前和之后的两幅图像之间的相似度都落入.Dup的阈值,从而判断它们是相似的图片。然而,应该划分哪种序列类似的序列猫,狗,猫还是狗为了解决这一问题,我们将问题模型转化为一个图:图的节点表示图像,边表示对应图像之间的相似性,然后结合传递闭包方法和贪婪k-cut算法,使该图,以便近似整个图像库的更优分割。
    
     为了理解图像的内容,我们将图像转换为嵌入的向量空间,这些图形嵌入向量是图像的高维向量表示,能够捕捉图像的视觉和语义相似性,通常通过神经网络生成这些向量。为了在.Dup系统中处理图片关系和对画廊进行分类,我们每天要比较几千万张新图片,并将它们归类为几亿张图片类别。如果没有优化,那么大规模图片的时间复杂度会很大。更近邻搜索问题是二次型的,并且相应的计算时间将正比于甚至超过10平方秒(160!)为此,我们对LSH对象的嵌入向量进行了约简,大大降低了问题的规模和处理的难度。
    
     LSH是一种先进的数据降维技术,降维前后数据点之间的距离关系保持不变,首先通过随机投影和比特采样LSH对原始向量空间进行降维,然后对降维后的结果进行分组。将n个向量位分成多个LSH对象,分组过程有效地平衡了检测精度和计算时间之间的矛盾。分组越精细,更近邻搜索越复杂,但检测精度越高。在LSH对象之间进行Jaccard重合,以近似原始向量空间中对应向量之间的余弦相似度。
    
     在所有图片都由一组LSH对象表示之后,我们继续为它们建立反向索引,并实现对所有图片的批量查询和搜索。e对所有图像的批量查询和比较。该数据流处理过程使用Spark实现,并且需要一系列优化措施来进一步确保这些海量数据能够被转换为尽可能简单和有效的LSH对象空间以进行处理。我们使用的优化措施包括:
    
     基于成本的优化器可以检测嵌入向量空间的密度,并计算更佳运行时参数。
    
     基于低层高性能数据采集的JACARD重叠计数算法的实现
    
     批量LSH是产生高召回率,同时使计算成本更小化的有效方法。然而,它通常不能产生候选选项的更佳精度(准确性)和排序。我们使用监督分类器来选择.Dups认为足够相似的候选。ier是视觉嵌入中传递学习的一个例子,它使用张量流前馈网络和Adam优化器。我们在10亿多个包含不同图像对的样本中训练了分类器。训练集是从SUR上的决策树分类器的输出中获得的。F视觉特征,经过几何验证,然后用于.Dup系统的前一次迭代。为了提高学习和每对图像的收敛性,对Hamming码字节执行异或运算并输入到输入层。H精度和人类标志物样品达到99%以上的准确度。
    
     SparkContext还可以推断训练好的网络。使用map.tions和分组范例,我们可以用大量预定义的大小有效地向量化和减少开销。在一个有1000万个参数的网络中,我们在r3.8x大小的集群上实现平均2ms的预测速率。
    
     近Dup检测需要22次比较,计算成本很高。通过在Spark中使用批量LSH,通过跳过不太相似的图像,大大降低了计算复杂度。基于Spark的实现将高效工作负载分配和低级优化结合到了更小。更小化内存和CPU的使用。随后的调优步骤使用有监督的前馈网络来选择和排序高于.Dup相似性阈值的图表。Spark和Tensorflow推理结合每个内核的分布式计算和向量化的更佳特性,以实现高吞吐量和lo然后,使用这两个步骤的结果对图像进行聚类,帮助在Pinterest上每天提供数百亿的搜索结果和推荐。
    
     感谢许嘉靖、库利科夫、金俊雄、达乌德、翟志刚、方舟子、刘凯文、汉格、李卓元和王朝昭等团队成员的贡献
    
    

咨询热线

13683819778