• 保存到桌面加入收藏设为首页
淘宝卖家工具代码

淘宝题相关性分档计较方式(概率检索、BIM二元独立模子BM25及向量空间模子)(

时间:2019-06-06 08:43:37   作者:文章CMS   来源:   阅读:78   评论:0
内容摘要:  在淘宝搜刮系统中,从买家输入环节词搜刮Query直到最终的搜刮成果列表页组织前往响应,此中涉及到如下两个主要的相关性计较环节:  淘宝系统中有3万多个类目,对于分歧的环节词Query并未全数严酷划定,部门常用的环节词已确定优先展现类目,......

  在淘宝搜刮系统中,从买家输入环节词搜刮Query直到最终的搜刮成果列表页组织前往响应,此中涉及到如下两个主要的相关性计较环节:

  淘宝系统中有3万多个类目,对于分歧的环节词Query并未全数严酷划定,部门常用的环节词已确定优先展现类目,且部门环节词所预测的类目并不止一个,此时就需要进行查询词相关类目标分档,具体计较方式如下。

  概率检索模子的根基思惟是:给定用户一个查询,若是搜刮系统可以或许在搜刮召回成果平分析出浩繁文档与用户需求的相关性的凹凸,那么这个搜刮系统的精确性是最优的。而在文档调集(淘宝类目就是文档调集标签)的根本上尽可能精确地对这种相关性进行估量则是其焦点。

  从概率检索模子的表述来看,这是一种间接对用户需求相关性进行建模的方式,概率检索模子只是一种指点思惟,在这个框架下,如何对用户的相关性成立模子呢?用户发出一个查询请求,若是我们把文档调集划分为两个类别:相关文档子集(即淘宝优先展现类目)和不相关文档子集(即淘宝无关类目),于是就能够将这种相关性权衡转换为一个分类问题。

  下图示意了概率检索模子作为一个分类问题,对于某个文档D来说,若是其属于相关文档子集的概率大于属于不相关文档子集的概率,我们就能够认为这个文档与用户查询是相关的。图中的P(RD)代表给定一个文档D对应的相关性概率,而P(NRD)则代表该文档的不相关概率。即若是P(RD) P(NRD),我们能够认为文档与用户查询时相关的。照妖镜查号下载

  所以此刻问题的环节是若何估算P(RD)和P(NRD)的数值。为了简化问题,起首我们按照贝叶斯法则对两个概率值进行改写,即:

  由于是统一篇文档,所以右端公式的分母P(D)是不异的,在做相关性判断时能够消掉,并对因子移项,转换成如下形式:

  虽然概率模子将相关性判断转换为一个二分类问题,可是搜刮使用并不需要进行真正的分类,而是将搜刮成果按拍照关性得分由高到低排序,所以对于搜刮系统来说,只需要将文档按照大小降序陈列即可,于是问题进一步转换成若何估算因子P(RD)和P(NRD),而二元独立模子供给了计较这些因子的框架。

  所谓二元假设,雷同于布尔模子中的文档暗示方式,一篇文档在由特征进行暗示的时候,以特征“呈现”和“不呈现”两种环境来暗示,不考虑其他要素。假设特搜集合包含5个单词或词组,某文档D按照二元假设,暗示为{1,0,1,0},其寄义是这个文档呈现了第1个,第3个和第5个单词或词语,但不包含第2个和第4个单词或词语,做出二元假设是将复杂问题简单化的一种办法。

  所谓词汇独立性假设,是指文档里呈现的单词或词语之间没有任何干联,肆意一个单词在文档的分布概率不依赖于其他单词或文档能否呈现。有了词汇独立性假设,我们就能够将对一个题目文档的概率转换为对题目文档包含单词或词汇的概率估量,由于词汇之间没相关联,所以能够将题目文档概率转换成单词或词语概率的乘积。

  在以上俩个个前提假设下,二元独立模子即可对两个因子P(RD)和P(NRD)进行估算,在进行形式化描述前,我们举个简单的例子。

  上文提到的文档D暗示为{1,0,1,0},我们用Pi来代表第i个单词在相关文档调集内呈现的概率,于是在已知相关文档调集的环境下,察看到文档D的概率为:

  由于在文档中呈现了第1个,第3个和第5个词语,所以这些单词在相关文档调集中的呈现概率为Pi,而第2个和第4个词语没有呈现,那么1-Pi就代表了词语不在文档呈现的概率,按照词汇独立性假设,将对文档D的概率估量转换为每个词语概率的乘积,如许就能够估算因子P(DR)。

  对于因子P(DNR),我们假设用Si代表第i个词语或单词在不相关文档调集内呈现的概率,于是在已知不相关文档调集的环境下,礼品代发拍A发B,察看到文档D的概率为:

  若是能够从文档调集估量pi和si,那么我们就能够对文档的相关性进行间接计较,这是一个具体实例,下面我们用形式化体例暗示若何计较:

  这个公式与上面实例所列公式寄义不异,只不外将各个计较因子归为两个部门,此中i:di=1代表了在文档D中呈现过的各个单词的概率乘积,i:di=0则代表了没有在文档D中呈现的各个特征词的概率乘积。进一步对这个公式进行一些数学等价变换,可得:

  即将计较公式分化成为两个构成部门,第一个构成部门i:d=1代表在文档中呈现过的单词所计较获得的单词概率乘积,第2个部门i代表对所有特征词计较所获得的单词概率乘积。由于pi和si是从相关文档和不相关文档调集中统计出来的全局概率,所以与具体文档无关,这申明对于所有文档来说第2个部门得分都一样,所以在排序中不起感化,于是可将这个部门消掉,照妖镜查号下载获得最终的相关性估算公式:

  到目前为止,我们曾经获得了计较相关性的具体方式,剩下的问题就是若何计较单词或词语概率pi和si。给定用户查询,若是我们能够确定哪些文档形成了相关文档调集,哪些文档形成了不相关文档调集,能够操纵下表所列出的数据来估算单词概率:

  表中第3行的N为文档调集总共包含的文档个数,R为相关文档的个数,于是N-R就是不相关文档调集的大小。对于某个词语或单词di来说,假设包含这个词语的文档数量共有ni个,而此中相关文档有ri个,那么不相关文档中包含这个单词的文档数量则为ni-ri。再考虑表中第2列,由于相关文档个数是R,而此中呈现过单词di的有ri个,那么相关文档中没有呈现过这个单词的文档个数为R-ri个,同理,不相关文档中没有呈现过这个单词的文档个数为(N-R)-(ni-ri)个。从表中能够看出,若是我们假设曾经晓得N、R、ni、ri的线个值推导出来的。

  按照表格数据,即可估算si和pi,si由于pi代表第i个词语在相关文档调集内呈现的概率,在BIM模子的二元假设下,能够用包含这个词语的相关文档个数ri除以相关文档总数R来估算,即pi=ri/R。所以能够用包含这个单词的不相关文档个数ni-ri除以不相关文档总数(N-R)来估算,即si=ni-ri/(N-R)。把这两个估算公式带入相关性估值公式即可得出若何计较相关性,可是这里有个问题,

  淘宝题相关性分档计较方式(概率检索、BIM二元独立模子BM25及向量空间模子)(照妖镜查号下载)

  相关性估值公式采用了Log形式,若是ri=0,那么会呈现log(0)的景象,为了避免这种环境,我们对pi和si的估值公式进行滑润,分子部门加上0.5,分母部门加上1.0,即

  其代表的寄义是:对于同时出此刻用户查询Q和文档D中的词语或单词,估值进行累加,其和就是文档D和查询的相关性怀抱,之后,再利用BM25模子进行切确求解。

  BM25模子是基于二元假设推导而出,调查词语在查询中的权值,拟合出分析上述考虑要素的公式,并通过引入一些经验参数。因而,BM25模子是淘宝中最常用也最主要的判断类目相关性的模子。以下是BM25模子计较公式

  公式中,对于查询Q中呈现的每个查询词,顺次计较单词在文档D中的分值,累加后就是文档D与查询Q的相关性得分。能够看出,计较第i个查询词的权值时,计较公司能够拆解为3个构成部门,第1个构成部门就是BIM模子计较得分,第2个构成部门是查询词在文档D中的权值,K1和K是经验参数,第3个构成部门是查询词本身的权值,若是查询较短小的线个计较因子的相关性计较公式。

  下面我们以用户查询“男士 牛仔裤”来看看若何现实操纵BM25公式计较相关性,起首我们假定BM25的第一个计较因子中,我们不晓得哪些是相关文档,所以讲相关文档个数R和包含查询词的相关文档个数r设定为0,此时第一个计较因子退化成:

  假定文档长度是平均文档长度的1.5倍,即1.2*(0.25+0.75*1.5)=1.65,将这些数值带入BM25计较公式,能够得出文档D和查询的如下相关性得分:

  如许,可对换集中所有的文档都按照上述方式进行计较,将最终的计较分值进行归纳总结,即可精确的预测出与“男士 牛仔裤”这个查询词最相关的宝物,这些宝物进行调集分类,最终即可得出该查询词的最优先展现类目!对于在分歧区间的分值,淘宝一般会进行分档处置,好比[10,8]区间为第一优先类目,(8,7]区间为第二优先类目,顺次进行分档,因而就有可能会出此刻统一查询词的成果列表中会呈现多个类目标环境。

  向量空间模子提出了将查询词和宝物题目按照环节词的维度别离向量化,然后通过计较这两个向量间夹角的余弦值的方式获得题目与查询词的相关性得分。从而优先检索那些和查询词相关性大的题目,并可以或许对检索出的题目按照与查询词的相关性进行初步评估和排序,向量空间模子的计较方式如下图所示:

  向量包含了两层寄义,即长度和标的目的。长度用向量的模暗示,向量的模(长度)的计较公式为向量的每个分量的平方和开根号。因为向量具无方向,所以标的目的上的差别(角度)被用来量化向量的类似程度。

  将各类分歧的环节词看做是分歧的维度,那么每个文档按照环节词进行向量化,获得向量中每一个分量能够理解为向量在各个环节词维度上的投影,这一点并不难理解,三维坐标上描述一个点采用的体例为(a,b,c)暗示向量在X轴上的投影为a,在Y轴上的投影为b,在Z轴上的投影为c。这里只是把代表三位空间中3个轴转换为n个环节词的n维空间,如许每一个查询词和每一个文档都能够用这个n维空间来暗示。假定淘宝的汉语词库中只要“安卓”、“双系统”、“手机”这3个词(现实上,淘宝的词库中的汉语词汇数以万计),那么这3个词构成的向量空间模子就是我们熟悉的三维空间,如下图所示:

  对于“HTC G21 双系统 双卡双待挪动德律风安卓智妙手机 包邮送豪礼”这个题目,将3个词的维度理解为三维空间的XYZ轴,通过计较每个词语的自傲息和熵值,如许,“HTC G21 双系统 双卡双待挪动德律风安卓智妙手机 包邮送豪礼”这个题目在辞书中形成的向量空间内暗示为向量(2,1,1)。这个向量的3个分量的意义能够理解为对3个轴的投影别离是2,1,1,同时留意这里的向量的标的目的性用箭头暗示。

  据统计,淘宝词库中常用的汉语词汇大约5000条,若是用这5000维的词向量空间暗示这个题目,就是如许的形式(0,0…0,2,0…1,0,0…0,1,0)。此中标“0”的分量暗示题目在这个词语上的投影为零(即自傲息和熵值为0),该题目在向量中只要3个分量为无效非零值,课件再现实的计较中,向量凡是都是十分稀少的。照妖镜查号下载

  现实上,向量中的每个分量同除以不异的数不会改变向量的标的目的,可是会改变向量的距离。因而在只考虑向量标的目的,而不考虑向量长度的环境下,没有需要利用词频作为向量的分量,如许反而引入了浮点运算的麻烦。

  假定在一个7个环节词的向量空间下,一个查询词的向量化为a(0,0,2,0,1,0,1),一个题目的向量化为b(0,1,3,5,2,4,0),夹角余弦计较方式如下:

  在现实计较中,若是向量a暗示查询向量,向量b暗示文档向量,在计较查询向量和一组文档向量的类似度时,查询向量老是不变的,或者说对于每个文档向量来说,查询向量都是不异的。因而类似度计较中能否除以a,对未来进行的类似度排序没有影响,能够作为公共因子消去。方式如下:

  此中每个文档向量的模都能够事后计较并保留,而不需要每次查询都施行一次文档向量的模运算。如许,每次求类似度只需要一次向量点乘和除法计较即可。

  对于丙个高维稀少向量(因为汉词汇浩繁,现实向量化后的向量维数高,非0值少),向量的暗示和向量点乘的计较也是需要必然技巧。能够采用哈希表的方式快速找到两个向量不异分量的非0值进行计较,这里不再细致展开。照妖镜查号下载照妖镜查号下载


标签:照妖镜查号下载  
相关评论