谷歌查询优化如何改变SEO


作者:Aleh Barysevich 2017年2月28日“kdsimsps”1915年为弗朗茨·卡夫卡的《变形记》画的插图

在弗朗茨·卡夫卡的中篇小说《变形记》中,一个人在一天早上醒来,发现他已经变成了一只巨大的昆虫。如果关键词是存在主义的,它们可能会经历类似的事情,当被输入谷歌的搜索栏(或任何其他搜索引擎)时,它们会经历无数次的转换,变成新的、修改过的自己——谷歌认为这些查询更好地代表了搜索者的意图。为了说明我所说的,让我请你帮个小忙。在谷歌搜索里输入”奥斯卡”不,说真的,去做吧。你去的时候我就在这等着。你得到的所有排名靠前的结果很可能都是关于几天前举行的第89届奥斯卡颁奖典礼的。有些搜索结果可能根本没有提到“奥斯卡”这个词(你输入的唯一一个词,记得吗?)不知怎的,谷歌搜索知道你在寻找特定的奥斯卡奖项,而不是关于颁奖典礼、奥斯卡这个名字或奥斯卡任何其他东西的一般信息——并在幕后将你的查询转换成几乎不像原始的东西。

在这篇文章中,我将看看这个过程是如何工作的,以及它对seo意味着什么。

关联、相关性和搜索量

谷歌最近提供搜索查询改进的专利提供了很多关于谷歌如何处理模棱两可、太笼统、太狭窄或缺乏上下文的搜索查询(比如您刚刚做的“oscar”搜索)的见解。该专利描述了一种将搜索查询转换为更好表达版本的系统,因此谷歌可以提供用户想要的确切搜索结果。根据这项专利,当谷歌收到搜索查询时,它会根据搜索者输入的关键字,从与其关联的索引中抓取web文档。然后,它将查看它提取的页面和与之相关的概念(或语义集群)。如果它发现结果属于几个非常不同的概念,它可能会得出这样的结论:搜索查询是模糊的,将从细化中受益。让我们以“oscar”为例,看看实际的细化过程是如何处理某些查询的。当你在谷歌(或其他搜索引擎如必应)中输入“奥斯卡”时,它会继续收集大量与查询相匹配的搜索结果。出于本例的目的,我们假设这个数字是100。100个搜索结果中的每一个都被分配了一个分数,估计它们与原始查询(“oscar”)的相关性,很可能是基于传统的页面内和页面外SEO因素。接下来,谷歌(或其他搜索引擎)将深入挖掘搜索词,以识别这些页面所属的主题或语义集群;对于“奥斯卡”,这样的组合可能是:“奥斯卡奖”,“奥斯卡这个名字”,“奥斯卡这条鱼”,也许还有一些较小的组合。以某种方式,谷歌必须找出您对这些概念中的哪些感兴趣——这就是事情变得有趣的地方。根据这项专利,谷歌下一步将转向它的“关联数据库”——它存储过去的查询、网页以及两者之间的关联的地方。对于每个关联,谷歌分配一个权重—页面与查询的相关性程度,乘以查询的频率或搜索量。接下来,谷歌可能会在这个数据库中查找它刚刚为“oscar”查询提取的顶部结果。它将查看与每个结果相关联的过去查询,以及这些关联的权重。来自评分最高的集群的评分最高的关联将被选为精化查询的候选者。记住,权重是相关性乘以搜索量,你可能开始理解为什么,a值得注意的是,谷歌经常会选择多个集群或主题来优化查询。当与原始关键字相关联的可能集群具有相等或接近相等的权重时,这一点尤其明显——这时谷歌将让您决定对哪个主题感兴趣。

上下文

另一项专利阐明了上下文在优化用户查询中的作用。在本例中,上下文是与单个域相关联的单词和短语的集合。这种“上下文”的数据是从大量的训练材料中获得的,然后可能会通过机器学习进行改进和扩展。这些上下文帮助谷歌索引信息和更好地为搜索者服务。对于前者,谷歌将“通信的宇宙”划分为多个域,这些域类似于上面讨论的集群。通过查看网页和其中使用的单词和短语,谷歌可以根据特定上下文中的单词和页面内容的交集,轻松地找出该页面可以归因于哪个上下文。在用户端,为了确定查询的上下文,谷歌将查看用户最近的过去搜索、语音搜索,如果有必要,还将查看用户的整个搜索历史,以确定查询的上下文。换句话说,如果您的搜索历史记录暗示您对oscar鱼特别感兴趣,那么谷歌可能会在您搜索oscar时,根据它所拥有的关于您作为搜索者的上下文信息,为与鱼相关的集群提供一个提升。因此,事实上,你对“oscar”的搜索变成了“请搜索“oscar”,记住你对我的所有了解,谷歌”。最近的几项专利意味着,关于搜索者的更复杂的细节,比如他们看过的电影或听过的音乐,可能被用于改进查询和返回的结果。实时上下文,比如正在播放的电影,也可以在用户进行语音查询时使用。

例如,用户可以在设备上输入一个自然语言查询,例如在查看特定内容(如电影“社交网络”)时,使用语音查询“我以前什么时候见过这个演员?”根据这些专利,谷歌还可以监视您所在地区的电视节目,并查找可能与该信息相关的查询。所以,如果你搜索“社交网络”,而电影“社交网络”正在你的地区上映,这可能会影响你收到的搜索结果。例如,它可能优先选择“Social Network the movie”集群,而不是与查询相关的其他语义集群。当然,位置是一种上下文,但它应该在这个列表中有自己的一席之地。地理位置已经影响了很大一部分的查询,对于那些利用付费搜索让自己的网站在本地排名的企业来说,这尤其重要。但是谷歌使用位置来优化查询可能很快就会超越它目前的状态。您可能已经知道,如果您搜索“星巴克”、“沃尔玛”或某个可能暗示您对某个企业的物理位置感兴趣的实体,谷歌将向您显示本地包并调整有机搜索结果,以帮助您找到您(可能)正在寻找的物理位置。这可以更进一步,因为谷歌可以查看查询模式并将它们与靠近搜索器位置的实体关联起来。所以,如果你问谷歌“星巴克什么时候开门?”,或者甚至问谷歌“这个公园叫什么?”,当你所指的实体很明显很近的时候,谷歌会很聪明地给你a回答吧。所以,下次你路过一家餐厅——假设它叫Zio Pepe——想知道它是否好吃时,试着问谷歌:“这个地方有什么评价吗?”这个查询可能会变成类似“zio pepe评分”这样的东西,你不必担心“zio”在意大利语中是如何发音的。

例如,一个不会说德语的用户可能正在瑞士苏黎世度假,他可以在一家名为“Zeughauskeller”的餐厅附近提交查询[开放时间],这个餐厅对用户来说可能很难发音和/或拼写。作为另一个例子,本公开的实现使用户能够更方便和自然地与搜索系统交互(例如,提交查询[显示特价午餐]而不是查询[Fino Ristorante & Bar特价午餐]。查询替换

谷歌最近申请的另一项专利专注于查询细化的替换术语和同义词。这个过程包括识别用户查询中的一个概念,并弄清楚是否可以用不同的措辞(而不扭曲查询的含义)来提供更适合的搜索结果。为了了解这是如何工作的,让我们在谷歌中搜索“UK President”。如果谷歌只搜索查询中提到的“英国”和“总统”两个词,那么搜索结果可能包括访问英国的其他国家总统的文章。相反,谷歌确定搜索者可能在寻找不同类型的信息,“President”这个词实际上是搜索者犯的一个错误,而实际上他们想要的是“Prime Minister”。在上述语境中,“首相”是“总统”的同义词;结合“UK”,它也代表一个已知的实体。所有这些都是一个很好的替换项。

(注意谷歌如何在SERP的url中加粗”Prime Minister”,以及术语”President”如何在顶部结果中不出现)。最近在SEO领域有很多关于Word2vec的讨论,由许多SEO表示的意见引发,认为它可能是谷歌的RankBrain使用的技术。这种观点是有根据的:许多在RankBrain工作的人也参与过word2vec,而且这两个项目的许多描述几乎完全相同。word2vec工具将文本语料库作为输入,并生成单词向量作为输出。它首先从训练文本数据中构建词汇表,然后学习单词的向量表示。生成的词向量文件可以作为许多自然语言处理和机器学习应用程序的特征。在讨论word2vec的来龙去去之前,让我们先解决一件事。搜索引擎优化的人最近一直在谈论项向量和向量空间。虽然这些概念在理论上可能很复杂,听起来像是你需要上微积分课程才能掌握它们(如果你想深入了解事情的本质,你就需要上微积分课程),但它们各自的可视化实际上是令人惊讶地可以理解的。让我们看一个简单的例子。假设你有一组术语,你需要把它们分成两组,“蔬菜”和“肉”。不是所有的单词都能命名一种蔬菜或一种肉,但无论如何你都必须这么做,把在肉上下文中出现频率更高的单词(如“smoke”)分组到“meat”组中,反之亦然。

以下是这些词向量的可视化结果。

来源:http://bookworm.benschmidt.org/

正如您所看到的,“蔬菜”分数高的术语位于顶部,“肉类”分数高的术语位于右侧。靠近中间这条线的是比较中性的术语——它们在两种情况下出现的频率相同。需要注意的是,将术语聚类到语义组中并不是word2vec所能做的唯一事情。另一个重要方面是确定术语之间的关系通过计算它们向量之间的物理距离得到S。在上面,你可以看到“肉”和“肉”是相邻出现的,因此它们的意思很接近。“排”、“牛排”和“猪肉”更紧密地捆绑在一起。注意相邻的单词不一定是同义词。它们可以是经常出现在彼此附近的术语,如“香蕉”和“苹果”。

现在,让我们向前迈进一步。我们已经发现,我们可以相互减去向量,以确定它们的相关性(距离越小,它们的相关性越高)。但是如果我们把两个向量相加呢?然后从和中减去另一个向量?显然,这正是谷歌对某些查询所做的。对于上面的向量,等式罗马-意大利+中国等于北京。事实上,这是对“什么实体与中国的关系,就像罗马与意大利的关系一样?”或者,简单地说,“中国的首都是什么?”下面是一个如何在查询处理中使用word2vec的示例。假设你一时忘记了“脚趾”这个词(而你非常需要这个词)。多亏了术语向量,你可以继续谷歌的“脚”和“手指”,不管这听起来多么奇怪,谷歌会明白你的意思。它会发现手指是“手”概念的一部分,并将查询修改为“什么东西与脚的关系与手指与手的关系相同?”(或者,用向量的说法,“脚+手指-手”),并寻找这个关联中缺失的部分。多亏了它,你会确切地看到你要找的东西(而不是一堆同时提到“脚”和“手指”的页面)。

看到他们是如何在特色答案中加粗“toe”而完全没有提到“finger”这个词的吗?聪明,是吗?

实体

实体是谷歌的知识图谱的元素——特定的对象,谷歌知道关于这些对象的一些事实,例如人、地点和事物。企业、名人或植物都可以是实体。实体的伟大之处在于谷歌对实体有相当多的了解,这让搜索者可以根据某个事实立即找到实体。因此,搜索谷歌认为是某个实体的唯一属性的内容将生成关于该实体的搜索结果。这样,“世界上最大的城市”就可以转化为“哪个实体拥有世界上最大的城市的独特属性”,并与东京实体相匹配。同样,“谷歌CEO”将与桑达尔·皮查伊相匹配。

有点让你想为你的企业实体拥有一个独特的、客观的特征,不是吗?有趣的是,用户行为信号可能会像影响其他类型的结果一样影响这种基于实体的搜索结果。例如,如果谷歌找到两个与查询匹配的权重相似的实体,它通常会在SERP中显示关于这两个实体的结果。如果你搜索“Joe’s NYC”,前提是你以前从来没有搜索过它,你会得到一些以这个名字命名的企业的结果:Joe’s bar, Joe’s pub, Joe’s咖啡店和Joe’s pizza place。但是,一旦您单击某个结果(例如,比萨饼店),谷歌可能会在此搜索上下文中将此实体存储为您的首选实体。因此,当您再次运行类似的搜索时,您首选的实体可能会出现在结果的顶部,而其他实体可能会从SERP中完全删除。以上表明谷歌正在迅速变得更聪明(甚至像人类一样,如果你愿意的话),在找出关键字背后的意思,重新措辞这些关键字,并产生更好的搜索结果。我们可能认为这是坏消息,也可能是好消息,但除了适应,我们别无选择。

我希望您从本文中学到的一个概念是,用户看到的搜索结果不仅仅是查询和排名因素的组合。在此期间,谷歌可能修改查询,以便它可以更好地回答它,对于不同的查询,这个修改过程可能非常不同——甚至对于在不同时间点执行的同一查询(想象一下几个月后搜索“oscar”)。那么,在我们陷入语义网的今天,seo们还能做些什么呢?当然。这里有一些建议。1)进入知识图谱。虽然没有什么神奇的公式可以让你肯定做到这一点,但采取一些步骤可以显著提高你的企业赢得知识图谱列表的机会。以下是本地知识图谱面板的步骤,以及更通用的品牌知识图谱的步骤。2)继续为排名而战。我总是惊讶于一些SEO开始怀疑排名作为SEO KPI的价值,因为搜索越来越个性化。不要忘记,当有人第一次对你的目标关键词进行搜索时,你必须尽最大努力出现在顶级结果中。如果您这样做了,并且如果搜索者单击您的列表,那么您将成为他们首选的实体,并且他们后续的搜索结果中很可能将您的企业作为顶部(如果不是唯一的话)的实体出现。否则,如果你的竞争对手排名靠前,搜索者点击他们的列表,你可能会永远失去这个客户。密切关注你的细分市场。现在很明显,谷歌可能会对不同的细分市场甚至单个查询使用不同的排名因素(和不同的查询细化)。基于链接和网站结构的搜索引擎优化的通用方法仍然有发言权;但在某个查询的上下文中,它可能会被特定于该查询或小众的其他因素所超过。这就是SERP智能发挥作用的地方,例如,有了SEO PowerSuite的排名追踪器,我们将看到完整的SERP历史——你每次运行排名检查的前30个搜索结果的存档。如果您查看SERP波动图,您将能够立即发现在每次排名检查中每个关键字的SERP的重要变化。图上的红色尖刺会立即让您知道SERP中有一个重要的变化,您需要查看。这可能表明谷歌开始以不同的方式解释查询,或者它开始考虑不同的排名因素。在任何一种情况下,检查SERP并查看发生了什么变化是一个好主意——这样您就可以成为第一个适应的人。

与黑胡子舰队上的朗姆一样多的工具,我不能推荐SEO PowerSuite足够的一切关键字研究。Rank Tracker工具用TF-IDF算法分析排名前10的竞争对手网站的主题相关词汇,这将帮助您在语义搜索结果中建立您的权威。

准备好杀手关键字列表了吗?下载排名追踪器和测试的阵列可用的工具,或者更好的是,抓住自己的许可证,解锁一个真正的武器库的选项,将看到你的网站排名前所未有。

现在,轮到你了。你对语义搜索对SEO的影响有什么看法?对它的未来有什么预测?我期待你在下面的评论中提出意见、想法和问题。作者:Aleh Barysevich SEO PowerSuit联合创始人兼首席营销官