今年 10 月 25 日,谷歌宣布了一项重大算法更新:BERT。不,不是我们童年时那个独眉大眼的布偶。BERT 的首字母缩写词是 Transformers 的双向编码器表示;它是一种面向自然语言处理的基于开源神经网络的技术。
神经网络现在怎么样了?
通俗地说:谷歌彻底改变了他们的内部算法通过自动机器学习理解语言和搜索查询的方式。
再来一次……再来一次?好吧。考虑一个简单的例子:你们中有多少人饿的时候用谷歌搜索过“food naer me”?这看似简单,谷歌必须识别出你所说的“food”是指餐馆和快餐店,而你所说的“naer me”拼错了“near me”,意思是“请访问我的位置并识别附近的餐馆”。明白了吗?等等,这还不是全部。
除此之外,谷歌还必须不能错误识别这个问题。你的意思并不是:哪些食物与“me”这个词接近,比如“meat”或“lime”。你的意思也不是:缅因州(州代码 ME)附近的食物。
这就是理解语言和搜索查询的重要性。BERT 对 SEO 的影响是巨大的。事实上,谷歌表示,搜索的这种转变将对 10% 的所有查询产生影响。
解码人类语言
人们经常会因为文本而产生误解。如果没有出色的写作技巧,就很难每次都将意图与词汇相匹配。我们常常迷失在自己的言语中,而别人阅读我们信息的语气会改变文本的含义;从而曲解原意。这是否是读者或作者的错还有待商榷。
无可争议的是,谷歌的搜索算法出奇地擅长从搜索内容中解读我们想要的东西。
我们搜索“我感冒了”,谷歌会回复 WebMD 页面和家庭疗法文章。
我们搜索“我们能在火星上生活吗”,谷歌不会给你提供关于在火星上生活糖果棒的营养文章,而是给你提供关于在没有大气层的星球上生存的文章。
这里有一些疯狂的事情要让你大吃一惊:每天有数十亿的搜索查询进入谷歌。其中大约 15% 的查询被认为是新颖的,是第一次写和搜索的。
这引出了一个问题:当谷歌遇到一串它从未见过的单词时,它如何仍然产生高质量的结果?
模仿大脑:机器如何阅读和理解搜索查询
关键是要理解人类大脑如何阅读和理解句子,然后创建模仿这种思维的机器学习算法。以下面这个拼写错误的句子为例,大多数人都可以轻松地阅读和理解它的内容:
这是一个即使单词拼写错误也能读懂的句子。
机器算法可以轻松模仿我们大脑的活动。它会一个接一个地纠正句子中的每个单词,然后通过搜索查询运行该短语。很简单,但这只是拼写。当你打破传统语法来创建一个如下所示的句子时会发生什么:
移动运营商正在创建 API 市场,第三方开发人员可以在 其中访问匿名移动数据来构建新应用程序。这种数据即服务 (DaaS) 模型使企业能够将其数据 WhatsApp数据 资产货币化,同时为其他公司提供开发创新产 d品的宝贵见解。我们公司的质量非常好,您可以向我们索取清单。您可以与我们公司合作,我们提供快速的就业服务。您也可以访问我们的网站。
句子难以阅读但仍然可以完全理解
当你阅读这个句子时你的大脑在做什么?它将单词分组并将它们连接起来以产生合理性。“句子难以阅读”和“仍然可以完全理解”由过渡词“but”连接;这告诉大脑有两个相关的独立想法。 “难以阅读”指的是句子,而“完全没问题”指的是理解句子的能力。
但机器算法怎么知道要怎么做呢?为什么它不能轻易 数字公关:如何为您的公司(或您的客户)制定在线公关策略 地翻转描述符和主语?在 BERT 出现之前,没有人能保证当前的 Google 算法能够正确处理句子。
BERT 的不同之
处 好的,基础知识已经讲完了。现在让我 我的号码列表 们讨论一下 BERT 在做什么以及它要修复什么。据谷歌称:
“[BERT] 是谷歌对 transformers 研究的成果:这些模型会根据句子中所有其他单词的关系来处理单词,而不是按顺序一个接一个地处理。因此,BERT 模型可以通过查看单词前后的单词来考虑单词的完整上下文——这对于理解搜索查询背后的意图特别有用。”
现在,不仅仅是从前到后运行搜索查询,还有一个映射元素,将单词与句子中的其他单词进行比较和分组。现在,可以通过单词和短语与句子其余部分的关系推断出意图。
BERT 在实践中是什么样子的?
谷歌提供了 BERT 如何对其平台上的搜索查询产生积极影响的示例。以这些搜索为例:
“2019 年巴西旅行者前往美国需要签证。”
在 BERT 之前:谷歌很难解读旅行方向的重要性。换句话说:“巴西”、“旅行者”和“美国”都表示这两个国家之间的旅行计划。很容易被忽视的是,我们(人类)会重视描述从巴西到美国的“到”这个词的重要性。由于从美国前往巴西的旅行在文章和 SEO 驱动的帖子中更为常见,因此产生的文章与搜索意图相反。
BERT 之后:由于每个单词现在都被分组并一起解码,方向词“to”被语境化了。搜索这个短语现在会出现从巴西前往美国的旅行者的签证计划。虽然微不足道,但非常重要。
在没有路缘的山坡上停车”
。BERT 之前:另一个有趣的案例,其中有大量信息详细描述了在“山坡”上“停车”的简单动作。此外,所有这些文章都提到了如何倾斜轮胎以使汽车转向“路缘”。那么,你的搜索查询该怎么办?其他那些“没有”的填充词呢?在 BERT 之前,这些会被忽略——提供错误的信息。BERT
之后:因为“没有路缘”可以组合并放在与“在山坡上停车”的关系中,所以可以推断出搜索查询和意图的更准确表示。
承认其搜索算法的缺陷并努力解决它们是 Google 公开推出 BERT 的使命之一。此外,它的开源事实提供了额外的资源来推动其未来的功能。开源算法
的好处
很抱歉向各位技术达人提供不必要的信息 — — 但我们正处于十字路口,我们需要一个标志。“开源”是什么意思?开源意味着任何人 — — 无论是你的祖母、你的天才猫还是你 — — 都可以访问 BERT 背后的底层源代码。从那里,任何人都可以开发、升级或重新构想代码以创建功能更好的算法。
因为语言是错综复杂、微妙且多层次的,所以除了“正确语言”的结构完整性之外,融入语言所提供的所有内容不仅仅是一个团队可以处理的。因此,BERT 被设计为开源,以允许全球用户构建自己的系统。 Google 提到 BERT 的初步开发:
“我们开源了一项新的 NLP 预训练技术,称为 Transformers 的双向编码器表示,简称 BERT。借助此版本,世界上任何人都可以在单个 Cloud TPU 上花大约 30 分钟训练自己的先进问答系统(或各种其他模型),或者使用单个 GPU 在几个小时内训练。此版本包括基于 TensorFlow 构建的源代码和许多预训练的语言表示模型。”
BERT 通过数十万个单独的搜索示例积累了大量的练习和微调,这有助于创建如今高效的程序。BERT
将如何影响未来的搜索?
谷歌首先承认,无论是 BERT 还是下一代机器学习技术都不是完美的。完美不是重点,更好、更准确的结果才是重点——而在这方面,谷歌成功了。谷歌人工智能的每一个积极举措都朝着其搜索查询功能中的句法理解和意图推断的正确方向迈出了一步。
对于较长且更细微的查询尤其如此。而且,结果将通过谷歌的精选摘要(也称为答案框)更直接地呈现。这些框出现在自然搜索结果上方,试图用相关段落或解决您问题的应用程序直接回答您的问题(就像查询的数学问题时出现的计算器一样)。顺便说一句,这不仅仅在英语中推出,谷歌正在所有语言的这些精选摘要中使用 BERT。
最后,Google 认为 BERT 的语法功能将超越文本驱动的搜索,成为连接语音搜索和文本搜索的桥梁——就目前的形式而言,语音搜索和文本搜索由两个截然不同的世界组成。
如何针对 BERT 进行优化?
虽然 BERT 本身就很吸引人(并且受到赞赏),但对于所有营销人员来说,下一个层次是提出一个明显的 SEO 问题:如何针对 BERT 进行优化?幸运的是(或者不幸,取决于您的立场),对于 BERT 来说没有什么需要做不同的事情。BERT 寻求更准确地将优质内容与相关搜索结果匹配。
这意味着,只要您正在制作和输出优质内容,那么恭喜您,您正在针对 BERT 进行优化。
但不要只听我们说,听听 Google 的 Danny Sullivan 的话,“BERT 没有什么可优化的,也没有什么需要任何人重新思考的。我们寻求奖励优质内容的基本原则保持不变。”