早期的自然语言处理(NLP)方法使用搜索引擎使用的词频和词共现的统计分析来确定页面的内容。他们忽略了我们内容中的词序和词性,本质上将我们的页面视为一袋词。
我们用于此类 NLP 的工具将我们的内容的词频与竞争对手的内容进行比较,并告诉我们词语使用的不同之处。假设,如果我们在内容中包含这些词,我们的排名将会更高,或者至少可以帮助搜索引擎更好地理解我们的内容。
这些工具仍然存在:
MarketMuse、SEMRush、seobility、Ryte 等具有某种关键字频率或 TD-IDF 差距分析功能。我正在使用一个名为“在线文本比较器”的免费词频工具,它效果很好。既然搜索引擎已经随着 BERT 等 NLP 方法的发展,它们仍然有用吗?我想是的,但这并不像更多的单词=更好的排名那么简单。
BERT 比词袋方法更复杂
BERT 着眼于词序、词性以及我们内容中的任何实体。它很强大,可以训练做很多事情,包括回答问题和名称实体识别——当然比基本词频更高级。
不过,BERT 仍然需要看到页面上的单词才能工作,而词频是它的主要总结。现在,词的位置和词性更加重要。我们不能只是将我们在空间分析中找到的单词散布在页面周围。
使用词频工具增强内容
为了帮助我们的内容对于机器来 按行业划分的特定数据库 说是明确的,我们需要让它对于用户来说是明确的。减少写作中的歧义就是选择特定于我们所写主题的词语。如果我们的写作使用了太多的常用动词、代词和非主题形容词,我们的内容不仅会很差,而且很难理解。
考虑一下这个非特定语言的极端例子:
“找到合适的厨师刀的诀窍是在功能、特性和价格之间找到一个良好的平衡。它应该由足够坚固的金属制成,以便在合理的时间内保持刀刃。你应该有一个舒适的手柄,不会让你感到疲倦。你也不需要花很多钱。家庭厨师不需要一把 350 美元的日本刀。
这个副本不太好。它看起来几乎是机器制造的。我无法想象这样写的一篇完整的文章会通过 BSoPT 的词频测试。
这是删除了一些停用词后的词频表:
现在假设我们在“如何挑选厨师刀”排名较高 访问数字银行等服务 的几个页面上运行一个词频工具,并发现这些词性的使用频率相当高:
实体:刀片、钢、疲劳、大马士革钢、Santoku、Shun(品牌)
动词:抓、咬
属性:完美、坚硬、高碳
将这些词添加到我们的副本中将导致文本明显更好:
“找到完美厨师刀的诀窍是在功能、特性和价格之间找到适当的平衡。刀片应由足够硬化的钢制成,以便在重复使用后仍能保持锋利的边缘。你应该 阿拉伯语数据 有一个符合人体工程学的手柄,可以舒适地握住以避免切割疲劳。你也不需要花很多钱。家庭厨师不需要价值 350 美元的 Schon 高碳大马士革钢 Santoku。
升级后的文本将更易于机器分类,也更便于用户阅读。使用与你的主题相关的词语也是很好的写作。
展望 NLP 的未来
对于 BERT 或其他 NLP 算法来说,用一张白纸测试来优化我们的内容是否更好?不,我不这么认为。我不认为我们可以将一组特定的单词添加到我们的内容中,从而通过利用 BERT 神奇地获得更高的排名。我认为这是确保用户和机器都能清楚理解我们的内容的一种方式。