Microsoft如何从Bing搜索结果中删除“垃圾”

作者:游鐾

<p>来自Bing的核心搜索团队的Richard Qian博士在Bing搜索博客上撰写了一篇名为Bing Search Quality Insights:Reducing Junk的博文</p><p>这是Bing的一部分,正在努力提供Bing工作方式的搜索质量见解</p><p> Bing在这里解释了他们如何处理Bing搜索结果中的错误链接,并且还处理垃圾邮件或空片段</p><p>垃圾链接包括:垃圾或空片段包括:死链接示例是返回4xx或5xx错误代码的页面,从页面的HTTP请求返回</p><p>有时候Bing和Bing没有死链接,因为它没有抓取网页,因为它返回了正确的结果,因此没有意识到它</p><p>但Bing,ô's crawler经常抓取并且能够相当快地检测到死链接</p><p>当Bing确实检测到死链接时,根据他们的算法,他们可以“提升其重新抓取优先级和频率”,以查看死链接是否是临时错误并且应该返回搜索结果</p><p>软404就像硬404但没有返回404标题状态</p><p> Bing说,他们在这个区域使用他们的高精度分类器,使用页面内容,例如页面中的关键短语,标题,正文和URL来确定页面是否是软404以及是否将其从搜索结果中删除</p><p> Bing并不希望停放的域显示在搜索结果中,因此他们使用签名来识别停放的域并将其删除</p><p> Bing还使用各种技术来改进其编码分类器,文档转换器,垃圾检测器和HTML解析器,减少了junky片段的发生</p><p>对于空的代码段,Bing使用动态抓取工具和文档处理器以及许多分类器来确定搜索结果的相应代码段</p><p>有关更多详细信息,....