1. 论坛系统升级为Xenforo,欢迎大家测试!
    排除公告

关于百度分词的研究和讨论

本帖由 乐伯2011-12-15 发布。版面名称:软文发布区

  1. 乐伯

    乐伯 New Member

    注册:
    2011-06-08
    帖子:
    183
    赞:
    0
    【第一点:关于关键词中的主打词】

    为了方便说明,我们先将用户搜索词分为两种:主打词和辅助词,比如搜索吉林火灾,那这里火灾是主打词,吉林就是辅助词;高考资源网 高考在这里是主打词; 西安seo培训 seo是主打词; 北京妇科医院 妇科是主打词; 好玩的游戏 游戏是主打词 。

    对于百度来讲,似乎能分辨出这个主打词,如果你的网页中多次出现这个主打词,其他词语哪怕不在标题中出现(正文出现)也会有好的排名。但如果你的标题没有主打词,只有其他词,就算正文中出现主打词,也很难有好的排名!

    比如搜索 高考资源网 排名到76页 75页 都是 标题中只出现 资源网, 但没有 高考 的页面 ,因为没有主打词 高考 所以针对高考资源网来讲权重就不够好。

    以上这一点,只是 三木 的猜想,希望大家能一 一证明这个理论或者推翻我的理论。

    【第二点:关于百度对检索词是如何分词的】

    经过三木对百度索引词(也就是用户在百度搜索的词)分词的研究,还有一个所得:

    很多关于百度中文分词的文章都是有点过于死板的,包括zac的《seo实战密码》一书中关于分词的文章,他说,对于百度来讲“搜索引擎优化“这个关键词分词还是”搜索引擎优化“,其实不是这样的,那只是凑巧罢了,为什么这样说?继续看:

    经过我的仔细研究,当用户搜索 ”高考资源网“ 这个词 ,百度会分词为: 1、高考资源网; 2、高考资源 | 资源网;3、高考 | 资源网 ;4、高考资源 | 网 ;5、高考 | 资源 | 网 。

    以上五种都是同时存在的,至于对你的网站是怎么分词,看网页正文中(包含页面中出现的任何文字信息)触动了哪一个分词,但前提是百度讲求的是最大匹配为先。

    1、如果你的网页中存在 高考资源网 (比如www.ccutu.com/gaokao/这个页面在友情链接中出现了高考资源网)这个词语,那对于你的网页,分词就是高考资源网,网页中出现再多的高考或者资源网都是无效的。

    2、如果你的网页中没有高考资源网这个完整匹配,有 资源网 和 高考资源 这两词,百度针对这个页面的分词就是 高考资源 | 资源网,这个网页独立出现再多的 资源 和 高考 这两个词 也是无效的。

    3、如果你的网页中以上1和2不成立,但出现了 高考 和 资源网 这两个词,那百度针对这个页面的分词就是 高考 | 资源网。这个时候,页面中单独出现 资源 这个词,也是无效的。

    4、如果你网页中以上1、2、3都不成立,但出现了 高考资源、网 这两个,那百度针对这个页面的分词就是高考资源 | 网,页面中独立出现再多的 高考 或者 资源 都是无效的。

    5、如果你的网页中以上1、2、3、4都不成立,但出现了 高考、 资源、 网 这三个,那百度针对这个页面的分词就是高考 | 资源 | 网。这个是最低层次的,也是细分最厉害的。

    以上五种只是单独针对 高考资源网 来说的,关键词中包含的词语越多,分词就越多,但单独针对高考资源网这个关键词,除了

    以上五种还有很多特殊情况,比如:

    1、当页面中缺个别词时。如果标题中含有高考资源网,但页面信息中除了 高考 和 网 之外却没有 ”资源“这两个词,百度的分词是 高考 | 网,具体可以去百度搜索下 高考资源网 看看排名第一的那个站的快照就知道了,通过这个也能看出来,百度分词具体是怎么分的,不是看的标题,看的 是页面中的文字信息(也包含页面中出现的标题)。(上面加红部分有些人不明白:比如网站首页,title文字信息在首页是不显示的,但对于内页来说,titel信息在正文中以h1标签显示出来了,分词根据你页面出现的文字信息)

    2、当页面中缺?%(>50%)词时或者不含任何词时。意思就是,只有标题中含有高考资源网,但正文中缺少?%(>50%)或者没有任何单词时,直接是搜索词(关于这一点还在研究中)。

    然后再回过来说下zac的《seo实战密码》,他说百度对”搜索引擎优化“分词结果为”搜索引擎优化“,他为什么这么说,因为他看了搜索结果页中98%的页面快照显示的都是 搜索引擎优化,所以就下了定论。

    但实际上,按照上面的推理。搜索引擎优化百度分词为:1、搜索引擎优化;2、搜索引擎 | 引擎优化;3、搜索引擎 | 优化;4、搜索 | 引擎优化;5、搜索 | 引擎 | 优化。

    那为什么百度搜索结果上大部分都是搜索引擎优化,原因很简单,做这行的太多了,呵呵,百度76页结果基本上都是首页,做这行的,都知道在正文中夹带关键词,所以都成了完全匹配的了,但也有个例,为了增加说服力,添加图,以下两张,请大家百度搜索 ”搜索引擎优化“ 最后一页,也就是76页上的两个网站快照。

    本文由www.huojugaokeji.com整理发布
     
  2. andireroo

    andireroo New Member

    注册:
    2011-10-11
    帖子:
    174
    赞:
    0
    不要把百度想得太复杂