你了解搜索引擎吗? 之前写过部分文章提到过,真正的SEO需要对搜索引擎有个逻辑架构 这里就先谈谈我的一些看法,欢迎讨论 你了解搜索引擎吗? 任何程序都有不同职能的模块组成,搜索引擎也不例外 在构建逻辑架构前 先要清楚,你需要哪几个逻辑模块 SPIDER 采集模块,众所周知的SPIDER,在程序中实现,采集网页,链接记录,网站情况信息记录,数据返回功能,SPIDER修正赋值(就是告诉SPIDER,比如<TITLE></TITLE>之间的内容在采集后返回录入数据库的时候告诉,这个段采集内容是权重级别较高的内容) 前台面向客户 搜索词记录,用户搜索习惯记录,关键词拆分,查询提交,数据反馈显示 数据入库 将SPIDER,和前台收集的信息整合入库,按用户搜索词,进行类目建立,类目间关系建立(这段的意思简单的说就是分析用户搜索的词,将分词结果最短路径的词建立一个数据表,(什么你不懂分词?先去搜一下看了分词法再继续看。)然后SPIDER采回来的页面通过一个关键词分析程序(不知道TX们搞毕业论文的时候有没有被学校用过一个 论文审核程序,就是进去之后全文对比相似度超过多少就是抄的,远离类似于这样的文字分析程序)分析这些页面出现过哪些词,凡是含有这个词的页面就归入这个词所在的表中,然后我们这样的数据表称为短词表,有了短词表就会有长词表,长词表的建立也和前台用户采集来的信息有关,比如投稿赚钱他就会把投稿词表投稿词表组合一个新的投稿赚钱词表,为什么会组合,跟这个词是否经常的被用户组合提交给百度查询有关) 网站分析 将SPIDER采回的网站信息,放入分析系统,对网站进行分析评级,这个评级的等级,将会作为一个变量参数,参与到最终页面的排序,同事提交给SPIDER修正,让SPIDER知道哪些网站需要经常爬并返回高权重数据 排序 整合之前所有获得信息数据,作为变量参数 加上页面相关词密度,计算出,每个页面,在每个词表中的排序