20
为为为为为为为为为 为为为为为为为为为 Blog Blog http://chedong.com/blog/ http://chedong.com/blog/ 车车 车车

Chedong Why Search Engines Like Blog

Embed Size (px)

DESCRIPTION

 

Citation preview

Page 1: Chedong Why Search Engines Like Blog

为什么搜索引擎喜欢为什么搜索引擎喜欢 BBloglog

http://chedong.com/blog/http://chedong.com/blog/车东车东

Page 2: Chedong Why Search Engines Like Blog

搜索引擎做为互联网的“路由搜索引擎做为互联网的“路由器”器”

搜索引擎是网民的上网主要入口之一;搜索引擎是网民的上网主要入口之一; 搜索引擎每天给其他网站带去搜索引擎每天给其他网站带去 4-64-6 亿流量亿流量

(相当于搜索引擎自身流量的(相当于搜索引擎自身流量的 1-21-2 倍);倍); 在内容网站的外网来源流量中:在内容网站的外网来源流量中:

搜索引擎占搜索引擎占 80%-90%80%-90% ;; 超过传统的友情链接等推介方式一个数量级以超过传统的友情链接等推介方式一个数量级以

上;上;

Page 3: Chedong Why Search Engines Like Blog

从搜索获益最多网站之一维基百科从搜索获益最多网站之一维基百科 维基百科每天从维基百科每天从 GoogleGoogle 获得数百万用获得数百万用

户流量;户流量;

Page 4: Chedong Why Search Engines Like Blog

内容管理系统(内容管理系统( CMSCMS )比较)比较 同样是:标题,时间,作者,内容这几个同样是:标题,时间,作者,内容这几个

因素的组合,为什么因素的组合,为什么 blog/wiki/blog/wiki/ 新闻组归新闻组归档往往比档往往比 BBSBBS 更容易被搜索引擎搜到?更容易被搜索引擎搜到?

为什么同样的内容:大网站的转载往往比为什么同样的内容:大网站的转载往往比原文出处排名更靠前?原文出处排名更靠前?

什么样的网站对蜘蛛比较友好?什么样的网站对蜘蛛比较友好? (Spider F(Spider Friendly)riendly)

Page 5: Chedong Why Search Engines Like Blog

比较成功的几个比较成功的几个 BlogBlog 发布系统:发布系统: 几年前第一次找几年前第一次找 BlogBlog 发布系统:发布系统:

WordPress (php) WordPress (php) 便于架设,插件丰富,管理便于架设,插件丰富,管理简单简单

MovableTypeMovableType (活字印刷的系统) 性能较好;(活字印刷的系统) 性能较好; 比较流行的比较流行的 BSPBSP 发布商:发布商:

LiveJournal;LiveJournal; Blogger;Blogger;

Page 6: Chedong Why Search Engines Like Blog

这些这些 BlogBlog 发布系统的特点发布系统的特点 链接稳定;链接稳定; 蜘蛛抓取方便;蜘蛛抓取方便; 按时间归档;按时间归档; RSSRSS 输出;输出; Trackback ping/Trackback ping/ 留言反馈机制;留言反馈机制; 分类归档;分类归档;

Page 7: Chedong Why Search Engines Like Blog

搜索引擎的职能: 重现搜索引擎的职能: 重现 点击搜索结果链接地址,却无法返回期望点击搜索结果链接地址,却无法返回期望

的结果,用户会很失望;的结果,用户会很失望; 服务器无法访问;服务器无法访问; 页面不存在;页面不存在; 内容已经变更;内容已经变更;

Page 8: Chedong Why Search Engines Like Blog

搜索引擎的重要职能:重现搜索引擎的重要职能:重现 BlogBlog 内容: 内容:

单条目永久链接:单条目永久链接: PermaLink PermaLink 每个条目每个条目

都是永久链接都是永久链接 个人按月归档:个人按月归档:

条目数量仍然控制在几条目数量仍然控制在几十条之内,不用分页;十条之内,不用分页;

按类目归档:按类目归档: 即使有内容更新,旧内即使有内容更新,旧内

容仍然保留容仍然保留

BBS/BBS/ 论坛的内容:论坛的内容: 由于内容量过多,旧内由于内容量过多,旧内

容往往会被删除;容往往会被删除; index.php?page=12 index.php?page=12

这样的链接几天后内容这样的链接几天后内容全部变化;全部变化;

&PHPSESSION=l85sk&PHPSESSION=l85skdj23w4qq2sw3w42dj23w4qq2sw3w42

每个蜘蛛识别为不同链每个蜘蛛识别为不同链接;接;

Page 9: Chedong Why Search Engines Like Blog

网页快照可以解决一部分问题网页快照可以解决一部分问题

但是用户得到的内容但是用户得到的内容可能是过时的;可能是过时的;

原网站丢失了原本可原网站丢失了原本可以获得的用户;以获得的用户;

Page 10: Chedong Why Search Engines Like Blog

搜索引擎的负担:除重搜索引擎的负担:除重 BlogBlog 内容:内容:

内容页相对稳定;内容页相对稳定; 归档链接规则稳定;归档链接规则稳定; 类似的:邮件列表归类似的:邮件列表归

档也是搜索引擎比较档也是搜索引擎比较容易收录的内容;容易收录的内容;

BBSBBS 内容:内容: Foo.php?a=1&b=2Foo.php?a=1&b=2

与与foo.php?b=2&a=1foo.php?b=2&a=1内容是一样的内容是一样的

index.html?from=foindex.html?from=fooo与与 index.html?from=index.html?from=barbar 内容是一样的内容是一样的

Page 11: Chedong Why Search Engines Like Blog

不同地址标记相同内容的危害不同地址标记相同内容的危害

会损失其他地址带来会损失其他地址带来的链接;的链接;

大量使用转向进行统大量使用转向进行统计也为搜索引擎识别计也为搜索引擎识别链接的别名带来负担;链接的别名带来负担;

访问日志中的访问日志中的 refererefererr 可以代替标记跟踪可以代替标记跟踪来源;来源;

Page 12: Chedong Why Search Engines Like Blog

帧结构帧结构 : frame: frame 不利于蜘蛛抓取不利于蜘蛛抓取 BLOGBLOG 大部分为平板大部分为平板

式页面浏览;式页面浏览; BBSBBS 的左导航的左导航 // 右侧右侧

内容模式,不利于蜘内容模式,不利于蜘蛛抓取,也不利于重蛛抓取,也不利于重现;现;

Page 13: Chedong Why Search Engines Like Blog

性能因素:缓存机制性能因素:缓存机制 静态归档更容易缓存静态归档更容易缓存

性能更高性能更高 MTMT 的静态页面归档;的静态页面归档; LJLJ 的的 memcachememcache动态动态缓存模式;缓存模式;

动态页面生成:动态页面生成: 过大压力下容易造成服过大压力下容易造成服

务器宕机;务器宕机; 结构化数据库往往是瓶结构化数据库往往是瓶颈;颈;

Page 14: Chedong Why Search Engines Like Blog

TipsTips :: Cache Friendly ~= SECache Friendly ~= SEOO

使用稳定的连接:避免经常变化;使用稳定的连接:避免经常变化; 避免使用动态参数来进行点击来源跟踪避免使用动态参数来进行点击来源跟踪

index.html?source=fooindex.html?source=foo Index.html?source=barIndex.html?source=bar 有更简单的方法:基于有更简单的方法:基于 refererreferer 进行来源识别;进行来源识别;

增加增加 Last-Modify/ExpiresLast-Modify/Expires 等缓存控制等缓存控制 HeaderHeader ;; 链接链接 //域名更换:域名更换:

要保留原地址可访问,要保留原地址可访问, 设置设置 301301 转向;转向;

Page 15: Chedong Why Search Engines Like Blog

BlogBlog 内容的特点内容的特点 作者对内容作者对内容 // 回复完全控制;回复完全控制; 个人版权声明: 个人版权声明: CCCC ;; 时效性;时效性; 归档机制;归档机制;

Page 16: Chedong Why Search Engines Like Blog

主贴和回复是天生不平等的主贴和回复是天生不平等的 文章发布者是文章条文章发布者是文章条

目的所有人;目的所有人; 可以控制回复的数量和可以控制回复的数量和质量、排序等因素;质量、排序等因素;

可以控制文章;可以控制文章;

主贴作者甚至无法控主贴作者甚至无法控制低质量的回复;制低质量的回复;

回复内容展现大量的回复内容展现大量的噪音:噪音: 回复者的信息,排名,回复者的信息,排名,签名等噪音签名等噪音

回复和主贴存储在同一回复和主贴存储在同一空间中,严重降低效率;空间中,严重降低效率;

Page 17: Chedong Why Search Engines Like Blog

私有内容:利于内容长期维护私有内容:利于内容长期维护 BlogBlog 内容是私有的;内容是私有的; 面向归档,备忘的;面向归档,备忘的; 内容可重用度较高;内容可重用度较高; 是个人的在线虚拟资产;是个人的在线虚拟资产; 原创内容相对多;原创内容相对多; 不同搜索引擎对于新发现不同搜索引擎对于新发现

内容有一定的加权,一般内容有一定的加权,一般22周后,或者周后,或者 11 个月后内个月后内容会回到同其他内容一样容会回到同其他内容一样的权重;的权重;

BBSBBS 内容则无法承诺长期内容则无法承诺长期保存;保存;

内容实效性较强;内容实效性较强; 缺乏搜索引擎来源的反馈,缺乏搜索引擎来源的反馈,影响面有限;影响面有限;

转载多,原创少;转载多,原创少;

Page 18: Chedong Why Search Engines Like Blog

引用发现和用户交互引用发现和用户交互 可视化编辑器在可视化编辑器在 blogblog 发布系统中广泛使用:发布系统中广泛使用:

内容来源链接地址:内部内容来源链接地址:内部 // 外部都较多;外部都较多; BBSBBS 为防止为防止 XSSXSS ,往往禁用可视化编辑器或使,往往禁用可视化编辑器或使

用用 BBCODEBBCODE ;; 如何方便转载者主动标记原文出处:如何方便转载者主动标记原文出处:

再次推销一下再次推销一下 [chedong copyright[chedong copyright 模板模板 ]] 便于用户便于用户 Copy/PasterCopy/Paster并能有效链接的模板并能有效链接的模板 为用户做正确的事情提供方便;为用户做正确的事情提供方便;

Page 19: Chedong Why Search Engines Like Blog

RSSRSS : 低成本新内容发现机制: 低成本新内容发现机制 节省带宽: 不遍历网站内容而发现最新内节省带宽: 不遍历网站内容而发现最新内

容;容; PingPing 机制可以进一步提高发现新条目的效机制可以进一步提高发现新条目的效率;率;

部分自动镜像产生反向链接;部分自动镜像产生反向链接;

Page 20: Chedong Why Search Engines Like Blog

结论:良好结构,良好引用,良结论:良好结构,良好引用,良好导航好导航

学习一下学习一下 MovableTypeMovableType和和WordPress WikiWordPress Wiki 内容发布的内容发布的优点;优点;

对原有对原有 BBS/FAQBBS/FAQ 等发布系统规划注意以下事项:等发布系统规划注意以下事项: 搜索引擎蜘蛛抓取搜索引擎蜘蛛抓取 friendlyfriendly ::

新内容发现:对新内容发现:对 RSS/SitemapsRSS/Sitemaps 协议的支持;协议的支持; 旧内容遍历:旧内容遍历: 33跳之内遍历完网站所有内容;跳之内遍历完网站所有内容;

链接归档:链接归档: 稳定和统一的归档机制;稳定和统一的归档机制;

良好引用:良好引用: 对非本站原创内容标明出处引用;对非本站原创内容标明出处引用; 内部关联发现:通过关键词内部关联发现:通过关键词 /TAG/TAG 站内检索;站内检索;

对旧内容的重构可以获得和对旧内容的重构可以获得和 blog/wikiblog/wiki 发布系统一样的发布系统一样的 SEOSEO效果;效果;