首页 > Nets Diary > WordPress Seo技巧,浅析Robots.Txt写法

WordPress Seo技巧,浅析Robots.Txt写法

2010年6月25日 Surda 发表评论 阅读评论

折腾WP也有一段时间了,上线到现在几近1个月。Show下相关信息:Alexa=8047977,PR=0,日均IP=15……

言归正传。今天在浏览Google 网站管理员工具时,发现HTML建议有8条内容,内容如下:

您的所有权为用户和搜索引擎提供了有关您网站的有用信息。所有权标记中所含的文本可显示在搜索结果页面中,而且相关的描述性文本更有可能被点击。我们建议您尽可能多查看列表并更新所有权标记。

下面列出8条包含重复标题标记的页面URL,

SurDA » 2010 » 六月 2
SurDA 3
SurDA » Music Show 2
SurDA » music 2
SurDA » Excel 2
SurDA » Surda 14
SurDA » Life 2
SurDA » 2010 » 五月 2

一一点开链接查看发现集中表现为 */page/1  分页下标题都重复出现了博客名称“SurDA”,碰到这种情况Google有可能判断为重复内容不利于收录,那么如何解决这些问题?follow me!

  • 页面标题不要显示博客名称

一般的wordpress页面标题都是调用 bloginfo(‘name’) 和 wp_title() 两部分,前者是博客名称, 后者是文章标题。输出代码如下:(位于主题下的Header.php-非主题模板下)

<title><?php wp_title('&laquo;', true, 'right'); ?> < ?php bloginfo('name'); ?></title>

以Inove主题为例输出的标题结构为: ” 博客名称»文章标题”。建议一般文章页面标题直接显示文章标题,利于搜索引擎检索。
Mg12建议修改为以下代码:

<title><?php if ( is_single() || is_page() || is_category() || is_tag() ) { wp_title(''); } else { bloginfo('name'); } ?></title>

我是这样修改的,见代码:

<title><?php if ( is_home()) { bloginfo('name');} else { wp_title('');}?></title>
  • 不要使用统一的元标记(Update:2010-07-04 18:00:22

Inove主题没有提供元标记”keyword”、”description”,之前我是将其写死。但今天登陆Google 网站管理员工具时,发现HTML建议新增了重复的元标记,解决此问题同样修改(位于主题下的Header.php-非主题模板下)文件,代码如下:

<meta name="description" content="<?php if ( is_home()) {bloginfo('description');} else { wp_title(''); }?>" />
<meta name="keywords" content="<?php if ( is_home()) {bloginfo('name');} else { wp_title(''); }?>" />
  • 使用Robots.txt限制检索(以下贴上本站Robots.txt)
User-agent: *
disallow: /cgi-bin/
disallow: /sitemap/
# For Subdomains Start
disallow: /img/
disallow: /resources/
disallow: /demo/
disallow: /archivers/
disallow: /www/
# For Subdomains End
disallow: /blog/wp-*
Disallow: /page/
Disallow: /tag/*/page/
Disallow: /i/*/page/
Disallow: /feed/
Disallow: /trackback/
Disallow: /comments/feed
Disallow: /author/*/page/
sitemap:http://surda.cn/sitemap.xml

逐条阐述开来既是:

User-agent: *  允许所有蜘蛛访问

Disallow: 禁止抓取该目录下的内容

Sitemap: 站点地图 运用到了Google XML Sitemaps生成的

上述Robots.txt写法,是查阅了蛮多博主的写法后综合起来的,应该是按部就班。上述Robots.txt分为四部分,

第一部分是常规限制抓取

第二部分(# For Subdomains)是子域限制抓取,在前文搜索引擎这点事中有介绍为什么要这么做

每三部分是WordPress限制抓取,blog/ 目录下以wp- 开头的文件夹及文件都不允许抓取;分类目录、作者、标签下的分页限制抓取

每四部分为sitemap声明

robots.txt这样写下来,对搜索机器人来说应该是比较友好的。仅供参考!~_^

—————————题 外 话———————–

要百度搜索帮助中心(http://www.baidu.com/search/robots.html)关于Robots.txt介绍写了这样一句话:

搜索引擎使用spider程序自动访问互联网上的网页并获取网页信息。spider在访问一个网站时,会首先会检查该网站的根域下是否有一个叫做robots.txt的纯文本文件,这个文件用于指定spider在您网站上的抓取范围。您可以在您的网站中创建一个robots.txt,在文件中声明该网站中不想被搜索引擎收录的部分或者指定搜索引擎只收录特定的部分。

请注意,仅当您的网站包含不希望被搜索引擎收录的内容时,才需要使用robots.txt文件。如果您希望搜索引擎收录网站上所有内容,请勿建立robots.txt文件。

本人非常不认同有底色论点。机器人去爬行一个网站结构时首先查找的就是根目录是否存在Robots.txt文件,如果不存在,服务器将在日志中记录一条404错误(等同于用户试图访问一个已经不存在的URL时,服务器就会在日志中记录一个404错误),所以你应该在网站根目录下添加一个robots.txt文件,哪怕是一个空白的robots文件也好。关键是这个寻求404错误文件的过程相对于正常文件的访问请求是非常长的,任何一个访问者甚至蜘蛛,都不想等待。

另:Robots.txt易暴露网站物理结构,建议可以使用301重定向。

ShareOn:
  •  
  1. 2010年6月29日03:44 | #1

    我还真没去考虑这么多~得去看看~

  2. 2010年6月29日04:01 | #2

    @小松
    呵,这个真得考虑进去。

  3. 2010年10月25日13:14 | #3

    限制的很严谨啊 我限制的更严谨

  4. 2010年10月25日14:00 | #4

    @clyee
    你robots.txt中
    Allow: / 可以去掉

  5. 2011年3月10日14:34 | #5

    我之前还没有这个文件呢,现在添上

  1. 2010年8月18日00:40 | #1