分类目录归档:SEO结构优化

SEO网站结构优化

选择CMS建站系统使用注意事项

大部分网站是通过CMS系统制作和管理的,dede(织梦)、帝国、wordpress等。有的系统自身已经做了SEO方面的调整,有的需要安装插件。从SEO角度出发CMS系统应该具备哪些基本功能。

1.页面标题格式化。CMS系统应该自动生成比较优化的页面标题,分类名称 – 网站名称,产品名称 – 分类名称 – 网站名称等。同时还应该提供所有页面人工修改标题的客制化功能,在需要时可以重新撰写更恰当的标题。
2.URL静态化。URL静态化功能是必需的,站长可以在后台开启静态功能。且可以自己定义所有的目录名及文件名,创建产品或文章页面时,系统既可以自动按编号生成文件名,也允许站长输入最想要的文件名。
3.meta标签格式化。站长选择使用说明标签和关键词标签,应该可以选择生成格式或完全人工撰写。
4.正文撰写。可以在正文中加黑体、加图片、填写图片ALT文字、添加链接、选择链接锚文字等。
5.分类页面说明文字。分类页面也应该留出一个区域,让站长人工撰写最恰当的说明文字。这样才能避免分类页面上只有产品列表,没有独特相关的文字内容。
6.标签功能。站长发布产品或文章时可以输入标签,系统自动按标签聚合内容并生成标签页面。
7.消除复制内容。系统应该自动禁止抓取复制内容。复制内容有利于用户浏览,却会给搜索引擎造成大量不友好的复制内容。CMS设计者应该考虑到禁止抓取这些复制版本的功能,不然系统使用者很难在使用过程中做出改进。
8.301转向。系统应该提供从任何一个页面做301转向到另外一个地址的功能,站长可以根据需要自由安排转向。
9.网站地图生成。CMS系统可以自动生成XML版本网站地图,站长只要向搜索引擎提交网站地图地址就可以了。
10.正确生成H标签。几乎所有CMS系统都会生成H1、H2标签,但正确生成H标签的并不多见。

网站内部链接及权重分配

网站结构优化要解决的最重要的问题包括收录及页面权重分配。一般情况,经典树形结构应该是比较好的链接及权重分配模式。
1.重点内页权重提高。一般来说,网站首页获得的内外部链接最多,权重最高。首页链接到一级分类页面,这些一级分类页面权重仅次于首页。多层分类,权重依次下降。产品文章页面权重最低。可以把重点页面链接放在首页上,这些内页的排名也会有显著提高。
2.非功能页面要降低权重。每个网站都有一些在功能及用户体验方面很必要、但在SEO角度没必要的页面,如隐私权政策、用户登录页面、用户注册页面、联系我们等页面。这些页面通常在整个网站每个页面上都会有链接,它们的权重将仅次于首页,与一级分类页面相似,可能更高,是一种权重浪费,对网站关键词排名没有好处。可以采取几种方式降低这些页面的权重。一是只在首页显示链接,其他页面干脆取消链接,如隐私权政策,关于我们等页面。二是使这些页面的链接不能被跟踪或传递权重,例如使用NoFollow标签或使用JavaScript链接。尽量减少能够传递权重的全站链接到非必要页面。
3.大分类页面提高权重。网站有多层分类页面,每层分类页面包含内容不一样多,导致分类页面的权重不一样。内容多的分类,每个内容页权重低,收录不充分。多层分类的应该计算出每个三级分类下有多少产品,想办法把这些大三级分类页面放在首页上,如果可能,放在尽量多的导航中,提高大分类页面权重,提高收录。
4.翻页过多应该优化。产品页翻页过多,产品页面被收录的可能性几乎为零。解决这个问题的最佳方式是再次分类。另外一个解决方式是对翻页链接进行格式变化,如1,2,3,4,5,10,20,30,40,50这样排在第50页的产品,只要再多一次点击也能达到。
5.单一入口还是多入口做好选择。网站最终是希望使更多文章产品页面被收录,有两个策略:一是多入口,二是单一入口。
多入口指的是通向最终产品页面的链接路径有多条。这种结构的优势是为最终页面提供了多条爬行收录渠道,提供的入口越多,被收录的机会越大。缺点是这些入口页面本身也占用网站收录页面名额,而且往往造成很多相似内容。
如果网站权重比较低,产品数又很大,就可能需要使用单一入口方法,也就是从首页到产品页面只提供单一通路。只要网站分类系统、导航及翻页设计合理,提供单一入口也可以达到收录尽量多最终产品页面的目的。
6.相关产品文章链接可以增加收录,可以随机自然些。购买这个产品的用户还购买了哪些其他产品;同一个品牌或生产商的其他产品;由标签生成的相似产品;“上一篇”和“下一篇”链接。相关产品链接要尽量随机,使本来不相连的页面能够交叉链接起来,为某些通过正常分类结构无法达到的区域提供入口。
7.锚文字分布变化。分类页面可以有更多具有相同意义的名称,在导航系统中不同的部分可以相近的词语。用做锚文字变化的词意义必须一样,不能影响用户体验,而且搜索次数差不多,都需要锚文字加强相关性。
8.首页链接NoFollow。实验表明,当页面上出现多个链接到同一个网址时,第一次出现的链接最重要,第一个链接的锚文字也最重要。页面上第一次出现的以“首页”为锚文字的链接,加上NoFollow属性禁止搜索引擎跟踪,然后在页面上其他适合放一两个关键词的地方,以关键词为锚文字链接向首页。
9.深层链接。给一些距离首页较远、不太容易被蜘蛛爬到的页面适当建设几个外部链接,可以有效地解决一个区块收录。
10.分类隔离。在权重分配上,级别高的分类页面和首页差不多,分类页面积累的权重过高,反而使得最终产品页面获得的权重比较低。站长可以考虑把树形结构改为将不同分类进行分隔的链接结构。在这种结构下,一级分类只链接到自己下级分类,不链接到其他一级分类。二级分类页面只链接回自己的上级分类,而不再链接到其他一级分类(包括其他一级分类下的二级分类)。同样,最终产品页面只链接回自己的上级分类页面,不再链接到其他分类页面。这样,分类之间形成隔离,首页权重将会最大限度地到最终产品文章页面。

网站地图如何做

网站无论大小,网站地图是必需的,不仅用户可以对网站容易熟悉,搜索引擎也可以跟踪爬行。

网站地图有两种形式: 一是HTML版本的网站地图,另一种是XML网站地图。

HTML网站地图,是用户可以在网站上看到的、列出网站上所有主要页面链接的页面。
对一些主导航必须使用JS脚本或Flash的网站,网站地图是帮助搜索引擎的补充途径。
小型网地图页可以列出所有页面。
稍具规模的网站不能列出所以链接,可以只列出网站最主要部分链接,也将网站地图分成多个文件,多个网站地图页面加在一起,可以列出所有或绝大部分重要页面。

XML网站地图

XML版本的网站地图,英文Sitemap中的S大写。XML版本网站地图由XML标签组成,文件本身必须是utf8编码。网站地图文件实际上就是列出网站需要被收录的页面URL。
urlset标签是必需的,声明文件所使用的Sitemap协议版本。
url标签也是必需的,是它下面所有网址的母标签。
loc标签也是必需的,这一行列出的就是页面完整URL。
lastmod是可选标签,表示页面最后一次更新时间。
changefreg是可选标签,代表文件更新频率。
priority是可选标签,表示URL的相对重要程度。可选0.0到1.0之间的数值,1.0为最重要,0.0为最不重要。XML网站地图文件最多可以列出5万个URL,文件不能超过10MB。如果网站需要收录的URL超过5万个,可以分成多个网站地图文件。一个网站最多可以有1000个XML网站地图文件,也就是可以列出5000万个网址。
制作好网站地图文件后,一是在站长工具后台提交网站地图文件。另外一种方式是在robots.txt文件中通知搜索引擎网站地图文件位置。XML网站地图只是辅助方法,不能代替良好的网站结构。对大中型网站提交网站地图一般有比较好的效果,对小型网站,提交网站地图可能没有什么显著效果。

绝对路径和相对路径对seo的影响

绝对路径是包含域名的完整网址,相对路径指的是不包含域名的相对网址。

网站应该使用绝对路径还是相对路径对SEO有什么影响?

绝对路径URL优点:

1.如果有人抄袭、采集你的网站内容,抄袭者比较懒,连页面里面的链接一起原封不动抄过去,绝对路径链接还会指向你的网站,增加网站外链及权重。

2.网站有RSS输出时,页面里指向原网站的链接会被保留。

3.有助于预防和解决网址规范化问题。

4.网页移动位置链接还是指向正确URL。

绝对路径缺点:

不好在测试服务器上进行测试。

移动页面将比较困难。

代码比较多。

 

相对路径优点:

1.移动内容比较容易,不用更新其他页面上的链接。

2.在测试服务器上进行测试也比较容易。

3.节省代码。

缺点:

1.页面移动位置,里面的链接可能也需要改动。

2.被抄袭和采集对网站没有任何益处。

3.搜索引擎解析URL时可能出错,不能正确读取页面上的链接URL。

如果不能做301转向,使用绝对路径有助于解决网址规范化问题。如果文章被大量转载、抄袭,使用绝对路径可以带来一些外部链接。此外,使用相对路径比较简单。

在正确解析URL的前提下,绝对路径和相对路径本身对排名没有任何影响。

网站重复内容产生的原因危害及如何避免

重复内容指的是两个或多个URL内容相同或相似。重复内容既可能发生在同一个网站内,也可能发生在不同网站上。

产生重复内容的原因?

1.网址规范化问题产生重复内容。

2.代理商和零售商从产品生产商那里转载产品信息,电子商务网站上充斥着大量复制内容。

3.打印版本。网站打印版本如果没有用适当方式禁止抓取,这些打印版本网页就会变成重复内容。

4.网站结构造成的各种页面。

5.网页内容由RSS生成。

6.使用Session ID。

7.网页实质内容太少。网页的正文部分太短,内容数量还抵不上通用部分,就有可能被认为是重复内容页面。

8.转载及抄袭。

9.镜象网站。

10.产品或服务类型之间的区别比较小。

11. URL任意加字符还是返回200状态码。

如何检测重复内容?

随便拿出正文中的一句话或一段,加上双引号,在搜索引擎中搜索一下,从结果中就能看到是否有页面包含。

重复内容的危害?

1.重复内容会不在搜索结果中返回或排在比较靠后的位置。

2.站内重复内容会分散网页权重。

3.挤占了其他独特内容的收录机会。

4.网站上存在大量复制内容,搜索引擎会对网站质量产生怀疑,导致被被降权惩罚。
如何消除网站重复内容?

1.网址规范化问题造成的重复内容,网站所有内部链接统一URL。

2.选取一个版本允许收录,其他版本禁止搜索引擎抓取或收录。

3.在页面中加入版权声明,要求转载的网站保留版权声明及指向原出处的链接。

4.坚持原创,假以时日必定能够增加网站权重,使网站上内容被判断为原创的机会增加。

5.有其他网站大量抄袭自己网站内容,造成原创内容不能获得排名,可以向搜索引擎投诉。

Canonical标签

Canonical标签相当于一个页面内的301转向,区别在于用户并不被转向,还是停留在原网址上,而搜索引擎会把它当做是301转向处理,把页面权重集中到标签中指明的规范化网址上。

注意:
1.这个标签只是一种建议或暗示,而不是指令,它不像robots文件那样是个指令。所以搜索引擎会在很大程度上考虑这个标签,但并不是百分之百。搜索引擎还会考虑其他情况来判断规范化网址。这也防止站长有可能把网址弄错。
2.标签既可以使用绝对地址,也可以使用相对地址。通常使用绝对地址比较保险。
3.指定的规范化网址上的内容,与其他使用这个标签的非规范化网址内容可以有一些不同,不一定完全一样。比如电子商务网站上多按价格、时间、尺寸升降排序,生成的URL全都不一样,但内容大体相同,只有细小区别,就可以使用这个标签。
4.指定的规范化网址可以是不存在页面,返回404,也可以是还没有被收录的页面。但是不建议这么做,别没事找事。
5.这个标签可以用于不同域名之间。
有些网站由于技术限制不能做301转向,canonical标签就显得非常灵活,不需要任何特殊服务器组件或功能,直接写在页面HTML中就可以了。
百度还不支持canonical标签。

301转向

什么是301转向
301转向(或叫301重定向、301跳转)是用户或蜘蛛向网站服务器发出访问请求时,服务器返回的HTTP数据流中头信息(header)部分状态码的一种,表示本网址永久性转移到另一个地址。
其他常见的状态码还包括:
200表示一切正常
404网页不存在
302临时性转向
500内部程序错误
网址转向还有其他方法,如302转向、JavaScript转向、PHP/ASP/CGI程序转向、Meta Refresh等。除了301转向外,其他方法都是常用的作弊手法。
301转向传递权重
网页A用301重定向转到网页B,搜索引擎可以肯定网页A永久性改变地址,或者说实际上不存在了,搜索引擎就会把网页B当做唯一有效目标。这是搜索引擎唯一推荐的不会产生怀疑的转向方法,更重要的是,网页A积累的页面权重将被传到网页B。
目前Google会传递大部分权重,但不是百分之百权重。百度会传递所有权重。Google对301的识别、反应、完成权重传递,需要1~3个月时间。百度对301处理则比较保守,新旧URL会同时存在于数据库很长时间,经常看到做了301转向一年的URL还出现在百度结果中。
怎样做301转向
如果网站使用LAMP(Linux+Apache+MySQL+PHP)主机,可以使用.htaccess文件做301转向。.htaccess是一个普通文字文件,用Notepad等文字编辑软件创建和编辑,存在网站根目录下。.htaccess文件中的指令用于目录特定操作,如密码保护、转向、错误处理等。
如果网站用的是Windows主机,可以在控制面板做301转向设定。
纯静态HTML页面无法做301转向。在HTML里能做JavaScript或Meta Refresh转向,但不能做301转向。HTML一被读取,就已经返回200 Ok状态码了。

301转向的其他用途
除了解决网址规范化问题,还有很多需要做301转向的情形。比如,为保护版权,公司拥有不同的多个域名。为避免造成大量复制内容,应该选定一个为主域名,其他域名做301转向到主域名。
网站改版也经常需要用到301转向,如页面删除、改变地址、URL命名系统改变等。
动态URL静态化也可能要做301,将旧的、动态的URL做301到新的、静态的URL。

网址规范化如何做?

网址规范化是搜索引擎挑选最合适的URL作为规范化的网址的过程。

网址不规范带来的问题有哪些?
网站出现多个不规范网址会给搜索引擎收录和排名带来影响,两个或更多版本的URL都可能被搜索引擎收录,这就会造成复制内容。搜索引擎计算排名时必须找到所谓规范化的网址,也就是搜索引擎认为的最合适的URL版本。
网址规范化造成几个问题:一是分散了页面权重,不利于排名。
二是外部链接也可能指向不同URL,分散权重。三是搜索引擎判断的规范化网址不是站长想要的那个网址。四是网址规范化问题太严重,也可能影响收录。五是复制内容过多,搜索引擎可能认为有作弊嫌疑。
为什么出现不规范网址?

1.下面这几个URL一般指的是同一个文件:

http://www.seodaxue.com

http://seodaxue.com

http://www.seodaxue.com/index.html

http://seodaxue.com/index.html

网址规范化问题还可能由于如下原因出现:
2.CMS系统原因,使同一篇文章(也可以是产品、帖子等)可以通过几种不同的URL访问。
3.URL静态化设置错误,同一篇文章中有多个静态化URL。
4.URL静态化后,静态和动态URL共存,都有链接,也都可以访问。
5.目录后带与不带斜杠。

http://www.seodaxue.com和http://www.seodaxue.com/是不同网址,但其实是一个页面。

6.加密网址。http://www.seodaxue.com和https://www.seodaxue.com同时可以访问。
7.URL中有端口号。

http://www.domainname.com:80

http://www.domainname.com

8.跟踪代码。有的广告服务在URL后面加跟踪代码,如http://www.seodaxue.com/?affid=100″>http://www.seodaxue.com/?affid=100
如何解决网址规范化问题
1.确保CMS系统只产生规范化网址。
2.所有内部链接保持统一,都指向规范化网址。
3.设置网站首选域。
4.使用301转向,把不规范化URL全部转向到规范化URL。
5.使用canonical标签。
6.提交给搜索引擎的XML网站地图中全部使用规范化网址。
但这些方法都各有局限:
建议综合使用多个方法。

URL设计8个注意事项

设计网站结构时需要对目录及文件命名系统做事先规划,从用户体验出发,URL应该清晰友好、方便记忆。

1.URL越短越好。搜索引擎URL不超过1000个字母,收录起来都没问题。不过真的使用几百个字母的URL,用户看起来就费事了。有人统计,短的URL点击率比长URL高2.5倍。短URL也利于传播和复制。站长做链接时,通常会直接复制URL。短URL不会有问题,长URL复制时都会费劲,也可能复制得不完整,造成404错误。
2.避免太多参数。在可能的情况下尽量使用静态URL。如果技术上不能实现,必须使用动态URL,也要尽量减少参数。一般建议2~3个参数之内。
3.目录层次尽量少。这里指的是物理目录结构。在可能的情况下,尤其是静态化URL时,尽量使用比较少的目录层次。
4.文件及目录名具描述性。尤其对英文网站来说,目录及文件名应该具备一定的描述性,使用户容易知道这个URL内容。
5.URL中包含关键词。关键词出现在URL中,也能提高页面相关性,在排名时贡献一点分数。
6.字母全部小写。全部小写容易人工输入,不会因大小写掺杂而犯错。有的服务器是区分大小写的,大小写混用出现错误都会造成404错误。另外,robots文件代码也是区分大小写的,一个字母之差就可能使整个目录不能被收录。
7.连词符使用。目录或文件名中单词间一般建议使用短横线(-)分隔,不要使用下画线或其他更奇怪的字母。
8.目录形式还是文件形式。大部分CMS系统都可以把页面URL设置为目录或文件形式,这两种格式对排名没有大影响。

URL静态化建议

URL静态化一直以来都是最基本的SEO要求。

为什么静态化?

现在的网站绝大多数是动态页面,页面由程序实时生成。当用户访问一个网址时,程序根据URL中的参数调用数据库数据,实时生成页面内容。因此动态页面相对应的URL原始状态也是动态的,包含问号、等号及参数。
搜索引擎在发展初期一般不太愿意爬行和收录动态URL,主要原因是可能陷入无限循环或收录大量重复内容,造成资源极大浪费。

怎样静态化URL?

常用方法是服务器的URL重写模块,在LAMP(Linux+Apache+MySQL+PHP)服务器上一般使用mod_rewrite模块,Windows服务器也有功能相似的ISAPI Rewrite等模块。这里所说的URL静态化应该称为“伪静态化”,也就是说服务器上还是不存在相应的HTML文件,用户访问时还是动态生成页面,只不过通过URL重写技术使网址看起来像是静态的。对搜索引擎来说,真正的静态与伪静态没什么太大区别。

URL是否需要静态化?

近两三年搜索引擎对动态URL的抓取有了很大进步。一般来说URL中有两三个参数,对收录不会造成多大影响。权重高的域名,再多几个问号也不是问题。建议将URL静态化,既能提高用户体验,又能降低收录难度。