防采集是什么意思(采集什么意思)

发布于:2023-02-08 02:55:00 类别:职场经验 阅读:223

当前网址:http://www.nhmsw.com/ckzx/zcjy/55975.html

防采集是什么意思,采集什么意思

内容导航:

  • 网页防采集策略
  • 网站中防采集的用途是什么
  • 采集
  • 反采是什么意思
  • 一、网页防采集策略

    网页防采集策略 目前防采集的方法有很多种,先介绍一下常见防采集策略方法和它的弊端及采集对策:
    一、判断一个IP在一定时间内对本站页面的访问次数,如果明显超过了正常人浏览速度,就拒绝此IP访问。 弊端:
    1、此方法只适用于动态页面,如:asp\\jsp\\php等…静态页面无法判断某个IP一定时间访问本站页面的次数。
    2、此方法会严重影响搜索引擎蜘蛛对其收录,因为搜索引擎蜘蛛收录时,浏览速度都会比较快而且是多线程。此方法也会拒绝搜索引擎蜘蛛收录站内文件。
    采集对策:只能放慢采集速度,或者不采。
    建议:做个搜索引擎蜘蛛的IP库,只允许搜索引擎蜘蛛快速浏览站内内容。搜索引擎蜘蛛的IP库的收集,也不太容易,一个搜索引擎蜘蛛,也不一定只有一个固定的IP地址。
    评论:此方法对防采集比较有效,但却会影响搜索引擎对其收录。 二、用javascript加密内容页面
    弊端:此方法适用于静态页面,但会严重影响搜索引擎对其收录情况,搜索引擎收到到的内容,也都是加密后的内容。
    采集对策:建议不采,如非要采,就把解密码的JS脚本也采下来。 建议:目前没有好的改良建议。 评论:建议指望搜索引擎带流量的站长不要使用此方法。
    三、把内容页面里的特定标记替换为”特定标记+隐藏版权文字“ 弊端:此方法弊端不大,仅仅会增加一点点的页面文件大小,但容易反采集。
    采集对策:把采集来的含有隐藏版权文字内容的版权文字替掉,或替换成自己的版权。 建议:目前没有好的改良建议。
    评论:自己感觉实用价值不大,就算是加上随机的隐藏文字,也等于画蛇添足。 四、只允许用户登陆后才可以浏览 弊端:此方法会严重影响搜索引擎蜘蛛对其收录
    采集对策:目前落伍已经有人发了对策文章 ,具体对策就看这个吧《ASP小偷程序如何利用XMLHTTP实现表单的提交以及cookies或session的发送》。
    建议:目前没有好的改良建议。 评论:建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序,还是有点效果的。
    五、用javascript、vbscript脚本做分页 弊端:影响搜索引擎对其收录。
    采集对策:分析javascript、vbscript脚本,找出其分页规则,自己做个对应此站的分页集合页即可。 建议:目前没有好的改良建议。
    评论:感觉懂点脚本语言的人都能找出其分页规则。 六、只允许通过本站页面连接查看,如:iables(“HTTP_REFERER“)
    弊端:影响搜索引擎对其收录。 采集对策:不知道能不能模拟网页来源。。。。目前我没有对应此方法的采集对策。 建议:目前没有好的改良建议。
    评论:建议指望搜索引擎带流量的站长不要使用此方法。不过此方法防一般的采集程序,还是有点效果的。
    从以上可以看出,目前常用的防采集方法,要么会对搜索引擎收录有较大影响,要么防采集效果不好,起不到防采集的效果。那么,还有没有一种有效防采集,而又不影响搜索引擎收录的方法呢?那就请继续往下看吧!
    作者:pujiwang 2006-6-22 14:12:15 | 回复此帖子 广而告之: 2 回复:[转帖]网页防采集策略 防采集的一些思路的探讨
    防采集的一些思路的探讨 关键词: 采集 1、用不同的模板 对于用程序的网站来说,不大可行,一个网站的模板最多也就几套吧。
    2、使用robots禁止访问网页目录 这个方法可以有效的防止采集,不过将搜索引擎也封掉了,对于靠搜索引擎吃饭的站长们来说,得不偿失。
    一个例子,Disallow 后面就是禁止访问的目录: 作者: 218.19.189.* 封 2006-10-20 11:35 回复此发言 删除


    2 [转帖]网页防采集策略 User-agent: * Disallow: /admin Disallow: /attachments Disallow:
    /images Disallow: /forumdata Disallow: /include
    3、使用HTTP_REFERER禁止采集,发现来自非本站连接就禁止察看叶面,就像前一段落伍防DDOS那个禁止调用一样。
    这个方法可以比较有效的防止采集,不过也一样把搜索引擎封掉了,对于靠搜索引擎吃饭的站长们来说,得不偿失。
    对高手无效,因为HTTP_REFERER可以伪造。但对一般使用采集的人来说,已经足够应付了。 例: php
    if(preg_replace(“/https?://([^/]+)./i”, “1”,
    $HTTP_SERVER_VARS[‘HTTP_REFERER’]) != $HTTP_SERVER_VARS[‘HTTP_HOST’]) {
    exit(‘警告—-你的操作已经被禁止。’;); } 4、使用HTTP_REFERER伪造内容
    这个方法可以比较有效的防止采集,不过对于搜索引擎来说,查到的东西跟你伪造的东西一样的,可能会影响收录。(如有不对,请高手指出) 同上,对于高手无效。
    5、使用java加密内容。 这个可能会比较有效,但是我对java一窍不通,也就不清楚如何入手了。
    但我想,既然你这样使得别人采集到乱码,搜索引擎有可能也是收录到乱码的(我不清楚搜索引擎怎么工作,不过我猜测他们是察看网页源代码的。),也就影响收录。
    6、使用java加密网址 同上,有可能让搜索引擎无法搜索到你的网页。 7、生成pdf文件、生成图片
    这个方法可以比较有效的防止采集,不过照样让搜索引擎望而却止。 8、加上自己的版权信息
    这个方法最大的好处就是不影响搜索引擎,效果马马虎虎,一般上可以让采集者采集到带有自己版权的稿件内容。但是对于可以过滤广告的采集程序来说,不大有效。
    以下是作者给俺的PM: Quote: 你的版权是不是加了你的网站和网址? 只要把网址和网站名替换成他的就可以了啊.这样还让他有了版权功能呢.
    反正防采真是头疼…. 有点麻烦,我的思路是将网站名称分成一个一个字来显示,他不可能将每个字都替换掉吧?不过要这样我就没办法了。比如说我将我的 武侠网
    拆开,分成 武侠网
    ,$rand_color
    是随机颜色,可以自己控制的,如果是动态网页的话,还配合HTTP_REFERER来搞随机,这样子随机性就更大了。一般上,尽量制造难度就是了。模板也可以制造随机性,几个相似的模板轮流来弄,这样子让人采集的难度更大。
    不过说实话,要使他们真要搞,那是没办法的事,不过至少要花他们很多的时间去研究。在此之前,他们可能没耐性转向别的站了。
    另外,最好不要让人知道你使用随机函数。一般人只是稍微看一下网页代码,就开始采集了。 作者:pujiwang 2006-6-22 14:13:53 |
    回复此帖子 3 回复:[转帖]网页防采集策略 防采集程序 下午无聊写着完,写完后自己仔细看了看防止采集还是有一定的效果的,哈哈,要的拿去用吧! <% Dim
    AppealNum,AppealCount AppealNum=10 ‘同一IP60秒内请求限制10次
    AppealCount=(“AppealCount”) If AppealCount=”” Then (“AppealCount”)=1
    AppealCount=1 (“AppealCount”).expires=dateadd(“s”,60,now()) Else
    (“AppealCount”)=AppealCount+1 (“AppealCount”).expires=dateadd(“s”,60,now())
    End If if int(AppealCount)>int(AppealNum) then “歇一会儿吧!整天采集你烦不烦啊!” End If %>
    作者:pujiwang 2006-6-22 14:16:31 | 回复此帖子 4 回复:[转帖]网页防采集策略
    [讨论]防采集这几天上网,竟然也现我的整站被人家全部采集去了。晕倒,几年的资料就这样便宜人家。 还好,人家是个懒虫,栏目都不分,鬼才会去看。
    这样才想起怎样防止采集的方法。 注意,只是讨论可行性,还没有提供解决方案。
    采集与搜索引擎的机器人不同。采集需要对网页进行分析,以找到规则,分别对摘要和内容进行读取并记录到数据库中。
    如果我们能够把网页做成没有规则,采集也就无从入手了。 说到规则,我就想趣了空格。
    空格这东西,在HTM的<>中,并不产生作用,也就是说,一个空格的位置,你多加几个也是没关系的。象你可以写成< table>,,< table

    。都可以,所以,如果在网页里面,特别是采集程序重点分析的位置,我们利用程序,在这些位置加些空格,采集也就难以下手了,就算采到了,也就几篇而已,影响不大。
    我准备这样做,象原来在模板中的,我会改成<{$space1$}table{$space2$}>,在这里,{$space1$}和{$space2$}是自定义标签(也可以融合到程序中),然后在程序中使用随机数来决定这两个标签用多少个空格来代替。
    呵呵,人家现在想用来做为特征采集是完全做不到的了。但对于我的网页,显示上一点影响也没有,对于搜索引擎的机器人也一点影响没有。 我想这应该是最合适的方法。
    希望做过采集或改过采集的讨论一下。 作者:pujiwang 2006-6-22 14:18:27 | 回复此帖子

    二、网站中防采集的用途是什么

    通过程序,自动复制别人网站的内容放到自己的网站里面,就叫做采集。
    这种行为一般都是个人站长建站常用的手段,因为做为个人站长来说,是没有能力自己原创这么海量的内容的。
    防采集顾名思义,就是你的网站的内容,不想被别的网站采集过去,而通过各种设置和方法,使别人无法采集的一种手段。
    没看懂什么意思?

    三、采集

    答:采集,就是寻找并获取各种原材料,目前可采集的原材料有矿、木、毛、皮。采集这些材料需要用到各种工具,对应的工具是铁镐、锯子、剪刀、剥皮刀。这些工具在杂货商那里都有出售,每样1000金币。矿和木都需要先找到对应的矿藏和树木,通过不同工具的采集来获得矿石和木材。而毛和皮需要在人形怪物和野兽怪物身上通过工具采集获得。现在以伐木和剥皮为例说明下采集的方法和要点:伐木第一步,在杂货商那里购买伐木所需的道具

    锯子,装备在身上。第二步,找到树木,使用鼠标左键双击树木进行砍伐,待伐木锯消耗1点耐久后。再次点击树木,收取木材,采伐成功。剥皮第一步,装备剥皮所需的剥皮刀。第二步,找到野兽怪物,杀死后鼠标双击尸体进行剥皮,待剥皮刀消耗1点耐久后,再次点击怪物尸体,收取皮革,剥皮成功。

    四、反采是什么意思

    这是编程里面的一种说法,反采集和防采大致相同防止有心人不劳而获,现在有很多防采手段,譬如限制ip,你可以去网上了解

    二维码

    添加微信,快速了解成人高考

    声明:由于考试政策等各方面情况的不断调整与变化,本网站所提供的考试信息仅供参考,请以权威部门公布的正式信息为准。
    本站所有内容来源于互联网。如果发现本站有涉嫌抄袭的内容,欢迎发送邮件至 514443065@qq.com举报,并提供相关证据,一经查实,本站将立刻删除涉嫌侵权内容。

    标签:

    1、您目前的学历层次:

    小学及以下

    初中

    高中

    中专

    大专

    2、你接受的拿证时长:

    1年以内越快越好

    1年到2年

    2年到3年

    3年及以上

    3、你为什么提升学历:

    找工作

    考公务员

    办工作居住证

    考证书评职称

    4、您更偏向于哪种取证方式:

    全程无忧

    在家自学

    学校听课

    辅导教学

    其他

    *您的姓名:

    *手机号码:

    *报考城市:

    相关文章

    • 网站如何做关键词(怎么做关键词推广网站)

      网站如何做关键词(怎么做关键词推广网站)

      「如何做网站关键词排名」网站如何做关键词,怎么做关键词推广网站内容导航:做网站如何做关键词如何做网站的关键词网站关键词排名怎么做公司的网站新网站如何做关键词排名呢一、做网站如何做关键词提到网站关键字,那么就要说一下关键字有多么...

    • 如何修改导航网页(怎么修改网页导航)

      如何修改导航网页(怎么修改网页导航)

      「网址导航怎么更改」如何修改导航网页,怎么修改网页导航内容导航:网址导航被改,怎样可以修改 网址的导航如何更改电脑上网导航asp网页导航的文字怎么修改如何用瑞星软件修改导航网页一、网址导航被改,怎样可以修改 网址的导航1.先把自...

    • 织梦如何使用(怎么去掉织梦的技术支持)

      织梦如何使用(怎么去掉织梦的技术支持)

      「织梦如何使用不侵权」织梦如何使用,怎么去掉织梦的技术支持内容导航:织梦标签怎么使用织梦怎么调用图片新网站怎么使用织梦程序织梦CMS怎么用的啊一、织梦标签怎么使用我有monkey的教程,挺不错的,他讲的是仿站,其实你学会仿站。织梦也...

    • 如何创建网站目录(怎么在文档首页创建目录)

      如何创建网站目录(怎么在文档首页创建目录)

      「网页制作目录怎么做」如何创建网站目录,怎么在文档首页创建目录内容导航:如何搭建网站目录结构如何创建网站的目录结构NFS目录怎么创建网站的根目录在哪里怎么建立文件一、如何搭建网站目录结构1按栏目内容分别建立文件夹。一般来说,用文...

    • 为什么ping不通所申请的域名(ping域名ping不通)

      为什么ping不通所申请的域名(ping域名ping不通)

      「ping通ip但无法ping域名」为什么ping不通所申请的域名,ping域名ping不通内容导航:dns设置正确,为什么ip可以访问,域名不能访问,ip可以ping而通域名ping不通为什么PING不通所申请的域名网站域名为什么ping不通为什么我申请的动态域名不能pi...

    • 如何布局(如何布局五大资产)

      如何布局(如何布局五大资产)

      「如何合理布局」如何布局,如何布局五大资产内容导航:新家该如何布局家庭装修如何规划布局什么叫半围合式布局、行列式布局、组团式布局梦想小镇布局攻略详解 新手布局展示图 详解怎么玩一、新家该如何布局下面将会介绍,一旦买了一个...

    • mssql是什么数据库(mssql是什么意思)

      mssql是什么数据库(mssql是什么意思)

      「ms-sql」mssql是什么数据库,mssql是什么意思内容导航:mssql数据库是什么MSSQL是什么数据库mysql查看所有数据库名命令mssql数据库怎么使用 &nbsp一、mssql数据库是什么MSSQL数据库同步[font...

    • 域名解析需要什么(服务器如何解析域名)

      域名解析需要什么(服务器如何解析域名)

      「域名解析服务器ip」域名解析需要什么,服务器如何解析域名内容导航:域名解析需要具备什么条件域名解析是怎么回事 怎么解析都需要什么条件域名解析需要用户自己解析吗如果需要怎样做什么是域名解析服务如何办理一、域名解析需要具备什么...

    • 搜狗推广注意什么(搜狗的营销推广模式)

      搜狗推广注意什么(搜狗的营销推广模式)

      「搜狗推广的优势」搜狗推广注意什么,搜狗的营销推广模式内容导航:搜狗怎么推广呢搜狗推广与百度推广有什么区别搜狗推广有什么样的优势搜狗代理商与搜狗推广是一个意思么一、搜狗怎么推广呢搜狗推广服务,手机搜索就用搜狗。一、搜索推...

    • 收录排名是什么(什么叫做收录)

      收录排名是什么(什么叫做收录)

      「用什么工具查看收录排名」收录排名是什么,什么叫做收录内容导航:什么是网站收录,流量,排名网站有收录却没排名是什么原因如何解决关键词的百度收录量对排名有影响吗百度收录排名法则有哪些一、什么是网站收录,流量,排名网站的收录就是搜索...

    放松一下

    一对热恋中的男女,相约去吊祭一位长辈,后来两人闹情绪,出殡那天只有男的去了殡仪馆,看不到女的,越想越觉得不对,就想写信给女的道歉,谁知女的看了信,更加火大,你知道这男的是怎么写信的吗?“亲爱的,昨天原本去殡仪馆,是想看你,没想到看不到你,心中好难过。。。”

    评论 (0)

    上一页 下一页

    我要点评

    您还未登录,无法发表评论!
    在线测评

    电话咨询
    15992004801 添加微信