博文
小偷程序原理和简单示例(2006-06-26 09:46:00)
摘要:现在网上流行的小偷程序比较多,有新闻类小偷,音乐小偷,下载小偷,那么它们是如何做的呢,下面我来做个简单介绍,希望对各位站长有所帮助。(一)原理小偷程序实际上是通过了XML中的XMLHTTP组件调用其它网站上的网页。比如新闻小偷程序,很多都是调用了sina的新闻网页,并且对其中的html进行了一些替换,同时对广告也进行了过滤。用小偷程序的优点有:无须维护网站,因为小偷程序中的数据来自其他网站,它将随着该网站的更新而更新;可以节省服务器资源,一般小偷程序就几个文件,所有网页内容都是来自其他网站。缺点有:不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么小偷程序也要进行相应修改;速度,因为是远程调用,速度和在本地服务器上读取数据比起来,肯定要慢一些。(二)事例
下面就XMLHTTP在ASP中的应用做个简单说明
<%'常用函数
'1、输入url目标网页地址,返回值getHTTPPage是目标网页的html代码function getHTTPPage(url)dim Httpset Http=server.createobject("MSXML2.XMLHTTP")Http.open "GET",url,falseHttp.send()if Http.readystate<>4 then exit functionend ifgetHTTPPage=bytesToBSTR(Http.responseBody,"GB2312")set http=nothingif err.number<>0 then err.Clear end function
'2、转换乱玛,直接用xmlhttp调用有中文字符的网页得到的将是乱玛,可以通过adodb.stream组件进行转换Function BytesToBstr(body,Cset)dim objstreamset objstream = Server.CreateObject("adodb.stream")objstream.Type = 1objstream.Mode =3objstream.Openobjstream.Write bodyobjstream.Position = 0objstream.Type = 2objstream.Charset = CsetByt......
网页技巧代码嵌入(2006-06-23 16:17:00)
摘要: 时间的嵌入: <table width="264" border="0" align="right"> <tr> <td width="276"> <SCRIPT language=JavaScript> <!--将以下代码加入HTML的<Body></Body>之间-->today=new Date();var hours = today.getHours();var minutes = today.getMinutes();var seconds = today.getSeconds();var timeValue = "<FONT COLOR=black>" + ((hours >12) ? hours -12 :hours); timeValue += ((minutes < 10) ? "<BLINK><FONT COLOR=black>:</FONT></BLINK>0" : "<BLINK><FONT COLOR=black>:</FONT></BLINK>") + mi......
mshtml - mshtml.dll - DLL文件信息 (2006-06-22 11:22:00)
摘要:DLL 文件: mshtml 或者 mshtml.dllDLL 名称: Microsoft HTML Viewer描述: mshtml.dll是HTML解释器相关模块。访问动态HTML(DHTML)对象模型的所有接口以IDispatch为基类,而且也是被用于脚本的对象模型的基础。因此对要操纵对象模型的任何人来说很重要的是熟悉定义在动态的HTML介绍的概要和MSHTML包含的对象模型参考中的结构和功能。MSHTML参考的接口和脚本对象这一节说明了对象如何在DHTML对象模型里面映射到接口。举例来说,使用这一个映射,你可以看到IHTMLDocument2接口映射到文档对象。对接口的进一步的研究说明了如何通过get_和put_方法访问对象的属性。对象的方法映射到可用的接口的方法,而且事件可以用标准的对OLE自动化连接点来捕获。在C#中导入WebBrowser控件,生成具有强名称的程序集 一、不生成具有强名称的程序集 1.使用下面这两个命令将COM控件转换成.Net程序集 aximp c:\windows\system\shdocvw.dll tlbimp mshtml.tlb aximp将产生两个文件:AxSHDocVw.dll and SHDocVw.dll. tlbimp将产生MSHTML.dll,它包含了3000多个 DHTML DOM的接口,所以转换可能需要一些时间. 2. 上面产生的DLL文件直接可由.Net应用程序调用了。 二、生成具有强名称的程序集 1.用sn 命令生成三个snk文件,分别是后面将要生成的程序集的密钥文件 Sn –k AxSHdoc.snk Sn –k shdocvw.snk Sn –k mshtml.snk 2.使用上面aximp 和 tlbimp 生成这三个程序集文件,这些命令加上/keyfile:可选项 aximp c:\windows\system\shdocvw.dll /keyfile:AxSHDOC.snk shdocvw.snk tlbimp mshtml.tlb /keyfile:mshtml.snk 这样就可以生成具有强名称的程序集了。 3.把它们加到程序集缓存中,分别调用 Gacutil axshdocvw.dll Gacutil shdocvw.dll Gacutil mshtml.dll 打开全局程序集缓存,就可以看......
网页中META标签的使用(2006-06-22 11:17:00)
摘要:
Meta 标签放在每个网页的<head>...</head>中,我们大家比较熟悉的如: <meta name="GENERATOR" content="Microsoft FrontPage 3.0">说明编辑工具;<meta name="KEYWORDS" content="...">说明关键词;<meta name="DESCRIPTION" content="...">说明主页描述;<meta http-equiv="Content-Type" content="text/html; charset=gb_2312-80">和<meta http-equiv="Content-Language" content="zh-CN">说明所用语言及文字... 可见META有两种,name和http-equiv。 name主要用于描述网页,对应于content,以便于搜索引擎机器人查找、分类(目 前几乎所有的搜索引擎都使用网上机器人自动查找META值来给你的网页分类)。这其中最重要的是DESCRIPTION(你的站点在引擎上的描述)和KEYWORDS(搜索引 擎籍以分类的关键词),应该给你的“每一页”都插入这两个META值。当然你也可以不要搜索引擎检索,可用: <meta name="ROBOTS" content="all | none | index | noindex | follow | nofollow"> 来确定:设定为"all"时文件将被检索,且页上链接可被查询;设定为"none"则表示文件不被检索,而且不查询页上的链接;设定为"index"时文件将被检索;设定为"follow"则可查询页上的链接;设定为"noindex"时文件不检索,但可被查询链接;设定为"nofollow"则表示文件不被检索,但可查询页上的链接.http-equiv顾名思义相当于http文件头的作用,可以直接影响网页的传输。比较 直接的例子如: 1、自动刷新,并指向新网页<meta http-equiv="Refresh" content="10; url= http://yourlink"> 10秒后刷新到......
robots.txt和Robots META标签(2006-04-26 09:03:00)
摘要:我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。 一、 robots.txt1、 什么是robots.txt?robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。网站 URL 相应的 robots.txt的 URL http://www.w3.org/ http://www.w3.org/robots.txt http://www.w3.org:80/ http://www.w3.org:80/robots.txt http://www.w3.org:1234/ http://www.w3.org:1234/robots.txt http://w3.org/ http://w3.org/robots.txt 2、 robots.txt的语法"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示: "<field>:<optionalspace><value><optionalspace>"。在该文件中可以使用#进行注解,具体使用方法和UNIX中的惯例一样。该文件中的记录通常以一行或多行User-agent开始,后面加上若干Disallow行,详细情况如下:User-agen......
