博文

小偷程序原理和简单示例(2006-06-26 09:46:00)

摘要:现在网上流行的小偷程序比较多,有新闻类小偷,音乐小偷,下载小偷,那么它们是如何做的呢,下面我来做个简单介绍,希望对各位站长有所帮助。

(一)原理
小偷程序实际上是通过了XML中的XMLHTTP组件调用其它网站上的网页。比如新闻小偷程序,很多都是调用了sina的新闻网页,并且对其中的html进行了一些替换,同时对广告也进行了过滤。用小偷程序的优点有:无须维护网站,因为小偷程序中的数据来自其他网站,它将随着该网站的更新而更新;可以节省服务器资源,一般小偷程序就几个文件,所有网页内容都是来自其他网站。缺点有:不稳定,如果目标网站出错,程序也会出错,而且,如果目标网站进行升级维护,那么小偷程序也要进行相应修改;速度,因为是远程调用,速度和在本地服务器上读取数据比起来,肯定要慢一些。

(二)事例 下面就XMLHTTP在ASP中的应用做个简单说明 <%
'常用函数 '1、输入url目标网页地址,返回值getHTTPPage是目标网页的html代码
function getHTTPPage(url)
dim Http
set Http=server.createobject("MSXML2.XMLHTTP")
Http.open "GET",url,false
Http.send()
if Http.readystate<>4 then
exit function
end if
getHTTPPage=bytesToBSTR(Http.responseBody,"GB2312")
set http=nothing
if err.number<>0 then err.Clear
end function '2、转换乱玛,直接用xmlhttp调用有中文字符的网页得到的将是乱玛,可以通过adodb.stream组件进行转换
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objst......

阅读全文(1637) | 评论:0

网页技巧代码嵌入(2006-06-23 16:17:00)

摘要:    时间的嵌入:  <table width="264" border="0" align="right">
                      <tr>
                        <td width="276">
                          <SCRIPT language=JavaScript>
<!--将以下代码加入HTML的<Body></Body>之间-->
today=new Date();
var hours = today.getHours();
var minutes = today.getMinutes();
var seconds = today.getSeconds();
var timeValue = "<FONT COLOR=black>" + ((hours >12) ? hours -12 :hours); timeValue += ((minutes < 10) ? "<BLINK><FONT COLOR=black>:</FONT></BLINK>0" : "<BLINK><FONT COLOR=black>......

阅读全文(2458) | 评论:0

mshtml - mshtml.dll - DLL文件信息 (2006-06-22 11:22:00)

摘要:DLL 文件: mshtml 或者 mshtml.dll
DLL 名称: Microsoft HTML Viewer
描述:
mshtml.dll是HTML解释器相关模块。

访问动态HTML(DHTML)对象模型的所有接口以IDispatch为基类,而且也是被用于脚本的对象模型的基础。因此对要操纵对象模型的任何人来说很重要的是熟悉定义在动态的HTML介绍的概要和MSHTML包含的对象模型参考中的结构和功能。

MSHTML参考的接口和脚本对象这一节说明了对象如何在DHTML对象模型里面映射到接口。举例来说,使用这一个映射,你可以看到IHTMLDocument2接口映射到文档对象。对接口的进一步的研究说明了如何通过get_和put_方法访问对象的属性。对象的方法映射到可用的接口的方法,而且事件可以用标准的对OLE自动化连接点来捕获。

在C#中导入WebBrowser控件,生成具有强名称的程序集
一、不生成具有强名称的程序集
1.使用下面这两个命令将COM控件转换成.Net程序集
aximp c:\windows\system\shdocvw.dll
tlbimp mshtml.tlb
aximp将产生两个文件:AxSHDocVw.dll and SHDocVw.dll.
tlbimp将产生MSHTML.dll,它包含了3000多个 DHTML DOM的接口,所以转换可能需要一些时间.
2. 上面产生的DLL文件直接可由.Net应用程序调用了。
二、生成具有强名称的程序集
1.用sn 命令生成三个snk文件,分别是后面将要生成的程序集的密钥文件
Sn –k AxSHdoc.snk
Sn –k shdocvw.snk
Sn –k mshtml.snk
2.使用上面aximp 和 tlbimp 生成这三个程序集文件,这些命令加上/keyfile:可选项
aximp c:\windows\system\shdocvw.dll /keyfile:AxSHDOC.snk shdocvw.snk
tlbimp mshtml.tlb /keyfile:mshtml.snk
这样就可以生成具有强名称的......

阅读全文(5511) | 评论:0

网页中META标签的使用(2006-06-22 11:17:00)

摘要: Meta 标签放在每个网页的<head>...</head>中,我们大家比较熟悉的如: 

<meta name="GENERATOR" content="Microsoft FrontPage 3.0">说明编辑工具;
<meta name="KEYWORDS" content="...">说明关键词;
<meta name="DESCRIPTION" content="...">说明主页描述;

<meta http-equiv="Content-Type" content="text/html; charset=gb_2312-80">和
<meta http-equiv="Content-Language" content="zh-CN">说明所用语言及文字... 

可见META有两种,name和http-equiv。 

name主要用于描述网页,对应于content,以便于搜索引擎机器人查找、分类(目 前几乎所有的搜索引擎都使用网上机器人自动查找META值来给你的网页分类)。这其中最重要的是DESCRIPTION(你的站点在引擎上的描述)和KEYWORDS(搜索引 擎籍以分类的关键词),应该给你的“每一页”都插入这两个META值。当然你也可以不要搜索引擎检索,可用: 
<meta name="ROBOTS" content="all | none | index | noindex | follow | nofollow"> 来确定:
设定为"all"时文件将被检索,且页上链接可被查询;
设定为"none"则表示文件不被检索,而且不查询页上的链接;
设定为"index"时文件将被检索;
设定为"follow"则可查询页上的链接;
设定为"noindex"时文件不检索,但可被查询链接;
设定为"nofollow"则表示文件不被检索,但可查询页上的链接.

http-equiv顾名思义相当于http文件头的作用,可以直接影响网页的传输。比较 直接的例子如: 

1......

阅读全文(1628) | 评论:0

robots.txt和Robots META标签(2006-04-26 09:03:00)

摘要:我们知道,搜索引擎都有自己的“搜索机器人”(ROBOTS),并通过这些ROBOTS在网络上沿着网页上的链接(一般是http和src链接)不断抓取资料建立自己的数据库。


对于网站管理者和内容提供者来说,有时候会有一些站点内容,不希望被ROBOTS抓取而公开。为了解决这个问题,ROBOTS开发界提供了两个办法:一个是robots.txt,另一个是The Robots META标签。 


一、    robots.txt

1、 什么是robots.txt?


robots.txt是一个纯文本文件,通过在这个文件中声明该网站中不想被robots访问的部分,这样,该网站的部分或全部内容就可以不被搜索引擎收录了,或者指定搜索引擎只收录指定的内容。


当一个搜索机器人访问一个站点时,它会首先检查该站点根目录下是否存在robots.txt,如果找到,搜索机器人就会按照该文件中的内容来确定访问的范围,如果该文件不存在,那么搜索机器人就沿着链接抓取。


robots.txt必须放置在一个站点的根目录下,而且文件名必须全部小写。

网站 URL
 相应的 robots.txt的 URL
 
http://www.w3.org/
 http://www.w3.org/robots.txt
 
http://www.w3.org:80/
 http://www.w3.org:80/robots.txt
 
http://www.w3.org:1234/
 http://www.w3.org:1234/robots.txt
 
http://w3.org/
 http://w3.org/robots.txt
 


2、 robots.txt的语法


"robots.txt"文件包含一条或更多的记录,这些记录通过空行分开(以CR,CR/NL, or NL作为结束符),每一条记录的格式如下所示:

    "......

阅读全文(2009) | 评论:0