登录 | 注册

博文

小偷程序原理和简单示例(2006-06-26 09:46:00)

摘要：现在网上流行的小偷程序比较多，有新闻类小偷，音乐小偷，下载小偷，那么它们是如何做的呢，下面我来做个简单介绍，希望对各位站长有所帮助。

（一）原理
小偷程序实际上是通过了XML中的XMLHTTP组件调用其它网站上的网页。比如新闻小偷程序，很多都是调用了sina的新闻网页，并且对其中的html进行了一些替换，同时对广告也进行了过滤。用小偷程序的优点有：无须维护网站，因为小偷程序中的数据来自其他网站，它将随着该网站的更新而更新；可以节省服务器资源，一般小偷程序就几个文件，所有网页内容都是来自其他网站。缺点有：不稳定，如果目标网站出错，程序也会出错，而且，如果目标网站进行升级维护，那么小偷程序也要进行相应修改；速度，因为是远程调用，速度和在本地服务器上读取数据比起来，肯定要慢一些。

（二）事例下面就XMLHTTP在ASP中的应用做个简单说明 <%
'常用函数 '1、输入url目标网页地址，返回值getHTTPPage是目标网页的html代码
function getHTTPPage(url)
dim Http
set Http=server.createobject("MSXML2.XMLHTTP")
Http.open "GET",url,false
Http.send()
if Http.readystate<>4 then
exit function
end if
getHTTPPage=bytesToBSTR(Http.responseBody,"GB2312")
set http=nothing
if err.number<>0 then err.Clear
end function '2、转换乱玛，直接用xmlhttp调用有中文字符的网页得到的将是乱玛，可以通过adodb.stream组件进行转换
Function BytesToBstr(body,Cset)
dim objstream
set objstream = Server.CreateObject("adodb.stream")
objstream.Type = 1
objstream.Mode =3
objst......

阅读全文(1723) | 评论:0

网页技巧代码嵌入(2006-06-23 16:17:00)

摘要：    时间的嵌入：  <table width="264" border="0" align="right">
                      <tr>
                        <td width="276">
                          <SCRIPT language=JavaScript>

today=new Date();
var hours = today.getHours();
var minutes = today.getMinutes();
var seconds = today.getSeconds();
var timeValue = "<FONT COLOR=black>" + ((hours >12) ? hours -12 :hours); timeValue += ((minutes < 10) ? "<BLINK><FONT COLOR=black>:</FONT></BLINK>0" : "<BLINK><FONT COLOR=black>......

阅读全文(2642) | 评论:0

mshtml - mshtml.dll - DLL文件信息 (2006-06-22 11:22:00)

摘要：DLL 文件： mshtml 或者 mshtml.dll
DLL 名称： Microsoft HTML Viewer
描述：
mshtml.dll是HTML解释器相关模块。

访问动态HTML(DHTML)对象模型的所有接口以IDispatch为基类，而且也是被用于脚本的对象模型的基础。因此对要操纵对象模型的任何人来说很重要的是熟悉定义在动态的HTML介绍的概要和MSHTML包含的对象模型参考中的结构和功能。

MSHTML参考的接口和脚本对象这一节说明了对象如何在DHTML对象模型里面映射到接口。举例来说,使用这一个映射,你可以看到IHTMLDocument2接口映射到文档对象。对接口的进一步的研究说明了如何通过get_和put_方法访问对象的属性。对象的方法映射到可用的接口的方法，而且事件可以用标准的对OLE自动化连接点来捕获。

在C#中导入WebBrowser控件,生成具有强名称的程序集
一、不生成具有强名称的程序集
1.使用下面这两个命令将COM控件转换成.Net程序集
aximp c:\windows\system\shdocvw.dll
tlbimp mshtml.tlb
aximp将产生两个文件：AxSHDocVw.dll and SHDocVw.dll.
tlbimp将产生MSHTML.dll，它包含了3000多个 DHTML　DOM的接口，所以转换可能需要一些时间.
2. 上面产生的DLL文件直接可由.Net应用程序调用了。
二、生成具有强名称的程序集
1.用sn 命令生成三个snk文件，分别是后面将要生成的程序集的密钥文件
Sn –k AxSHdoc.snk
Sn –k shdocvw.snk
Sn –k mshtml.snk
2.使用上面aximp 和 tlbimp 生成这三个程序集文件，这些命令加上/keyfile:可选项
aximp c:\windows\system\shdocvw.dll /keyfile:AxSHDOC.snk shdocvw.snk
tlbimp mshtml.tlb /keyfile:mshtml.snk
这样就可以生成具有强名称的......

阅读全文(6755) | 评论:0

网页中META标签的使用(2006-06-22 11:17:00)

摘要： Meta 标签放在每个网页的<head>...</head>中，我们大家比较熟悉的如：

<meta name="GENERATOR" content="Microsoft FrontPage 3.0">说明编辑工具；
<meta name="KEYWORDS" content="...">说明关键词；
<meta name="DESCRIPTION" content="...">说明主页描述；

<meta http-equiv="Content-Type" content="text/html; charset=gb_2312-80">和
<meta http-equiv="Content-Language" content="zh-CN">说明所用语言及文字...

可见META有两种，name和http-equiv。

name主要用于描述网页,对应于content,以便于搜索引擎机器人查找、分类（目前几乎所有的搜索引擎都使用网上机器人自动查找META值来给你的网页分类）。这其中最重要的是DESCRIPTION（你的站点在引擎上的描述）和KEYWORDS（搜索引擎籍以分类的关键词),应该给你的“每一页”都插入这两个META值。当然你也可以不要搜索引擎检索,可用:
<meta name="ROBOTS" content="all | none | index | noindex | follow | nofollow"> 来确定:
设定为"all"时文件将被检索，且页上链接可被查询;
设定为"none"则表示文件不被检索，而且不查询页上的链接;
设定为"index"时文件将被检索;
设定为"follow"则可查询页上的链接;
设定为"noindex"时文件不检索，但可被查询链接;
设定为"nofollow"则表示文件不被检索，但可查询页上的链接.

http-equiv顾名思义相当于http文件头的作用，可以直接影响网页的传输。比较直接的例子如:

1......

阅读全文(1707) | 评论:0

robots.txt和Robots META标签(2006-04-26 09:03:00)

摘要：我们知道，搜索引擎都有自己的“搜索机器人”（ROBOTS），并通过这些ROBOTS在网络上沿着网页上的链接（一般是http和src链接）不断抓取资料建立自己的数据库。

对于网站管理者和内容提供者来说，有时候会有一些站点内容，不希望被ROBOTS抓取而公开。为了解决这个问题，ROBOTS开发界提供了两个办法：一个是robots.txt，另一个是The Robots META标签。

一、 robots.txt

1、什么是robots.txt？

robots.txt是一个纯文本文件，通过在这个文件中声明该网站中不想被robots访问的部分，这样，该网站的部分或全部内容就可以不被搜索引擎收录了，或者指定搜索引擎只收录指定的内容。

当一个搜索机器人访问一个站点时，它会首先检查该站点根目录下是否存在robots.txt，如果找到，搜索机器人就会按照该文件中的内容来确定访问的范围，如果该文件不存在，那么搜索机器人就沿着链接抓取。

robots.txt必须放置在一个站点的根目录下，而且文件名必须全部小写。

网站 URL
相应的 robots.txt的 URL

http://www.w3.org/
http://www.w3.org/robots.txt

http://www.w3.org:80/
http://www.w3.org:80/robots.txt

http://www.w3.org:1234/
http://www.w3.org:1234/robots.txt

http://w3.org/
http://w3.org/robots.txt

2、 robots.txt的语法

"robots.txt"文件包含一条或更多的记录，这些记录通过空行分开（以CR,CR/NL, or NL作为结束符），每一条记录的格式如下所示：

　　　　"......

阅读全文(2079) | 评论:0