对于做Web数据挖掘的人来说,日志分析是一个比较重要的部分。根据一个网站或者服务器的日志文件,可以分析出一些很有用的信息,供网站开发人员或者服务器管理人员进行工作的进一步改进与管理。比如可以通过网站的访问日志分析得出该网站的哪部分是用户比较喜欢的,哪部分是用户很少访问的,一般用户访问了某一部分内容后,接着希望访问一些什么内容等等。这些都可以通过Web日志分析来得到。
对于日志分析来说,数据的前端处理非常重要,一般来说,我们拿到的日志文件是如下图所示,加入命名为Weblog.log。每一行代表一条记录。第一步要做的就是去除其中无用的信息,然后将其转换成数据库形式,这里,我主要介绍如何将文本形式的日志文件转成Access的.mdb数据文件以及sql的.mdf数据文件。并且介绍一下关于SQL 2005的一个问题。
一 SQL 2000和SQL 2005介绍
在SQL2000中,有一个DTS(数据转换工具),该工具可以实现各种数据文件之间的转换。但是该工具在SQL2005中就没有单独的放出来,而是被包含在了其他的工具里面了。
Web日志文件虽然是文本文件,但是它的后缀是.log,如果想将其导入数据库必须首先将其后缀改称.txt。然后打运行SQL Server2000的服务管理器,然后打开企业管理器。
一般安装的时候都是选择服务器是Local形式的,所以非Local形式的企业管理器是不能连接到Local服务器的。解决方法:新建一个SQL Server组,然后对该新建的组进行“新建SQL Server注册”,服务器选择Local服务器就可以了。如果你新建的SQL Server组能够正常运行了,这进行下一步。建立新的数据库Weblog,然后利用工具DTS进行操作,DTS即数据转换服务。操作为“工具—〉数据转换服务—〉导入数据”,出现如下对话框如图2所示。
图2
点击下一步得到如图3所示的对话框。
图3
在图3对话框中的数据源选择文本文件,对话框变成图4所示界面。点击文件名处右边的浏览按钮可以选择所要读取的文本文件形式的日志。这里只能读取.txt文件,所以前面一定要将Web日志的后缀.log改成后缀.txt。
图4
单击下一步进入图5所示界面
图5
这里,我们要注意,如果不正确的选择“行分割符”,这不能正确的进入下一步。这里我们只需要选择一个能够正常进入下一步的“行分隔符”就可以了。根据图1我们看到Web日志头四行都是日志的信息,比如时间和文件格式,所以在跳过行里面要写跳过4行。下一步进入图6所示界面。
图6
在图6种需要选择如何对文本文件中每一行的各个字段进行区分。选择方式如图中所示。由于Web日志每行为一个记录,每条记录中每一个字段中间都是用空格来进行分隔,所以选择“其它”然后在其对话框中填入一个空格键“ ”,系统就将对数据进行处理进行划分,得到分割好的记录。当然相应字段的名称是错误的,这个可以在以后生成数据库表文件后对表进行设计修改。点击下一步进入图7所示界面。
图7
单击下一步进入图8所示界面。
图8
单击下一步之后就可以完成数据导入。
到此,已经大功告成了,我们已经成功的将日志文件转成了SQL数据文件格式。即一个数据.mdf, 一个.mdl日志文件。
如果我们想把它变成Access的.mdb文件的话,这可以从刚刚生成的mdf文件转过去。还是用DTS这个工具,只是这个时候选择导出数据。在数据源选择新建的那个Weblog数据库,这里要注意的是在转换前,要新建一个空的Access数据库文件,在目的要选择Microsoft Access(.mdb)形式,目的文件名选择新建的空的Access数据库文件。一切和
前面的相似的过程。
二 关于SQL 2005的一个小问题
在安装SQL 2005的时候,一般出现两个问题,意思安装Database Server不成功,另一个是安装好了在开始程序菜单中看不到SQL 2005的服务器和客户端快捷方式。出现这两个问题,我想大概是由于实现安装了Visual Studio.net 2005的原因。因为我安装Visual Studio.net的时候,会默认安装一个SQL 2005 express,并且携带了一个实例。所以在安装SQL 2005 Develop版的时候,如果SQL实例选择默认的话,这会默认的是Visual Studio.net 安装的Express那个实例,而不会安装SQL 2005开发版的这个新实例。
解决方法:
1. 卸载Visual Studio.net 2005
2. 重新安装SQL 2005,在选择SQL实例的时候,不要选 择默认,而是给它取个名字。
3. 重新安装Visual Studio.net 2005. 因为机器里安装了.net 2005的朋友们一般都和我一样,离不开它。
有关SQL 2005和SQL 2000 的安装方面的文章和问题,基本上安装网上手则没什么问题的。
评论