一路走来 -- 编程爱好者博客

86条忠告！(2006-01-13 23:56:00)

摘要： 86条忠告！等你大学毕业了再看会后悔一辈子！

一、别以为在学生会你能得到你曾经想要的。工作的热情很可能因为你所看到的所经历的一些事而改变，但是也不必惧怕。你有大一一年来适应或者承受，并做出是继续坚持还是退出的决定。

二，大学可能有真实的爱情，但是记住只是可能。很多时候他们是因为别人都谈恋爱而羡慕或者别的原因而在一起。所以，不必为任何分手而受太大的伤，记住，太大的伤，真爱，还是值得追求的

三，如果你的家庭一般的话，那么记得你在大学有很多意外用钱的地方。比如二专业或者将来的各种班，为了你的家人和你自己的前途，永远别乱花钱。记住，永远。

四，朋友，你大学的朋友很可能就是你将来事业的一部分。他们会帮助你。但是你也应该让自己有帮助他们的实力，所以，你要努力，你和你的朋友会一起在将来打造一个可能很辉煌的事业。很好听是吗？但是记住，你们都要努力。

五，很多事情当你再回忆时会发现其实没什么。所以，不管你当时多么生气愤怒或者别的，都告诉自己不必这样，你会发现其实真的不必。

六，学习，永远别忘记她。不管别人怎么说大学是个提高综合能力的地方云云，如果你学习失败了，你就什么也不是——不排除意外，但你考虑好了吗？你会是那个意外吗？？
七，别说脏话，你应该知道习惯的力量。找工作或者和别人接

触时，你随便的一个字或者几个字会让你在别人心中的形象大打折扣。

八，好好利用在公共场合说话的机会，展示或者锻炼，都可以。

九，别为你自己和别人下定论，无比重要。你所看到听到的可能只是一面，为这个失去可能的朋友，很不值。

十，如果你发现很久了你一直是一个人去食堂吃饭或者去上自习，别在意，大学里一个人是正常的，你觉得孤独？你的朋友是怕你觉得你没有自由的空间，所以别以为你没有朋友。

十一，很多事情别人通知你了，要说谢谢，没有通知你，不要责怪，因为那些事你其实应该自己弄清楚。

十二,“我请你吃饭“之类的话不要乱说,因为所有人都会当真,不管你自己怎么想,大学里请人吃饭是很平常的事,几乎连请一个自己不怎么认识的人吃饭都很正常.

十三,尊严是最重要的,但是在大学里，要懂得利用......

阅读全文(1521) | 评论:1

在java中读取xml信息(2006-01-13 00:39:00)

摘要：JAVA文件！！！ public class Untitled1 {
  public static void main(String[] args) {
    try {
      org.jdom.input.SAXBuilder sb = new org.jdom.input.SAXBuilder();
      org.jdom.Document doc = sb.build(new java.io.File("F:\\xsl\\x1.xml")); //改这个路径
      org.jdom.Element root = doc.getRootElement(); //根节点
      String class_name = root.getChildText("class_name"); //根节点之下的子节点class_name的内容
      String class_purview = root.getChildText("class_purview") == null ? "" : root.getChildText("class_purview");
      System.out.println(class_purview +" class " + class_name + "{"); //打印类信息
      java.util.List childrens = root.getChildren();  //得到所有属于根节点下的同级自节点
      for (int i = 0; i < childre......

阅读全文(2025) | 评论:0

百度国学搜索探密 (2006-01-12 22:55:00)

摘要：/*版权声明：可以任意转载，转载时请务必标明文章原始出处和作者信息 .*/ 百度国学搜索探密中科院软件所张俊林 2006年1月11日年底写论文作实验搞得头昏脑胀,中午放松一下上网看看新闻,原来百度推出了国学搜索,平常也比较喜欢看诗词歌赋方面的东西,就上百度试了试,结果搜索结果让我感觉哪里好像不对劲,所以就稍微花点时间看看百度在后面作了些什么. 我说的不对劲到不是搜索结果本身,而是搜索结果的存放方式,你会发现百度所有搜索结果都放在http://guoxue.baidu.com/page/这个目录下面.比如搜索”诗经”,所有返回结果页面都是guoxue.baidu.com/page/caabbead/XXX.html 这说明什么?说明百度所有的国学书籍都是存储在guoxue.baidu.com/page/这个目录下面,每个书籍一个目录,每个目录下面若干页面,每个页面是这个书籍的一部分.然后我感觉很好奇的是,目录名是按照什么原则命名的呢?比如”诗经”为什么是caabbead呢?看着这个字符串非常有亲切感,好像认识又叫不上名字,是谁呢?对了,很像是中文字符的字符编码,那到底是不是呢?做个实验,把”诗经”放到UltraEdit里面选择HEX EDIT看看编码发现还真实这么回事情,在实验几个,比如”红楼梦”,HEX EDIT编码: baecc2a5c3ce,那么我们试试百度存放在哪里,理论上应该存放在guoxue.baidu.com/page/baecc2a5c3ce这个目录下,那么构建URL: guoxue.baidu.com/page/baecc2a5c3ce/1.html看看,你看到了什么?跟我们的预期一样,是红楼梦,不过不是第一章,是第二章,这个出乎我的意料,看来百度程序员有职业习惯从0开始计算啊,试试, guoxue.baidu.com/page/baecc2a5c3ce/0.html,嗯,是第一章了.
看来百度是这么做的:每个书籍一个目录,目录名就是书名的字符编码,每个章节或者段落是一个静态页面,目录页面是http://guoxue.baidu.com/page/xxxx/index.html,每个书籍都是若干......

阅读全文(2560) | 评论:0

搜索引擎设计实用教程(5)-以百度为例 (2006-01-12 22:52:00)

摘要： /*版权声明：可以任意转载，转载时请务必标明文章原始出处和作者信息 .*/ 搜索引擎设计实用教程(5)-以百度为例之五:CACHE结构
中科院软件所张俊林 2006年1月4日 Cache是目前实用的搜索引擎都必备的功能,因为研究表明用户的查询有相当比例(30%-40%)是重复的,而且大多数重复的用户查询会在较短的间隔时间被再次重复访问.比如说目前"芙蓉姐姐"成为街头巷议的美谈,那么不仅张三想搜索"芙蓉姐姐",王二麻子同样也想搜索,以免被隔壁的李四笑话赶不上时代潮流.既然大家的关注焦点是差不多的,那么没有必要每次接受到查询后都从索引库里面查找,把大量的用户查询放到CACHE里面,肯定能够节省不少计算资源. 那么如何设计一个CACHE能够更加有效的节省计算资源呢?我们还是照旧分析一下百度是如何做的，当然，因为CACHE分析可以获得的外部信息非常少而且即使是获得的信息也不太可靠所以分析起来难度还是比较大的，所以下面的分析中有很大的比例是猜测的成分. CACHE设计主要关注两个大的方面: 一个是CACHE的结构是怎样的?是只设计一个CACHE就拉倒呢?还是设计两级CACHE乃至三级CACHE?当然这里的二级三级不是咱们大老爷们们喜闻乐见的电影分级标准,而是优先级别的意思,你别指望从三级CACHE里面看到的都是清凉图片. 第二个方面是采取何种替换算法?毕竟CACHE是宝贵的资源,当CACHE里面已经被塞满的时候,把哪个记录踢出CACHE才合算呢? 我们看看百度的CACHE结构是怎样的.经过分析加推测,百度的CACHE系统可能有三个CACHE,用鲁迅先生的说法:百度有三个加快查询匹配的结构,其中一个是CACHE,另外一个也是CACHE,还有一个同样是CACHE.也就是说有一级C......

阅读全文(2257) | 评论:0

搜索引擎设计实用教程(4)-以百度为例 (2006-01-12 22:49:00)

摘要：/*版权声明：可以任意转载，转载时请务必标明文章原始出处和作者信息 .*/
搜索引擎设计实用教程(4)-以百度为例
之四:相关提示功能中科院软件所 malefactor 2005年11月
相关提示也是几乎所有搜索引擎提供的一个附加功能,所谓相关提示,就是对于用户提交的查询进行分析,然后根据其它用户相似的查询给予用户提示,比如我输入查询”大长今”,检索系统会提示其它象”大长今主题曲”,”大长今下载”等等相关的一些其它用户查询. 那么搜索引擎是根据什么原则对于其它用户的查询进行选择来提示用户相关查询呢?我们还是以百度为例子来看看怎么实现这个功能.要实现这个功能主要解决如下三个问题: 问题一.从哪里获得其它用户的查询信息?这个问题对于搜索引擎来说不是难事,因为搜索引擎都有用户查询LOG的功能,在一段时间内每一个用户提交给搜索引擎的查询都被记录在LOG文件里面,所以从这个文件里面可以获得其它用户的查询信息.这个LOG还可以用作其它功能的基本素材,比如搜索排行榜或者搜索风云榜,就是根据这个LOG文件,对用户查询归类,相同的归为一类,然后统计一段时间内这个类别的出现次数,按照降序排列,选择前列K个作为输出即可. 问题二.搜索引擎拿到用户的查询比如”大长今”,用户查询LOG里面有成千上万的不同查询,那么选择哪些作为提示呢?这里面牵涉到一个字符串相似性计算的过程. 问题三.假设已经从查询LOG里面选择了一批......

阅读全文(2480) | 评论:0

搜索引擎设计实用教程(3)-以百度为例 (2006-01-12 22:48:00)

摘要： /*版权声明：可以任意转载，转载时请务必标明文章原始出处和作者信息 .*/                  搜索引擎设计实用教程(3)-以百度为例                             之三:对百度分词算法的进一步分析

                                    中科院软件所 malefactor                                2005年11月上面说过,经过分析得出百度的分词系统采用双向最大匹配分词,但是后来发现推理过程中存在一个漏洞,而且推导出来的百度分词算法步骤还是过于繁琐,所以进一步进行分析,看看是否......

阅读全文(1701) | 评论:0

搜索引擎设计实用教程(2)-以百度为例 (2006-01-12 22:42:00)

摘要：/*版权声明：可以任意转载，转载时请务必标明文章原始出处和作者信息 .*/ 搜索引擎设计实用教程(2)-以百度为例
　　之二:Spelling Checker拼写检查错误提示(以及拼音提示功能)
　　
　　中科院软件所张俊林　　2005年11月
　　拼写检查错误提示是搜索引擎都具备的一个功能,也就是说用户提交查询给搜索引擎,搜索引擎检查看是否用户输入的拼写有错误,对于中文用户来说一般造成的错误是输入法造成的错误.那么我们就来分析看看百度是怎么实现这一功能的.
　　我们分析拼写检查系统关注以下几个问题:
　　(1)系统如何判断用户的输入是有可能发生错误的查询呢?
　　(2)如果判断是可能错误的查询输入,如何提示正确的词汇呢?
　　
　　那么百度是如何做的呢?百度判断用户输入是否错误的标准,我觉得应该是查字典,如果发现字典里面不包含这个词汇,那么很有可能是个错误的输入,此时启动错误提示功能,这个很好判断,因为如果是一个正常词汇的话,百度一般不会有错误提示,而你故意输入一个词典不可能包含的所谓词汇,此时百度一般会提示你正确的检索词汇.
　　那么百度是怎么提示正确词汇的呢?很明显是通过拼音的方式,比如我输入查询” 制才”,百度提供的提示词汇为: “:制裁质材纸材”,都是同音字.所以百度必然维持着一个同音词词典,里面保留着同音词信息,比如可能包含着下面这条词条: “ zhi cai à制裁,质材,纸材”,另外还有一个标注拼音程序,现在能够看到的基本流程是: 用户输入” 制才”,查词典,发现没有这个词汇,OK,启动标注拼音程序,将” 制才”标注为拼音”zhi cai”,然后查找同音词词典,发现同音词” 制裁,质材,纸材”,那么提示用户可能的正确拼写.
　　整体流程看起来很简单,但是还有一些遗留的小问题,比如是否将词表里面所有同音词都作为用户的提示信息呢?比如某个拼音有10个同音词,是否都输出呢?百度并没有将所有同音词都输出而是选择一定筛选标准,选择其中几个输出.怎么证明这一点?我们看看拼音”liu li”的同音词,紫光输入法提示同音词汇有” 流丽流离琉璃流利”4个,我们看看百度返回几个,输入”流厉”作为查询,这里是故意输入一个词典不包含的词汇,这样百度的拼写检查才开始工作......

阅读全文(1736) | 评论:0

搜索引擎设计实用教程(1)-以百度为例 (2006-01-12 22:40:00)

摘要：搜索引擎设计实用教程-以百度为例之一:查询处理以及分词技术中科院软件所张俊林 2005年11月

随着搜索经济的崛起，人们开始越加关注全球各大搜索引擎的性能、技术和日流量。作为企业，会根据搜索引擎的知名度以及日流量来选择是否要投放广告等；作为普通网民，会根据搜索引擎的性能和技术来选择自己喜欢的引擎查找资料；作为技术人员，会把有代表性的搜索引擎作为研究对象. 搜索引擎经济的崛起，又一次向人们证明了网络所蕴藏的巨大商机。网络离开了搜索将只剩下空洞杂乱的数据，以及大量等待去费力挖掘的金矿。但是,如何设计一个高效的搜索引擎?我们可以以百度所采取的技术手段来探讨如何设计一个实用的搜索引擎.搜索引擎涉及到许多技术点,比如查询处理,排序算法,页面抓取算法,CACHE机制,AN......

阅读全文(1870) | 评论:0

IT创业模式分析(2006-01-12 22:15:00)

摘要：模式一：要有超乎常人的技术发展和市场需求的洞察力。
支持案例：几乎所有大的成功IT企业必备的成功要素。
模式二：在产品推广初期，不要太在意盈利问题，新开拓的市场的培育和市场分额的大面积占领才是最重要的。这样才能主导未来产品方向。“我们是一群生逢其时的大学毕业生，我从浏览器上学到最大的收获就是占领份额是最主要的，你必须尽最大努力达到这点，看起来今后20年整个用户接口都要遵守这个规律”--anderson
         支持案例：YAHOO,ORACAL，腾讯.
         反例：百事可乐。
模式三：在成功的IT大企业创立初期，往往有两个核心人物。一个是IT技术天才负责技术产品的研发。另外一个是懂得技术的有商业头脑的企业家。
         支持案例：苹果，微软，甲骨文，YAHOO,JAVA等，很多。
模式四：当企业快速发展的时候，发展壮大所需的资金往往成了问题，这个时候你可以考虑风险投资商人，说服他们，向他们要资金，同时出让一定的公司股份给他们。
         支持案例：YAHOO，CISCO,GOOGLE等
模式五：当企业发展到一定规模，上市是你不得不作出的选择。付出的代价是增加企业信息披露和管理透明度，得到的是企业发展所需资金，副产品是高层管理人员飙升的身价。
         支持案例:太多了。
模式六：如果你的洞察力不足够将，但是比较强，别人已经看到一个新的市场并作出了产品，你可以拷贝这个思路，不过一定要有很好的本土化技术和策略，在外资没有进入中国市场前，抢先占领本土市场，凝聚人气，这样也可以获得相当的成功。并且非常适合中国的创业者。
         支持案例：腾讯模仿ICQ.百度模仿INFORSE......

阅读全文(1710) | 评论:1

C#学习笔记 (2006-01-12 21:53:00)

摘要： 1. 重点放在c#和c++不同的地方，比如接口，代理，对象索引，事件，sealed等 2. 事件(EVENT)是一个很好的概念。它将传统IDE里面事件驱动程序的思想加入到语言层面支持上来。结合delegate将对象相应的事件和事件处理代码绑定。 3. c#为什么在支持interface的同时还支持abstract类声明?刚开始觉得既然abstract实际上相当于interface声明，好像两者只需要一个就行了.但是后来考虑有一定的区别，interface完全不提供实现，只是一种接口约定,继承这个接口的类一定要完全实现这些约定的接口实现,而abstract类可以提供部分方法的实现,但是代表抽象概念,无法实例化.一般来说从概念上属于IS-A的类关系应该用ABSTRACT类继承。而如果是MUST-DO类型的应该从interface继承. 4. C#中的抽象（abstract）类相当于c++中的带有纯虚函数virtual function(para1,para2)=0声明的类。而抽象方法(abstract function(para,…))相当于C++中的纯虚函数.抽象方法在继承类里面不能用base调用父类,这是很显然的,因为抽象方法只是一个声明规范,根本没有实现,所以无从调用. 5. sealed类声明表明不允许这个类被继承。Sealed方法不允许这个方法被重载。之所以引入sealed类,是为了避免类继承层次过多带来的问题或者某个类根本就没有必要被继承.很明显,在封闭类里面声明方法的时候,virtual是没有意义的,因为virtual从语义上来说是期望被继承的,而这与sealed的语义矛盾. 6. c#类不支持多继承，但是接口允许多继承。 7.delegate实际上就是指向函数的指针,引入它的目的是为了实现事件驱动编程模式,将事件和事件处理函数连接起来. 8.以后考虑构造实验系统的时候用C#,一方面熟悉语言和......

阅读全文(3728) | 评论:0

博客介绍

文章分类

博文