正文

java 获取网页源码2012-12-21 15:03:00

【评论】 【打印】 【字体: 】 本文链接:http://blog.pfan.cn/javaxx/54020.html

分享到:

package gogo.cool;     02     03 import java.io.BufferedReader;     04 import java.io.IOException;     05 import java.io.InputStreamReader;     06 import java.net.HttpURLConnection;     07 import java.net.URL;     08     09 public class test1 {     10     11     public static void main(String[] a) throws IOException {     12     13         String url = “http://www.baidu.com”;     14     15         System.out.println(getHTML(url, “gbk”)); // 使用原网页里声明的gb2312反而会出现乱码     16     17     }     18     19     public static String getHTML(String pageURL, String encoding) {     20     21         StringBuilder pageHTML = new StringBuilder();     22     23         try {     24     25             URL url = new URL(pageURL);     26     27             HttpURLConnection connection = (HttpURLConnection) url     28                     .openConnection();     29     30             connection.setRequestProperty(“User-Agent”, “MSIE 7.0”);     31     32             BufferedReader br = new BufferedReader(new InputStreamReader(     33                     connection.getInputStream(), encoding));     34     35             String line = null;     36     37             while ((line = br.readLine()) != null) {     38     39                 pageHTML.append(line);     40     41                 pageHTML.append(“\r\n”);     42     43             }     44     45             connection.disconnect();     46     47         } catch (Exception e) {     48     49             e.printStackTrace();     50     51         }     52     53         return pageHTML.toString();     54     55     }     56 }

阅读(2365) | 评论(0)


版权声明:编程爱好者网站为此博客服务提供商,如本文牵涉到版权问题,编程爱好者网站不承担相关责任,如有版权问题请直接与本文作者联系解决。谢谢!

评论

暂无评论
您需要登录后才能评论,请 登录 或者 注册