Java 抓取网页数据
题注:很多时候用到抓取网页数据的功能,以前工作中曾经用到过,今天总结了一下
目的:抓取网页数据多是读一些地址连续的URL,获得页面信息,进而对页面DOM进行分析,处理得到粗糙的数据,然后进行加工,得到我们想要的内容。
首先选择一个地址,比如http://www.51leba.com
代码部分如下:
Java代码
1. try{
2. new URL("http://www.51leba.com");
3. URLConnection conn = url.openConnection();
4.
5. new BufferedReader(new
6. new
7. String str;
8. while((str = is.readLine()) != null){
9. buffer.append(str);
10. "n");
11.
12. }
13. "", "").replaceAll("", "").replaceAll(" ", " ");
14. "n");
15. new
16. for(int i=0;i<s.length;i++){
17. if(s[i].trim().equals("") ){
18. continue;
19. else{
20. buffer.append(s[i]);
21. "n");
22. }
23. }
24. System.out.println(buffer.toString());
25.
26. is.close();
27.
28. catch
29. e.printStackTrace();
30. }
得到的结果是:
Java代码
1. 欢迎光临51乐吧!
2. 51乐吧!
3. 回家倒计时
4. 拼音转汉字
服务器托管,北京服务器托管,服务器租用 http://www.fwqtg.net
机房租用,北京机房租用,IDC机房托管, http://www.fwqtg.net
作为全球最大的显示行业盛会,每年的SID国际显示周都会成为外界关注的焦点,并被赞誉为显示行业的“奥斯卡”。 今年的SID 2023自然也不例外,众多显示“老将”无一缺席。特别是迈入而立之年的京东方,可以说是第61届SID上最耀眼的存在,同期举办的“京东方创新生…