通过url地址抓取html代码 - - ITeye博客

`

不能跑就走

浏览: 71331 次
性别:
来自: 北京

最近访客更多访客>>

4351901

1163735915

Jackiezmb

limars

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

通过url地址抓取html代码

博客分类：

corejava

HTML C C++C#Java

阅读更多

public class URLStream {
	public static void main(String[] args) throws IOException {
		InputStream inputStream = null;
		BufferedReader reader = null;
		String str = null;
		try {
			URL url = new URL("http://www.baidu.com");
			
			inputStream = url.openStream();
			 reader = new BufferedReader(new InputStreamReader(inputStream,"gbk"));
			while(null != (str = reader.readLine())) {
				System.out.println(str);
			}
			reader.close();
		} catch (MalformedURLException ex) {
		     System.err.println("Not a URL Java understands.");
		} finally {
			if (reader != null)
				reader.close();
		}
	}
}

其他：
     1.刚开始写的时候没有用while(null != (str = reader.readLine()))而是用
     for( int c = inputStream.read(); c != -1; c = inputStream.read()){
                System.out.write(c);
     }
     发现乱码，想想当然会乱码的，毕竟一个中文占两个字符。

分享到：

url中相对路径和绝对路径 | 重写equals()和hashCode()方法

2011-01-05 19:22
浏览 1287
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java网络编程抓取指定网页信息--UrlHtml(java源码): public class UrlHtml { @SuppressWarnings("deprecation") public static void main(String[] s) throws IOException{ try { URL url = new URL("http://www.kum.net.cn"); DataInputStream in = new ...

Python3简单爬虫抓取网页图片代码实例: 现在网上有很多python2写的爬虫抓取网页图片的实例...#根据给定的网址来获取网页详细信息，得到的html就是网页的源代码 def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html.deco

PHP使用Curl实现模拟登录及抓取数据功能示例: 1. 首先需要对相应的登录页面的html源代码进行分析，获得一些必要的信息：（1）登录页面的地址；（2）验证码的地址；（3）登录表单需要提交的各个字段的名称和提交方式；（4）登录表单提交的地址；（5）另外要...

Python实现简单网页图片抓取完整代码实例: 2、利用正则表达式把源代码中的图片地址过滤出来 3、根据过滤出来的图片地址下载网络图片以下是比较简单的一个抓取某一个百度贴吧网页的图片的实现： # -*- coding: utf-8 -*- # feimengjuan import re import ...

pdd (拼多多) 爬虫 js 解密 anti_content 参数解密及全站抓取代码思路实现.zip: 这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对...

python爬虫万能代码-获取网页: URL管理器：包括待爬取的URL地址和已爬取的URL地址，防止重复抓取URL和循环抓取URL，实现URL管理器主要用三种方式，通过内存、数据库、缓存数据库来实现。网页下载器：通过传入一个URL地址来下载网页，将网页转换...

一个可以批量抓取网页图片的工具: 1）抓取文件URL列表，可以转换为UBB代码或HTML代码，便于将选中的图片批量转贴到支持UBB的论坛 2）另存图片到指定的本地文件夹，另存时可沿用原来的文件名，也可批量重命名（类似于ACDSee）；对于相同文件名已存在的...

使用java-jsoup解析html页面内容，爬取想要的信息（如号段）: jsoup 是一款 Java 的 HTML 解析器，可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API，可通过 DOM，CSS...附件提供了详细的介绍，并通过http get请求方式抓取页面内容的java代码以及jsoup jar包。

豆瓣网页数据抓取与页面分析和展示: 一、代码总体分为三部分1、save_movie.py：抓取url存取url；2、read_movie.py:访问每个url数据页面并解析存入movie.xlsx；3、display_movie.py：删除movie.xlsx中空的sheet表单后再运行该代码，获取movie.xlsx中的...

python数据抓取分析的示例代码（python + mongodb）: 本文介绍了Python数据抓取分析，分享给大家，具体如下：编程模块：requests,lxml，pymongo，time，BeautifulSoup 首先获取所有产品的分类网址： def step(): try: headers = { 。。。。。 } r = requests.get...

使用Python进行爬虫的初学者指南（抓取提取数据的步骤）: 我们需要运行web抓取的代码，以便将请求发送到我们想要抓取的网站的URL。服务器发送数据并允许我们读取HTML或XML页面作为响应。代码解析HTML或XML页面，查找数据并提取它们。下面是使用Python使用Web抓取提取数据的...

Python爬虫抓取指定网页图片代码实例: （1）指定网站链接，抓取该网站的源代码（如果使用google浏览器就是按下鼠标右键 -> Inspect-> Elements 中的 html 内容）（2）根据你要抓取的内容设置正则表达式以匹配要抓取的内容（3）设置循环列表，重复抓取和...

PHP抓取及过滤网站工具snoopy: 2、方便抓取网页的文字（去掉HTML代码） 3、方便抓取网页的链接 4、支持代理主机 5、支持基本的用户/密码认证模式 6、支持自定义用户agent,referer,cookies和header内容 7、支持浏览器转向，并能控制转向深度 8、能...

网页抓取图片的PHP类.zip: //存储已抓取过的图片链接地址 public static $_a_page_url = array(); //存储抓取过的页面 public function __construct( $_save_path, $_limit_size) { $this->_save_path = $_save_path; ...

php抓取页面与代码解析推荐: 在做一些天气预报或者RSS订阅的程序时，往往需要抓取非本地文件，一般情况下都是利用php模拟浏览器的访问，通过http请求访问url地址，然后得到html源代码或者xml数据。

使用Ajax抓取远程网页中的图片资源: 使用Ajax技术获取远程URL的源代码，并从源代码中提取出图片地址的HTML文件: getOriginCode.html

python爬虫的学习和代码模板的笔记记录。涉及文本数据、图片数据、音频数据、视频数据的抓取。.zip: 这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。请求网页：爬虫使用HTTP或其他协议向目标URL发起请求，获取网页的HTML内容。这通常通过HTTP请求库实现，如Python中的Requests库。解析内容：爬虫对...

分析Ajax请求并抓取今日头条街拍美图: 利用requests请求目标站点，得到索引网页HTML代码，返回结果 2.抓取详情页内容解析返回结果，得到详情的链接，并进一步抓取详情页的信息 3.下载图片与保存数据库将图片下载到本地，并把页面信息及图片URL保存至...

利用爬虫大量抓取网页图片: #第一次学习爬虫后，自己编码抓取图片 ##下面介绍一下主要过程先打开某一你想要抓取图片的网页，我这里以...html = urllib.request.urlopen(url).read().decode('utf-8') 运行以后，

Global site tag (gtag.js) - Google Analytics