`
不能跑就走
  • 浏览: 71331 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

通过url地址抓取html代码

阅读更多
public class URLStream {
	public static void main(String[] args) throws IOException {
		InputStream inputStream = null;
		BufferedReader reader = null;
		String str = null;
		try {
			URL url = new URL("http://www.baidu.com");
			
			inputStream = url.openStream();
			 reader = new BufferedReader(new InputStreamReader(inputStream,"gbk"));
			while(null != (str = reader.readLine())) {
				System.out.println(str);
			}
			reader.close();
		} catch (MalformedURLException ex) {
		     System.err.println("Not a URL Java understands.");
		} finally {
			if (reader != null)
				reader.close();
		}
	}
}


其他:
     1.刚开始写的时候没有用while(null != (str = reader.readLine()))而是用
     for( int c = inputStream.read(); c != -1; c = inputStream.read()){
                System.out.write(c);
     }
     发现乱码,想想当然会乱码的,毕竟一个中文占两个字符。
分享到:
评论

相关推荐

    java网络编程抓取指定网页信息--UrlHtml(java源码)

    public class UrlHtml { @SuppressWarnings("deprecation") public static void main(String[] s) throws IOException{ try { URL url = new URL("http://www.kum.net.cn"); DataInputStream in = new ...

    Python3简单爬虫抓取网页图片代码实例

    现在网上有很多python2写的爬虫抓取网页图片的实例...#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html.deco

    PHP使用Curl实现模拟登录及抓取数据功能示例

    1. 首先需要对相应的登录页面的html源代码进行分析,获得一些必要的信息: (1)登录页面的地址; (2)验证码的地址; (3)登录表单需要提交的各个字段的名称和提交方式; (4)登录表单提交的地址; (5)另外要...

    Python实现简单网页图片抓取完整代码实例

    2、利用正则表达式把源代码中的图片地址过滤出来 3、根据过滤出来的图片地址下载网络图片 以下是比较简单的一个抓取某一个百度贴吧网页的图片的实现: # -*- coding: utf-8 -*- # feimengjuan import re import ...

    pdd (拼多多) 爬虫 js 解密 anti_content 参数解密及全站抓取代码思路实现.zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    python爬虫万能代码-获取网页

    URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。 网页下载器:通过传入一个URL地址来下载网页,将网页转换...

    一个可以批量抓取网页图片的工具

    1)抓取文件URL列表,可以转换为UBB代码或HTML代码,便于将选中的图片批量转贴到支持UBB的论坛 2)另存图片到指定的本地文件夹,另存时可沿用原来的文件名,也可批量重命名(类似于ACDSee);对于相同文件名已存在的...

    使用java-jsoup解析html页面内容,爬取想要的信息(如号段)

    jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS...附件提供了详细的介绍,并通过http get请求方式抓取页面内容的java代码以及jsoup jar包。

    豆瓣网页数据抓取与页面分析和展示

    一、代码总体分为三部分1、save_movie.py:抓取url存取url;2、read_movie.py:访问每个url数据页面并解析存入movie.xlsx;3、display_movie.py:删除movie.xlsx中空的sheet表单后再运行该代码,获取movie.xlsx中的...

    python数据抓取分析的示例代码(python + mongodb)

    本文介绍了Python数据抓取分析,分享给大家,具体如下: 编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: headers = { 。。。。。 } r = requests.get...

    使用Python进行爬虫的初学者指南(抓取提取数据的步骤)

    我们需要运行web抓取的代码,以便将请求发送到我们想要抓取的网站的URL。服务器发送数据并允许我们读取HTML或XML页面作为响应。代码解析HTML或XML页面,查找数据并提取它们。 下面是使用Python使用Web抓取提取数据的...

    Python爬虫抓取指定网页图片代码实例

    (1)指定网站链接,抓取该网站的源代码(如果使用google浏览器就是按下鼠标右键 -> Inspect-> Elements 中的 html 内容) (2)根据你要抓取的内容设置正则表达式以匹配要抓取的内容 (3)设置循环列表,重复抓取和...

    PHP抓取及过滤网站工具snoopy

    2、方便抓取网页的文字(去掉HTML代码) 3、方便抓取网页的链接 4、支持代理主机 5、支持基本的用户/密码认证模式 6、支持自定义用户agent,referer,cookies和header内容 7、支持浏览器转向,并能控制转向深度 8、能...

    网页抓取图片的PHP类.zip

     //存储已抓取过的图片链接地址  public static $_a_page_url = array(); //存储抓取过的页面  public function __construct( $_save_path, $_limit_size) {  $this->_save_path = $_save_path; ...

    php抓取页面与代码解析 推荐

    在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址,然后得到html源代码或者xml数据。

    使用Ajax抓取远程网页中的图片资源

    使用Ajax技术获取远程URL的源代码,并从源代码中提取出图片地址的HTML文件: getOriginCode.html

    python爬虫的学习和代码模板的笔记记录。涉及文本数据、图片数据、音频数据、视频数据的抓取。.zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    分析Ajax请求并抓取今日头条街拍美图

    利用requests请求目标站点,得到索引网页HTML代码,返回结果 2.抓取详情页内容 解析返回结果,得到详情的链接,并进一步抓取详情页的信息 3.下载图片与保存数据库 将图片下载到本地,并把页面信息及图片URL保存至...

    利用爬虫大量抓取网页图片

    #第一次学习爬虫后,自己编码抓取图片 ##下面介绍一下主要过程 先打开某一你想要抓取图片的网页,我这里以...html = urllib.request.urlopen(url).read().decode('utf-8') 运行以后,

Global site tag (gtag.js) - Google Analytics