public class URLStream {
public static void main(String[] args) throws IOException {
InputStream inputStream = null;
BufferedReader reader = null;
String str = null;
try {
URL url = new URL("http://www.baidu.com");
inputStream = url.openStream();
reader = new BufferedReader(new InputStreamReader(inputStream,"gbk"));
while(null != (str = reader.readLine())) {
System.out.println(str);
}
reader.close();
} catch (MalformedURLException ex) {
System.err.println("Not a URL Java understands.");
} finally {
if (reader != null)
reader.close();
}
}
}
其他:
1.刚开始写的时候没有用while(null != (str = reader.readLine()))而是用
for( int c = inputStream.read(); c != -1; c = inputStream.read()){
System.out.write(c);
}
发现乱码,想想当然会乱码的,毕竟一个中文占两个字符。
分享到:
相关推荐
public class UrlHtml { @SuppressWarnings("deprecation") public static void main(String[] s) throws IOException{ try { URL url = new URL("http://www.kum.net.cn"); DataInputStream in = new ...
现在网上有很多python2写的爬虫抓取网页图片的实例...#根据给定的网址来获取网页详细信息,得到的html就是网页的源代码 def getHtml(url): page = urllib.request.urlopen(url) html = page.read() return html.deco
1. 首先需要对相应的登录页面的html源代码进行分析,获得一些必要的信息: (1)登录页面的地址; (2)验证码的地址; (3)登录表单需要提交的各个字段的名称和提交方式; (4)登录表单提交的地址; (5)另外要...
2、利用正则表达式把源代码中的图片地址过滤出来 3、根据过滤出来的图片地址下载网络图片 以下是比较简单的一个抓取某一个百度贴吧网页的图片的实现: # -*- coding: utf-8 -*- # feimengjuan import re import ...
这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...
URL管理器:包括待爬取的URL地址和已爬取的URL地址,防止重复抓取URL和循环抓取URL,实现URL管理器主要用三种方式,通过内存、数据库、缓存数据库来实现。 网页下载器:通过传入一个URL地址来下载网页,将网页转换...
1)抓取文件URL列表,可以转换为UBB代码或HTML代码,便于将选中的图片批量转贴到支持UBB的论坛 2)另存图片到指定的本地文件夹,另存时可沿用原来的文件名,也可批量重命名(类似于ACDSee);对于相同文件名已存在的...
jsoup 是一款 Java 的 HTML 解析器,可直接解析某个 URL 地址、HTML 文本内容。它提供了一套非常省力的 API,可通过 DOM,CSS...附件提供了详细的介绍,并通过http get请求方式抓取页面内容的java代码以及jsoup jar包。
一、代码总体分为三部分1、save_movie.py:抓取url存取url;2、read_movie.py:访问每个url数据页面并解析存入movie.xlsx;3、display_movie.py:删除movie.xlsx中空的sheet表单后再运行该代码,获取movie.xlsx中的...
本文介绍了Python数据抓取分析,分享给大家,具体如下: 编程模块:requests,lxml,pymongo,time,BeautifulSoup 首先获取所有产品的分类网址: def step(): try: headers = { 。。。。。 } r = requests.get...
我们需要运行web抓取的代码,以便将请求发送到我们想要抓取的网站的URL。服务器发送数据并允许我们读取HTML或XML页面作为响应。代码解析HTML或XML页面,查找数据并提取它们。 下面是使用Python使用Web抓取提取数据的...
(1)指定网站链接,抓取该网站的源代码(如果使用google浏览器就是按下鼠标右键 -> Inspect-> Elements 中的 html 内容) (2)根据你要抓取的内容设置正则表达式以匹配要抓取的内容 (3)设置循环列表,重复抓取和...
2、方便抓取网页的文字(去掉HTML代码) 3、方便抓取网页的链接 4、支持代理主机 5、支持基本的用户/密码认证模式 6、支持自定义用户agent,referer,cookies和header内容 7、支持浏览器转向,并能控制转向深度 8、能...
//存储已抓取过的图片链接地址 public static $_a_page_url = array(); //存储抓取过的页面 public function __construct( $_save_path, $_limit_size) { $this->_save_path = $_save_path; ...
在做一些天气预报或者RSS订阅的程序时,往往需要抓取非本地文件,一般情况下都是利用php模拟浏览器的访问,通过http请求访问url地址,然后得到html源代码或者xml数据。
使用Ajax技术获取远程URL的源代码,并从源代码中提取出图片地址的HTML文件: getOriginCode.html
这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...
利用requests请求目标站点,得到索引网页HTML代码,返回结果 2.抓取详情页内容 解析返回结果,得到详情的链接,并进一步抓取详情页的信息 3.下载图片与保存数据库 将图片下载到本地,并把页面信息及图片URL保存至...
#第一次学习爬虫后,自己编码抓取图片 ##下面介绍一下主要过程 先打开某一你想要抓取图片的网页,我这里以...html = urllib.request.urlopen(url).read().decode('utf-8') 运行以后,