|
导读网站建设是指使用标识语言(markup language),通过一系列设计、建模、和执行的过程将电子格式的信息通过互联网传输,最终以图形用户界面(GUI)的形式被用户所浏览。简单来说,网页设计的目的... 网站建设是指使用标识语言(markup language),通过一系列设计、建模、和执行的过程将电子格式的信息通过互联网传输,最终以图形用户界面(GUI)的形式被用户所浏览。简单来说,网页设计的目的就是产生网站。简单的信息如文字,图片(GIF,JPEG,PNG)和表格,都可以通过使超文件标示语言、可扩展超文本标记语言等标示语言放置到网站页面上。
Python核心编程(第二版) PDF高清电子版
目标:爬取某个网站上n多页的链接,每个链接有n多张图片,每一页对应一个文件夹,每个文件夹包含n个链接所对应的文件夹。 步骤1:获得网页的所有链接,访问所有链接,获得链接里的图片地址。 步骤2:根据图片地址下载图片。 下载jpg格式的图片其实很容易。 1 socket = urllib2.urlopen(url) 2 data = socket.read() 3 with open(path, “wb“) as jpg: 4 jpg.write(data) 5 socket.close() 其中url为图片地址,path为保存路径。 完成这一步之后,简单的批量下载图片功能就完成了。 但是,下载的过程中有几个问题。 1、下载速度慢。 我们打开网站的时候看到图片的速度在网速不是太慢的情况下其实也不慢,但是用这种方法下载一张图片要等很久,有时却很快。 2、下着下着就卡在那里了。 它就是卡在那里了,不知道要等到什么时候报错。 后改进如下。 1 #设定超时时间,单位为秒,放在程序开头即可 2 timeout = 60 3 socket.setdefaulttimeout(timeout) 4 5 #下载图片的时候 6 time.sleep(10)#先sleep,再读取数据 7 socket = urllib2.urlopen(urllib2.Request(imgurl)) 8 data = socket.read() 9 socket.close() 10 … 其实这个改进当时在程序中的体现不是很明显,但是后来我又加入了一个东西:多线程。 python的多线程有几种方法可以实现,通过这篇博文可以对此有所了解。 在这里我采用继承threading.Thread的方法实现多线程。 重载run方法。我这里是每下载一个图片就开一个线程(好像不是太好,囧……)。 1 thread = Download() 2 thread.imgurl = imgurl 3 thread.path = path 4 thread.start() 这个多线程用上以后,整个程序简直就像开足了马力,开始大力地下载。没一会功夫就下载了100多M的图片! 其实我一开始是有顾虑一个问题的,就是为什么线程sleep的时候能够偷偷地占用系统的时间?看看这篇文章的实验。 也就是说,10条线程每个sleep10秒,结果也只是花了差不多10秒的时间。 图片的下载速度很快,虽然中途有一些处理异常的网址,但是速度飞一般的快。(后来增加了一些异常处理) 很快,开始出现异常了,大量的图片下载失败。 研究了很久之后才发现,存储空间不足…… 于是,搬到一个10G空闲的分区,开始下载,改善异常处理。 最终完成目标的时候大概完成了8G的下载量。不知道是不是流量太大了,今天老是断网…… 同时尝试了视频的下载,这个功能还有待发掘。 教程到此结束~希望对大家有所帮助~ 大多数人在上网的时候,都会浏览网页提供给我们的信息。 |
温馨提示:喜欢本站的话,请收藏一下本站!