前面的数据抓取程序虽然完工了,但是运行中发现,每定时运行一次需要几十秒,有点太慢,查阅资料,希望能改成多线程的,加快运行速度。查了以后知道python里面多线程可以用queue来弄成队列。
经过搜索以后找到的python多线程、线程池参考内容如下:
中国的:http://prokee.com/?p=4
外国的:http://www.davidnaylor.co.uk/threaded-data-collection-with-python-including-examples.html
上面两个很相似到差不多雷同的样子,区别仅仅是中文、英文的问题,都是伪代码,可能相互借鉴过。
下面这个例子可以使用,是rss的东西
http://www.doughellmann.com/PyMOTW/Queue/
下面这个是涉及sqlite,可以运行。
http://stackoverflow.com/questions/1506023/duplicate-insertions-in-database-using-sqlite-sqlalchemy-python
里面指出是参考了下面的文章,下面这个也可以运行。
http://www.halotis.com/2009/07/07/how-to-get-rss-content-into-an-sqlite-database-with-python-fast/
看完参考资料,那就开始动手,把线程池import进来,然后改动程序,实际上我们需要多线程的就是urlopen这一部分,程序的数据库写入部分每次就一百多条,实际测试花不了1秒,不必改。其他的部分多线程提高不了多大效率。
首先根据上面的参考资料,多线程的主要结构如下:
THREAD_LIMIT = 20
jobs = Queue.Queue(0)
#定义全局变量c,用于storedata使用
#c在dealwithdatat的时候进行修改
global c
c=[{},{},{},{},{}]
#Rest of file completes the threading process
def thread():
while True:
try:
url = jobs.get(False) # False = Don't wait
except Queue.Empty:
return
xml=get_datat(url)
#print xml
#处理数据写入c里面供storedatat使用
dealwith_datat(xml)
def q1(url_price):
for i in url_price.keys(): # Queue them up
#print i,url_price[i]
jobs.put(url_price[i])
for n in xrange(THREAD_LIMIT):
t = threading.Thread(target=thread)
t.start()
print n
while threading.activeCount() > 1 or not jobs.empty():
print datetime.datetime.now()
time.sleep(1)
上面getdatat为改过的抓取函数,原来的函数是一次获取所有的地址,循环抓取,这里改成每次读一个地址。线程中最大线程数为20,利用了queue,实现了线程的复用。
def get_datat(url):
xmlr = urllib2.Request(url)
price = urllib2.urlopen(xmlr)
p_xml=price.read()
price.close()
return p_xml
deal_withdatat则是改过的处理函数,这次是每次抓取一个地址的数据,所以处理函数改为每次处理一个,这里设定了一个全局变量c,处理之后的数据直接存放在c中需要注意的是c必须实例化,而不能仅仅定义一下。
global c
c=[{},{},{},{},{}]
def dealwith_datat(price):
"""正则处理页面获取有效数据"""
temp1={}
temp2={}
temp3={}
temp4={}
temp5={}
xmlprice=re.findall(re.compile(r"<price>(\d+)</price>"),price)
iii1=re.findall(re.compile(r"<iid>(\d+)</iid>"),price)
iii=iii1[0]
print iii
#print xmlprice 中出现最多的价格
zuiduo={}
for i in xmlprice:
try:
zuiduo[i]+=1
except:
zuiduo[i]=1
for i in zuiduo.keys():
if zuiduo[i]==max(zuiduo.values()):
#print i,zuiduo[i]
temp4[iii]=i
temp5[iii]=zuiduo[i]
xmlprice=[int(i)for i in xmlprice]
temp1[iii]=min(xmlprice)
temp2[iii]=max(xmlprice)
temp3[iii]=xmlprice[-1]
#return temp1,temp2,temp5,temp4,temp3
c[0][iii]=temp1[iii]
c[1][iii]=temp2[iii]
c[2][iii]=temp5[iii]
c[3][iii]=temp4[iii]
c[4][iii]=temp3[iii]
改造后的deal_withdatat最终返回的结果仍与原函数一致,但是每次读取的仅仅是一个地址的数据。
这样完成了多线程抓取,原来需要30秒以上的抓取过程现在仅需要几秒就能完成
分享到:
相关推荐
一个Python多线程爬虫,在工作时,开10个线程来抓取新浪网页的数据,抓取并保存页面, 并且根据deep返回页面链接,根据key确定是否保存该页面,其中: deep == 0时,是抓取的最后一层深度,即只抓取并保存页面,不...
自己写的一个多线程爬虫,在当前目录下创建目录保存相应图片,共100行代码,可以正常运行
主要介绍了Python基于多线程实现抓取数据存入数据库的方法,结合实例形式分析了Python使用数据库类与多线程类进行数据抓取与写入数据库操作的具体使用技巧,需要的朋友可以参考下
学习用的,python写的多线程抓取代理服务器,保存,验证程序-烤火C知识网
这是一个多线程抓取知乎用户的程序 Requirements 需要用到的包: beautifulsoup4 html5lib image requests redis PyMySQL pip安装所有依赖包: pip install Image requests beautifulsoup4 ...
当然为了提高效率,我们同时采用多线程并行方式。 思路分析 Python有很多的第三方库,可以帮助我们实现各种各样的功能。问题在于,我们弄清楚我们需要什么: 1)http请求库,根据网站地址可以获取网页源代码。甚至...
借助 Python 和 Scrapy 语言框架基础,以“旅游网站”为爬取目标,通过分析当前现有Web crawler 的运行机理、功能单元以及算法程序,试探性的创建一个针对性比较强的网络爬虫,对课题的目标数据进行爬取。...
这是一个多线程抓取知乎用户的程序 Requirements 需要用到的包: beautifulsoup4 html5lib image requests redis PyMySQL pip安装所有依赖包: pip install Image requests beautifulsoup4 ...
多线程抓取网页数据 抓取七星彩开奖号码 程抓取网页数据
pip安装所有依赖包: ...运行环境需要支持中文 测试运行环境python3.5,不保证其他运行环境能完美运行 1.需要安装mysql和redis ...开始抓取数据:python get_user.py 查看抓取数量:python check_redis.py
使用Python爬虫库requests多线程抓取猫眼电影TOP100思路: 查看网页源代码 抓取单页内容 正则表达式提取信息 猫眼TOP100所有信息写入文件 多线程抓取 运行平台:windows Python版本:Python 3.7. IDE:...
此为以斗图网抓取图片,以多线程为基础的Python为实例
今天刚看完崔大佬的《python3网络爬虫开发实战》,顿时觉得...为了避免这种尴尬,以及我突然想写博客的心情,我决定还是为大家在进行一次简易爬虫展示,总体程序我会利用多线程的方式来充分利用CPU的空闲时间,其中我也
主要介绍了Python实现多线程抓取网页功能,结合具体实例形式详细分析了Python多线程编程的相关操作技巧与注意事项,并附带demo实例给出了多线程抓取网页的实现方法,需要的朋友可以参考下
在日常爬虫工作中,我们有时候会使用单线程或多线程,单线程和多线程进行数据抓取结果还是大有不同的。当单线程python爬虫已经不能满足企业需求时,很多程序员会进行改代码或者增加服务器数量,这样虽说也能达到效果...
这些代码展示了如何使用Python进行网页抓取、解析和数据提取。 项目文件:除了代码,我还分享了整个项目的文件,包括设计稿、图标、图片等资源。这些资源对于理解项目背景和设计思路至关重要。 文档与操作手册:为了...
这里以抓取 http://www.proxy.com.ru 站点的代理服务器为例,代码如下: #!/usr/bin/env python #coding:utf-8 import urllib2 import re import threading import time import MySQLdb rawProxyList = [] ...