首页 > TAG信息列表 > parallel-processing
Python 2.6:使用urllib2并行解析
我目前正在使用urllib2从网站检索和解析页面.但是,它们很多(超过1000个),并且顺序地处理它们非常缓慢. 我希望有一种以并行方式检索和解析页面的方法.如果这是个好主意,那有可能吗,我该怎么做? 此外,并行处理的页面数的“合理”值是什么(我不想因为对服务器使用过多的连接而对服务器python-如何使用机器人并行化这种情况
我正在研究机器人问题.情况是这样的: >最初有N个机器人(通常N> 100)处于静止状态. >每个机器人吸引半径为r的所有其他机器人.>我有一组方程式,可以用来计算加速度,速度和功率.因此,时间间隔后机器人的位置.简而言之,经过delta时间后,我可以找到每个机器人的位置.>我要做的只是针对给为什么并行Python会按其方式工作?
在Parallel Python中,为什么必须在该作业提交调用中包装传递的函数将需要的所有模块以及变量和名称空间-保留模块级“全局”变量的必要性是什么? (如果仅此而已) 提交功能: submit(self, func, args=(), depfuncs=(), modules=(), callback=None, callbackargs=(),group='default',并行c#已使用核数
是否可以确定Parallel.For中使用的最大内核数?解决方法:如果要限制并行编程中的CPU使用率,那么ParallelOptions.MaxDegreeOfParallelism是个好主意.在Python中运行批量同步并行模型(BSP)
BSP并行编程模型有几个好处-程序员不必显式关心同步,死锁变得不可能,并且速度的推理比传统方法容易得多. SciPy中有一个BSPlib的Python接口: import Scientific.BSP 我写了一个小程序来测试BSP.该程序是一个简单的随机实验,可以“计算”投掷n个骰子可得出k之和的概率: from Scientmysql-以70.000条记录/秒的速度写入大量数据该怎么办?
也许有人可以对此发表意见?我目前正在寻找一种解决方案,每天将5亿至40亿条记录存储到数据库中的一个(或2个)表中,最低写入率为70.000条/秒.一条记录包含大约30个变量.我们希望每小时和并行加载数据(对数据进行分区),以达到计算机在CPU,内存和IO方面的最大容量.在写过程中,查询必须是如何编写异步PHP代码
我有一些代码可以执行以下伪代码: Use CURL to get site1 into a variable Use CURL to get site2 into a variable Use CURL to get site3 into a variable Use CURL to get site4 into a variable Do lots of processing on each Produce output echo output 当前,这偶尔需要c#-处理任务异常
说我有这样的代码: serviceCallFinished = false; Task.Factory.StartNew(() => { response = ServiceManager.GeneralService.ServiceMethod(loginName, password); }).ContinueWith(parentTask => { serviceCallFinished = true; }); while (!serviceCallFinished)C#-Parallel.ForEach比预期花费更多时间
这里代码就此关注: while (true) { Console.WriteLine("start " + DateTime.Now); ParallelOptions options = new ParallelOptions(); options.MaxDegreeOfParallelism = -1; Parallel.ForEach(hosts, item => { using (PC#-用于下载页面的并行类
我有一个带有并行类的代码,可以从Web下载页面.由于我下载了约3000页,因此我想知道这是否是最好的方法. Parallel.For(0, 3000, i => { Console.WriteLine(i.ToString()); //HttpDownloader is my class for downloadingPython,读取许多文件并合并结果
我可能会问一个非常基本的问题,但是我真的不知道如何在python中创建一个简单的并行应用程序. 我正在具有16个内核的计算机上运行脚本,我想高效地使用它们.我要读取16个大文件,我希望每个CPU读取一个文件,然后合并结果.在这里,我举一个简单的例子,说明我想做什么: parameter1_globPython罐(或其他)可在具有异构任务的集群环境中进行令人尴尬的并行作业
我通常有大量的依赖作业,并且想要在PBS群集环境中有效地运行它们.我一直在使用Ruffus,对此非常满意,但是我还想尝试其他方法. 在python中看起来很有趣的是水罐.但是,似乎水罐假定作业在要求上是相同的.我有些工作需要8GB RAM,而另一些工作只需要100MB.有些可以消耗所有处理器,有些具有动态延迟的C#任务
我有一个函数,需要一次处理3个项目,并且如果所花费的总时间少于x秒,则该线程应休眠剩余的几秒钟,然后再继续操作. 因此,我正在执行以下操作: private void ProcessItems() { for (int i = 0, n = items.Count; i < n; i++) { Stopwatch stopwac#-使不透明的IEnumerable查询并行(PLINQ)
在一个函数中,我想对作为参数提供的IEnumerable进行并行处理. 这个IEnumerable已经是一些链接的结果,即: IEnumerable argument = InitialEnumerable.Select(x => DoHeavyProcessing(x))... 但对我来说,它是不透明的-我无法修改此参数的创建方式.我不知道它是如何构造的. 现在,当如何在类内的python中并行化for?
我有一个python函数funz,每次返回不同长度的数组p.我需要在不同的时间运行此函数,然后计算每个值的平均值. 我可以使用for循环来完成此操作,但这需要很多时间. 我正在尝试使用库多处理,但遇到错误. import sklearn as sk import numpy as np from sklearn.base import BaseEstimatcython.parallel.parallel和nogil写入文件
我正在用Cython弄湿我的脚.考虑我一个完全菜鸟.写入非常大的文件是代码中的主要瓶颈,因此我认为应该研究并行性,但是我找不到任何有用的东西来编写具有并行性的文件. 甚至可以使用 with nogil, parallel(): 写入文件的声明?尝试编写字符串时出现编译错误: Constructing Python tupmysql-R并行进程的数据库连接池
这个问题已经在这里有了答案: > foreach %dopar% + RPostgreSQL 2个 我使用软件包RPostgreSQL与PostgreSQL建立数据库连接.目前,我正在执行以下操作: >从我将显式和隐式并行与Java-8流混合
过去,我使用两个线程编写了一些Java程序.第一个线程(生产者)正在从API(C库)中读取数据,创建一个Java对象,然后将该对象发送给另一个线程.C API正在传递事件流(无限).线程使用LinkedBlockingQueue作为交换对象(放置,轮询)的管道.第二个线程(消费者)正在处理该对象.(我还发现代码在线Python-多处理意外结果
我有一些包含迭代器的代码,效果很好: import multiprocessing m = [0,1,2,3] class gener(object): def __init__(self, m): self.m = m self.c = 0 def __iter__(self): return self def next(self): time.sleep(1) retjava-在Spring Batch分区中配置gridSize
在Spring Batch分区中,PartitionHandler的gridSize与Partitioner返回的ExecutionContext的数量之间的关系有些混乱.例如,MultiResourcePartitioner指出它忽略了gridSize,但是Partitioner文档没有说明何时/为什么可以这样做. 例如,假设我有一个taskExecutor,我想在不同的并行步骤中python-使用索引列表有效填充NumPy数组
我知道如何在joblib中执行并行循环,该循环返回结果列表. 但是,是否可以并行填充预定义的numpy矩阵? 想象一下以下最小示例矩阵和数据: column_data = ['a', 'b', 'c', 'd', 'e', 'f', 'x'] data = [['a', 'b', 'c'],C#并行-将项目添加到要迭代的集合中,还是等效?
现在,我有一个C#程序,该程序可以重复执行以下步骤: >从数据库中获取当前任务列表 >使用Parallel.ForEach(),完成每个任务 但是,其中一些任务的运行时间很长.这会延迟其他未完成任务的处理,因为我们仅在程序开始时寻找新任务. 现在,我知道不可能修改要迭代的集合(对吗?),但是C#ParalleGNU / Linux命令行中的并行处理
某些GNU / Linux命令行程序(例如“ oggenc”,以ogg vorbis格式编码音频)仅使用CPU中所有内核中的1个. 问题是,就我而言,我有4个内核,而程序仅使用1个内核,使CPU的工作速度为25%(仅其中一个内核的工作速度为100%,而其他3个内核的工作速度为0%)该任务). 是否有可能强制为命令行程序使用并行的每个循环不会保存所有文件
我在图像转换器上书写.当我为每个并行使用时,不会保存所有图像.处理速度太快,无法在磁盘上写入文件吗? 这是我的代码: private void convert() { Parallel.ForEach(source.GetFiles("*.tif"), new ParallelOptions() { MaxDegreeOfParallelism = Environment.Processo就Java流的性能而言,有什么更好的方法:合并过滤器或合并环境?
这个问题已经在这里有了答案: > Java 8 Streams: multiple filters vs. complex condition 4个 需要过滤适合其字段的某些情况的所有对象.假设对象具有多个