编程语言
首页 > 编程语言> > 在Python中通过模糊字符串匹配匹配2个大型csv文件

在Python中通过模糊字符串匹配匹配2个大型csv文件

作者:互联网

我试图大约匹配600,000个人的姓名(全名)到另一个拥有超过8700万观察(全名)的数据库!

我对fuzzywuzzy库的第一次尝试太慢了,所以我决定使用更快的模块模糊集.假设我有一台足够强大的计算机来加载内存中的所有数据集,我将使用964个观测值的测试文件进行以下操作,以便与50,000个观察值进行匹配:

import time
from cfuzzyset import cFuzzySet as FuzzySet

df1=pd.read_csv(file1,delimiter='|') # test file with 964 observations
df2=pd.read_csv(file2,delimiter='|') # test file with 50,000 observations to be matched against

a=FuzzySet() # allocate the FuzzySet object
for row in file2['name']:
   a.add(str(row)) # Fill the FuzzySet object with all names from file2

start_time = time.time() # Start recording the time

dicto={'index':[],'name':[]} # Dictionary where I store the output

for names in file1['f_ofulln']:
    dicto['index'].append(a.get(names)[0][0])
    dicto['name'].append(a.get(names)[0][1])

print("--- %s seconds ---" % (time.time() - start_time))   

>>> --- 39.68284249305725 seconds ---

使用小得多的数据集(964个观测值与50,000个观测值匹配),时间为39秒.

但是,如果我想在完整数据集上执行此方法,则速度太慢.

有没有人知道如何改善运行时间?我认为Cython不可能,因为我已经导入了模拟集模块的Cython版本

非常感谢,

阿德里安

解决方法:

所以我要回答我自己的问题,因为我发现了一种非常快的方法.

我使用panda.HDFStore和panda.to_hdf方法以HDF5格式保存了这两个数据库.
我为姓氏的每个第一个字母保存了一个数据框.
然后,我基于python-Levenshtein模块创建了一个找到最接近匹配的函数(非常快,因为它是用C编程的).

最后,我一次发送了26个批处理作业,每个字母对应一个姓氏.这意味着我只匹配姓氏相同的人.

请注意,我还编写了函数来找到与birthyear最接近的匹配,并且差异超过1年.

编辑:因为它被要求,我在下面提供我的功能摘要.合并两个数据帧的主要功能太长了,不幸在这里发布.

# Needed imports:
from Levenshtein import *
import pandas as pd

# Function that get the closest match of a word in a big list:

def get_closest_match(x, list_strings,fun):
    # fun: the matching method : ratio, wrinkler, ... (cf python-Levenshtein module)
    best_match = None
    highest_ratio = 0
    for current_string in list_strings.values.tolist():
        if highest_ratio!=1:
            current_score = fun(x, current_string)
            if(current_score > highest_ratio):
                highest_ratio = current_score
                best_match = current_string
    return (best_match,highest_ratio)

# the function that matches 2 dataframes (only the idea behind, since too long to write everything
dicto={'Index':[],'score':[], ...} 
def LevRatioMerge(df1,df2,fun,colname,required=[],approx=[],eps=[]):
    # Basically loop over df1 with:
    for name in df1.itertuples():
        result=get_closest_match(name[YourColnumber],df2[YourColname],fun)
        dicto['score'].append(result[1])
        dicto['Index'].append(name[0])
        ...

这是个主意.希望它对你的工作足够鼓舞人心.

标签:python,string-matching,performance,fuzzywuzzy
来源: https://codeday.me/bug/20190628/1310659.html