Python处理csv速度慢问题一例和解决

问题现象

一段python代码处理一个60万行csv文件耗时过长，从内存增长图和作业日志上看，处理此csv文件用了十几分钟，但在本地python命令行里测试读取200万行的csv（列数相同）文件只需要不到30秒，因此猜测是在pandas处理此文件数据时存在未优化的代码。

file

分析和解决

经过排查，发现是在讲csv文件里的时间戳转换为datetime类型时，消耗了大量时间，更换timestamp转datetime的函数：

# input[key]['k_ts'] = input[key]['k_ts'].apply(lambda x:pd.to_datetime(x, utc=True, unit='ms').tz_convert('Asia/Shanghai'))

input[key]['k_ts'] = input[key]['k_ts'].apply(lambda x:datetime.datetime.fromtimestamp(x/1000))

同时反方向的datetime转换到timestamp函数也做相应更改：

# output[key][ts_col] = output[key][ts_col].apply(lambda x:x.timestamp() * 1000).astype('int64')

output[key][ts_col] = output[key][ts_col].apply(lambda x:int(time.mktime(x.timetuple())*1e3 + x.microsecond/1e3))

修改后问题解决。

欢迎转载
请保留原始链接：https://bjzhanghao.com/p/3154

八进制

少年壮志无烟抽

Python处理csv速度慢问题一例和解决

问题现象

分析和解决

发表回复取消回复

八进制

少年壮志无烟抽

问题现象

分析和解决

发表回复 取消回复

发表回复取消回复