京公网安备 11010802034615号
经营许可证编号:京B2-20210330
来源:【公众号】
Python技术
Python 对于文件夹或者文件的遍历一般有两种操作方法,一种是至二级利用其封装好的 walk 方法操作:
import os for root,dirs,files in os.walk("/Users/cxhuan/Downloads/globtest/hello"):
for dir in dirs:
print(os.path.join(root, dir))
for file in files:
print(os.path.join(root, file))
上面代码运行结果如下:
/Users/cxhuan/Downloads/globtest/hello/world /Users/cxhuan/Downloads/globtest/hello/.DS_Store
/Users/cxhuan/Downloads/globtest/hello/hello3.txt
/Users/cxhuan/Downloads/globtest/hello/hello2.txt
/Users/cxhuan/Downloads/globtest/hello/hello1.txt
/Users/cxhuan/Downloads/globtest/hello/world/world1.txt
/Users/cxhuan/Downloads/globtest/hello/world/world3.txt
/Users/cxhuan/Downloads/globtest/hello/world/world2.txt
上述程序,将 os.walk 读取到的所有路径 root 、目录名 dirs 与文件名 files ,也就是三个文件数组利用 foreach 循环输出。join方法就是将其路径与目录名或者文件名连接起来,组成一个完整的目录。
另一种是用递归的思路,写成下面的形式:
import os files = list()
def dirAll(pathname):
if os.path.exists(pathname):
filelist = os.listdir(pathname)
for f in filelist:
f = os.path.join(pathname, f)
if os.path.isdir(f):
dirAll(f)
else:
dirname = os.path.dirname(f)
baseName = os.path.basename(f)
if dirname.endswith(os.sep):
files.append(dirname+baseName)
else:
files.append(dirname+os.sep+baseName)
dirAll("/Users/cxhuan/Downloads/globtest/hello") for f in files:
print(f)
运行上面代码,得到的结果和上面一样。
这两种方法都没问题,就是写起来比较麻烦,特别是第二种,一不小心还有可能写出 bug 。
今天我们来介绍第三种方法——利用 glob 模块来遍历文件。
glob 是 python 自带的一个操作文件的模块,以简洁实用著称。由于这个模块的功能比较简单,所以也很容易上手和使用。它主要用来查找符合特定规则的文件路径。使用这个模块来查找文件,只需要用到*、? 和 [] 这三个匹配符:
* : 匹配0个或多个字符;
? : 匹配单个字符;
[] :匹配指定范围内的字符,如:[0-9]匹配数字。
glob.glob 方法主要返回所有匹配的文件路径列表。它只有一个参数 pathname ,定义了文件路径匹配规则,这里可以是绝对路径,也可以是相对路径。
我们可以用 * 匹配零个或者多个字符。
输出目录下的子目录或者文件:
for p1 in glob.glob('/Users/cxhuan/Downloads/globtest/*'):
print(p1)
运行上面代码,会将 globtest 文件夹下仅有的目录输出出来,输出内容如下:
/Users/cxhuan/Downloads/globtest/hello
我们也可以通过制定层级来遍历文件或者文件夹:
for p in glob.glob('/Users/cxhuan/Downloads/globtest/*/*'):
print(p)
上面的代码会遍历 globtest 文件夹以及子文件夹,将所有的文件或文件夹路径打印出来:
/Users/cxhuan/Downloads/globtest/hello/world /Users/cxhuan/Downloads/globtest/hello/hello3.txt /Users/cxhuan/Downloads/globtest/hello/hello2.txt /Users/cxhuan/Downloads/globtest/hello/hello1.txt
我们也可以对文件或者文件夹进行过滤:
for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/*3.txt'):
print(p)
上面代码值匹配 hello 目录下的文件名末尾为 ‘3’ 的 txt 文件,运行结果如下:
/Users/cxhuan/Downloads/globtest/hello/hello3.txt
我们可以用问号(?)匹配任何单个的字符。
for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/hello?.txt'):
print(p)
上面的代码输出 hello 目录下的以 ‘hello’ 开头的 txt 文件,输出结果如下:
/Users/cxhuan/Downloads/globtest/hello/hello3.txt /Users/cxhuan/Downloads/globtest/hello/hello2.txt /Users/cxhuan/Downloads/globtest/hello/hello1.txt
我们可以使用 [] 来匹配一个范围:
for p in glob.glob('/Users/cxhuan/Downloads/globtest/hello/*[0-2].*'):
print(p)
我们想要得到 hello 目录下的文件名结尾数字的范围为 0到2的文件,运行上面代码,获得的输出为:
/Users/cxhuan/Downloads/globtest/hello/hello2.txt /Users/cxhuan/Downloads/globtest/hello/hello1.txt
python 的 glob 方法可以对文件夹下所有文件进行遍历,并返回一个 list 列表。而 iglob 方法一次只获取一个匹配路径。下面是一个简单的例子来说明二者的区别:
p = glob.glob('/Users/cxhuan/Downloads/globtest/hello/hello?.*') print(p) print('----------------------')
p = glob.iglob('/Users/cxhuan/Downloads/globtest/hello/hello?.*') print(p)
运行上面代码,结果返回是:
['/Users/cxhuan/Downloads/globtest/hello/hello3.txt', '/Users/cxhuan/Downloads/globtest/hello/hello2.txt',
'/Users/cxhuan/Downloads/globtest/hello/hello1.txt'] ---------------------- <generator
object _iglob at 0x1040d8ac0>
从上面的结果我们可以很容易看到二者的区别,前者返回的是一个列表,后者返回的是一个可迭代对象。
我们针对这个可迭代对象做一下操作看看:
p = glob.iglob('/Users/cxhuan/Downloads/globtest/hello/hello?.*') print(p.__next__()) print(p.__next__())
运行结果如下:
/Users/cxhuan/Downloads/globtest/hello/hello3.txt /Users/cxhuan/Downloads/globtest/hello/hello2.txt
我们可以看到,针对这个可迭代对象,我们一次可以获取到一个元素。这样做的好处是节省内存,试想如果一个路径下有大量的文件夹或者文件,我们使用这个迭代对象不用一次性全部获取到内存,而是可以慢慢获取。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10