用python打造一款文件搜索工具，所有功能自己定义！-CDA数据分析师官网

热线电话：13121318867

首页大数据时代用python打造一款文件搜索工具，所有功能自己定义！

用python打造一款文件搜索工具，所有功能自己定义！

2020-09-02

作者：陈熹

来源：早起Python

大家好，又到了python办公自动化系列。在日常的办公中，我们经常会从一堆不同格式的文件(夹)中搜索特定的文件，可能你是凭着记忆去找或是借助软件，但你有想过如何用python实现吗？

扫描路径内的内容

有些时候我们会希望在当前文件夹的成百上千个文件中快速找到需要的文件，如果这个文件夹又包括很多个子文件夹，并不需要程序进去查找而无端耗费资源。这就是典型的「扫描一层搜索」

1. 基于 os.scandir()

需求说明

❝

输出C:\Program Files (x86)路径下名字包含“Windows”的文件夹名称，并统计个数

❞

步骤分析

这是一个非遍历的需求，只需要在目的文件夹内扫描一圈判断即可。用到的方法是os.scandir()，使用如下：

import os
path = ...
for file in os.scandir(path): 
    print(file.name, file.path, file.is_dir())

上面代码最后输出的是给定路径下各内容的名字、绝对路径，并判断其是否是文件夹

需要注意的是os.scandir()只在路径下一级扫描，需求实现的代码如下(代码逻辑很简单，可以自己做相应调整)：

import os
num = 0
for file in os.scandir(r'C:\\Program Files (x86)'):
    if file.is_dir():
        if 'Windows' in file.name:
            print(file.name)
            num += 1
print('含有Windows的文件夹个数为：', num)

2. 基于 os.listdir()

需求说明

输出C:\Program Files (x86)路径下所有可执行文件 (即后缀为 .exe)

步骤分析

依然是非遍历的需求，这里使用os.listdir()，它比os.scandir()简单一些，可直接调用输出名称而非路径。后缀名可以用字符串的切片来判断，但难免失去灵活性。此时建议用字符串方法string.endswith()来判断名称的结尾是否是.exe，代码如下：

import os 
for file in os.listdir(r'C:\\Program Files (x86)'):
    if file.endswith('.exe'):
        print(file)

三、遍历文件夹搜索文件

更多时候我们希望给定一个大概的路径，在这个路径下的所有文件夹里一层一层找，找到特定文件或者符合要求的文件，这里需要遍历文件，有两种主要的方法：

1. 基于 os.walk()

os.walk 遍历后产生三个参数：当前文件夹路径, 包含文件夹名称 [列表形式], 包含文件名称[列表形式]，可以用如下代码完成简单遍历：

import os
for dirpath, dirnames, filenames in os.walk(r'C:\\Program Files (x86)'):
    print(f'打开文件夹{dirpath}')
    if dirnames:
        print(dirnames)
    if filenames:
        print(filenames)
    print('-' * 10)

需求说明

遍历C:\Program Files (x86)找出所有新版Excel文件 (即后缀为.xlsx)

步骤分析

只要理解了os.walk()的工作模式，用endswith()判断后缀即可。最后如果需要获得绝对路径可以把当前文件夹路径和文件名拼接，简单一点用 + 或者字符串格式化，也可以用os模块内的方法

import os
for dirpath, dirnames, filenames in os.walk(r'C:\\Program Files (x86)'):
    if filenames:
        for i in filenames:
            if i.endswith('.xlsx'):
                print(os.path.join(dirpath, i))

2. 基于非 os 方法：glob

glob在之前的推文也反复提到遍历框架：

import glob
for file in glob.glob('**/*', recursive=True): 
    print(file)

**/*的使用表示用通配符指代给定路径下的任何一层，recursive参数允许遍历搜索由于glob可以使用「通配符」，大大拓宽了灵活程度，这里利用 glob 也来完成上面的需求

需求说明

遍历C:\Program Files (x86)找出所有新版Excel文件(即后缀为.xlsx)

import glob
for file in glob.glob('**/*.xlsx', recursive=True): 
    print(file)

可以看到非常简单，在原有代码基础上加上后缀名就能够完成特定类型文件的搜索。如果需要搜索「特定文件」，如遍历C:\Program Files (x86)找到文件practice.txt，「只需要后一个*改成具体名称就行」

import glob
for file in glob.glob('**/practice.txt', recursive=True): 
    print(file)

四、写在最后

通过本文的Python自动化脚本制作过程，我们可以再次体会Python办公自动化的强大！如果对自动化代码和数据感兴趣可以在后台回复自动化获取。

当然本文只是基于几个简单的需求来讲解使用Python来制作搜索文件脚本的主要方法，接下来你可以结合之前的自动化案例或以根据自己的需求添加一些其他的规则或增加新的功能，打造出一款属于你的软件！

最后还是希望大家能够理解Python办公自动化的一个核心就是「批量操作-解放双手」，让复杂的工作自动化！

CDA数据分析师考试相关入口一览（建议收藏）：

▷ 想报名CDA认证考试，点击>>> “CDA报名” 了解CDA考试详情；

▷ 想学习CDA考试教材，点击>>> “CDA教材” 了解CDA考试教材；

▷ 想加入CDA考试题库，点击>>> “CDA题库” 了解CDA考试题库；

▷ 想了解CDA考试含金量，点击>>> “CDA含金量” 了解CDA考试详情；

▷ 想了解CDA院校合作，点击>>> “院校合作” 了解咨询CDA院校合作；

python

数据分析咨询请扫描二维码

若不方便扫码，搜微信号：CDAshujufenxi

上一篇工作再难找，这几类工作也不能干，别入那些没出息的坑！

下一篇学习numpy，看这篇文章就够啦

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

京公网安备 11010802034615号经营许可证编号：京B2-20210330

联系电话：13321103290 (微信同号)

客服在线

立即咨询

客服在线

立即咨询

免密码登录

提交首次登录验证后自动注册

用python打造一款文件搜索工具，所有功能自己定义！

数据分析师考试动态

CDA报考指南

数据分析学习

数据分析师资讯

【CDA干货】SQL计算列值趋势的全场景实现方法与实战 ...

【CDA干货】用户决策链路全解析：从认知到复购的增 ...

CDA 三级《敏捷数据挖掘》教材知识体系全面解读 ...

【CDA干货】付费玩家流失的核心原因与游戏行业长效 ...

CDA持证人专访：蒋少涵谈传统制造业与互联网行业数 ...

学完商业数据分析，开启 CDA 量化策略：从业务思维 ...

CDA持证人专访：赵森淼谈药企数据分析从业体验与转 ...

【CDA干货】卡方检验与T检验结果的标准化解读方法及 ...

以指标为锚，以体系为纲：CDA数据分析师视角下的指 ...

【CDA干货】MySQL查询不包含指定列的实现方法、实操 ...

【CDA干货】Python中content属性的核心特性、实操应 ...

从零基础到数据科学家：CDA三本官方教材全解读 ...

【CDA干货】资金财务领域本体模型与业务领域模型的 ...

【CDA干货】数字经济下企业数据战略的落地实践与案 ...

从“杂乱数据”到“分析资产”：CDA数据分析师视角 ...

CDA持证人专访：刘伟谈金融行业数据分析实践与转岗 ...

【CDA干货】SQL LEFT JOIN查询耗时过长的成因分析与 ...

从“数据描述”到“业务预判”：CDA数据分析师视角 ...

【CDA干货】产品生命周期理论及经典案例应用分析 ...

【CDA干货】数据透视表数据批量对应匹配其他工作表 ...

CDA教育闭环

常见问题

关于我们

CDA数据分析师公众号

CDA考试中心小程序

CDA数据分析师App下载