京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者 | A字头
来源 | 数据札记倌
有些朋友在工作中会有这样的困惑:明明我从早忙到晚,为什么得到的评价还不高?
要知道,企业对一个员工的评价是出于“产出”而非“付出”。所以,如果把大量时间花在机械重复的工作上,不但工作效率不高,对个人发展来说也无甚帮助。
而这些工作,如果对于会点编程的人来说,往往通过几行代码就可以快速搞定了。
于是,我去了解了一下身边不同岗位(HR、产品、运营、市场、数据分析师等)每天需要面对的重复性劳动(肯定会有不全,欢迎补充~),总结了一些在工作中非常常见的例子,并且将源码整理好供参考。希望这些程序可以让你的工作更高效!(升职加薪了别忘了回来发红包哦~)
那么如何将这些统统实现呢?
我将这些分为以下几类,大家可以自行评估,各取所需:
系统录入自动化
由于你经常需要不断的将一些信息录入系统,每一次录入的过程中你可能需要不断的点击一些按钮,面对这种情况,完全可以写一个自动脚本,每次代替你来执行这些点击的行为。
这里我们需要用到splinter:
pip install splinter
这里写了一个自动登录邮箱的脚本,可以实现文本输入和网页点击:
#coding=utf-8
import time
from splinter import Browser
def splinter(url):
browser = Browser()
#login 126 email websize
browser.visit(url)
#wait web element loading
time.sleep(5)
#fill in account and password
browser.find_by_id('idInput').fill('xxxxxx')
browser.find_by_id('pwdInput').fill('xxxxx')
#click the button of login
browser.find_by_id('loginBtn').click()
time.sleep(8)
#close the window of brower
browser.quit()
if __name__ == '__main__':
websize = 'https://mail.163.com/'
splinter(websize)
同理可以写一个简单的游戏挂机脚本,游戏挂机脚本,无非就是自动移动鼠标,自动点击,进行重复操作,所以,第一步就是如何控制鼠标。
import win32api import time def move_click(x, y, t=0): # 移动鼠标并点击左键 win32api.SetCursorPos((x, y)) # 设置鼠标位置(x, y) win32api.mouse_event(win32con.MOUSEEVENTF_LEFTDOWN | win32con.MOUSEEVENTF_LEFTUP, x, y, 0, 0) # 点击鼠标左键 if t == 0: time.sleep(random.random()*2+1) # sleep一下 else: time.sleep(t) return 0 # 测试 move_click(30, 30) def resolution(): # 获取屏幕分辨率 return win32api.GetSystemMetrics(0), win32api.GetSystemMetrics(1)
值得注意的是,一定要在管理员权限下的cmd中运行,否则点击无效。
这个时候,你已经可以写个循环,不停地点击屏幕上不同的几个点,最基础的挂机脚本就实现了。
Excel自动化处理
Excel合并
在实际应用中可能会有不同月份的数据或者不同周的报告等等的Excel数据,都是单个独立的文件,如果想要整体使用的话就需要合并一下,那么如何利用python把指定目录下的所有Excel数据合并成一个文件呢?
思路:利用python xlrd包读取excle文件,然后将文件内容存入一个列表中,再利用xlsxwriter将内容写入到一个新的excel文件中。
# -*- coding: utf-8 -*- #将多个Excel文件合并成一个 import xlrd import xlsxwriter #获取excel中所有的sheet表 def getsheet(fh): return fh.sheets() #获取sheet表的行数 def getnrows(fh,sheet): table=fh.sheets()[sheet] return table.nrows #读取文件内容并返回行内容 def getFilect(file,shnum): fh=open_xls(file) table=fh.sheets()[shnum] num=table.nrows for row in range(num): rdata=table.row_values(row) datavalue.append(rdata) return datavalue
或者直接用concat+一个循环来实现:
for i in var_list: df_0 = data[['var_1','var_2','var_3','var_4',i]][data[i]=='信息'] df_0['month'] = date_replace(i) df_0 = df_0[['var_1','var_2','var_3','var_4','var_5']] li.append(df_0) writer = pd.ExcelWriter(r'C:\Users\mapping.xlsx') df = pd.concat(li) df.to_excel(writer,'Sheet1',index=False,header = None) df
Excel中添加数据图表整理好excel文件后下一步需要做的是处理文件里的数据,根据数据来生成一些自己需要的图表:
import xlsxwriter
#设置一个例子
data = [20, 45, 26, 18, 45]
#创建表格
workbook = xlsxwriter.Workbook("temp.xlsx")
worksheet = workbook.add_worksheet("data")
#添加数据
worksheet.write_column('A1', data)
#创建图表
chart = workbook.add_chart({'type': 'line'})
#图表添加数据
chart.add_series({
'values': '=data!$A1:$A6',
'name': '图表名称',
'marker': {
'type': 'circle',
'size': 8,
'border': {'color': 'black'},
'fill': {'color': 'red'}
} ,
'data_labels': {'values': True},
'trendline': {
'type': 'polynomial',
'order': 2,
'name': '趋势线',
'forward': 0.5,
'backward': 0.5,
'display_equation':True,
'line': {'color': 'red', 'width':1, 'dash_type': 'long_dash'}
}
})
worksheet.insert_chart('c1', chart)
workbook.close()
实现效果:
word关键信息提取
假设你收到1万份简历,你想先根据学校做一些筛选,这时候利用python将大量的简历进行信息汇总,只提取关键信息用excel查看起来更加方便。
docx文件自己本身是压缩文件,打开压缩包之后竟然发现里面有个专门存储word里面文本的文件。 那么步骤就变得简单了:1. 打开docx的压缩包2. 获取word里面的正文信息3. 利用正则表达式匹配出我们想要的信息4. 将信息存储到txt中(txt可以用excel打开)5. 批量调用上述过程,完成一万份简历的提取工作利用正则匹配获取关键信息:
import re def get_field_value(text): value_list = [] m = re.findall(r"姓 名(.*?)性 别", table) value_list.append(m) m = re.findall(r"性 别(.*?)学 历", table) value_list.append(m) m = re.findall(r"民 族(.*?)健康状况", table) value_list.append(m) ''' 此处省略其他字段匹配 ''' return value_list
自动化运营监控
在平时的工作中,一定会有对运营情况的监控,假设你管理一家店铺,那么一些关键指标肯定是你需要每天查看到的,比如店铺访问数,商品浏览数,下单数等等,这个时候不用每天重复地去统计这些数据,这需要写一个自动化程序,每天将数据保存在固定的文件夹下就可以实现报表的实时监控。
如果你的数据来源是线下文件:
from impala.dbapi import connect from impala.util import as_pandas import datetime conn = connect(host='host',port=21050,auth_mechanism='PLAIN',user='user',password='password') #host:数据库域名 #user:数据库用户名 #password:数据库密码 df_data = pd.read_excel('temp.xlsx') rows =[] for index, row in df_data.iterrows(): rows.append('('+'"'+str(row['case_id']).replace('nan','null')+'"'+','+'"'+str(row['birth_date'])+'"'+')'+',') a= ''' INSERT into table (case_id, birth_date) values ''' for i in rows: a += i a = a[:-1] cursor1 = conn.cursor() cursor1.execute(a) cursor1.close() conn.close() print('成功导入数据至数据库...') del a del rows
如果你的数据来源是线上文件(存在数据库)
import sql #sql是封装的sql文件
sql_end = sql.sql_end
cursor1 = conn.cursor()
for i in sql_end.split(';'):
print(i)
cursor1.execute(i)
cursor1.close()
conn.close()
print('程序运行结束,请执行下一步。')
自动发送邮件
使用Python实现自动化邮件发送,可以让你摆脱繁琐的重复性业务,节省非常多的时间。数据分析师经常会遇到一些取数需求,有些数据需求是每天都需要的,有些数据需求是每周一次的。对于这些周期性的数据需求,每次都重复性地手动导出这些数据,并回传给需求方,是很繁琐且浪费时间的。所以完全可以设置自动邮件来解决。"Talk is cheap, show you the code"常见的邮件肯定有三部分:1、正文2、图片3、附件OK导入我们需要用到的包
from email.mime.text import MIMEText from email.mime.multipart import MIMEMultipart from email.mime.image import MIMEImage import smtplib msg = MIMEMultipart()
在邮件中插入正文:
##在邮件中插入文本信息 df_text='''<html> <body> <p> Hi all ,</p> <p> 这是一个测试邮件,详情请参考附件 </p> <p> 情况如下图: </p> </body></html>''' msgtext = MIMEText(df_text, 'html', 'utf-8') msg.attach(msgtext)
如果你需要插入图片,利用同样的方法,在邮件中插入图片:
##在邮件中插入图片信息
image = open('temp.jpg','rb')
msgimage = MIMEImage(image.read())
msg.attach(msgimage)
在邮件中插入附件:
##在邮件添加附件
msgfile = MIMEText(open('temp.xlsx', 'rb').read(), 'base64', 'utf-8')
msgfile["Content-Disposition"] = 'attachment; filename="temp.xlsx"'
msg.attach(msgfile)
剩下的就是设置一些邮件参数来发送邮件:
#设置邮件信息常量 email_host= '' # 服务器地址 sender = '' # 发件人 password ='' # 密码,如果是授权码就填授权码 receiver = '' # 收件人
发送邮件:
try:
smtp = smtplib.SMTP(host=email_host)
smtp.connect(email_host)
smtp.starttls()
smtp.login(sender, password)
smtp.sendmail(sender, receiver.split(',') , msg.as_string())
smtp.quit()
print('发送成功')
except Exception:
print('发送失败')
然后将你的任务设置定时执行就可以轻松实现啦
实现效果:
平时的工作中,真的有太多可以去自动化的任务,由于经验受限这里不能一一举例说明,只能尽量分享一些我遇到过或者听说过的例子。希望大家都越来越高效,边偷懒边完成工作~
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
在数据统计分析、数据清洗、异常值识别与数据分布研究中,箱型图是最直观、高效、专业的可视化分析工具。相较于柱状图、折线图仅 ...
2026-05-29Tkinter是Python内置的标准GUI图形界面库,具备无需额外安装、调用简单、兼容性强、轻量化高效等优势,是Python快速开发桌面小程 ...
2026-05-29 很多分析师在设计标签时思路清晰,但真到落地环节却面临“数据在手,不知如何转化为可用标签”的困境:或因加工方式选择不当 ...
2026-05-29【核心关键词】大数据、经理、专业、金融、客户、传统、建模、数据产品、互联网金融、产品经理、数据分析、金融行业、数据模型 ...
2026-05-28 很多分析师每天和数据打交道,但当被问到“标签是什么”“标签和指标有什么区别”“标签体系如何设计”时,却常常答不上来。 ...
2026-05-28随着大数据技术的快速普及,各行各业积累了海量的用户数据、交易数据、生产数据与行为数据。单纯的数据统计与报表分析只能呈现表 ...
2026-05-28在Python网络请求、接口测试、数据爬取、业务对接开发中,Requests库是最简洁、最高效的HTTP请求工具,凭借简洁的语法、完善的适 ...
2026-05-272025 年,零售与服务行业的竞争已从 “经验驱动” 全面转向 “数据驱动”。中小企业门店普遍面临数据零散、分析浅层、决策凭感觉 ...
2026-05-27 很多数据分析师每天都在写SQL,但当被问到“数据查询语言(DQL)的本质是什么”“SELECT语句中各子句的书写顺序与实际执行顺 ...
2026-05-27在统计学分析、实验研究、业务数据复盘过程中,单因素方差分析是检验自变量对因变量是否存在显著影响的核心方法。其中,两个水平 ...
2026-05-26【核心关键词】算法、客户、大数据、互联网、调优、建模、模型优化、机器学习、评分卡模型、模型开发、智能风控、业务场景、数 ...
2026-05-26 很多数据分析师写过无数个 SELECT,但当被问到“新建一张表,该如何定义字段类型来保证数据质量”“创建视图和存储物理表有 ...
2026-05-26在数据清洗、统计分析与数据质量检测工作中,箱型图(又称箱线图、Box Plot)是最直观、最高效的可视化分析工具之一。相较于柱状 ...
2026-05-25在大数据分析、数据清洗、质量管控、风险监测等领域,异常数据识别是保障数据质量、确保分析结论精准、规避业务决策失误的核心基 ...
2026-05-25 很多数据分析师精通Excel函数和透视表,但当被问到“数据从哪里来”“表和视图有什么区别”“数据库管理系统和SQL是什么关系 ...
2026-05-25数字化经营时代,企业的市场竞争早已从经验决策转向数据决策。门店营收、用户转化、产品销量、成本损耗、存量资产等所有经营行为 ...
2026-05-22在MySQL数据库日常运维、业务数据校验、数据迁移与数据清洗场景中,自增主键ID的连续性校验是一项基础且关键的工作。MySQL的Auto ...
2026-05-22 很多企业团队并非缺乏指标,而是陷入“指标失控”:仪表盘上堆满实时跳动的数据,却无法回答“当前瓶颈在哪、下一步该做什么 ...
2026-05-22【核心关键词】大数据、可视化、存储、架构、客户、离线、产品、同步、实时、数据仓库、数据分析、数据可视化、存储数据、离线 ...
2026-05-21在电商流量红利消退、公域获客成本持续走高的当下,存量用户深度挖掘已成为店铺增收增效的核心抓手。相较于付费投放获取的陌生新 ...
2026-05-21