京公网安备 11010802034615号
经营许可证编号:京B2-20210330
作者|skura
来源|AI开发者
python 就像一件艺术珍藏品!
python 最大的优点之一是它可以广泛地选择模块和包。它们将 python 的功能扩展到许多流行的领域,包括机器学习、数据科学、web 开发、前端等等。其中最好的一个优点是 python 的内置 collections 模块。
在一般意义上,python 中的集合是用于存储数据集合(如 list、dict、tuple 和 set)的容器。这些容器直接构建在 python 中,可以直接调用。collections 模块提供额外的高性能数据类型,这些数据类型可以提高代码的性能。
让我们浏览一下 collections 模块最流行的数据类型以及如何使用它们吧!
1.counter
counter 是 dictionary 对象的一个子类。collections 模块中的 counter()函数接受 iterable,例如 list 或 tuple,并返回计数器字典。字典的键将是 iterable 的唯一元素,每个键的值将是 iterable 中元素的计数。
作为开始,让我们从集合导入计数器数据类型:
from collections import Counter
若要创建计数器对象,请将其分配给变量,这和任何其他对象类是一样的。你唯一想传给它的参数就是你的变量。
lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)
如果我们在对象 print(counter)周围使用一个简单的 print 函数来打印计数器,我们会得到一个看起来有点像字典的东西:
Counter({1: 7, 2: 5, 3: 3})
你可以使用其 key 访问任何计数器项,如下所示。这与从标准 python 字典中提取元素的方法完全相同。
lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)
print(counter[1])
most_common() 函数
到目前为止,计数器对象最有用的函数是 most_common() 函数。当它应用于计数器对象时,它返回 n 个最常见元素及其计数的列表,按从最常见到最少见的顺序排列。
lst = [1, 2, 3, 3, 2, 1, 1, 1, 2, 2, 3, 1, 2, 1, 1]
counter = Counter(lst)
print(counter.most_common(2))
上面的代码打印出以下元组列表:
[(1,7),(2,5)]
每个元组的第一个元素是列表中唯一的项,每个元组的第二个元素是计数。这是一种简单快捷的方法,比如「获取列表中最常见的前 3 个元素及其计数」。
要了解更多有关计数器功能的信息,请查看官方文档。
2.defaultdict
该函数的工作原理与普通的 python 字典完全相同,额外的好处是当你试图访问一个不存在的键时,它不会抛出错误。
相反,它使用默认值初始化 key。默认值是根据创建 DefaultDict 对象时作为参数传递的数据类型自动设置的。以下面的代码为例。
from collections import defaultdict
names_dict = defaultdict(int)
names_dict["Bob"] = 1
names_dict["Katie"] = 2
sara_number = names_dict["Sara"]
print(names_dict)
在上面的示例中,int 作为默认值传递给 defaultdict 对象。接下来,为每个键定义值,为键「bob」和「katie」定义数值。但在最后一行,我们试图访问一个尚未定义的 key,即「sara」。
在普通字典中,这会抛出一个错误。但是使用 defaultdict,一个新的 key 会自动初始化为「sara」,值为 0,对应于我们的 int 数据类型。因此,最后一行打印出一个包含所有 3 个名称和相应值的字典。
defaultdict(<class'int'>,{'bob':1,'katie':2,'sara':0})
如果我们用一个类似于这个名称的列表初始化 defaultdict,那么「sara」将用一个空列表 [] 初始化,代码将输出以下内容:
defaultdict(<class'int'>,{'bob':1,'katie':2,'sara':[]})
要了解更多有关 DefaultDict 功能的信息,请查看官方文档。
3.deque
队列是计算机科学中遵循先进先出(fifo)原则的基本数据结构。简单地说,这意味着添加到队列中的第一个对象也必须是要删除的第一个对象。我们只能在队列前面插入内容,只能从后面删除内容——队列中间不能执行任何操作。collections 库的 deque 实现了该功能的优化版本。该实现的一个关键特性是保持队列大小,即如果将队列的最大大小设置为 10,则 deque 将根据 fifo 原则添加和删除元素,以保持最大大小为 10。这是目前为止 python 中队列的最佳实现。
让我们从下面这个例子开始吧。我们要创建一个 deque 对象,然后用从 1 到 10 的整数初始化它。
from collections import deque
my_queue = deque(maxlen=10)
for i in range(10):
my_queue.append(i+1)
print(my_queue)
在上面的代码中,我们首先初始化了我们的 deque,指定我们希望它始终保持最大的长度 10。其次,我们通过循环将值插入到队列中。请注意,填充队列的功能与使用常规 python 列表完全相同。最后,我们打印出结果。
deque([1, 2, 3, 4, 5, 6, 7, 8, 9, 10], maxlen=10)
因为我们的队列有一个 maxlen=10,并且我们的循环添加了 10 个元素,所以我们的队列包含从 1 到 10 的所有数字。现在让我们看看当我们增加更多的数字时会发生什么。
for i in range(10, 15):
my_queue.append(i+1)
print(my_queue)
上面的代码中,我们向队列中添加了另外 5 个元素,即从 11 到 15 的数字。但是我们的队列只有 maxlen=10,所以它必须删除一些元素。由于队列必须遵循 fifo 原则,因此它会删除插入队列的前 5 个元素,正是按照它们的插入顺序:[1、2、3、4、5]。print 语句的结果如下:
deque([6, 7, 8, 9, 10, 11, 12, 13, 14, 15], maxlen=10)
要了解更多有关 deque 的信息,请查看官方文档。
4.namedtuple
在 python 中创建常规元组时,其元素是通用的和未命名的。这迫使你记住每个元组元素的确切索引。namedtuple 就是这个问题的解决方案。
namedtuple()返回一个元组,该元组中每个位置的名称都是固定的,而 namedtuple 对象的名称是通用的。要使用 namedtuple,首先为它创建一个模板。下面的代码创建一个名为「person」的 namedtuple 模板,该模板具有「name」、「age」和「job」参数。
from collections import namedtuple
Person = namedtuple('Person', 'name age job')
创建模板后,可以使用它创建 namedtuple 对象。让我们为 2 个 person 创建 2 个 namedtuple 并打印出他们的表示。
Person = namedtuple('Person', 'name age job')
Mike = Person(name='Mike', age=30, job='Data Scientist')
Kate = Person(name="Kate", age=28, job='Project Manager')
print(Mike)
print(Kate)
上面的代码非常直截了当——我们用 namedtuple 模板的所有属性初始化一个「person」。上面的打印语句将给出以下结果:
Person(name='Mike', age=30, job='Data Scientist')
Person(name='Kate', age=28, job='Project Manager')
因此,namedtuples 允许更大的易用性、可读性和更容易组织元组对象。
要了解 namedtuple 的更多功能,请查看官方文档。
最后
好了,你学完这些啦!接下来你可以使用 collections 库使用 python 中的高性能数据类型了~如果你渴望更多,别担心!在 python 集合中还有很多东西需要学习,你还需要学习如何最有效地使用它们。
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
【核心关键词】软件、洞察力、大数据、产品、经验、硬件、流量、创新、决策、数据安全、网络安全、数据分析、决策制定、数据挖 ...
2026-06-18在方案选型、效果复盘、产品评估、供应商筛选等各类业务决策场景中,仅凭单一指标下结论往往会陷入 “以偏概全” 的误区。多维度 ...
2026-06-18 很多数据分析师精通Excel单元格操作,但当被问到“表结构数据的基本处理单位是什么”“字段和记录的本质区别”“为什么表结 ...
2026-06-18在数据分析、用户运营与业务增长的工作体系中,漏斗拆解是最基础也最高频的问题定位方法。很多业务场景下,我们只能看到最终的转 ...
2026-06-17在数据库开发、数据清洗与报表统计场景中,数值类型转换为日期是高频刚需操作。业务系统常以 Unix 时间戳、整型日期(如20240617 ...
2026-06-17 数据分析师八成以上的时间在和数据表格打交道,但许多人拿到Excel后习惯性地先算、先分析,结果回头发现漏了一列关键数据, ...
2026-06-17【核心关键词】数据库、电商、知识、产品、数据产品、监管业务、产品经理、业务系统、用户行为分析、用户分析、数据分析、电商 ...
2026-06-16在 Python 动态类型与面向对象的编程体系中,变量定义与类实例化是构建代码逻辑的两大核心基石。变量是数据存储、传递与运算的基 ...
2026-06-16 很多数据分析师每天与Excel打交道,但当被问到“表格结构数据和表结构数据有什么区别”“数据类型误判会引发哪些分析错误” ...
2026-06-16在 MySQL 查询性能优化体系中,索引是降低查询耗时、提升数据库吞吐的核心手段。其中联合索引与覆盖索引是实际开发中最高频的两 ...
2026-06-15在数据仓库建设与商业智能分析体系中,维度建模是应用最广泛的建模方法论,而事实表与维度表是维度建模的两大核心构件,共同构成 ...
2026-06-15 很多数据分析师能熟练计算指标,但当被问到“这家企业的核心业务目标是什么”“如何把模糊的战略目标拆解为可量化的指标”“ ...
2026-06-15在数据分析、业务监控、运营复盘等场景中,列值趋势计算是核心需求之一。无论是分析销售额的月度增长、用户活跃的变化趋势、库存 ...
2026-06-12在数字经济深度渗透的当下,消费者的购买行为已从过去的 “被动接受” 转变为 “主动决策”。流量红利消退、获客成本攀升、用户 ...
2026-06-12CDA三级认证是三个级别中的塔尖,全面考察数据战略、团队领导和复杂项目的综合能力。它所对应的《敏捷数据挖掘》教材,不再局限 ...
2026-06-12在游戏产业的商业逻辑中,付费玩家是支撑游戏生存与发展的核心支柱。行业普遍遵循 “二八定律”:20% 的付费玩家贡献了游戏 80% ...
2026-06-11【核心关键词】企业、定位、传统、产品、互联网、可视化、业务侧、数字化、结构化、数据分析、传统制造业、市场状态、发展空间 ...
2026-06-11 解读《CDA二级教材:量化策略分析(2025)》的全景结构与学习逻辑 ” CDA二级认证是企业招聘数据分析师时最常提及的证书门槛 ...
2026-06-11【核心关键词】药企、可视化、营销、分类、数据分析师、销售数据、业务人员、指导方向、分析报告、营销数据、营销医生 【专访摘 ...
2026-06-10在统计学分析、问卷调研、实验验证、业务复盘等场景中,卡方检验与 T 检验是应用最广泛的两类基础假设检验方法。前者专门处理分 ...
2026-06-10