
字符串长度函数:
length():返回向量元素的个数、矩阵元素的个数、数据框字段数量和列表元素的个数。
nchar(): 返回每一个字符值的字符数
cat()函数可以显示和连接字符串。该函数可以将字符值合并,并直接打印在屏幕中, 该函数成为在函数内部打印消息或警告信息的理想函数,而paste()函数和print()函数输出效果不理想。
发现,用print函数和paste函数在屏幕中输出带引号的字符串,总觉得有点别扭。
cat()函数中使用'\n'参数为换行符,确保改行的完整信息。'\t'为4字节的空格
cat()函数的参数fill可用于输出字符串中自动插入换行符,如果fill设置为TRUE,则系统的width值将被用来确定行宽, 如果fill参数为一个给定的数值,则输出结果的宽度将使用该值。
cat()函数中有一个参数为file,该参数允许输出结果指定到一个文件中。
paste()函数可以无限量的连接字符串,当把一个 字符向量 传递给paste()函数时,通常使用 collapse=参数 ,因为sep=参数对输入的向量不起作用
substring()或substr()函数获取字符串的子串,first(start)和last(stop)参数可以是一个数值,也可以是一个向量。
在应用中强烈建议使用substring()函数,该函数更为稳定
为了找到字符串中一个特定字符的位置,首先需要将字符串转换为字符向量(可以向substr函数的first和last参数传递向量来完成),然后通过which函数确定某个字符的位置。
正则表达式是一种表达字符值模式的方法,可以被用来提取字符串的一部分或以某种方式修改这些字符串。这里主要讲解R中常用的6个正则表达式函数(split,grep,regexpr,gregexpr,sub,gsub)
strsplit()函数可以使用字符串或正则表达式将字符串划分为更小的段,该函数的第一个参数是要拆分的字符串,第二个参数是用来将字符串分解成多个部分的字符值或正则表达式。该函数将分解后的子段返回到列表中。
语法如下:
strsplit(x, split, fixed = FALSE, perl = FALSE, useBytes = FALSE)
应用:
发现,parts1中会单独把空格当做值列出来。
个人觉得这个方法还是繁琐了点,还请各位看官提出更方便简洁的方法~谢谢啦。
strsplit()函数还可以接受正则表达式来决定在哪里拆分字符串,例如,一个字符串中含有多个空格,当使用空格作为拆分符时,就可能返回多余的空字符串。
grep()函数接受一个正则表达式和一个字符串或字符串向量,并返回由正则表达式匹配的字符串元素的索引。 如果参数value=TRUE,则它将返回与正则表达式匹配的实际字符串而不是其索引号。
语法如下:其中x必须为字符向量
grep(pattern, x, ignore.case = FALSE, perl = FALSE, value = FALSE,fixed = FALSE, useBytes = FALSE, invert = FALSE)
应用:该函数的一个重要用途是依据名称从一个数据框中提取一组变量
如在LifeCycleSavings数据框中,存在两个变量,都是以'pop'开头,我们可以使用grep函数找到这两个变量
返回以某个字符开头或某个字符结尾的字符串
要查找的正则表达式不考虑输入的大小写时,可以使用ignor.case=TRUE
很显然第二个字符'work doggedly'就不是我们所期望的结果,为解决该问题,可以使用 转义尖括号(\\<dog\\>) 限制字符串被空格、标点符号或起始行或结束行包围情况下的匹配。
如果传递给grep的正则表达式与其任何输入都不匹配,grep将返回一个空的数值型向量, 换句话说,该函数可以用来测试一个正则表达式是否存在。
regexpr()和gregexpr()函数可用于准确指出和提取字符串中与正则表达式相匹配的部分,这两个函数的输出为一个向量和列表,由所发现的正则表达式的起始点组成;如果没有匹配发生,返回值为-1,此外,match.length属性与起始点向量结合, 提供字符匹配的准确信息。regexpr函数只提供其输入字符串中第一个匹配的有关信息,而gregexpr函数返回所有匹配的信息。
语法如下:
regexpr(pattern, text, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
gregexpr(pattern, text, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
应用:
提取出匹配的字符
在这里使用另一个处理输出的函数mapply,该函数的第一个参数为函数, 接受多个参数,其余参数是长度相同的向量,其元素将逐一传递到函数中。
sub()和gsub()函数是基于正则表达式的文字替换,它们均接受正则表达式的输入参数。
sub()函数只改变第一次出现的正则表达式,而gsub()函数可以替换所有满足正则表达式的字符。
这两个函数的一个重要用途涉及到数值型数据中,这些数据从网页或财务报表中读入,并可能包含逗号或美元符号。
语法:
sub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,
fixed = FALSE, useBytes = FALSE)
gsub(pattern, replacement, x, ignore.case = FALSE, perl = FALSE,fixed = FALSE, useBytes = FALSE)
应用:
大致正则表达式的语法和案例就介绍到这里,接下来对正则表达式做一些总结性的工作 (参考《R语言数据操作》这本书):
1、反斜杠\字符用在正则表达式中,表示正则表达式中某些具体特殊含义的字符应该作为普通的字符来对待。在R中,当遇到特殊字符时(\t,\n等)需要输入两个反斜杠。
2、正则表达式由3个部分组成:
a、原意符,它是由一个单一的字符匹配
b、字符类,它可以与许多字符值的任何一个相匹配
c、修正符,对原意符和字符类进行操作
3、由于许多表点符号是正则表达式的修正符,必须始终加一个反斜杠保留其原意:
. ^ $ + ? * ( ) [ ] { } | \
4、要形成一个字符类,使用方括号[]把需要匹配的字符括起来。如需要创建一个由a,b或3组成的字符类,可用[ab3]表示。破折号可用在字符类内部来表示值域[a-z],[A-Z],[0-9]
5、如果在R中输入一个正则表达式,是使用双引号的字符串,就需要双反斜杠,如果使用readline输入表达式,只需要一个反斜杠。
6、R中正则表达式的修正符:
修正符 含义
^ 定位表达式,目标开始
$ 定位表达式,目标结束
. 匹配换行符以外的任何单个字符
| 分割不同的模式
( ) 将相同模式放在一起
* 匹配前面的实体出现0次或更多次
? 匹配前面的实体出现0次或1次
+ 匹配前面的实体出现1次或更多次
{n} 匹配前面的实体精确地出现n次
{n,} 匹配前面的实体至少出现n次
{n.m} 匹配出现次数在n和m次之间
总结:常用的字符串函数
length()
nchar()
cat()
paste()
substring()
strsplit()
grep()
regexpr()
gregexpr()
sub()
gsub()
数据分析咨询请扫描二维码
若不方便扫码,搜微信号:CDAshujufenxi
2025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-06-052025 年,数据如同数字时代的 DNA,编码着人类社会的未来图景,驱动着商业时代的运转。从全球互联网用户每天产生的2.5亿TB数据, ...
2025-05-27CDA数据分析师证书考试体系(更新于2025年05月22日)
2025-05-26解码数据基因:从数字敏感度到逻辑思维 每当看到超市货架上商品的排列变化,你是否会联想到背后的销售数据波动?三年前在零售行 ...
2025-05-23在本文中,我们将探讨 AI 为何能够加速数据分析、如何在每个步骤中实现数据分析自动化以及使用哪些工具。 数据分析中的AI是什么 ...
2025-05-20当数据遇见人生:我的第一个分析项目 记得三年前接手第一个数据分析项目时,我面对Excel里密密麻麻的销售数据手足无措。那些跳动 ...
2025-05-20在数字化运营的时代,企业每天都在产生海量数据:用户点击行为、商品销售记录、广告投放反馈…… 这些数据就像散落的拼图,而相 ...
2025-05-19在当今数字化营销时代,小红书作为国内领先的社交电商平台,其销售数据蕴含着巨大的商业价值。通过对小红书销售数据的深入分析, ...
2025-05-16Excel作为最常用的数据分析工具,有没有什么工具可以帮助我们快速地使用excel表格,只要轻松几步甚至输入几项指令就能搞定呢? ...
2025-05-15数据,如同无形的燃料,驱动着现代社会的运转。从全球互联网用户每天产生的2.5亿TB数据,到制造业的传感器、金融交易 ...
2025-05-15大数据是什么_数据分析师培训 其实,现在的大数据指的并不仅仅是海量数据,更准确而言是对大数据分析的方法。传统的数 ...
2025-05-14CDA持证人简介: 万木,CDA L1持证人,某电商中厂BI工程师 ,5年数据经验1年BI内训师,高级数据分析师,拥有丰富的行业经验。 ...
2025-05-13CDA持证人简介: 王明月 ,CDA 数据分析师二级持证人,2年数据产品工作经验,管理学博士在读。 学习入口:https://edu.cda.cn/g ...
2025-05-12CDA持证人简介: 杨贞玺 ,CDA一级持证人,郑州大学情报学硕士研究生,某上市公司数据分析师。 学习入口:https://edu.cda.cn/g ...
2025-05-09CDA持证人简介 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度、美团、阿里等 ...
2025-05-07相信很多做数据分析的小伙伴,都接到过一些高阶的数据分析需求,实现的过程需要用到一些数据获取,数据清洗转换,建模方法等,这 ...
2025-05-06以下的文章内容来源于刘静老师的专栏,如果您想阅读专栏《10大业务分析模型突破业务瓶颈》,点击下方链接 https://edu.cda.cn/g ...
2025-04-30CDA持证人简介: 邱立峰 CDA 数据分析师二级持证人,数字化转型专家,数据治理专家,高级数据分析师,拥有丰富的行业经验。 ...
2025-04-29CDA持证人简介: 程靖 CDA会员大咖,畅销书《小白学产品》作者,13年顶级互联网公司产品经理相关经验,曾在百度,美团,阿里等 ...
2025-04-28CDA持证人简介: 居瑜 ,CDA一级持证人国企财务经理,13年财务管理运营经验,在数据分析就业和实践经验方面有着丰富的积累和经 ...
2025-04-27