文章详情页

PHP扩展之文本处理（二）——PCRE正则表达式语法4——Unicode字符属性

浏览：139日期：2022-09-15 18:54:18

自从 PHP 4.4.0 和 5.1.0，三个额外的转义序列在选用 UTF-8模式时用于匹配通用字符类型。他们是：

p{xx}一个有属性 xx 的字符P{xx}一个没有属性 xx 的字符X一个扩展的 Unicode 字符

上面 xx 代表的属性名用于限制 Unicode 通常的类别属性。每个字符都有一个这样的确定的属性，通过两个缩写的字母指定。为了与 perl 兼容，可以在左花括号 { 后面增加 ^ 表示取反。比如： p{^Lu} 就等同于 P{Lu}。

如果通过 p 或 P 仅指定了一个字母，它包含所有以这个字母开头的属性。在这种情况下，花括号的转义序列是可选的。

p{L}pL

指定大小写不敏感匹配对这些转义序列不会产生影响，比如， p{Lu} 始终匹配大写字母。

Unicode 字符集在具体文字中定义。使用文字名可以匹配这些字符集中的一个字符。例如：

p{Greek}P{Han}

不在确定文字中的则被集中到 Common。

X 转义匹配任意数量的 Unicode 字符。 X 等价于 (?>PMpM*)

也就是说，它匹配一个没有 ”mark” 属性的字符，紧接着任意多个由 ”mark” 属性的字符。并将这个序列认为是一个原子组(详见下文)。典型的有 ”mark” 属性的字符是影响到前面的字符的重音符。

用 Unicode 属性来匹配字符并不快，因为 PCRE 需要去搜索一个包含超过 15000 字符的数据结构。这就是为什么在 PCRE中要使用传统的转义序列d、 w 而不使用 Unicode 属性的原因。

PHP

上一条：PHP扩展之文本处理（二）——PCRE正则表达式语法3——转义序列(反斜线)下一条：PHP扩展之文本处理（二）——PCRE正则表达式语法5——锚和句点

相关文章：

1. ASP.NET MVC把数据库中枚举项的数字转换成文字2. Ajax请求超时与网络异常处理图文详解3. PHP数组的分析4. 原生Ajax之全面了解xhr的概念与使用5. asp.net core 中的Jwt(Json Web Token)的使用详解6. Python爬虫爬取全球疫情数据并存储到mysql数据库的步骤7. asp下利用xml打包网站文件8. 使用FormData进行Ajax请求上传文件的实例代码9. PHP设计模式中工厂模式深入详解10. Windows+Apache搭建PHP开发环境

排行榜

					
					Ajax请求超时与网络异常处理图文详解
IntelliJ IDEA导出项目的方法
Javascript如何递归遍历本地文件夹
使用FormData进行Ajax请求上传文件的实例代码
PHP设计模式中工厂模式深入详解
asp下利用xml打包网站文件
PHP Extended CHM 中文手册
ASP.NET MVC把数据库中枚举项的数字转换成文字
原生Ajax之全面了解xhr的概念与使用
asp.net core应用docke部署到centos7的全过程
asp.net core 中的Jwt(Json Web Token)的使用详解
				

热门标签