Java-8正则表达式负数与 R落后

Java-8正则表达式负数与 R落后,第1张

Java-8正则表达式负数与 R落后

实现#1。 该文档是错误的

来源:https
:
//docs.oracle.com/javase/8/docs/api/java/util/regex/Pattern.html

它说:

换行匹配器

…相当于

u000Du000A|[u000Au000Bu000Cu000Du0085u2028u2029]

但是,当我们尝试使用“等效”模式时,它将返回false:

String _R_ = "\R";System.out.println("rn".matches("((?<!"+_R_+")\s)*")); // true// using "equivalent" pattern_R_ = "\u000D\u000A|[\u000A\u000B\u000C\u000D\u0085\u2028\u2029]";System.out.println("rn".matches("((?<!"+_R_+")\s)*")); // false// now make it atomic, as per sln's answer_R_ = "(?>"+_R_+")";System.out.println("rn".matches("((?<!"+_R_+")\s)*")); // true

因此,Javadoc应该 真正 说:

…相当于

(?<!u000Du000A|[u000Au000Bu000Cu000Du0085u2028u2029])

根据Sherman在Oracle
JDK-8176029上
于2017年3月9日更新:

“ api doc没错,实现是错误的(当“ 0x0d + 0x0a + next.match()”失败时,它无法回溯“ 0x0d +
next.match()”)”


实现#2。 向后看不仅向后看

尽管有名称,但向后查找不仅可以向后看,而且可以包含甚至跳过当前位置

考虑以下示例(来自rexegg.com):

"_12_".replaceAll("(?<=_(?=\d{2}_))\d+", "##"); // _##_

“这之所以有趣,有几个原因。首先,我们在回溯中有一个前瞻,即使我们应该向后看,该前瞻也会通过匹配两个数字和下划线来跳过当前位置。这是杂技。”

这对于我们的示例意味着什么

R
,即使我们当前的位置可能是
n
,也不会阻止后退者认识到其
r
后面是
n
,然后将两者绑定为一个原子团,因此拒绝识别其
r
背后的部分。当前位置作为单独的匹配项。

注意:为简单起见,我使用了诸如“我们的当前位置是

n
”之类的术语,但这并不是内部发生的事情的精确表示。



欢迎分享,转载请注明来源:内存溢出

原文地址: http://www.outofmemory.cn/zaji/5623277.html

(0)
打赏 微信扫一扫 微信扫一扫 支付宝扫一扫 支付宝扫一扫
上一篇 2022-12-15
下一篇 2022-12-15

发表评论

登录后才能评论

评论列表(0条)

保存