您的位置:首页技术文章
文章详情页

一文带你搞懂JavaScript中转义字符的使用

浏览:58日期:2022-06-01 15:33:54
目录
  • 字符串中的转义
    • 字母
    • 十六进制数字
    • 八进制数字
    • Unicode码点
  • 正则表达式中的转义
    • HTML中的转义
      • URL转义字符

        说起转义字符,大家最先想到的肯定是使用反斜杠,这也是我们最常见的,很多编程语言都支持。

        转义字符从字面上讲,就是能够转变字符原本的意义,得到新的字符。常用在特殊字符的显示以及特定的编码环境中。

        除了反斜杠以外,在前端开发中,还有其他几种转义字符,也是较常见的,本文将对这些做一个总结。

        字符串中的转义

        使用反斜杠来表示转义字符时,主要是在字符串中使用。这里就需要了解字符集和编码等知识,具体可见前文前端开发中需要搞懂的字符编码。

        字符集就是字符的集合,最常见的 ASCII字符集、Unicode字符集等:

        ASCII的任一个字符都可以被转义,使用的就是反斜杠加上数字编码,特殊的也能使用反斜杠加上字母。

        Unicode,也能进行转义,使用则是反斜杠加上码点。由于Unicode包含了ASCII的所有字符,且编码一致,所以都可算编码转义,而现在前端编程所涉及到的已经都是Unicode字符。

        一般,反斜杠(\)在字符串中有特殊的含义,用来和后面的字符一起组合表示一些特殊字符,所以又被称为转义符。

        反斜杠后面可以跟着的字符大致有以下几种:

        • 字母
        • 三位八进制
        • x 加上 两位十六进制
        • Unicode码点

        字母

        转义字符中最基础的就是:使用反斜杠\加上字母,表示那些无法输入表示特殊含义的字符,常见的有以下几种:

        • \b 后退键
        • \f 换页符
        • \n 换行符
        • \r 回车键
        • \t 制表符
        • \v 垂直制表符

        以前在字符串拼接时,就经常使用\n、\t:

          "\n      " +
          console.log("test") +
          "\n    "

        需要注意的是,这些字母是特殊的可应用于转义的字母。

        如果是非特殊字母,加上反斜杠,则会忽略反斜杠,很多字符也是同样忽略反斜杠:

        "\a" // "a"
        "\"" // """
        "\?" // "?"

        十六进制数字

        十六进制更常用,它的转义规则:\x<hex>\x后跟上2位十六进制数。

        因为只有两位,范围是:0x00-0xFF,所以这种方式也只能输出265种字符,其中:

        • 0x00-0x7F 和ASCII码一致
        • 0x80-0x9F 表示控制字符
        • 0xA0-0xFF 表示文字字符
        "\xA9" // "©"
        "\x75" === "u" // true
        "\x67" // "g"
        

        八进制数字

        反斜杠后面跟3位八进制数(),就代表一个转义字符:

        "\251" // "©"
        "\165" === "u" // true
        "\106" // "F"
        

        取值范围:000-377,总共也是有256种字符,其中就包含了所有的ASCII码。

        八进制和十六进制能转义的字符是一样的,进行进制转换即可,见前文搞懂JavaScript中的进制与进制转换。

        在JS中,用这两种方式的转义字符是相等的:

        "\xA9" === "\251" // true
        "\200" === "\x80" // true
        

        Unicode码点

        提到Unicode,首先需明确的一点,JS中的字符串是基于Unicode的UTF-16编码方式。

        Unicode字符规定了码点和字符平面。

        码点使用从U+0000到U+10FFFF的方位来表示所有的字符。

        如果直接使用码点来转义所有的Unicode字符,则使用规则:\u{<hex>}\u后跟上1-6位的十六进制:

        "\u{A9}" // "©"
        "\u{597d}" // "好"
        "\u{1f604}" // "
        标签: JavaScript