侧边栏壁纸
  • 累计撰写 49 篇文章
  • 累计创建 29 个标签
  • 累计收到 6 条评论

目 录CONTENT

文章目录

网页中&#开头的是什么,java如何解码

JHL&WWZ
2023-08-04 / 0 评论 / 0 点赞 / 619 阅读 / 598 字 / 正在检测是否收录...

java如何解析

使用 org.apache.commons.lang3包 StringEscapeUtils.unescapeHtml4(str)方法可以实现转换。

文章来源:https://www.cnblogs.com/wuxu/p/10788590.html

今天遇到了一个网页时繁体的,它的title和meta信息在浏览器中显示正常,但是查看其源码是却是“最新發”这种。

在网上找了半天资料,终于搞明白了。

以在网页中&#开头的是HTML实体,一些字符在 HTML 中是预留的,拥有特殊的含义,比如小于号‘<’用于定义 HTML 标签的开始。如果我们希望浏览器正确地显示这些字符,我们必须在 HTML 源码中插入字符实体。详情请看 [http://baike.baidu.com/view/4757776.htm][http_baike.baidu.com_view_4757776.htm]

如何把汉字转换成HTML实体呢?

其实很简单,汉字的HTML实体由三部分组成,”&#+ASCII+;“ 即可。

例如,把“最新” 转换成“&#26368;&#26032;”

另附:ASCII编码表在线查询地址: [http://www.weste.net/tools/ASCII.asp][http_www.weste.net_tools_ASCII.asp]

字符实体有三部分:一个和号 (&),一个实体名称,或者 # 和一个实体编号,以及一个分号 (😉。

要在 HTML 文档中显示小于号,我们需要这样写:< 或者 &#60;

使用实体名称而不是实体编号的好处在于,名称相对来说更容易记忆。而这么做的坏处是,并不是所有的浏览器都支持最新的实体名称,然而几乎所有的浏览器对实体编号的支持都很好。

注意:实体对大小写敏感。

最常用的字符实体

显示结果 描述 实体名称 实体编号
  空格 &nbsp; &#160;
< 小于号 &lt; &#60;
> 大于号 &gt; &#62;
& 和号 &amp; &#38;
" 引号 &quot; &#34;
' 撇号  &apos; (IE不支持) &#39;

其他一些常用的字符实体

显示结果 描述 实体名称 实体编号
&cent; &#162;
£ &pound; &#163;
¥ 日圆 &yen; &#165;
§ &sect; &#167;
© 版权 &copy; &#169;
® 注册商标 &reg; &#174;
× 乘号 &times; &#215;
÷ 除号 &divide; &#247;
0

评论区