java如何解析
使用 org.apache.commons.lang3包 StringEscapeUtils.unescapeHtml4(str)方法可以实现转换。
今天遇到了一个网页时繁体的,它的title和meta信息在浏览器中显示正常,但是查看其源码是却是“最新發”这种。
在网上找了半天资料,终于搞明白了。
以在网页中&#开头的是HTML实体,一些字符在 HTML 中是预留的,拥有特殊的含义,比如小于号‘<’用于定义 HTML 标签的开始。如果我们希望浏览器正确地显示这些字符,我们必须在 HTML 源码中插入字符实体。详情请看 [http://baike.baidu.com/view/4757776.htm][http_baike.baidu.com_view_4757776.htm]
如何把汉字转换成HTML实体呢?
其实很简单,汉字的HTML实体由三部分组成,”&#+ASCII+;“ 即可。
例如,把“最新” 转换成“最新”
另附:ASCII编码表在线查询地址: [http://www.weste.net/tools/ASCII.asp][http_www.weste.net_tools_ASCII.asp]
字符实体有三部分:一个和号 (&),一个实体名称,或者 # 和一个实体编号,以及一个分号 (😉。
要在 HTML 文档中显示小于号,我们需要这样写:< 或者 <
使用实体名称而不是实体编号的好处在于,名称相对来说更容易记忆。而这么做的坏处是,并不是所有的浏览器都支持最新的实体名称,然而几乎所有的浏览器对实体编号的支持都很好。
注意:实体对大小写敏感。
最常用的字符实体
显示结果 | 描述 | 实体名称 | 实体编号 |
---|---|---|---|
空格 | |   | |
< | 小于号 | < | < |
> | 大于号 | > | > |
& | 和号 | & | & |
" | 引号 | " | " |
' | 撇号 | ' (IE不支持) | ' |
其他一些常用的字符实体
显示结果 | 描述 | 实体名称 | 实体编号 |
---|---|---|---|
¢ | 分 | ¢ | ¢ |
£ | 镑 | £ | £ |
¥ | 日圆 | ¥ | ¥ |
§ | 节 | § | § |
© | 版权 | © | © |
® | 注册商标 | ® | ® |
× | 乘号 | × | × |
÷ | 除号 | ÷ | ÷ |
评论区