网页中&#开头的是什么，java如何解码

java如何解析

使用 org.apache.commons.lang3包 StringEscapeUtils.unescapeHtml4(str)方法可以实现转换。

文章来源：https://www.cnblogs.com/wuxu/p/10788590.html

今天遇到了一个网页时繁体的，它的title和meta信息在浏览器中显示正常，但是查看其源码是却是“最新發”这种。

在网上找了半天资料，终于搞明白了。

以在网页中&#开头的是HTML实体，一些字符在 HTML 中是预留的，拥有特殊的含义，比如小于号‘<’用于定义 HTML 标签的开始。如果我们希望浏览器正确地显示这些字符，我们必须在 HTML 源码中插入字符实体。详情请看 [http://baike.baidu.com/view/4757776.htm][http_baike.baidu.com_view_4757776.htm]

如何把汉字转换成HTML实体呢？

其实很简单，汉字的HTML实体由三部分组成，”&#+ASCII+;“ 即可。

例如，把“最新” 转换成“最新”

另附：ASCII编码表在线查询地址： [http://www.weste.net/tools/ASCII.asp][http_www.weste.net_tools_ASCII.asp]

字符实体有三部分：一个和号 (&)，一个实体名称，或者 # 和一个实体编号，以及一个分号 (😉。

要在 HTML 文档中显示小于号，我们需要这样写：< 或者 <

使用实体名称而不是实体编号的好处在于，名称相对来说更容易记忆。而这么做的坏处是，并不是所有的浏览器都支持最新的实体名称，然而几乎所有的浏览器对实体编号的支持都很好。

注意：实体对大小写敏感。

最常用的字符实体

显示结果	描述	实体名称	实体编号
	空格
<	小于号	<	<
>	大于号	>	>
&	和号	&	&
"	引号	"	"
'	撇号	' (IE不支持)	'

其他一些常用的字符实体

显示结果	描述	实体名称	实体编号
￠	分	¢	¢
£	镑	£	£
¥	日圆	¥	¥
§	节	§	§
©	版权	©	©
®	注册商标	®	®
×	乘号	×	×
÷	除号	÷	÷

目录CONTENT

网页中&#开头的是什么，java如何解码

最常用的字符实体

其他一些常用的字符实体

评论区