如何将4字节utf-8的emoji表情转换为unicode字符编码

作者&投稿：琴戚（若有异议请与网页底部的电邮联系）

如何处理emoji等4字节的Unicode字符~

　　1.
Unicode是什么
Unicode（中文：万国码、国际码、统一码、单一码）是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。
简单说来，就是把世界上所有语言的字，加上所有能找到的符号（如高音谱号、麻将、emoji）用同一套编码表示出来。

2.
UTF-8是什么
UTF-8（8-bit Unicode Transformation
Format）是一种针对Unicode的可变长度字符编码。可变长度的意思在于，如果能使用1字节编码，UTF-8绝对不会使用2字节去表示。举个例子，UTF-8的1字节部分和ASCII码是相同的。所以表示'A'这个字符的时候，UTF-8与ASCII码不仅编码相同，而且都是只使用1字节。

3.
Character Set和Collation是什么
Character
Set是一套符号以及编码。Collation是character set的排序方法。在中文版的MySQL中，character
set被翻译为“字符集”，collation被翻译为“整理”。
举个例子，UTF-8是character
set，utf8_unicode_ci和utf8mb4_unicode_ci就是collation。
Collation的作用主要有二：字符排序与查找字符。
字符排序的作用是显而易见的，不过还是要用几个例子加以说明。比如要比较a和b的大小，因为在26个英文字母里面，a在b前，所以在编码的时候，也把a放在b前面。这样就产生了第一种排序方式，通过字符编码的大小来排序。而在中文里面，“年”和“日”的排序，除了按照字符编码大小，还可以有另外一些标准。比如可以按照笔画序，“年”的第一笔是丿，“日”的第一笔是丨，而丨是排在丿前的，所以就将“日”排在前面；也可以按拼音序，“年”是n开头，“日”是r开头，于是把“年”排在前面。除此以外，还可以定义部首序、笔画数序等等，而不同的排序方法会有不同的结果。英文也有大小写敏感与不敏感的排序方式。种种不同的排序方式，就形成了不同的collations。
Collation的第二个作用则是查找字符是否在一个字符集里面。既然是一个有序的集合，则可以快速地通过一个编码值确定一个字符是否在集合内。这个特性是我们在不知不觉中使用的。比如使用中文输入法，就是通过输入法找到一个编码，通过collation把它查找出来的。

4.
Unicode再深入：Plane和中日韩越统一表意文字

　　utf8_unicode_ci和utf8mb4_unicode_ci这两个collations都是基于UTF-8编码的，但排序方面或多或少会有差别。可是更大的差别是它查找字符的集合。这需要提到一个Unicode的概念：Plane。
　　4.1.
Plane
Plane中文译作“Unicode平面字符映射”，不过我们还是叫它plane好啦。目前的Unicode字符分为17个planes，而每个plane拥有65536（即2^16）个代码点。可以认为一个plane就是一个范围的编码。
Plane
0也叫做BMP（Basic Multilingual Plane，基本多文种平面），存放着世界上各种语言与标记中最常用的字符。
Plane
1也叫做SMP（Supplementary Multilingual
Plane，多文种补充平面），放着表情符号（emoji）、字母与数学符号、音乐符号、太玄经（太极符号）、装饰符号、扑克牌、麻将符号、箭头扩展和一些世界上各种语言不太常用的文字等等。

　　Plane 2也叫做SIP（Supplementary Ideographic
Plane，表意文字补充平面），用于存放统一汉字（见4.2）的一些罕用字与汉藏语系其他语言的用字（如粤语用字）。
　　4.2.
统一汉字的分布
对于统一汉字（中日韩越统一表意文字，CJKV Unified
Ideographs）来说，BMP存放着最初的版本（也是最常用字）与扩展A区的汉字。扩展B区到即将到来的扩展E区都放在SIP中。
在这些区中，除了独立字源的字，还有同一个字源或部首不同的变体或写法。比如“户”的第一笔，中国大陆与香港写作“户”，台湾写作“户”，日本则写作“戸”。这些差异也会在Unicode中用三个不同的编码去表示。所以B区到E区有不少此种字体。
举些B区的例子。网络上之前流行的“不会功夫不要艹我”被写成““xx巭嫑莪”，其中“xx”这个字就是在B区。而粤语“x鸡”（阉鸡）、“x完松”（和一个人发生关系后弃之而去）两个词的首字也是在B区。

5.
utf8_unicode_ci和utf8mb4_unicode_ci的异同
这两种collations所对应的字符都是UTF-8编码的一个子集。utf8_unicode_ci最多能找到3个字节的Unicode编码，而utf8mb4_unicode_ci则能找到4个字节的编码。由于调整后的UTF-8编码格式规定最多使用4字节（原来是6字节）编码，所以utf8mb4系列可以说是覆盖了整个Unicode编码。
由于utf8_unicode_ci最多能找到3个字节的编码，意味着它只支持BMP中的字符，对于SMP与SIP以及其他头一字节不为0x00、需要4字节编码的planes来说，utf8_unicode_ci这种collation是无法支持。当使用4字节的字符（如emoji与B区以后的统一汉字）对使用此种collation的字段进行增删查改时，数据库会报一个非法字符的异常。而utf8mb4则没有此问题。由此也看出，utf8mb4_unicode_ci是utf8_unicode_ci的超集。

6.
utf8mb4_unicode_ci的优缺点
utf8mb4系列的Collation在MySQL
5.5以上开始支持。相比起utf8_unicode_ci，它有如下的特性：
1)
在数据表中，对于BMP中的字符（最多使用3字节的字符，最常用的字符），两种collations具有完全相同的存储特性：相同的码值，相同的编码方式，相同的存储长度。不会增加任何的存储开销。
2)
在数据表中，对于其他plains的字符，utf8系列的collation根本不能存储，而utf8mb4系列的collations则可以存储。
3)
在数据表中，对于变长的字段（如VARCHAR2，TEXT），utf8mb4最大可存储的字符可能少于utf8系列的collation。
4)
在索引中，对于文本类型的字段，utf8mb4可索引的字符少于utf8系列的collations。如InnoDB的索引最多使用767字节。如果使用utf8mb4，每一个字符都会预留4字节做索引，而utf8则预留3字节。故此前者是191个字符，后者是255个字符。
5)
由于4)的原因，加上字符集大，utf8mb4的性能可能比utf8系列的collations低。
6)
若升级前的字段做了索引，需要把索引字符限制在191字符或以内。

7. 当前系统用哪个好
在当前的系统，全部都使用utf8_unicode_ci这种collation。但是在存储网页标题时，标题带有SMP或者SIP的字符，如emoji、粤语字，会引发数据库写入异常。于是，就有两种解决方向：
1)
扔掉。
1.1) 扔掉或截断引发异常的字。采取此种方法，需要对每一个标题进行扫描。
1.2)
扔掉整条记录。可以采取扫描法，或者扔掉引发异常的记录。
2) 升级到utf8mb4。会略为降低数据库性能。

7.1.
性能考虑
首先对于写入性能，查找字体的性能损耗由于在写入前字符都已经变成编码，基本可以忽略。对于网络传输的性能，则需要继续查找相关资料继续查证。但初步估计由于目前数据库在本地，故此这部分开销的增长不太明显。
而对于索引的性能，由于网页标题这一字段没有做索引，在可预见的将来也未有此计划，故此没有性能的损耗，也没有升级兼容性的担心。
况且，倘若走扔掉数据的方向，若采取扫描法，则需要付出扫描的开销。若采取扔掉记录法，则会先触发事务回滚，其他记录需要下次重新写入。而且当一批记录写入时有k个记录引发异常，则需要回滚与重试k次，除非使用扫描法预先扫描出这些异常的记录。但这也会引入额外的程序与数据库开销。若不使用事务，则数据库总体写入性能会大为降低。
虽然没有实测过，但从感觉上来定性判断，似乎扔掉记录比升级collation带来的性能退化要大。

7.2.
存储空间考虑
当前的网页标题是使用VARCHAR2存储。对于现在可用的、常见的BMP字符，不会引入额外的存储开销。BMP字符在VARCHAR的类型下不会为每一字符引入额外33%的空间开销。反之，定长的CHAR就会引入这种额外开销。

7.3.
目标数据考虑
网页标题作为以后特征分析的数据源。在分析需求完全没有确定的情况下，我认为扔掉任何数据都是不宜采取的办法，特别是整条记录扔掉更是不推荐。因为现阶段我们没有一套标准去判定何为有效数据、何为无效数据。有可能引发异常的那部分数据确实是没用的数据，也有可能那部分人群更倾向于在我们平台上活跃使用。既然各种可能性都存在，我们主动放弃一部分可能性，似乎不太恰当。

7.4.
API设计与兼容性考虑
由于utf8_unicode_ci与utf8mb4_unicode_ci都是使用UTF-8编码，所以对于JAVA，使用MyBatis生成的代码是一样的，都是使用String类型。这点已经实测过。加上这两种collations在BMP中的编码完全一致，所以使用3字节与4字节的系统，对于BMP中的字符都是完全兼容、正常显示的。而对于3字节的系统，4字节的字符一般会显示成一个方框，或者在一个方框中有几个小数字，不会引发系统异常。

8.
总结
诚然，emoji对分词分析目前来说还没有什么效果，粤语词而且在SIP中也只是其中一部分，也不知道有多少日本动漫或者爱情动作片的网页会遇到这些生僻字，音乐符号也少人用，太极符号也不是每次都出现，一些数学增补的字符与箭头增补图案也不是每个人都会用。这些加起来可能不知够不够全部的千分之一。
但是倘若每一两个小时就会由于字符不能写入，引发数据库的异常。通过上面的分析，我认为增加这种兼容性带来的成本是可以接受的。
故此，我建议使用升级的方法，兼容所有Unicode字符。
　　转载

1. Unicode是什么 Unicode（中文：万国码、国际码、统一码、单一码）是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。简单说来，就是把世界上所有语言的字，

1. Unicode是什么
Unicode（中文：万国码、国际码、统一码、单一码）是计算机科学领域里的一项业界标准。它对世界上大部分的文字系统进行了整理、编码，使得电脑可以用更为简单的方式来呈现和处理文字。
简单说来，就是把世界上所有语言的字，加上所有能找到的符号（如高音谱号、麻将、emoji）用同一套编码表示出来。

2. UTF-8是什么
UTF-8（8-bit Unicode Transformation Format）是一种针对Unicode的可变长度字符编码。可变长度的意思在于，如果能使用1字节编码，UTF-8绝对不会使用2字节去表示。举个例子，UTF-8的1字节部分和ASCII码是相同的。所以表示'A'这个字符的时候，UTF-8与ASCII码不仅编码相同，而且都是只使用1字节。

3. Character Set和Collation是什么
Character Set是一套符号以及编码。Collation是character set的排序方法。在中文版的MySQL中，character set被翻译为“字符集”，collation被翻译为“整理”。
举个例子，UTF-8是character set，utf8_unicode_ci和utf8mb4_unicode_ci就是collation。
Collation的作用主要有二：字符排序与查找字符。
字符排序的作用是显而易见的，不过还是要用几个例子加以说明。比如要比较a和b的大小，因为在26个英文字母里面，a在b前，所以在编码的时候，也把a放在b前面。这样就产生了第一种排序方式，通过字符编码的大小来排序。而在中文里面，“年”和“日”的排序，除了按照字符编码大小，还可以有另外一些标准。比如可以按照笔画序，“年”的第一笔是丿，“日”的第一笔是丨，而丨是排在丿前的，所以就将“日”排在前面；也可以按拼音序，“年”是n开头，“日”是r开头，于是把“年”排在前面。除此以外，还可以定义部首序、笔画数序等等，而不同的排序方法会有不同的结果。英文也有大小写敏感与不敏感的排序方式。种种不同的排序方式，就形成了不同的collations。
Collation的第二个作用则是查找字符是否在一个字符集里面。既然是一个有序的集合，则可以快速地通过一个编码值确定一个字符是否在集合内。这个特性是我们在不知不觉中使用的。比如使用中文输入法，就是通过输入法找到一个编码，通过collation把它查找出来的。

4. Unicode再深入：Plane和中日韩越统一表意文字

utf8_unicode_ci和utf8mb4_unicode_ci这两个collations都是基于UTF-8编码的，但排序方面或多或少会有差别。可是更大的差别是它查找字符的集合。这需要提到一个Unicode的概念：Plane。
4.1. Plane
Plane中文译作“Unicode平面字符映射”，不过我们还是叫它plane好啦。目前的Unicode字符分为17个planes，而每个plane拥有65536（即2^16）个代码点。可以认为一个plane就是一个范围的编码。
Plane 0也叫做BMP（Basic Multilingual Plane，基本多文种平面），存放着世界上各种语言与标记中最常用的字符。
Plane 1也叫做SMP（Supplementary Multilingual Plane，多文种补充平面），放着表情符号（emoji）、字母与数学符号、音乐符号、太玄经（太极符号）、装饰符号、扑克牌、麻将符号、箭头扩展和一些世界上各种语言不太常用的文字等等。

Plane 2也叫做SIP（Supplementary Ideographic Plane，表意文字补充平面），用于存放统一汉字（见4.2）的一些罕用字与汉藏语系其他语言的用字（如粤语用字）。
4.2. 统一汉字的分布
对于统一汉字（中日韩越统一表意文字，CJKV Unified Ideographs）来说，BMP存放着最初的版本（也是最常用字）与扩展A区的汉字。扩展B区到即将到来的扩展E区都放在SIP中。
在这些区中，除了独立字源的字，还有同一个字源或部首不同的变体或写法。比如“户”的第一笔，中国大陆与香港写作“户”，台湾写作“户”，日本则写作“戸”。这些差异也会在Unicode中用三个不同的编码去表示。所以B区到E区有不少此种字体。
举些B区的例子。网络上之前流行的“不会功夫不要艹我”被写成““xx巭嫑莪”，其中“xx”这个字就是在B区。而粤语“x鸡”（阉鸡）、“x完松”（和一个人发生关系后弃之而去）两个词的首字也是在B区。

5. utf8_unicode_ci和utf8mb4_unicode_ci的异同
这两种collations所对应的字符都是UTF-8编码的一个子集。utf8_unicode_ci最多能找到3个字节的Unicode编码，而utf8mb4_unicode_ci则能找到4个字节的编码。由于调整后的UTF-8编码格式规定最多使用4字节（原来是6字节）编码，所以utf8mb4系列可以说是覆盖了整个Unicode编码。
由于utf8_unicode_ci最多能找到3个字节的编码，意味着它只支持BMP中的字符，对于SMP与SIP以及其他头一字节不为0x00、需要4字节编码的planes来说，utf8_unicode_ci这种collation是无法支持。当使用4字节的字符（如emoji与B区以后的统一汉字）对使用此种collation的字段进行增删查改时，数据库会报一个非法字符的异常。而utf8mb4则没有此问题。由此也看出，utf8mb4_unicode_ci是utf8_unicode_ci的超集。

6. utf8mb4_unicode_ci的优缺点
utf8mb4系列的Collation在MySQL 5.5以上开始支持。相比起utf8_unicode_ci，它有如下的特性：
1) 在数据表中，对于BMP中的字符（最多使用3字节的字符，最常用的字符），两种collations具有完全相同的存储特性：相同的码值，相同的编码方式，相同的存储长度。不会增加任何的存储开销。
2) 在数据表中，对于其他plains的字符，utf8系列的collation根本不能存储，而utf8mb4系列的collations则可以存储。
3) 在数据表中，对于变长的字段（如VARCHAR2，TEXT），utf8mb4最大可存储的字符可能少于utf8系列的collation。
4) 在索引中，对于文本类型的字段，utf8mb4可索引的字符少于utf8系列的collations。如InnoDB的索引最多使用767字节。如果使用utf8mb4，每一个字符都会预留4字节做索引，而utf8则预留3字节。故此前者是191个字符，后者是255个字符。
5) 由于4)的原因，加上字符集大，utf8mb4的性能可能比utf8系列的collations低。
6) 若升级前的字段做了索引，需要把索引字符限制在191字符或以内。

7. 当前系统用哪个好
在当前的系统，全部都使用utf8_unicode_ci这种collation。但是在存储网页标题时，标题带有SMP或者SIP的字符，如emoji、粤语字，会引发数据库写入异常。于是，就有两种解决方向：
1) 扔掉。
1.1) 扔掉或截断引发异常的字。采取此种方法，需要对每一个标题进行扫描。
1.2) 扔掉整条记录。可以采取扫描法，或者扔掉引发异常的记录。
2) 升级到utf8mb4。会略为降低数据库性能。

7.1. 性能考虑
首先对于写入性能，查找字体的性能损耗由于在写入前字符都已经变成编码，基本可以忽略。对于网络传输的性能，则需要继续查找相关资料继续查证。但初步估计由于目前数据库在本地，故此这部分开销的增长不太明显。
而对于索引的性能，由于网页标题这一字段没有做索引，在可预见的将来也未有此计划，故此没有性能的损耗，也没有升级兼容性的担心。
况且，倘若走扔掉数据的方向，若采取扫描法，则需要付出扫描的开销。若采取扔掉记录法，则会先触发事务回滚，其他记录需要下次重新写入。而且当一批记录写入时有k个记录引发异常，则需要回滚与重试k次，除非使用扫描法预先扫描出这些异常的记录。但这也会引入额外的程序与数据库开销。若不使用事务，则数据库总体写入性能会大为降低。
虽然没有实测过，但从感觉上来定性判断，似乎扔掉记录比升级collation带来的性能退化要大。

7.2. 存储空间考虑
当前的网页标题是使用VARCHAR2存储。对于现在可用的、常见的BMP字符，不会引入额外的存储开销。BMP字符在VARCHAR的类型下不会为每一字符引入额外33%的空间开销。反之，定长的CHAR就会引入这种额外开销。

7.3. 目标数据考虑
网页标题作为以后特征分析的数据源。在分析需求完全没有确定的情况下，我认为扔掉任何数据都是不宜采取的办法，特别是整条记录扔掉更是不推荐。因为现阶段我们没有一套标准去判定何为有效数据、何为无效数据。有可能引发异常的那部分数据确实是没用的数据，也有可能那部分人群更倾向于在我们平台上活跃使用。既然各种可能性都存在，我们主动放弃一部分可能性，似乎不太恰当。

7.4. API设计与兼容性考虑
由于utf8_unicode_ci与utf8mb4_unicode_ci都是使用UTF-8编码，所以对于JAVA，使用MyBatis生成的代码是一样的，都是使用String类型。这点已经实测过。加上这两种collations在BMP中的编码完全一致，所以使用3字节与4字节的系统，对于BMP中的字符都是完全兼容、正常显示的。而对于3字节的系统，4字节的字符一般会显示成一个方框，或者在一个方框中有几个小数字，不会引发系统异常。

8. 总结
诚然，emoji对分词分析目前来说还没有什么效果，粤语词而且在SIP中也只是其中一部分，也不知道有多少日本动漫或者爱情动作片的网页会遇到这些生僻字，音乐符号也少人用，太极符号也不是每次都出现，一些数学增补的字符与箭头增补图案也不是每个人都会用。这些加起来可能不知够不够全部的千分之一。
但是倘若每一两个小时就会由于字符不能写入，引发数据库的异常。通过上面的分析，我认为增加这种兼容性带来的成本是可以接受的。
故此，我建议使用升级的方法，兼容所有Unicode字符。

整理 MySQL 8.0 文档时发现一个变更：
默认字符集由 latin1 变为 utf8mb4。想起以前整理过字符集转换文档，升级到 MySQL 8.0 后大概率会有字符集转换的需求，在此正好分享一下。
当时的需求背景是：
部分系统使用的字符集是 utf8，但 utf8 最多只能存 3 字节长度的字符，不能存放 4 字节的生僻字或者表情符号，因此打算迁移到 utf8mb4。
迁移方案一1. 准备新的数据库实例，修改以下参数：[mysqld]## Character Settingsinit_connect='SET NAMES utf8mb4'#连接建立时执行设置的语句，对super权限用户无效character-set-server = utf8mb4collation-server = utf8mb4_general_ci#设置服务端校验规则，如果字符串需要区分大小写，设置为utf8mb4_binskip-character-set-client-handshake#忽略应用连接自己设置的字符编码，保持与全局设置一致## Innodb Settingsinnodb_file_format = Barracudainnodb_file_format_max = Barracudainnodb_file_per_table = 1innodb_large_prefix = ON#允许索引的最大字节数为3072（不开启则最大为767字节，对于类似varchar(255)字段的索引会有问题，因为255*4大于767）

2. 停止应用，观察，确认不再有数据写入
可通过 show master status 观察 GTID 或者 binlog position，没有变化则没有写入。
3. 导出数据
先导出表结构：mysqldump -u -p --no-data --default-character-set=utf8mb4 --single-transaction --set-gtid-purged=OFF --databases testdb > /backup/testdb.sql
后导出数据：mysqldump -u -p --no-create-info --master-data=2 --flush-logs --routines --events --triggers --default-character-set=utf8mb4 --single-transaction --set-gtid-purged=OFF --database testdb > /backup/testdata.sql

4. 修改建表语句
修改导出的表结构文件，将表、列定义中的 utf8 改为 utf8mb4
5. 导入数据
先导入表结构：mysql -u -p testdb < /backup/testdb.sql
后导入数据：mysql -u -p testdb < /backup/testdata.sql

6. 建用户
查出旧环境的数据库用户，在新数据库中创建
7. 修改新数据库端口，启动应用进行测试
关闭旧数据库，修改新数据库端口重启，启动应用

由于utf8_unicode_ci与utf8mb4_unicode_ci都是使用UTF-8编码，所以对于JAVA，使用MyBatis生成的代码是一样的，都是使用String类型。这点已经实测过。加上这两种collations在BMP中的编码完全一致，所以使用3字节与4字节的系统，对于BMP中的字符都是完全兼容、正常显示的。而对于3字节的系统，4字节的字符一般会显示成一个方框，或者在一个方框中有几个小数字，不会引发系统异常。

求一段网页代码~图片跑马灯效果
答：css"><style type="text/css">.str_wrap{padding-left: 3em;padding-right: 3em;background: #fefefe;height: 10em;line-height: 2em;font-size: 1.2em;}.str4 .str_item {font-size:0;line-height:0}.str4 img { opacity:0.8;width:640px;height:450px;border:0;}.str4 img:...

LaTeX格式控制符有哪些
答：\begin{CJK*}{UTF8}{hei}正文\end{CJK*}设置字号为4号（ctex用法）\zihao{4} 正文使用此用法必须包含ctex，对于英文此方法同样有效。其中的4代表4号字体，如果是小4号，则为-4。加粗设置 \textbf{正文}斜体设置 \emph{正文}缩进引用ctex后，每段段前自动缩进2个中文字符。如需手动控制缩进，...

用html加css做一个心脏跳动的页面的代码
答：<!DOCTYPE html> <html> <head> <meta charset="UTF-8"> <title>HTML5爱心跳动动画DEMO演示</title> <style> import url(http://fonts.googleapis.com/css?family=Inconsolata:400,700);import url(http://fonts.googleapis.com/css?family=Hammersmith+One);body { background-color: #ccc;}...

倒计时html代码
答：倒计时的html代码：<!DOCTYPE HTML><html><head><meta charset="utf-8"><title>CSS3圆环倒计时-源码搜藏网</title><style>.pie { width:200px; height:200px; background-color:blue; border-radius:100px; position:absolute; }.pie1 { clip:rect(0px,200px,200px,100px); -o-transform...

目前兑换人民币比例最大的货币是什么?
答：ie=utf-8&f=8&rsv_bp=1&rsv_idx=2&tn=baiduhome_pg&wd=英镑兑人民币&rsv_spt=1&rsv_pq=d2f865560000833f&rsv_t=9b7em0ICNN8%2F7Q9d1ZCAuk5CnXrPTOc4iDQNX6cH1v%2F%2F3FDKgaH686y%2BBWBAgS4SIkwC&rsv_enter=1&inputT=3008&rsv_sug3=11&rsv_sug1=11&rsv_sug2=0&rsv_sug4...

vue制作app-如何优雅的使用vue+vux开发app
答：vue能开发原生app吗可以的呢,通过第三方的混合开发工具都可以把这个打包做成APP。如何优雅的使用vue+vux开发app <!DOCTYPE_tml> <html> <head> __<title>vue-vux</title> __<meta_ttp-equiv="Content-Type"_ontent="text/html;_harset=UTF-8"> __ __//_e...

CSS中,P设定为text-indent:2em;但,我想当P img时,P的text-indent能够取消...
答：提问者采纳的完全是错的，你们确定实验过？另外楼下jquery方法略显复杂。更好的办法是，p里的img都负边距2em p img{margin-left: -2em;}这个不要定义全局，只定义到文章内容哪里就可以。负边距不兼容IE6，可以加个相对定位的hack。

关于charset=utf-8和 charset=gb2312编码的不同
答：你这个问题很好解决。你的css表里只要有中文的东西都删除就可以正常显示css样式了。utf-8是不认中文的。楼上的几个都不看什么问题就把概念往上帖了。太不负责了把。里面的中文注释也要删除比如/*这个部分是主体*/

HTML图片鼠标悬停效果设置!
答：charset "utf-8";/*科e互联特效基本框架CSS*/ body, ul, dl, dd, dt, ol, li, p, h1, h2, h3, h4, h5, h6, textarea, form, select, fieldset, table, td, div, input {margin:0;padding:0;-webkit-text-size-adjust: none} h1, h2, h3, h4, h5, h6{font-size:12px;...

jquery 鼠标拖拽div四个边框,可上下左右随意拉伸调节div大小
答：大家可以考虑用下面这段是我从JQuery官网发现的大家去网页链接下这个图片放在images文件夹里图标要用到 <!doctype html><html lang="en"><head><meta charset="utf-8"><meta name="viewport" content="width=device-width, initial-scale=1"><title>jQuery UI Resizable - Default functionality...

生活知识网

如何将4字节utf-8的emoji表情转换为unicode字符编码

相关热门