byteordermark:Byte-Order Mark found in UTF-8 File 疯狂代码！

W3Ccss-validator和UTF-8文档BOM冲突

授权方式:署名

非商业用途

保持

致

转载时请务必以超链接(http://www.fwolf.com/blog/post/96)

形式标明文章原始出处和作者信息及本声明

css-validator是W3C提供

个工具

用于检查CSS

有效性

是个不错

工具

同样

还有W3C Markup Validation Service

用于检查html、xhtml等文档

格式有效性

但是在检查

篇文档

时候出现了问题

文档是UTF-8编码

XHTML 1.0 Strict检查已通过

CSS代码采用直接使用“<style type=”text/css”>”写在文档中

方式

在使用css-validator检查

时候出现如下

:

Target: http://www.fwolf.com/tools/ogame_construction_resource_computer.php

Please, validate your XML document first!

Line 1

Column 1

Content is not allowed in prolog.

第

行、第

列？这不是xml 1.0

文档声明么？如何在检查css

时候还用这个？结果

查

可能

原因有两个:

原因

:css-validator架构于Jigsaw——W3C’s Java Server上

而Java或Jsp处理XML文档

时候

无法正确识别UTF-8格式文档

BOM

从而导致

“Content is not allowed in prolog”

原因 2:在这里看到别人在讨论

即然XML 1.0

规范标准中BOM是合理存在

那么相关

XML工具就应该具备识别BOM标记

功能

但css-validator使用

XML
Validator是采用ElCel Technology C

Toolkit编译

而这个东东可能不能完全识别BOM？

在W3C

bugzilla中也有人提交了这个bug

但似乎讨论也是无疾而终

由于Windows平台下

些编辑器

尤其是我使用

Emeditor

在没有BOM

情况下

有时会有些麻烦

所以出于方便维护

目

来讲

我认为BOM还是保留

好

至于css-validator不能识别

问题

就只能期待css-validator进行改进了

目前倒是还可以把css标记粘贴过去进行检查不是？W3C

W3C Markup Validation Service在检查文档

发现文档具有BOM

时候

会出现

个小提示:

Byte-Order Mark found in UTF-8 File.

The Unicode Byte-Order Mark (BOM) in UTF-8 encoded files is known to cause problems for some text editors and older browsers. You may want to consider avoiding its use until it is better supported.

这介绍说明W3C也在改进各类工具对BOM

支持

至于说了半天

什么是BOM？请看谈谈Unicode编码

简要解释UCS、UTF、BMP、BOM等名词这篇文章

还有GonDa’s Blog上

Unicode、BOM也提到了

些

另:css-validator以前都是英文版

现在好像改成了自动识别用户语言

版本了

但是我使用FireFox访问首页居然是乱码－－文档是GB2312编码

却

被识别成了UTF-8编码

总体感觉易用性比W3C Markup Validation Service差远了

尤其是css-validator

中文版

提示有点莫名其妙

还不知道如何才能使用英文版界面

Byte-Order Mark found in UTF-8 File 后面是它

些问题,这样后就是文档不能通过你所指示

dtd文件校验.
他

意思是:在以utf-8编码

文件出现有BOM标记.
其原因是:
你使用ue打开你这个页面

ctrl+h

你会看到头两个字节是比较奇怪

不是正常

ascii码

这是

般

utf-8文件

文件头

用于标示utf-8格式

但很不幸

很多系统并不认这个标记

所以后来似乎utf-8文件有另外

种格式

就是头两个字节不再是特殊标记了

解决思路方法:
用比较新版本

editplus和ultraedit都可以选择保存为无BOM

utf-8格式

如果用notepad保存

似乎

定有那个标记

UTF-8 格式編輯程式網頁注意事項 (BOM

困擾)

什麼是 BOM (Byte-Order Mark)？
--------------------
在

些平台上

是把代表數值較大

放在前面

這稱為 Big Endian (BE)

系統；有些平台則相反

是把代表數值較小

放在前面

稱為 Little Endian (LE)

系統

若採 LE 方式編碼

BOM 會表示為 0xFF 0xFE

而在 Unicode

定義中是不存在 U+FFFE 這個字元

.

若採 BE 方式編碼

BOM 會表示為 0xFE 0xFF

而 U+FEFF 剛好是在 Unicode 中

有效字元

代表

是

個不佔空間

space 符號

所以即使沒被解釋為 BOM

也不會對閱覽者產生錯誤

訊息.
--------------------

如何移除？ (使用 PHP)
引用 http://www.bo-blog.com/index.php?job=art&articleid=a_20040805_214712
-------------------
BOM信息是文件開頭

串隱藏

用於讓某些編輯器識別這是個UTF-8編碼

文件

但PHP在讀取文件時會把這些

讀出

從而形成了文件開頭含有

些無法識別

問題

要檢測

個UTF-8文件是否含有BOM信息

就是檢測文件開頭

字 3個符

是否為0xEF, 0xBB, 0xBF

下方有個小程式

使用者可以搜尋某個目錄下所有文件

並檢測是否加了BOM

//此文件用於快速測試UTF8編碼

文件是不是加了BOM

並可自動移除
//By Bob Shen

$basedir=\".\"; //修改此行為需要檢測

點表示當前目錄

$auto=1; //是否自動移除發現

BOM信息

1為是

0為否

//以下不用改动

($dh = opendir($basedir)) {
while (($file = readdir($dh)) !

false) {

($file!=\'.\' && $file!=\'..\' && !is_dir($basedir.\"/\".$file)) echo \"filename: $file \".checkBOM(\"$basedir/$file\").\"
\";
}
closedir($dh);
}

function checkBOM ($filename) {
global $auto;
$contents=file_get_contents($filename);
$char

[1]=substr($contents, 0, 1);
$char

[2]=substr($contents, 1, 1);
$char

[3]=substr($contents, 2, 1);

(ord($char

[1])

239 && ord($char

[2])

187 && ord($char

[3])

191) {

($auto

1) {
$rest=substr($contents, 3);
rewrite ($filename, $rest);

(\"BOM found, automatically removed.\");
}

{

(\"BOM found.\");
}
}

(\"BOM Not Found.\");
}

function rewrite ($filename, $data) {
$filenum=fopen($filename,\"w\");
flock($filenum,LOCK_EX);
fwrite($filenum,$data);
fclose($filenum);
}
?>
-------------------

2005-11-1 修正

本次測試結果:

1. UltraEdit 10
缺點:商業軟體

優點:完全符合需求

2. EditPlus
缺點:無法移除 BOM 碼

借助其他方式移除的後中文變成亂碼

商業軟體

優點:可自訂程式語法格式、中文化

2.1 EditPlus 2.20
缺點:商業軟體

優點:完全符合需求

3. PSPad editor
缺點:無法移除 BOM 碼
優點:具有 16 進位編輯模式、中文化.....如果不是要移除 BOM 碼

以後我就會改用了

4. Zend Studio Client
缺點:商業軟體、很慢 (測試機器不夠力)

優點:似乎也可以符合需求

不過因為太慢了

沒有仔細測試過

5. Notepad

缺點:無法移除 BOM 碼

優點:具有摺疊層次功能、可自訂程式語法格式、中文化

byteordermark:Byte-Order Mark found in UTF-8 File

W3Ccss-validator和UTF-8文档BOM冲突

延伸阅读

最新评论

发表评论

赞助商广告

随机更新

热门标注

最近更新

最新标注