タイトル : Re: ファイルからエンコードを判定 投稿日 : 2011/07/27(Wed) 08:03 投稿者 : shu
まずはBOM付きかどうか判断、BOM付きならファイルの先頭が UTF-8 : EF BB BF UTF-16 ビッグ エンディアン バイト順 : FE FF UTF-16 リトル エンディアン バイト順 : FF FE UTF-32 ビッグ エンディアン バイト順 : 00 00 FE FF UTF-32 リトル エンディアン バイト順 : FF FE 00 00 で始まります。(MSDNよりコピー) 後は&H80以上のByteが最初に表れる場所を探してそこから何バイトか 取得しEncodingしてみて、判断するとか。正規表現を使うと判断出来るかも。 ファイルがテキストファイルとして完全でなければ(Binaryデータが混在)判断のしようが ありませんので気をつけてください。 |