diff --git a/.gitignore b/.gitignore
index 2f35768..cae7181 100644
--- a/.gitignore
+++ b/.gitignore
@@ -1,4 +1,5 @@
 testing.js
 ignore
 test/data/collation
-test/data/conversion
\ No newline at end of file
+test/data/conversion
+.DS_Store
\ No newline at end of file
diff --git a/README.md b/README.md
index 1588c09..22116b5 100644
--- a/README.md
+++ b/README.md
@@ -1,4 +1,34 @@
-chardet
-=======
 
-chardet
\ No newline at end of file
+chardet - nodejs characted detection module, written in pure Javascript
+======
+
+# Installation
+
+    npm install chardet
+
+# Usage
+
+    var chardet = require('chardet');
+    chardet.detect(new Buffer('hello there!'));
+    // or
+    chardet.detectFile('/path/to/file', function(err, encoding) {});
+    // or
+    chardet.detectFileSync('/path/to/file');
+
+# Supported Encodings:
+
+* UTF-8
+* UTF-16 LE
+* UTF-16 BE
+* UTF-32 LE
+* UTF-32 BE
+* ISO-2022-JP
+* ISO-2022-KR
+* ISO-2022-CN
+* Shift-JIS
+* Big5
+* EUC-JP
+* EUC-KR
+* GB18030
+
+Currently only these encodings are supported, more will be added soon.
\ No newline at end of file
diff --git a/encoding/mbcs.js b/encoding/mbcs.js
index 7742aa2..019c388 100644
--- a/encoding/mbcs.js
+++ b/encoding/mbcs.js
@@ -194,7 +194,7 @@ mbcs.prototype.nextChar = function(iter, det) {};
  */
 module.exports.sjis = function() {
     this.name = function() {
-        return "Shift_JIS";
+        return "Shift-JIS";
     };
     this.language = function() {
         return "ja";
@@ -298,71 +298,65 @@ util.inherits(module.exports.big5, mbcs);
 
 
 /**
- *   EUC charset recognizers.  One abstract class that provides the common function
- *             for getting the next character according to the EUC encoding scheme,
- *             and nested derived classes for EUC_KR, EUC_JP, EUC_CN.
+ *  EUC charset recognizers.  One abstract class that provides the common function
+ *  for getting the next character according to the EUC encoding scheme,
+ *  and nested derived classes for EUC_KR, EUC_JP, EUC_CN.
  *
+ *  Get the next character value for EUC based encodings.
+ *  Character "value" is simply the raw bytes that make up the character
+ *     packed into an int.
  */
-module.exports.euc = function() {
-
-    /*
-     *  Get the next character value for EUC based encodings.
-     *  Character "value" is simply the raw bytes that make up the character
-     *     packed into an int.
-     */
-    this.nextChar = function(iter, det) {
-        it.index = it.nextIndex;
-        iter.error = false;
-        var firstByte  = 0;
-        var secondByte = 0;
-        var thirdByte  = 0;
-        //int fourthByte = 0;
-        buildChar: {
-            firstByte = iter.charValue = iter.nextByte(det);
-            if (firstByte < 0) {
-                // Ran off the end of the input data
-                iter.done = true;
-                break buildChar;
+function eucNextChar(iter, det) {
+    it.index = it.nextIndex;
+    iter.error = false;
+    var firstByte  = 0;
+    var secondByte = 0;
+    var thirdByte  = 0;
+    //int fourthByte = 0;
+    buildChar: {
+        firstByte = iter.charValue = iter.nextByte(det);
+        if (firstByte < 0) {
+            // Ran off the end of the input data
+            iter.done = true;
+            break buildChar;
+        }
+        if (firstByte <= 0x8d) {
+            // single byte char
+            break buildChar;
+        }
+        secondByte = iter.nextByte(det);
+        iter.charValue = (iter.charValue << 8) | secondByte;
+        if (firstByte >= 0xA1 && firstByte <= 0xfe) {
+            // Two byte Char
+            if (secondByte < 0xa1) {
+                iter.error = true;
             }
-            if (firstByte <= 0x8d) {
-                // single byte char
-                break buildChar;
+            break buildChar;
+        }
+        if (firstByte == 0x8e) {
+            // Code Set 2.
+            //   In EUC-JP, total char size is 2 bytes, only one byte of actual char value.
+            //   In EUC-TW, total char size is 4 bytes, three bytes contribute to char value.
+            // We don't know which we've got.
+            // Treat it like EUC-JP.  If the data really was EUC-TW, the following two
+            //   bytes will look like a well formed 2 byte char.
+            if (secondByte < 0xa1) {
+                iter.error = true;
             }
-            secondByte = iter.nextByte(det);
-            iter.charValue = (iter.charValue << 8) | secondByte;
-            if (firstByte >= 0xA1 && firstByte <= 0xfe) {
-                // Two byte Char
-                if (secondByte < 0xa1) {
-                    iter.error = true;
-                }
-                break buildChar;
-            }
-            if (firstByte == 0x8e) {
-                // Code Set 2.
-                //   In EUC-JP, total char size is 2 bytes, only one byte of actual char value.
-                //   In EUC-TW, total char size is 4 bytes, three bytes contribute to char value.
-                // We don't know which we've got.
-                // Treat it like EUC-JP.  If the data really was EUC-TW, the following two
-                //   bytes will look like a well formed 2 byte char.
-                if (secondByte < 0xa1) {
-                    iter.error = true;
-                }
-                break buildChar;
-            }
-            if (firstByte == 0x8f) {
-                // Code set 3.
-                // Three byte total char size, two bytes of actual char value.
-                thirdByte    = iter.nextByte(det);
-                iter.charValue = (iter.charValue << 8) | thirdByte;
-                if (thirdByte < 0xa1) {
-                    iter.error = true;
-                }
+            break buildChar;
+        }
+        if (firstByte == 0x8f) {
+            // Code set 3.
+            // Three byte total char size, two bytes of actual char value.
+            thirdByte    = iter.nextByte(det);
+            iter.charValue = (iter.charValue << 8) | thirdByte;
+            if (thirdByte < 0xa1) {
+                iter.error = true;
             }
         }
-        return (iter.done == false);
-    };
+    }
+    return (iter.done == false);
 };
-util.inherits(module.exports.euc, mbcs);
 
 
 
@@ -393,8 +387,10 @@ module.exports.euc_jp = function() {
         0xa5e5, 0xa5e9, 0xa5ea, 0xa5eb, 0xa5ec, 0xa5ed, 0xa5f3, 0xb8a9, 0xb9d4, 0xbaee,
         0xbbc8, 0xbef0, 0xbfb7, 0xc4ea, 0xc6fc, 0xc7bd, 0xcab8, 0xcaf3, 0xcbdc, 0xcdd1
     ];
+
+    this.nextChar = eucNextChar;
 };
-util.inherits(module.exports.euc_jp, module.exports.euc);
+util.inherits(module.exports.euc_jp, mbcs);
 
 
 
@@ -425,8 +421,10 @@ module.exports.euc_kr = function() {
         0xc0da, 0xc0e5, 0xc0fb, 0xc0fc, 0xc1a4, 0xc1a6, 0xc1b6, 0xc1d6, 0xc1df, 0xc1f6,
         0xc1f8, 0xc4a1, 0xc5cd, 0xc6ae, 0xc7cf, 0xc7d1, 0xc7d2, 0xc7d8, 0xc7e5, 0xc8ad
     ];
+
+    this.nextChar = eucNextChar;
 };
-util.inherits(module.exports.euc_kr, module.exports.euc);
+util.inherits(module.exports.euc_kr, mbcs);
 
 
 
diff --git a/index.js b/index.js
index 563edf5..a343dc8 100644
--- a/index.js
+++ b/index.js
@@ -43,8 +43,7 @@ module.exports.detect = function(buffer) {
         return a.confidence - b.confidence;
     });
 
-    console.log(matches);
-
+    // console.log(matches);
     return matches.length ? matches.pop().name : null;
 };
 
diff --git a/package.json b/package.json
new file mode 100644
index 0000000..bd691ee
--- /dev/null
+++ b/package.json
@@ -0,0 +1,30 @@
+{
+    "name": "chardet",
+    "version": "0.0.3",
+    "homepage": "https://github.com/runk/node-chardet",
+    "description": "Character detector",
+    "keywords": ["encoding", "character", "utf8", "detector"],
+    "author": "Shirokov Dmitry <deadrunk@gmail.com>",
+    "dependencies": {
+
+    },
+    "repository": {
+        "type":"git",
+        "url":"git@github.com:runk/node-chardet.git"
+    },
+    "bugs": {
+        "mail":"deadrunk@gmail.com",
+        "url":"http://github.com/runk/node-chardet/issues"
+    },
+    "scripts": {
+        "test": "mocha -R spec --recursive"
+    },
+    "main": "index.js",
+    "engine": {
+        "node": ">=0.8.0", "npm": "1"
+    },
+    "licences": [{
+        "type":"LGPL2.1",
+        "url": "http://www.gnu.org/licenses/lgpl-2.1.txt"
+    }]
+}
diff --git a/test.js b/test.js
deleted file mode 100644
index e69de29..0000000
diff --git a/test/chardet.js b/test/chardet.js
new file mode 100644
index 0000000..2e1bb16
--- /dev/null
+++ b/test/chardet.js
@@ -0,0 +1,30 @@
+var assert = require('assert'),
+    chardet = require('../'),
+    fs = require('fs');
+
+describe('chardet', function() {
+
+    var path = __dirname + '/data/encodings/utf8';
+
+    describe('#detect', function() {
+        it('should detect encoding', function() {
+            assert.equal(chardet.detect(fs.readFileSync(path)), 'UTF-8');
+        });
+    });
+
+    describe('#detectFile', function() {
+        it('should detect encoding', function(done) {
+            chardet.detectFile(path, function(err, res) {
+                assert.equal(err, null);
+                assert.equal(res, 'UTF-8');
+                done();
+            });
+        });
+    });
+
+    describe('#detectFileSync', function() {
+        it('should detect encoding', function() {
+            assert.equal(chardet.detectFileSync(path), 'UTF-8');
+        });
+    });
+});
\ No newline at end of file
diff --git a/test/data/encodings/big5 b/test/data/encodings/big5
index d0ea2fb..d6089ae 100644
--- a/test/data/encodings/big5
+++ b/test/data/encodings/big5
@@ -1,2 +1,2 @@
-
-±ýª¾§ó¦h«H®§¡A
\ No newline at end of file
+¬F©²¸ê°T¬ì§ÞÁ`ºÊ¿ì¤½«Ç©M¥­µ¥¾÷·|©e­û·|¦X¿ìµL»ÙÃªºô­¶¹Å³\­p¹º¡A§Æ±æ³z¹Lªí¹ü±Ä¥ÎµL»ÙÃªºô­¶³]­pªººô¯¸¡A±À°Ê§ó¦h¥ø·~©M¾÷ºc¦b¨äºô¯¸±Ä¥ÎµL»ÙÃªºô­¶³]­p¡AÅýªÀ·|¦U¶¥¼h¥]¬A´Ý¯e¤H¤h§ó¤è«K¦aÀò¨úºô¤W¸ê°T©M¨Ï¥Îºô¤WªA°È¡CµL»ÙÃªºô­¶¹Å³\­p¹º¹{¼ú¨åÂ§±N©ó2013¦~4¤ë15¤éÁ|¦æ¡A¬°­º¦¸Á|¿ìªº¡u°ê»ÚIT¶×¡vªººë±m¬¡°Ê¤§¤@¡C¦³Ãö¸Ô±¡¡A½ÐÂsÄý³o¸Ì¡C
+¬F©²¤@¦V­P¤O±À°ÊªøªÌ¦b¥Í¬¡¤W§ó¼sªxÀ³¥Î¸ê°T¬ì§Þ¡C¬F©²¸ê°T¬ì§ÞÁ`ºÊ¿ì¤½«Ç¤w¶}®i¤@¶µ¥þ´ä©Ê¹Å³\­p¹º¡u´¼¿ôªøªÌ¹Å³\­p¹º¡v¡Aªí´­¦b¤é±`¥Í¬¡¤¤¿n·¥¨Ï¥Î¸ê°T¤Î³q°T¬ì§ÞªºªøªÌ¡A¥H¹ªÀy¥L­ÌÄ~Äò¨Ï¥Î¸ê°T¤Î³q°T¬ì§Þ¡C¹Å³\­p¹º³]¦³ª÷¡B»È¡B»É¼ú¡AªøªÌ©ó¯S©w´Á¶¡§¹¦¨«ü©w­n¨D¡A¥iÀò¹{ÃØ¹Å³\ÃÒ®Ñ¤Î¼úµP¡C¦³Ãö¸Ô±¡¡A½ÐÂsÄý³o¸Ì¡C
\ No newline at end of file
diff --git a/test/data/encodings/euc_jp b/test/data/encodings/euc_jp
index a883a13..b433417 100644
--- a/test/data/encodings/euc_jp
+++ b/test/data/encodings/euc_jp
@@ -1,13 +1,10 @@
-¥³¥ó¥Ô¥å¡¼¥¿¡¼¤Ï¡¢ËÜ¼ÁÅª¤Ë¤Ï¿ô»ú¤·¤«°·¤¦¤³¤È¤¬¤Ç¤­¤Þ¤»¤ó¡£¥³¥ó¥Ô¥å¡¼¥¿¡¼¤Ï¡¢Ê¸»ú¤äµ­¹æ¤Ê¤É¤Î¤½¤ì¤¾¤ì¤ËÈÖ¹æ¤ò³ä¤ê¿¶¤ë¤³¤È¤Ë¤è¤Ã¤Æ°·¤¨¤ë¤è¤¦¤Ë¤·¤Þ¤¹¡£¥æ¥Ë¥³¡¼¥É¤¬½ÐÍè¤ë¤Þ¤Ç¤Ï¡¢¤³¤ì¤é¤ÎÈÖ¹æ¤ò³ä¤ê¿¶¤ë»ÅÁÈ¤ß¤¬²¿É´¼ïÎà¤âÂ¸ºß¤·¤Þ¤·¤¿¡£¤É¤Î°ì¤Ä¤ò¤È¤Ã¤Æ¤â¡¢½½Ê¬¤ÊÊ¸»ú¤ò´Þ¤ó¤Ç¤Ï¤¤¤Þ¤»¤ó¤Ç¤·¤¿¡£Îã¤¨¤Ð¡¢²¤½£Ï¢¹ç°ì¤Ä¤ò¸«¤Æ¤â¡¢¤½¤Î¤¹¤Ù¤Æ¤Î¸À¸ì¤ò¥«¥Ð¡¼¤¹¤ë¤¿¤á¤Ë¤Ï¡¢¤¤¤¯¤Ä¤«¤Î°Û¤Ê¤ëÉä¹æ²½¤Î»ÅÁÈ¤ß¤¬É¬Í×¤Ç¤·¤¿¡£±Ñ¸ì¤Î¤è¤¦¤Ê°ì¤Ä¤Î¸À¸ì¤Ë¸Â¤Ã¤Æ¤â¡¢°ì¤Ä¤À¤±¤ÎÉä¹æ²½¤Î»ÅÁÈ¤ß¤Ç¤Ï¡¢°ìÈÌÅª¤Ë»È¤ï¤ì¤ë¤¹¤Ù¤Æ¤ÎÊ¸»ú¡¢¶çÆÉÅÀ¡¢µ»½ÑÅª¤Êµ­¹æ¤Ê¤É¤ò°·¤¦¤Ë¤ÏÉÔ½½Ê¬¤Ç¤·¤¿¡£
+±Ñ¸ì¤ÏÂ¾¤ÎÂ¿¤¯¤Î¥è¡¼¥í¥Ã¥Ñ¸À¸ì¤¬»ý¤Ã¤Æ¤¤¤ëÌ¾»ì¤Î³ÊÊÑ²½¤äÆ°»ì¤Î¿Í¾ÎÊÑ²½¤Î¤Û¤È¤ó¤É¤ò¼º¤Ã¤¿¤¿¤á¡¢Ê¸Ãæ¤Î³Ê´Ø·¸¡ÊÃ¯¤¬Ã¯¤Ë²¿¤ò¤É¤¦¤¹¤ë¤«¡Ë¤ò¸ì½ç¤Ë°ÍÂ¸¤·¤Æ¤ª¤ê¡¢¤·¤¿¤¬¤Ã¤Æ¸ì½ç¤¬¸ÇÄêÅª¤Ç¤¢¤ê¡ÖÊ¸·¿¡×¤¬¤Ï¤Ã¤­¤ê¤·¤Æ¤¤¤ë¡£
+ÆüËÜ¤Î±Ñ¸ì¶µ°é¤Ç¤ÏC¡¦T¡¦¥ª¥Ë¥ª¥ó¥º¤ÎÄó¾§¤·¤¿5Ê¸·¿¤È¤¤¤¦¹Í¤¨Êý¤¬±Ñ¸ì¤Î´ðËÜÊ¸·¿¤È¤·¤Æ¹­¤¯»È¤ï¤ì¤Æ¤¤¤ë¡Ê¼ÂºÝ¤Ë¤Ï¡¢5¤Ä¤ÎÊ¸·¿¤Ç¤Ï¤¦¤Þ¤¯ÀâÌÀ¤Ç¤­¤Ê¤¤Ê¸¤âÂ¸ºß¤¹¤ë¤È¤·¡¢5Ê¸·¿¤ò¶¯Ä´¤·¤¹¤®¤ë¤³¤È¤¬µÑ¤Ã¤Æ³Ø½¬¤ÎË¸¤²¤Ë¤Ê¤ë¡¢¤È¤¤¤¦¼çÄ¥¤âÄÁ¤·¤¯¤Ê¤¤¡Ë¡£
+5Ê¸·¿¤Ï¡¢±ÑÊ¸¤ÎÃæ¿´¤ò¤Ê¤¹¼ç¸ì½Ò¸ìÉôÊ¬¤Ë¤ª¤¤¤Æ¡¢Á°ÃÖ»ìÌµ¤·¤Ë¸ì¤òÊÂ¤Ù¤¿¤À¤±¤ÇÊ¸¤¬¤Ç¤­¤¢¤¬¤Ã¤Æ¤¤¤ëÊª¤òÊ¬Îà¤·¤¿¤â¤Î¤È¸À¤¨¤ë¡£¤½¤³¤Ç»È¤ï¤ì¤Æ¤¤¤ë¸ì¤Ï¼ç¸ì¤È¤·¤Æ¤ÎÌ¾»ì¡¢Â¸ºß¤ò¸À¤¦½Ò¸ì¤È¤·¤Æ¤ÎbeÆ°»ì¡¢ºîÍÑ¤ò¸À¤¦½Ò¸ì¤È¤·¤Æ¤Î°ìÈÌÆ°»ì¡¢¼ç¸ì¤ÎÀ­¼Á¤ä¾õÂÖ¤ò¸À¤¦·ÁÍÆ»ì¡¢°ìÈÌÆ°»ì¤ÎÌÜÅª¸ì¤Ë¤Ê¤ëÌ¾»ì¡¢¤½¤ÎÌÜÅª¸ì¤ËÂÐ¤¹¤ëÆâÍÆÅª¤Ê½Ò¸ì¤Ë¤Ê¤ëÆ°»ì¤Î¸¶·Á¤äÌ¾»ì¤ä·ÁÍÆ»ì¤Ç¤¢¤ë¡£¤³¤Î¤è¤¦¤Ë5Ê¸·¿¤Ï¼ç¸ì¤ÈÆ°»ì¤È¡¢Á°ÃÖ»ìÌµ¤·¤ÇÊÂ¤ÖÌ¾»ì¤È¤½¤ÎÌ¾»ì¤ËÂÐ¤·¤ÆÆâÍÆÅª¤Ê½Ò¸ì¤È¤·¤ÆÊÂ¤ÖÃ±½ã¤Ê·Á¤È¤¤¤¦¸Â¤é¤ì¤¿ÉôÊ¬¤Ë¤ª¤¤¤Æ¡¢ÊÂ¤ó¤À¸ì¤Î¼ïÎà¤Ë¤è¤Ã¤ÆÊ¬Îà¤·5¤Ä¤Î·Á¤Ë¤Þ¤È¤á¤¿Êª¤È¸À¤¨¤ë¡£¤³¤³¤Ë¤ÏÊ¸¤ÎÂç´ðËÜ¤Ç¤¢¤ë¼ç¸ì¤È½Ò¸ì¤Ë´Þ¤Þ¤ì¤Æ¤¤¤ë°ÕÌ£¤Ø¤Î¹Í»¡¤¬¤Ê¤µ¤ì¤Æ¤¤¤Ê¤¤¡£¤½¤Î¤¿¤á°ÕÌ£¤Ë´ð¤Å¤¤¤Æ¸ÀÍÕ¤ò»ÈÍÑ¤·¤è¤¦¤È¤·¤Æ¤¤¤ë³Ø½¬¼Ô¤Ë¤Ï¤«¤¨¤Ã¤ÆË¸¤²¤È¤Ê¤Ã¤Æ¤¤¤ë¤Î¤Ç¤¢¤ë¡£
+¤³¤ì¤Þ¤Ç¤Ï²¼µ­¤ÎÊ¸·¿¤¬¼çÍ×¤«¤Ä½ÅÍ×¤Ê¤â¤Î¤Ç¤¢¤ë¤È¤·¤Æ°·¤ï¤ì¤Æ¤­¤¿¡£±ÑÊ¸¤Î¹½Â¤¤ÎÊ¬ÎàË¡¤È¤·¤Æ¤Î5Ê¸·¿¤ÏÆüËÜ°Ê³°¤Î¹ñ¤Ç¤Ï¤¢¤Þ¤ê°ìÈÌÅª¤Ç¤Ï¤Ê¤¤¤¬¡¢Æ°»ì¤Î¸ìË¡¤òÀâÌÀ¤¹¤ë¾å¤Ç¤Ï¡¢¡Ö´ðËÜ5Ê¸·¿¡×¤ò¥Ù¡¼¥¹¤È¤·¤¿Æ°»ì·¿¤ÎÊ¬Îà¤¬À¤³¦Åª¤Ë¼õ¤±Æþ¤ì¤é¤ì¤Æ¤¤¤Æ¡¢¥¸¡¼¥Ë¥¢¥¹±ÑÏÂ¼­Åµ¡¢Oxford Advanced Leaner's Dictionary Åù¤ÎÂ¿¤¯¤Î¸¢°Ò¤¢¤ë¼­½ñ¤Ë¤ª¤¤¤ÆÀÑ¶ËÅª¤ËºÎÍÑ¤µ¤ì¤Æ¤¤¤ë¡£
+ÄÌ¾ï¡¢¿Ê¹Ô·Á¤ÎÊ¸¤ÏÂè2Ê¸·¿¤È¤Ï¸«¤Ê¤µ¤º¡¢Æ°»ìÉôÊ¬¤ò»°Ã±¸½¤Ê¤É¼ç¸ì¤Ë¹ç¤ï¤»¤¿·Á¤Ë¤·¤ÆÊ¸·¿¤ò¹Í¤¨¤ë¡£¤Þ¤¿´°Î»·Á¤âÆ±ÍÍ¤Ç¤¢¤ë¡£¤Þ¤¿¼õÆ°ÂÖ¤ÎÊ¸¤â5Ê¸·¿¤ËÅö¤Æ¤Ï¤Þ¤é¤Ê¤¤¡£·²Æ°»ì¤ò´Þ¤àÊ¸¤Ï·²Æ°»ìÁ´ÂÎ¤ò1¤Ä¤ÎÆ°»ì¤È¹Í¤¨¤ë¤³¤È¤¬Â¿¤¤¡£¤Þ¤¿¡¢·²Æ°»ì¤Ï½õÆ°»ì¤ÈËÜÆ°»ì¤¬Í»¹ç¤·¤¿¤â¤Î¤Ç¤¢¤ë¤Î¤Ç¡¢ÆÃÊÌ¤Ê·Á¤Î½õÆ°»ì¤È¤·¤Æ°·¤¨¤Ð¤è¤¤¡£ ¤½¤â¤½¤â5Ê¸·¿¤Ï½õÆ°»ì¤ò½üµî¤·¤¿¼ç¸ì¤È½Ò¸ì¤ÎÉôÊ¬¤Ë¤ª¤¤¤Æ¸ì¤ÎÊÂ¤Ó¤À¤±¤Ë¤è¤Ã¤ÆÊ¬Îà¤·¤¿Êª¤Ê¤Î¤Ç¤¢¤ë¡£
+¥é¥ó¥É¥ë¥Õ¡¦¥¯¥¡¡¼¥¯¤ÏÉÕ²Ã¸ìA (Adverbial) ¤ò²Ã¤¨¤¿¹Í¤¨Êý¤òÄó¾§¤·¤Æ¤¤¤ë¡£ÉÕ²Ã¸ìA¤Ï½¤¾þ¸ìM¤È¤Ï°Û¤Ê¤ê¾ÊÎ¬¤¹¤ë¤³¤È¤¬¤Ç¤­¤Ê¤¤¡£¤³¤Î¹Í¤¨¤Ç¤Ï½¾Íè¤Î5Ê¸·¿¤ËSVA¤ÈSVOA¤È¤¤¤¦Ê¸·¿¤¬²Ã¤ï¤ë¡£¤Þ¤¿Âè2Ê¸·¿¤Î¤¦¤ÁV¤¬beÆ°»ì¤Î¾ì¹ç¤òÆÃÊÌ¤Ë°·¤¦¹Í¤¨¤â¤¢¤ë¡Ê¤Ä¤Þ¤êS be C¡Ë¡£¤Þ¤¿ A¡¦S¡¦¥Û¡¼¥ó¥Ó¡¼¤ÏÂè3Ê¸·¿¡¢Âè4Ê¸·¿¡¢Âè5Ê¸·¿¤ÎO¤äC¤¬ÉÔÄê»ì¤äÊ¬»ì¤äÆ°Ì¾»ì¤äthatÀá¤Î¾ì¹ç¤Ê¤É¤ÇºÙ¤«¤¯Ê¬Îà¤·¤¿Ê¸·¿¤òÄó¾§¤·¤Æ¤¤¤ë¡£
 
-¤³¤ì¤é¤ÎÉä¹æ²½¤Î»ÅÁÈ¤ß¤Ï¡¢Áê¸ß¤ËÌ·½â¤¹¤ë¤â¤Î¤Ç¤â¤¢¤ê¤Þ¤·¤¿¡£Æó¤Ä¤Î°Û¤Ê¤ëÉä¹æ²½¤Î»ÅÁÈ¤ß¤¬¡¢Æó¤Ä¤Î°Û¤Ê¤ëÊ¸»ú¤ËÆ±°ì¤ÎÈÖ¹æ¤òÉÕ¤±¤ë¤³¤È¤â¤Ç¤­¤ë¤·¡¢Æ±¤¸Ê¸»ú¤Ë°Û¤Ê¤ëÈÖ¹æ¤òÉÕ¤±¤ë¤³¤È¤â¤Ç¤­¤ë¤Î¤Ç¤¹¡£¤É¤Î¤è¤¦¤Ê¥³¥ó¥Ô¥å¡¼¥¿¡¼¤â¡ÊÆÃ¤Ë¥µ¡¼¥Ð¡¼¤Ï¡ËÂ¿¤¯¤Î°Û¤Ê¤Ã¤¿Éä¹æ²½¤Î»ÅÁÈ¤ß¤ò¥µ¥Ý¡¼¥È¤¹¤ëÉ¬Í×¤¬¤¢¤ê¤Þ¤¹¡£¤¿¤È¤¨¥Ç¡¼¥¿¤¬°Û¤Ê¤ëÉä¹æ²½¤Î»ÅÁÈ¤ß¤ä¥×¥é¥Ã¥È¥Õ¥©¡¼¥à¤òÄÌ²á¤·¤Æ¤â¡¢¤¤¤Ä¤É¤³¤Ç¥Ç¡¼¥¿¤¬Íð¤ì¤ë¤«Ê¬¤«¤é¤Ê¤¤´í¸±¤òËÁ¤¹¤³¤È¤Î¤Ê¤ë¤Î¤Ç¤¹¡£
-¥æ¥Ë¥³¡¼¥É¤Ï¤¹¤Ù¤Æ¤òÊÑ¤¨¤Þ¤¹
+¥²¥ë¥Þ¥ó·Ï¤ÎÃ±¸ì¤Î¤Û¤«¤Ë¡¢¥é¥Æ¥ó·Ï¤ÎÃ±¸ì¤âº®Æþ¤·¤Æ¤¤¤ë¤¬¡¢¤³¤ì¤Ï¡¢¥Î¥ë¥Þ¥ó¡¦¥³¥ó¥¯¥¨¥¹¥È°Ê¹ß¡¢¥Õ¥é¥ó¥¹¤«¤éÍè¤¿µ®Â²³¬µé¤¬¥í¥Þ¥ó¥¹½ô¸ì¤Î¥ª¥¤¥ë¸ì·Ï¤Î¥Î¥ë¥Þ¥ó¸ì¤òÏÃ¤·¤Æ¤¤¤¿¤³¤È¤Î±Æ¶Á¤Ç¤¢¤ë¡Ê»þ´üÅª¤Ë¤Ï 11À¤µª°Ê¹ß¤Ç¡¢Ãæ±Ñ¸ì¡Ë¡£±Ñ¸ì¤ÎÌ¾»ì¤ËÀ­¤ä³Ê¤¬¤Û¤Ü¾ÃÌÇ¤·¤Æ¡¢¸ìÈøÊÑ²½¤â¤Û¤«¤Î¥è¡¼¥í¥Ã¥Ñ¸ì¤ÈÈæ¤Ù¤Æ¤È¤Æ¤â¾¯¤Ê¤¤¤Î¤Ï¤³¤Î¥Î¥ë¥Þ¥ó¡¦¥³¥ó¥¯¥¨¥¹¥È¤Ë¤è¤Ã¤Æ¤Ç¤¢¤ë¡£¤½¤ì°ÊÁ°¤ÏÊ£»¨¤Ç¤¢¤Ã¤¿¥¤¥®¥ê¥¹¤Î¸À¸ì¤¬¡¢¥¤¥®¥ê¥¹¤Îµ®Â²³¬µé¤äÀ»¿¦¼Ô¤ä¶µ»Õ¤¬¥Î¥ë¥Þ¥ó¿Í¤Ë¤Ê¤ê±Ñ¸ì¤òÏÃ¤µ¤Ê¤¯¤Ê¤Ã¤¿·ë²Ì¡¢½îÌ±¤Î´Ö¤Ç´ÊÃ±¤ËÏÃ¤»¤ë¤è¤¦¤Ë´ÊÁÇ²½¤µ¤ì¤Æ¤¤¤Ã¤¿¡£¤½¤ì¤È¤È¤â¤Ëµ®Â²³¬µé¤ä¥¸¥§¥ó¥È¥ê¡¼¤¬¥Õ¥é¥ó¥¹¸ì¤Ë¤â¶á¤¤¥Î¥ë¥Þ¥ó¸ì¤òÏÃ¤·¡¢À»¿¦¼Ô¤¬¥é¥Æ¥ó¸ì¤òÏÃ¤¹¤è¤¦¤Ë¤Ê¤ê¤½¤Î·ë²Ì¤È¤·¤ÆÂ¿¤¯¤Î¥é¥Æ¥ó¸ì¤ä¥Õ¥é¥ó¥¹¸ì¤â¼ÚÍÑ¤µ¤ì¤ë¤³¤È¤Ë¤Ê¤Ã¤¿¡£
 
-¥æ¥Ë¥³¡¼¥É¤Ï¡¢¥×¥é¥Ã¥È¥Õ¥©¡¼¥à¤Ë·¸¤ï¤é¤º¡¢¥×¥í¥°¥é¥à¤Ë·¸¤ï¤é¤º¡¢¸À¸ì¤Ë·¸¤ï¤é¤º¡¢¤¹¤Ù¤Æ¤ÎÊ¸»ú¤ËÆÈÎ©¤·¤¿ÈÖ¹æ¤òÍ¿¤¨¤Þ¤¹¡£¥æ¥Ë¥³¡¼¥ÉÉ¸½à¤Ï¡¢¥¢¥Ã¥×¥ë¡¢¥Ò¥å¡¼¥ì¥Ã¥È¥Ñ¥Ã¥«¡¼¥É¡¢IBM¡¢¥¸¥ã¥¹¥È¥·¥¹¥Æ¥à¡¢¥Þ¥¤¥¯¥í¥½¥Õ¥È¡¢¥ª¥é¥¯¥ë¡¢SAP¡¢¥µ¥ó¡¢¥µ¥¤¥Ù¡¼¥¹¤Ê¤É¤Î»º¶È³¦¤Î¼çÆ³Åª´ë¶È¤ÈÂ¾¤ÎÂ¿¤¯¤Î´ë¶È¤ËºÎÍÑ¤µ¤ì¤Æ¤¤¤Þ¤¹¡£¥æ¥Ë¥³¡¼¥É¤Ï¡¢XML¡¢Java¡¢ECMAScript(JavaScript)¡¢LDAP¡¢CORBA 3.0¤Ê¤É¤ÎºÇÀèÃ¼¤ÎÉ¸½à¤ÎÁ°Äó¤È¤Ê¤Ã¤Æ¤ª¤ê¡¢¥æ¥Ë¥³¡¼¥É¤ò¼ÂÁõ¤¹¤ì¤Ð¡¢ISO/IEC 10646¤ËÅ¬¹ç¤¹¤ë¤³¤È¤Ë¤Ê¤ê¤Þ¤¹¡£¥æ¥Ë¥³¡¼¥É¤Ï¡¢Â¿¤¯¤Î¥ª¥Ú¥ì¡¼¥Æ¥£¥ó¥°¥·¥¹¥Æ¥à¤È¤¹¤Ù¤Æ¤ÎºÇ¿·¤Î¥Ö¥é¥¦¥¶¡¼¤ÈÂ¾¤ÎÂ¿¤¯¤ÎÀ½ÉÊ¤Ç¥µ¥Ý¡¼¥È¤µ¤ì¤Æ¤¤¤Þ¤¹¡£¥æ¥Ë¥³¡¼¥ÉÉ¸½à¤Î½Ð¸½¤È¥æ¥Ë¥³¡¼¥É¤ò¥µ¥Ý¡¼¥È¤¹¤ë¥Ä¡¼¥ëÎà¤Ï¡¢ºòº£¸²Ãø¤Ë¤Ê¤Ã¤Æ¤¤¤ë¥½¥Õ¥È¥¦¥¨¥¢µ»½Ñ¤Î¥°¥í¡¼¥Ð¥ë²½¤ÎÎ®¤ì¤ËÂÐ¤·¤Æ¡¢ÆÃ¤ËÌò¤ËÎ©¤Ã¤Æ¤¤¤Þ¤¹¡£
-
-¥æ¥Ë¥³¡¼¥É¤ò¥¯¥é¥¤¥¢¥ó¥È¥µ¡¼¥Ð¡¼·¿¤Î¥¢¥×¥ê¥±¡¼¥·¥ç¥ó¤ä¡¢Â¿ÁØ¹½Â¤¤ò»ý¤Ä¥¢¥×¥ê¥±¡¼¥·¥ç¥ó¡¢¥¦¥§¥Ö¥µ¥¤¥È¤Ê¤É¤Ë¤ËÁÈ¤ß¹þ¤à¤³¤È¤Ç¡¢½¾Íè¤ÎÊ¸»ú¥³¡¼¥É¥»¥Ã¥È¤òÍÑ¤¤¤ë¤è¤ê¤âÌÀ¤é¤«¤Ê¥³¥¹¥Èºï¸º¤¬²ÄÇ½¤Ç¤¹¡£¥æ¥Ë¥³¡¼¥É¤Ï¡¢Ã±°ì¤Î¥½¥Õ¥È¥¦¥¨¥¢À½ÉÊ¡¢Ã±°ì¤Î¥¦¥§¥Ö¥µ¥¤¥È¤Ë¡¢²¿¤é¼ê¤ò²Ã¤¨¤ë¤³¤È¤Ê¤¯¡¢Ê£¿ô¤Î¥×¥é¥Ã¥È¥Õ¥©¡¼¥à¡¢Ê£¿ô¤Î¸À¸ì¡¢Ê£¿ô¤Î¹ñ¤ò¥«¥Ð¡¼¤¹¤ë¤³¤È¤¬½ÐÍè¤ë¤Î¤Ç¤¹¡£¥æ¥Ë¥³¡¼¥É¤Ï¡¢¥Ç¡¼¥¿¤¬Â¿¤¯¤Î°Û¤Ê¤ë¥·¥¹¥Æ¥à¤Î´Ö¤ò¡¢²¿¤ÎÍð¤ì¤â¤Ê¤·¤ËÅ¾Á÷¤¹¤ë¤³¤È¤ò²ÄÇ½¤È¤¹¤ë¤Î¤Ç¤¹¡£
-¥æ¥Ë¥³¡¼¥É¥³¥ó¥½¡¼¥·¥¢¥à¤Ë¤Ä¤¤¤Æ
-
-¥æ¥Ë¥³¡¼¥É¥³¥ó¥½¡¼¥·¥¢¥à¤Ï¡¢ºÇ¿·¤Î¥½¥Õ¥È¥¦¥¨¥¢À½ÉÊ¤ÈÉ¸½à¤Ë¤ª¤¤¤Æ¥Æ¥­¥¹¥È¤òÉ½¸½¤¹¤ë¤³¤È¤ò°ÕÌ£¤¹¤ë¡È¥æ¥Ë¥³¡¼¥ÉÉ¸½à¡É¤Î¹½ÃÛ¡¢È¯Å¸¡¢ÉáµÚ¡¢ÍøÍÑÂ¥¿Ê¤òÌÜÅª¤È¤·¤ÆÀßÎ©¤µ¤ì¤¿Èó±ÄÍøÁÈ¿¥¤Ç¤¹¡£Æ±¥³¥ó¥½¡¼¥·¥¢¥à¤Î²ñ°÷¤Ï¡¢¥³¥ó¥Ô¥å¡¼¥¿¡¼¤È¾ðÊó½èÍý¤Ë·¸¤ï¤ë¹­ÈÆ¤Ê´ë¶È¤äÁÈ¿¥¤«¤é¹½À®¤µ¤ì¤Æ¤¤¤Þ¤¹¡£Æ±¥³¥ó¥½¡¼¥·¥¢¥à¤Ï¡¢ºâÀ¯Åª¤Ë¤Ï¡¢½ã¿è¤Ë²ñÈñ¤Î¤ß¤Ë¤è¤Ã¤Æ±¿±Ä¤µ¤ì¤Æ¤¤¤Þ¤¹¡£¥æ¥Ë¥³¡¼¥ÉÉ¸½à¤ò»Ù»ý¤·¡¢¤½¤Î³ÈÄ¥¤È¼ÂÁõ¤ò»Ù±ç¤¹¤ëÀ¤³¦Ãæ¤ÎÁÈ¿¥¤ä¸Ä¿Í¤Ï¡¢¤À¤ì¤â¤¬¥æ¥Ë¥³¡¼¥É¥³¥ó¥½¡¼¥·¥¢¥à¤Î²ñ°÷¤Ê¤ë¤³¤È¤¬¤Ç¤­¤Þ¤¹¡£
-
-¤è¤ê¾Ü¤·¤¤¤³¤È¤ò¤ªÃÎ¤ê¤Ë¤Ê¤ê¤¿¤¤Êý¤Ï¡¢Glossary, Unicode-Enabled Products, Technical Introduction ¤ª¤è¤Ó Useful Resources¤ò¤´»²¾È¤¯¤À¤µ¤¤¡£
+¥«¥Ê¥À¤Ï¸µ±ÑÎÎ¿¢Ì±ÃÏ¤Ç¤¢¤Ã¤¿ÃÏ°è¤À¤¬¡¢¤½¤Î±ÑÎÎ¿¢Ì±ÃÏ¤Ë¤½¤ì°ÊÁ°¤Ï¥Ì¡¼¥Ù¥ë¥Õ¥é¥ó¥¹¤Ç¤¢¤ê¡¢º£¤Ç¤â¥Õ¥é¥ó¥¹¸ì¤¬»È¤ï¤ìÂ³¤±¤Æ¤¤¤ë¥±¥Ù¥Ã¥¯½£¤¬¤¢¤ë¤³¤È¤«¤é¡¢¥«¥Ê¥ÀÁ´ÂÎ¤Î¸øÍÑ¸ì¤È¤·¤Æ±Ñ¸ì¤È¥Õ¥é¥ó¥¹¸ì¤ÎÎ¾Êý¤¬À©Äê¤µ¤ì¤Æ¤ª¤ê¡¢Ï¢Ë®À¯ÉÜ¤Î¥µ¥¤¥È¤ä´ë¶È¤Î¾¦ÉÊÀâÌÀ¤Ê¤É¤ÏÁ´¤Æ±ÑÊ©Î¾¸À¸ì¤Ç¹Ô¤ï¤ì¤Æ¤¤¤ë¡£µì±ÑÎÎ¤Î¹ñ¤È¤·¤Æ¤Ï¡¢Á´¿Í¸ý¤ÎÆâ¡¢±Ñ¸ì¤òÊì¸ì¤È¤¹¤ë¿Í¤Î³ä¹ç¤Ï58%¤ÈÄã¤¯¡¢¥Õ¥é¥ó¥¹¸ì¤¬22%¤òÀê¤á¤ë¡£¤³¤ì¤Ï¡¢°ÜÌ±¤¬Èó¾ï¤ËÂ¿¤¤¤¿¤áÂèÆó¸À¸ì¤È¤·¤Æ±Ñ¸ì¤ò»ÈÍÑ¤·¤Æ¤¤¤ë¿Í¸ý¤¬Èó¾ï¤ËÂ¿¤¤¤«¤é¤Ç¤¢¤ë¡£¤Þ¤¿¡¢¥¢¥á¥ê¥«¹ç½°¹ñ¤¬ÎÙ¤Ë°ÌÃÖ¤·¤Æ¤¤¤ë¤³¤È¤«¤é¡¢µì±ÑÎÎ¤Ç¤¢¤ë¤È¤Ï¤¤¤¨¡¢¥ª¡¼¥¹¥È¥é¥ê¥¢¤ä¥¤¥ó¥É¤Ê¤É¤Û¤«¤Îµì±ÑÎÎ¿¢Ì±ÃÏ¤È¤Ï°ã¤¤¡¢Èæ¤Ù¤ë¤È¥«¥Ê¥À¤Î±Ñ¸ì¤Ï¥¤¥®¥ê¥¹±Ñ¸ì¤è¤ê¤â¥¢¥á¥ê¥«±Ñ¸ì¤Ë¶á¤¤¤¬¡¢Ã±¸ì¤ÎÄÖ¤ê¤È¤·¤Æ¤Ï¥¤¥®¥ê¥¹±Ñ¸ì¼°¤òºÎÍÑ¤¹¤ë¤³¤È¤¬Â¿¤¤¡£¥±¥Ù¥Ã¥¯½£¤Ç¤Ï¥Õ¥é¥ó¥¹¸ì¤¬¸øÍÑ¸ì¤Ç¤¢¤ë¤³¤È¤«¤é¡¢±Ñ¸ì¤òÊì¸ì¤È¤»¤º±Ñ¸ì±¿ÍÑÇ½ÎÏ¤¬¹â¤¯¤Ê¤¤¿Í¤â¾¯¤Ê¤¯¤Ê¤¤¤¬¡¢¥±¥Ù¥Ã¥¯½£¤È¥Ë¥å¡¼¥Ö¥é¥ó¥º¥¦¥£¥Ã¥¯½£¡¢¥ª¥ó¥¿¥ê¥ª½£°Ê³°¤Ç¤Ï¤Û¤È¤ó¤É¥Õ¥é¥ó¥¹¸ì¤¬»È¤ï¤ì¤Ê¤¤¤³¤È¤â¤¢¤ê¡¢¥«¥Ê¥À±Ñ¸ì¤Ë¤ª¤±¤ë¥Õ¥é¥ó¥¹¸ì¤Î±Æ¶Á¤Ï³§Ìµ¤Ë¶á¤¤¡£
\ No newline at end of file
diff --git a/test/data/encodings/gb18030 b/test/data/encodings/gb18030
new file mode 100644
index 0000000..26534d6
--- /dev/null
+++ b/test/data/encodings/gb18030
@@ -0,0 +1,13 @@
+»ù±¾ÉÏ£¬¼ÆËã»úÖ»ÊÇ´¦ÀíÊý×Ö¡£ËüÃÇÖ¸¶¨Ò»¸öÊý×Ö£¬À´´¢´æ×ÖÄ¸»òÆäËû×Ö·û¡£ÔÚ´´ÔìUnicodeÖ®Ç°£¬ÓÐÊý°ÙÖÖÖ¸¶¨ÕâÐ©Êý×ÖµÄ±àÂëÏµÍ³¡£Ã»ÓÐÒ»¸ö±àÂë¿ÉÒÔ°üº¬×ã¹»µÄ×Ö·û£ºÀýÈç£¬µ¥µ¥Å·ÖÝ¹²Í¬Ìå¾ÍÐèÒªºÃ¼¸ÖÖ²»Í¬µÄ±àÂëÀ´°üÀ¨ËùÓÐµÄÓïÑÔ¡£¼´Ê¹ÊÇµ¥Ò»ÖÖÓïÑÔ£¬ÀýÈçÓ¢Óï£¬Ò²Ã»ÓÐÄÄÒ»¸ö±àÂë¿ÉÒÔÊÊÓÃÓÚËùÓÐµÄ×ÖÄ¸£¬±êµã·ûºÅ£¬ºÍ³£ÓÃµÄ¼¼Êõ·ûºÅ¡£
+
+ÕâÐ©±àÂëÏµÍ³Ò²»á»¥Ïà³åÍ»¡£Ò²¾ÍÊÇËµ£¬Á½ÖÖ±àÂë¿ÉÄÜÊ¹ÓÃÏàÍ¬µÄÊý×Ö´ú±íÁ½¸ö²»Í¬µÄ×Ö·û£¬»òÊ¹ÓÃ²»Í¬µÄÊý×Ö´ú±íÏàÍ¬µÄ×Ö·û¡£ÈÎºÎÒ»Ì¨ÌØ¶¨µÄ¼ÆËã»ú(ÌØ±ðÊÇ·þÎñÆ÷)¶¼ÐèÒªÖ§³ÖÐí¶à²»Í¬µÄ±àÂë£¬µ«ÊÇ£¬²»ÂÛÊ²Ã´Ê±ºòÊý¾ÝÍ¨¹ý²»Í¬µÄ±àÂë»òÆ½Ì¨Ö®¼ä£¬ÄÇÐ©Êý¾Ý×Ü»áÓÐËð»µµÄÎ£ÏÕ¡£
+UnicodeÕýÔÚ¸Ä±äËùÓÐÕâÒ»ÇÐ£¡
+
+Unicode¸øÃ¿¸ö×Ö·ûÌá¹©ÁËÒ»¸öÎ¨Ò»µÄÊý×Ö£¬²»ÂÛÊÇÊ²Ã´Æ½Ì¨£¬²»ÂÛÊÇÊ²Ã´³ÌÐò£¬²»ÂÛÊ²Ã´ÓïÑÔ¡£Unicode±ê×¼ÒÑ¾­±»ÕâÐ©¹¤Òµ½çµÄÁìµ¼ÃÇËù²ÉÓÃ£¬ÀýÈç£ºApple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, UnisysºÍÆäËüÐí¶à¹«Ë¾¡£×îÐÂµÄ±ê×¼¶¼ÐèÒªUnicode£¬ÀýÈçXML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WMLµÈµÈ£¬²¢ÇÒ£¬UnicodeÊÇÊµÏÖISO/IEC 10646µÄÕý¹æ·½Ê½¡£Ðí¶à²Ù×÷ÏµÍ³£¬ËùÓÐ×îÐÂµÄä¯ÀÀÆ÷ºÍÐí¶àÆäËû²úÆ·¶¼Ö§³ÖËü¡£Unicode±ê×¼µÄ³öÏÖºÍÖ§³ÖËü¹¤¾ßµÄ´æÔÚ£¬ÊÇ½üÀ´È«ÇòÈí¼þ¼¼Êõ×îÖØÒªµÄ·¢Õ¹Ç÷ÊÆ¡£
+
+½«UnicodeÓë¿Í»§·þÎñÆ÷»ò¶à²ãÓ¦ÓÃ³ÌÐòºÍÍøÕ¾½áºÏ£¬±ÈÊ¹ÓÃ´«Í³×Ö·û¼¯½ÚÊ¡·ÑÓÃ¡£UnicodeÊ¹µ¥Ò»Èí¼þ²úÆ·»òµ¥Ò»ÍøÕ¾ÄÜ¹»¹á´©¶à¸öÆ½Ì¨£¬ÓïÑÔºÍ¹ú¼Ò£¬¶ø²»ÐèÒªÖØ½¨¡£Ëü¿É½«Êý¾Ý´«Êäµ½Ðí¶à²»Í¬µÄÏµÍ³£¬¶øÎÞËð»µ¡£
+¹ØÓÚUnicodeÑ§ÊõÑ§»á
+
+UnicodeÑ§ÊõÑ§»áÊÇÒ»¸ö·ÇÓ¯ÀûµÄ×éÖ¯£¬ÊÇÎª·¢Õ¹£¬À©Õ¹ºÍÍÆ¹ãÊ¹ÓÃUnicode±ê×¼¶ø½¨Á¢µÄ£¬UnicodeÑ§ÊõÑ§»áÉèÁ¢ÁËÏÖ´úÈí¼þ²úÆ·ºÍ±ê×¼ÎÄ±¾µÄ±íÊ¾·¨¡£Ñ§ÊõÑ§»áµÄ»áÔ±´ú±íÁË¹ã·ºÁìÓòµÄ¼ÆËã»úºÍ×ÊÑ¶¹¤ÒµµÄ¹«Ë¾ºÍ×éÖ¯¡£Ñ§ÊõÑ§»áÖ»ÓÉ»áÔ±Ìá¹©×Ê½ð¡£UnicodeÑ§ÊõÑ§»áµÄ»áÔ±×Ê¸ñ¿ª·Å¸øÊÀ½çÉÏÈÎºÎÖ§³ÖUnicode±ê×¼ºÍÏ£ÍûÐ­ÖúÆäÀ©Õ¹ºÍÖ´ÐÐµÄ×éÖ¯¼°¸öÈË¡£
+
+ÓûÖª¸ü¶àÐÅÏ¢£¬Çë²ÎÔÄÊõÓï´Ê»ã±í£¬Unicode²úÆ·Ñù±¾£¬¼¼Êõ¼ò½éºÍ²Î¿¼×ÊÁÏ¡£
diff --git a/test/data/encodings/lang_chinese b/test/data/encodings/lang_chinese
index 7e9c310..a295e5a 100644
--- a/test/data/encodings/lang_chinese
+++ b/test/data/encodings/lang_chinese
@@ -1,13 +1,2 @@
-åŸºæœ¬ä¸Šï¼Œè®¡ç®—æœºåªæ˜¯å¤„ç†æ•°å­—ã€‚å®ƒä»¬æŒ‡å®šä¸€ä¸ªæ•°å­—ï¼Œæ¥å‚¨å­˜å­—æ¯æˆ–å…¶ä»–å­—ç¬¦ã€‚åœ¨åˆ›é€ Unicodeä¹‹å‰ï¼Œæœ‰æ•°ç™¾ç§æŒ‡å®šè¿™äº›æ•°å­—çš„ç¼–ç ç³»ç»Ÿã€‚æ²¡æœ‰ä¸€ä¸ªç¼–ç å¯ä»¥åŒ…å«è¶³å¤Ÿçš„å­—ç¬¦ï¼šä¾‹å¦‚ï¼Œå•å•æ¬§å·žå…±åŒä½“å°±éœ€è¦å¥½å‡ ç§ä¸åŒçš„ç¼–ç æ¥åŒ…æ‹¬æ‰€æœ‰çš„è¯­è¨€ã€‚å³ä½¿æ˜¯å•ä¸€ç§è¯­è¨€ï¼Œä¾‹å¦‚è‹±è¯­ï¼Œä¹Ÿæ²¡æœ‰å“ªä¸€ä¸ªç¼–ç å¯ä»¥é€‚ç”¨äºŽæ‰€æœ‰çš„å­—æ¯ï¼Œæ ‡ç‚¹ç¬¦å·ï¼Œå’Œå¸¸ç”¨çš„æŠ€æœ¯ç¬¦å·ã€‚
-
-è¿™äº›ç¼–ç ç³»ç»Ÿä¹Ÿä¼šäº’ç›¸å†²çªã€‚ä¹Ÿå°±æ˜¯è¯´ï¼Œä¸¤ç§ç¼–ç å¯èƒ½ä½¿ç”¨ç›¸åŒçš„æ•°å­—ä»£è¡¨ä¸¤ä¸ªä¸åŒçš„å­—ç¬¦ï¼Œæˆ–ä½¿ç”¨ä¸åŒçš„æ•°å­—ä»£è¡¨ç›¸åŒçš„å­—ç¬¦ã€‚ä»»ä½•ä¸€å°ç‰¹å®šçš„è®¡ç®—æœº(ç‰¹åˆ«æ˜¯æœåŠ¡å™¨)éƒ½éœ€è¦æ”¯æŒè®¸å¤šä¸åŒçš„ç¼–ç ï¼Œä½†æ˜¯ï¼Œä¸è®ºä»€ä¹ˆæ—¶å€™æ•°æ®é€šè¿‡ä¸åŒçš„ç¼–ç æˆ–å¹³å°ä¹‹é—´ï¼Œé‚£äº›æ•°æ®æ€»ä¼šæœ‰æŸåçš„å±é™©ã€‚
-Unicodeæ­£åœ¨æ”¹å˜æ‰€æœ‰è¿™ä¸€åˆ‡ï¼
-
-Unicodeç»™æ¯ä¸ªå­—ç¬¦æä¾›äº†ä¸€ä¸ªå”¯ä¸€çš„æ•°å­—ï¼Œä¸è®ºæ˜¯ä»€ä¹ˆå¹³å°ï¼Œä¸è®ºæ˜¯ä»€ä¹ˆç¨‹åºï¼Œä¸è®ºä»€ä¹ˆè¯­è¨€ã€‚Unicodeæ ‡å‡†å·²ç»è¢«è¿™äº›å·¥ä¸šç•Œçš„é¢†å¯¼ä»¬æ‰€é‡‡ç”¨ï¼Œä¾‹å¦‚ï¼šApple, HP, IBM, JustSystem, Microsoft, Oracle, SAP, Sun, Sybase, Unisyså’Œå…¶å®ƒè®¸å¤šå…¬å¸ã€‚æœ€æ–°çš„æ ‡å‡†éƒ½éœ€è¦Unicodeï¼Œä¾‹å¦‚XML, Java, ECMAScript (JavaScript), LDAP, CORBA 3.0, WMLç­‰ç­‰ï¼Œå¹¶ä¸”ï¼ŒUnicodeæ˜¯å®žçŽ°ISO/IEC 10646çš„æ­£è§„æ–¹å¼ã€‚è®¸å¤šæ“ä½œç³»ç»Ÿï¼Œæ‰€æœ‰æœ€æ–°çš„æµè§ˆå™¨å’Œè®¸å¤šå…¶ä»–äº§å“éƒ½æ”¯æŒå®ƒã€‚Unicodeæ ‡å‡†çš„å‡ºçŽ°å’Œæ”¯æŒå®ƒå·¥å…·çš„å­˜åœ¨ï¼Œæ˜¯è¿‘æ¥å…¨çƒè½¯ä»¶æŠ€æœ¯æœ€é‡è¦çš„å‘å±•è¶‹åŠ¿ã€‚
-
-å°†Unicodeä¸Žå®¢æˆ·æœåŠ¡å™¨æˆ–å¤šå±‚åº”ç”¨ç¨‹åºå’Œç½‘ç«™ç»“åˆï¼Œæ¯”ä½¿ç”¨ä¼ ç»Ÿå­—ç¬¦é›†èŠ‚çœè´¹ç”¨ã€‚Unicodeä½¿å•ä¸€è½¯ä»¶äº§å“æˆ–å•ä¸€ç½‘ç«™èƒ½å¤Ÿè´¯ç©¿å¤šä¸ªå¹³å°ï¼Œè¯­è¨€å’Œå›½å®¶ï¼Œè€Œä¸éœ€è¦é‡å»ºã€‚å®ƒå¯å°†æ•°æ®ä¼ è¾“åˆ°è®¸å¤šä¸åŒçš„ç³»ç»Ÿï¼Œè€Œæ— æŸåã€‚
-å…³äºŽUnicodeå­¦æœ¯å­¦ä¼š
-
-Unicodeå­¦æœ¯å­¦ä¼šæ˜¯ä¸€ä¸ªéžç›ˆåˆ©çš„ç»„ç»‡ï¼Œæ˜¯ä¸ºå‘å±•ï¼Œæ‰©å±•å’ŒæŽ¨å¹¿ä½¿ç”¨Unicodeæ ‡å‡†è€Œå»ºç«‹çš„ï¼ŒUnicodeå­¦æœ¯å­¦ä¼šè®¾ç«‹äº†çŽ°ä»£è½¯ä»¶äº§å“å’Œæ ‡å‡†æ–‡æœ¬çš„è¡¨ç¤ºæ³•ã€‚å­¦æœ¯å­¦ä¼šçš„ä¼šå‘˜ä»£è¡¨äº†å¹¿æ³›é¢†åŸŸçš„è®¡ç®—æœºå’Œèµ„è®¯å·¥ä¸šçš„å…¬å¸å’Œç»„ç»‡ã€‚å­¦æœ¯å­¦ä¼šåªç”±ä¼šå‘˜æä¾›èµ„é‡‘ã€‚Unicodeå­¦æœ¯å­¦ä¼šçš„ä¼šå‘˜èµ„æ ¼å¼€æ”¾ç»™ä¸–ç•Œä¸Šä»»ä½•æ”¯æŒUnicodeæ ‡å‡†å’Œå¸Œæœ›ååŠ©å…¶æ‰©å±•å’Œæ‰§è¡Œçš„ç»„ç»‡åŠä¸ªäººã€‚
-
-æ¬²çŸ¥æ›´å¤šä¿¡æ¯ï¼Œè¯·å‚é˜…æœ¯è¯­è¯æ±‡è¡¨ï¼ŒUnicodeäº§å“æ ·æœ¬ï¼ŒæŠ€æœ¯ç®€ä»‹å’Œå‚è€ƒèµ„æ–™ã€‚
+æ”¿åºœè³‡è¨Šç§‘æŠ€ç¸½ç›£è¾¦å…¬å®¤å’Œå¹³ç­‰æ©Ÿæœƒå§”å“¡æœƒåˆè¾¦ç„¡éšœç¤™ç¶²é å˜‰è¨±è¨ˆåŠƒï¼Œå¸Œæœ›é€éŽè¡¨å½°æŽ¡ç”¨ç„¡éšœç¤™ç¶²é è¨­è¨ˆçš„ç¶²ç«™ï¼ŒæŽ¨å‹•æ›´å¤šä¼æ¥­å’Œæ©Ÿæ§‹åœ¨å…¶ç¶²ç«™æŽ¡ç”¨ç„¡éšœç¤™ç¶²é è¨­è¨ˆï¼Œè®“ç¤¾æœƒå„éšŽå±¤åŒ…æ‹¬æ®˜ç–¾äººå£«æ›´æ–¹ä¾¿åœ°ç²å–ç¶²ä¸Šè³‡è¨Šå’Œä½¿ç”¨ç¶²ä¸Šæœå‹™ã€‚ç„¡éšœç¤™ç¶²é å˜‰è¨±è¨ˆåŠƒé ’çŽå…¸ç¦®å°‡æ–¼2013å¹´4æœˆ15æ—¥èˆ‰è¡Œï¼Œç‚ºé¦–æ¬¡èˆ‰è¾¦çš„ã€Œåœ‹éš›ITåŒ¯ã€çš„ç²¾å½©æ´»å‹•ä¹‹ä¸€ã€‚æœ‰é—œè©³æƒ…ï¼Œè«‹ç€è¦½é€™è£¡ã€‚
+æ”¿åºœä¸€å‘è‡´åŠ›æŽ¨å‹•é•·è€…åœ¨ç”Ÿæ´»ä¸Šæ›´å»£æ³›æ‡‰ç”¨è³‡è¨Šç§‘æŠ€ã€‚æ”¿åºœè³‡è¨Šç§‘æŠ€ç¸½ç›£è¾¦å…¬å®¤å·²é–‹å±•ä¸€é …å…¨æ¸¯æ€§å˜‰è¨±è¨ˆåŠƒã€Œæ™ºé†’é•·è€…å˜‰è¨±è¨ˆåŠƒã€ï¼Œè¡¨æšåœ¨æ—¥å¸¸ç”Ÿæ´»ä¸­ç©æ¥µä½¿ç”¨è³‡è¨ŠåŠé€šè¨Šç§‘æŠ€çš„é•·è€…ï¼Œä»¥é¼“å‹µä»–å€‘ç¹¼çºŒä½¿ç”¨è³‡è¨ŠåŠé€šè¨Šç§‘æŠ€ã€‚å˜‰è¨±è¨ˆåŠƒè¨­æœ‰é‡‘ã€éŠ€ã€éŠ…çŽï¼Œé•·è€…æ–¼ç‰¹å®šæœŸé–“å®ŒæˆæŒ‡å®šè¦æ±‚ï¼Œå¯ç²é ’è´ˆå˜‰è¨±è­‰æ›¸åŠçŽç‰Œã€‚æœ‰é—œè©³æƒ…ï¼Œè«‹ç€è¦½é€™è£¡ã€‚
\ No newline at end of file
diff --git a/test/data/encodings/lang_japanese b/test/data/encodings/lang_japanese
index 5b3462a..5c2cb26 100644
--- a/test/data/encodings/lang_japanese
+++ b/test/data/encodings/lang_japanese
@@ -9,5 +9,3 @@
 ãƒ¦ãƒ‹ã‚³ãƒ¼ãƒ‰ã‚³ãƒ³ã‚½ãƒ¼ã‚·ã‚¢ãƒ ã«ã¤ã„ã¦
 
 ãƒ¦ãƒ‹ã‚³ãƒ¼ãƒ‰ã‚³ãƒ³ã‚½ãƒ¼ã‚·ã‚¢ãƒ ã¯ã€æœ€æ–°ã®ã‚½ãƒ•ãƒˆã‚¦ã‚¨ã‚¢è£½å“ã¨æ¨™æº–ã«ãŠã„ã¦ãƒ†ã‚­ã‚¹ãƒˆã‚’è¡¨ç¾ã™ã‚‹ã“ã¨ã‚’æ„å‘³ã™ã‚‹â€œãƒ¦ãƒ‹ã‚³ãƒ¼ãƒ‰æ¨™æº–â€ã®æ§‹ç¯‰ã€ç™ºå±•ã€æ™®åŠã€åˆ©ç”¨ä¿ƒé€²ã‚’ç›®çš„ã¨ã—ã¦è¨­ç«‹ã•ã‚ŒãŸéžå–¶åˆ©çµ„ç¹”ã§ã™ã€‚åŒã‚³ãƒ³ã‚½ãƒ¼ã‚·ã‚¢ãƒ ã®ä¼šå“¡ã¯ã€ã‚³ãƒ³ãƒ”ãƒ¥ãƒ¼ã‚¿ãƒ¼ã¨æƒ…å ±å‡¦ç†ã«ä¿‚ã‚ã‚‹åºƒæ±Žãªä¼æ¥­ã‚„çµ„ç¹”ã‹ã‚‰æ§‹æˆã•ã‚Œã¦ã„ã¾ã™ã€‚åŒã‚³ãƒ³ã‚½ãƒ¼ã‚·ã‚¢ãƒ ã¯ã€è²¡æ”¿çš„ã«ã¯ã€ç´”ç²‹ã«ä¼šè²»ã®ã¿ã«ã‚ˆã£ã¦é‹å–¶ã•ã‚Œã¦ã„ã¾ã™ã€‚ãƒ¦ãƒ‹ã‚³ãƒ¼ãƒ‰æ¨™æº–ã‚’æ”¯æŒã—ã€ãã®æ‹¡å¼µã¨å®Ÿè£…ã‚’æ”¯æ´ã™ã‚‹ä¸–ç•Œä¸­ã®çµ„ç¹”ã‚„å€‹äººã¯ã€ã ã‚Œã‚‚ãŒãƒ¦ãƒ‹ã‚³ãƒ¼ãƒ‰ã‚³ãƒ³ã‚½ãƒ¼ã‚·ã‚¢ãƒ ã®ä¼šå“¡ãªã‚‹ã“ã¨ãŒã§ãã¾ã™ã€‚
-
-ã‚ˆã‚Šè©³ã—ã„ã“ã¨ã‚’ãŠçŸ¥ã‚Šã«ãªã‚ŠãŸã„æ–¹ã¯ã€Glossary, Unicode-Enabled Products, Technical Introduction ãŠã‚ˆã³ Useful Resourcesã‚’ã”å‚ç…§ãã ã•ã„ã€‚
diff --git a/test/iso2022.js b/test/encodings/iso2022.js
similarity index 56%
rename from test/iso2022.js
rename to test/encodings/iso2022.js
index a5aae8f..883f04a 100644
--- a/test/iso2022.js
+++ b/test/encodings/iso2022.js
@@ -1,25 +1,28 @@
 
 var assert = require('assert'),
-    chardet = require('../');
+    chardet = require('../../');
+
+describe('ISO-2022', function() {
+
+    var base = __dirname + '/../data/encodings';
 
-describe('iso2022', function() {
     it('should return ISO-2022-JP', function() {
         assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/iso2022jp'),
+            chardet.detectFileSync(base + '/iso2022jp'),
             'ISO-2022-JP'
         );
     });
 
     it('should return ISO-2022-KR', function() {
         assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/iso2022kr'),
+            chardet.detectFileSync(base + '/iso2022kr'),
             'ISO-2022-KR'
         );
     });
 
     it('should return ISO-2022-CN', function() {
         assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/iso2022cn'),
+            chardet.detectFileSync(base + '/iso2022cn'),
             'ISO-2022-CN'
         );
     });
diff --git a/test/encodings/mbcs.js b/test/encodings/mbcs.js
new file mode 100644
index 0000000..3d60aaa
--- /dev/null
+++ b/test/encodings/mbcs.js
@@ -0,0 +1,44 @@
+
+var assert = require('assert'),
+    chardet = require('../../');
+
+describe('Multybyte Character Sets', function() {
+
+    var base = __dirname + '/../data/encodings';
+
+    it('should return SHIFT-JIS', function() {
+        assert.equal(
+            chardet.detectFileSync(base + '/shiftjis'),
+            'Shift-JIS'
+        );
+    });
+
+    it('should return GB18030', function() {
+        assert.equal(
+            chardet.detectFileSync(base + '/gb18030'),
+            'GB18030'
+        );
+    });
+
+    it('should return Big5', function() {
+        assert.equal(
+            chardet.detectFileSync(base + '/big5'),
+            'Big5'
+        );
+    });
+
+    it('should return EUC-JP', function() {
+        assert.equal(
+            chardet.detectFileSync(base + '/euc_jp'),
+            'EUC-JP'
+        );
+    });
+
+    it('should return EUC-KR', function() {
+        assert.equal(
+            chardet.detectFileSync(base + '/euc_kr'),
+            'EUC-KR'
+        );
+    });
+
+});
\ No newline at end of file
diff --git a/test/unicode.js b/test/encodings/unicode.js
similarity index 56%
rename from test/unicode.js
rename to test/encodings/unicode.js
index 3b3c213..4502e97 100644
--- a/test/unicode.js
+++ b/test/encodings/unicode.js
@@ -1,32 +1,35 @@
 
 var assert = require('assert'),
-    chardet = require('../');
+    chardet = require('../../');
+
+describe('Unicode', function() {
+
+    var base = __dirname + '/../data/encodings';
 
-describe('unicode', function() {
     it('should return UTF-16LE', function() {
         assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/utf16le'),
+            chardet.detectFileSync(base + '/utf16le'),
             'UTF-16LE'
         );
     });
 
     it('should return UTF-16BE', function() {
         assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/utf16be'),
+            chardet.detectFileSync(base + '/utf16be'),
             'UTF-16BE'
         );
     });
 
     it('should return UTF-32LE', function() {
         assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/utf32le'),
+            chardet.detectFileSync(base + '/utf32le'),
             'UTF-32LE'
         );
     });
 
     it('should return UTF-32BE', function() {
         assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/utf32be'),
+            chardet.detectFileSync(base + '/utf32be'),
             'UTF-32BE'
         );
     });
diff --git a/test/encodings/utf8.js b/test/encodings/utf8.js
new file mode 100644
index 0000000..14db5db
--- /dev/null
+++ b/test/encodings/utf8.js
@@ -0,0 +1,12 @@
+
+var assert = require('assert'),
+    chardet = require('../../');
+
+describe('UTF-8', function() {
+    it('should return UTF-8', function() {
+        assert.equal(
+            chardet.detectFileSync(__dirname + '/../data/encodings/utf8'),
+            'UTF-8'
+        );
+    });
+});
\ No newline at end of file
diff --git a/test/mbcs.js b/test/mbcs.js
deleted file mode 100644
index 7cce66b..0000000
--- a/test/mbcs.js
+++ /dev/null
@@ -1,30 +0,0 @@
-
-var assert = require('assert'),
-    chardet = require('../');
-
-describe('Multy byte character sets', function() {
-    it('should return SHIFT_JIS', function() {
-        assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/shiftjis'),
-            'Shift_JIS'
-        );
-    });
-
-    it('should return BIG-5');
-
-    it('should return EUC-JP', function() {
-        assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/euc_jp'),
-            'EUC-JP'
-        );
-    });
-
-    it('should return EUC-KR', function() {
-        assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/euc_kr'),
-            'EUC-KR'
-        );
-    });
-
-
-});
\ No newline at end of file
diff --git a/test/utf8.js b/test/utf8.js
deleted file mode 100644
index ec36d2b..0000000
--- a/test/utf8.js
+++ /dev/null
@@ -1,12 +0,0 @@
-
-var assert = require('assert'),
-    chardet = require('../');
-
-describe('utf8', function() {
-    it('should return UTF-8', function() {
-        assert.equal(
-            chardet.detectFileSync(__dirname + '/data/encodings/utf8'),
-            'UTF-8'
-        );
-    });
-});
\ No newline at end of file