5 роки тому · 95826392df
--- a/common/progress.py
+++ b/common/progress.py
@@ -1,8 +1,4 @@
 
				-#!/usr/bin/env python2
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: progress.py
			
 
				-# Date: Wed Jun 17 23:59:52 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import time
			
 
				 import sys
			
--- a/common/textutil.py
+++ b/common/textutil.py
@@ -1,23 +1,14 @@
 
				-#!/usr/bin/env python2
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: utils.py
			
 
				-# Date: Wed Jun 17 23:59:25 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import hashlib
			
 
				 import base64
			
 
				 
			
 
				-def ensure_bin_str(s):
			
 
				-    if type(s) == str:
			
 
				-        return s
			
 
				-    if type(s) == unicode:
			
 
				-        return s.encode('utf-8')
			
 
				-
			
 
				 def ensure_unicode(s):
			
 
				     if type(s) == str:
			
 
				-        return s.decode('utf-8')
			
 
				-    if type(s) == unicode:
			
 
				         return s
			
 
				+    elif type(s) == bytes:
			
 
				+        return s.decode('utf-8')
			
 
				+    raise TypeError(f"type of string is {type(s)}")
			
 
				 
			
 
				 
			
 
				 def md5(s):
			
@@ -27,7 +18,7 @@ def md5(s):
 
				 
			
 
				 def get_file_b64(fname):
			
 
				     data = open(fname, 'rb').read()
			
 
				-    return base64.b64encode(data)
			
 
				+    return base64.b64encode(data).decode('ascii')
			
 
				 
			
 
				 def safe_filename(fname):
			
 
				     filename = ensure_unicode(fname)
			
--- a/common/timer.py
+++ b/common/timer.py
@@ -1,8 +1,4 @@
 
				-#!/usr/bin/env python2
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: timer.py
			
 
				-# Date: Wed Jun 17 23:25:54 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import time, functools
			
 
				 from collections import defaultdict
			
@@ -20,7 +16,7 @@ class TotalTimer(object):
 
				         self.times = defaultdict(float)
			
 
				 
			
 
				     def __del__(self):
			
 
				-        for k, v in self.times.iteritems():
			
 
				+        for k, v in self.times.items():
			
 
				             logger.info("{} took {} seconds in total.".format(k, v))
			
 
				 
			
 
				 _total_timer = TotalTimer()
			
--- a/dump-audio.py
+++ b/dump-audio.py
@@ -1,16 +1,13 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: utf-8 -*-
			
 
				-# File: dump-audio.py
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import sys
			
 
				+import base64
			
 
				 import argparse
			
 
				 
			
 
				-from common.textutil import ensure_unicode
			
 
				 from wechat.parser import WeChatDBParser
			
 
				+from wechat.msg import TYPE_SPEAK
			
 
				 from wechat.res import Resource
			
 
				-from wechat.render import HTMLRender
			
 
				-from wechat.libchathelper import LibChatHelper
			
 
				 
			
 
				 def get_args():
			
 
				     parser = argparse.ArgumentParser()
			
@@ -23,27 +20,25 @@ def get_args():
 
				 
			
 
				 if __name__ == '__main__':
			
 
				     args = get_args()
			
 
				-
			
 
				-    name = ensure_unicode(args.name)
			
 
				-    output_file = args.output
			
 
				-
			
 
				     parser = WeChatDBParser(args.db)
			
 
				     res = Resource(parser, args.res, '')
			
 
				 
			
 
				-    if name and name in parser.msgs_by_chat:
			
 
				-        msgs = parser.msgs_by_chat[name]
			
 
				-    else:
			
 
				-        sys.stderr.write(u"Valid Contacts: {}\n".format(u'\n'.join(parser.msgs_by_chat.keys())))
			
 
				-        sys.stderr.write(u"Couldn't find that contact {}.".format(name));
			
 
				+    try:
			
 
				+        chatid = parser.get_id_by_nickname(args.name)
			
 
				+    except KeyError:
			
 
				+        sys.stderr.write(u"Valid Contacts: {}\n".format('\n'.join(parser.all_chat_nicknames)))
			
 
				+        sys.stderr.write(u"Couldn't find the chat {}.".format(args.name));
			
 
				         sys.exit(1)
			
 
				-    print "Number of Messages: ", len(msgs)
			
 
				+
			
 
				+    msgs = parser.msgs_by_chat[chatid]
			
 
				+    print(f"Number of Messages for {args.name}: ", len(msgs))
			
 
				     assert len(msgs) > 0
			
 
				 
			
 
				-    libchat = LibChatHelper(parser, res)
			
 
				-    msgs = libchat.convert_msgs(msgs)
			
 
				-    voices = [m.sound for m in msgs if m.sound]
			
 
				-    for idx, v in enumerate(voices):
			
 
				-        p = v.find(':')
			
 
				-        v = v[p:]
			
 
				-        with open('/{}/{:04d}.mp3'.format(args.output, idx), 'wb') as f:
			
 
				-            f.write(v)
			
 
				+    voice_msgs = [m for m in msgs if m.type == TYPE_SPEAK]
			
 
				+    for idx, m in enumerate(voice_msgs):
			
 
				+        audio_str, duration = res.get_voice_mp3(m.imgPath)
			
 
				+        audio_bytes = base64.b64decode(audio_str)
			
 
				+        outf = f'/{args.output}/{idx:04d}-{duration:.1f}s.mp3'
			
 
				+        with open(outf, 'wb') as f:
			
 
				+            f.write(audio_bytes)
			
 
				+        print(f"Audio written to {outf}")
			
--- a/dump-html.py
+++ b/dump-html.py
@@ -1,17 +1,17 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: dump-html.py
			
 
				-# Date: Wed Mar 25 17:44:20 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import sys
			
 
				 import argparse
			
 
				+import logging
			
 
				 
			
 
				 from common.textutil import ensure_unicode
			
 
				 from wechat.parser import WeChatDBParser
			
 
				 from wechat.res import Resource
			
 
				 from wechat.render import HTMLRender
			
 
				 
			
 
				+logger = logging.getLogger("wechat")
			
 
				+
			
 
				 def get_args():
			
 
				     parser = argparse.ArgumentParser()
			
 
				     parser.add_argument('name', help='name of contact')
			
@@ -39,7 +39,7 @@ if __name__ == '__main__':
 
				         sys.exit(1)
			
 
				     res = Resource(parser, args.res, args.avt)
			
 
				     msgs = parser.msgs_by_chat[chatid]
			
 
				-    print "Number of Messages: ", len(msgs)
			
 
				+    logger.info(f"Number of Messages: {len(msgs)}")
			
 
				     assert len(msgs) > 0
			
 
				 
			
 
				     render = HTMLRender(parser, res)
			
@@ -47,10 +47,11 @@ if __name__ == '__main__':
 
				 
			
 
				     if len(htmls) == 1:
			
 
				         with open(output_file, 'w') as f:
			
 
				-            print >> f, htmls[0].encode('utf-8')
			
 
				+            f.write(htmls[0])
			
 
				     else:
			
 
				         assert output_file.endswith(".html")
			
 
				         basename = output_file[:-5]
			
 
				         for idx, html in enumerate(htmls):
			
 
				             with open(basename + '.{}'.format(idx) + '.html', 'w') as f:
			
 
				-                print >> f, html.encode('utf-8')
			
 
				+                f.write(html)
			
 
				+    res.emoji_cache.flush()
			
--- a/dump-msg.py
+++ b/dump-msg.py
@@ -1,38 +1,40 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: dump-msg.py
			
 
				-# Date: Mon May 25 15:23:05 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				+import logging
			
 
				 from wechat.parser import WeChatDBParser
			
 
				 from common.textutil import safe_filename
			
 
				 import sys, os
			
 
				 
			
 
				-if len(sys.argv) != 3:
			
 
				-    sys.exit("Usage: {0} <path to decoded_database.db> <output_dir>".format(sys.argv[0]))
			
 
				+logger = logging.getLogger("wechat")
			
 
				 
			
 
				-db_file = sys.argv[1]
			
 
				-output_dir = sys.argv[2]
			
 
				-try:
			
 
				-    os.mkdir(output_dir)
			
 
				-except:
			
 
				-    pass
			
 
				-if not os.path.isdir(output_dir):
			
 
				-    sys.exit("Error creating directory {}".format(output_dir))
			
 
				+if __name__ == '__main__':
			
 
				+    if len(sys.argv) != 3:
			
 
				+        sys.exit("Usage: {0} <path to decoded_database.db> <output_dir>".format(sys.argv[0]))
			
 
				 
			
 
				-parser = WeChatDBParser(db_file)
			
 
				+    db_file = sys.argv[1]
			
 
				+    output_dir = sys.argv[2]
			
 
				+    try:
			
 
				+        os.mkdir(output_dir)
			
 
				+    except:
			
 
				+        pass
			
 
				+    if not os.path.isdir(output_dir):
			
 
				+        sys.exit("Error creating directory {}".format(output_dir))
			
 
				 
			
 
				-for chatid, msgs in parser.msgs_by_chat.iteritems():
			
 
				-    name = parser.contacts[chatid]
			
 
				-    if len(name) == 0:
			
 
				-        print u"Chat {} doesn't have a valid display name".format(chatid)
			
 
				-        name = str(id(chatid))
			
 
				-    print u"Writing msgs for {}".format(name)
			
 
				-    safe_name = safe_filename(name)
			
 
				-    outf = os.path.join(output_dir, safe_name + '.txt')
			
 
				-    if os.path.isfile(outf):
			
 
				-        print(u"File {} exists! Skip contact {}".format(outf, name))
			
 
				-        continue
			
 
				-    with open(outf, 'w') as f:
			
 
				-        for m in msgs:
			
 
				-            print >> f, m
			
 
				+    parser = WeChatDBParser(db_file)
			
 
				+
			
 
				+    for chatid, msgs in parser.msgs_by_chat.items():
			
 
				+        name = parser.contacts[chatid]
			
 
				+        if len(name) == 0:
			
 
				+            logger.info(f"Chat {chatid} doesn't have a valid display name.")
			
 
				+            name = str(id(chatid))
			
 
				+        logger.info(f"Writing msgs for {name}")
			
 
				+        safe_name = safe_filename(name)
			
 
				+        outf = os.path.join(output_dir, safe_name + '.txt')
			
 
				+        if os.path.isfile(outf):
			
 
				+            logger.info(f"File {outf} exists! Skip contact {name}")
			
 
				+            continue
			
 
				+        with open(outf, 'w') as f:
			
 
				+            for m in msgs:
			
 
				+                f.write(str(m))
			
 
				+                f.write("\n")
			
--- a/emoji-cache-tool.py
+++ b/emoji-cache-tool.py
@@ -1,9 +1,7 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: utf-8 -*-
			
 
				-# File: emoji-cache-tool.py
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				-import cPickle as pickle
			
 
				+import pickle
			
 
				 import sys
			
 
				 import os
			
 
				 import imghdr
			
@@ -11,23 +9,26 @@ import base64
 
				 
			
 
				 if __name__ == '__main__':
			
 
				     if len(sys.argv) != 3:
			
 
				-        print """\
			
 
				+        print("""\
			
 
				 Usage:
			
 
				  {} unpack output-dir
			
 
				  {} pack input-dir
			
 
				-""".format(sys.argv[0], sys.argv[0])
			
 
				+""".format(sys.argv[0], sys.argv[0]))
			
 
				         sys.exit(1)
			
 
				 
			
 
				     if sys.argv[1] == 'unpack':
			
 
				-        with open('emoji.cache') as f:
			
 
				+        with open('emoji.cache', 'rb') as f:
			
 
				             dic = pickle.load(f)
			
 
				         outdir = sys.argv[2]
			
 
				         assert os.path.isdir(outdir)
			
 
				-        for md5, img in dic.iteritems():
			
 
				+        for md5, img in dic.items():
			
 
				+            data = img[0]
			
 
				+            if not isinstance(data, bytes):
			
 
				+                data = data.encode('ascii')
			
 
				             name = os.path.join(outdir, md5 + '.' + img[1].lower())
			
 
				-            print name
			
 
				+            print(name)
			
 
				             with open(name, 'wb') as f:
			
 
				-                f.write(base64.decodestring(img[0]))
			
 
				+                f.write(base64.decodebytes(data))
			
 
				     elif sys.argv[1] == 'pack':
			
 
				         ret = {}
			
 
				         indir = sys.argv[2]
			
@@ -36,10 +37,10 @@ Usage:
 
				             try:
			
 
				                 md5, format = fname.split('.')
			
 
				             except:
			
 
				-                print "Unable to parse", fname
			
 
				+                print("Unable to parse", fname)
			
 
				                 continue
			
 
				-            with open(os.path.join(indir, fname)) as f:
			
 
				-                b64 = base64.encodestring(f.read())
			
 
				+            with open(os.path.join(indir, fname), 'rb') as f:
			
 
				+                b64 = base64.encodebytes(f.read()).decode('ascii')
			
 
				             ret[md5] = (b64, format)
			
 
				         with open('emoji.cache', 'wb') as f:
			
 
				             pickle.dump(ret, f)
			
--- a/libchat/create_db.py
+++ b/libchat/create_db.py
@@ -1,4 +1,4 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				 # File: create_table.py
			
 
				 # Date: Wed Mar 25 16:43:22 2015 +0800
			
@@ -10,7 +10,7 @@ import os
 
				 from libchat import SqliteLibChat
			
 
				 
			
 
				 if len(sys.argv) != 2:
			
 
				-    print "Usage: {} <DB file name>"
			
 
				+    print("Usage: {} <DB file name>")
			
 
				     sys.exit()
			
 
				 
			
 
				 db_name = sys.argv[1]
			
--- a/libchat/libchat.py
+++ b/libchat/libchat.py
@@ -1,8 +1,5 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: libchat.py
			
 
				-# Date: Sun Apr 12 21:08:51 2015 +0900
			
 
				-# Author: Yuxin Wu
			
 
				 import sqlite3
			
 
				 import os
			
 
				 from datetime import datetime
			
@@ -99,7 +96,7 @@ class SqliteLibChat(object):
 
				         else:
			
 
				             self.c.execute("SELECT * FROM message WHERE {}".format(
			
 
				                 ' AND '.join(["{} = {}".format(k, v)
			
 
				-                              for k, v in predicate.iteritems()])))
			
 
				+                              for k, v in predicate.items()])))
			
 
				         for row in self.c.fetchall():
			
 
				             yield ChatMsg(*SqliteLibChat.postfilter(row))
			
 
				 
			
@@ -113,5 +110,5 @@ if __name__ == '__main__':
 
				 
			
 
				     for k in db.iterate_all_msg():
			
 
				         from IPython import embed; embed()
			
 
				-        print k
			
 
				+        print(k)
			
 
				 
			
--- a/list-chats.py
+++ b/list-chats.py
@@ -1,4 +1,4 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				 # File: list-chats.py
			
 
				 # Author: Yuxin Wu <[email protected]>
			
@@ -6,7 +6,7 @@
 
				 from wechat.parser import WeChatDBParser
			
 
				 import sys
			
 
				 if len(sys.argv) != 2:
			
 
				-    print "Usage: {} db_file".format(sys.argv[0])
			
 
				+    print("Usage: {} db_file".format(sys.argv[0]))
			
 
				     sys.exit(1)
			
 
				 
			
 
				 db_file = sys.argv[1]
			
@@ -14,4 +14,4 @@ db_file = sys.argv[1]
 
				 parser = WeChatDBParser(db_file)
			
 
				 chats = parser.msgs_by_chat.keys()
			
 
				 for k in chats:
			
 
				-    print parser.contacts[k], '\t', k
			
 
				+    print(parser.contacts[k], '\t', k)
			
--- a/plot-num-msg-by-time.py
+++ b/plot-num-msg-by-time.py
@@ -1,4 +1,4 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				 # File: plot-num-msg-by-time.py
			
 
				 # Date: Wed Mar 25 17:44:39 2015 +0800
			
@@ -39,7 +39,7 @@ plt.show()
 
				 # I'm in a different time zone in this period:
			
 
				 #TZ_DELTA = {(datetime(2014, 7, 13), datetime(2014, 10, 1)): -15}
			
 
				 #def real_hour(x):
			
 
				-    #for k, v in TZ_DELTA.iteritems():
			
 
				+    #for k, v in TZ_DELTA.items():
			
 
				         #if x > k[0] and x < k[1]:
			
 
				             #print x
			
 
				             #return (x.hour + v + 24) % 24
			
--- a/wechat/__init__.py
+++ b/wechat/__init__.py
@@ -1,4 +1,4 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				 
			
 
				 import logging
			
--- a/wechat/audio.py
+++ b/wechat/audio.py
@@ -1,17 +1,12 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: audio.py
			
 
				-# Date: Fri Jun 26 10:42:41 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import os
			
 
				-from subprocess import PIPE, Popen, call
			
 
				 import logging
			
 
				 logger = logging.getLogger(__name__)
			
 
				 
			
 
				-import pysox
			
 
				-
			
 
				 from common.textutil import get_file_b64
			
 
				+from common.procutil import subproc_succ
			
 
				 
			
 
				 SILK_DECODER = os.path.join(os.path.dirname(__file__),
			
 
				                             '../third-party/silk/decoder')
			
@@ -23,56 +18,50 @@ def parse_wechat_audio_file(file_name):
 
				     try:
			
 
				         return do_parse_wechat_audio_file(file_name)
			
 
				     except Exception as e:
			
 
				-        logger.error("Pase audio file {} error!".format(file_name))
			
 
				-        logger.error(e)
			
 
				+        logger.exception("Error when parsing audio file {}".format(file_name))
			
 
				         return "", 0
			
 
				 
			
 
				 def do_parse_wechat_audio_file(file_name):
			
 
				-    """ return a mp3 base64 string, and the duration"""
			
 
				+    """ return a mp3 stored in base64 unicode string, and the duration"""
			
 
				     if not file_name: return "", 0
			
 
				 
			
 
				     mp3_file = os.path.join('/tmp',
			
 
				                             os.path.basename(file_name)[:-4] + '.mp3')
			
 
				-    with open(file_name) as f:
			
 
				+    with open(file_name, 'rb') as f:
			
 
				         header = f.read(10)
			
 
				-    if 'AMR' in header:
			
 
				-        # maybe this is faster than calling sox from command line?
			
 
				+    if b'AMR' in header:
			
 
				+        raise NotImplementedError("AMR decoding not implemented because it seems deprecated since WeChat6.0+")
			
 
				+        # The below is python2 only. It should be equivalent to using sox from command line?
			
 
				+        import pysox
			
 
				         infile = pysox.CSoxStream(file_name)
			
 
				         outfile = pysox.CSoxStream(mp3_file, 'w', infile.get_signal())
			
 
				         chain = pysox.CEffectsChain(infile, outfile)
			
 
				         chain.flow_effects()
			
 
				         outfile.close()
			
 
				-
			
 
				         signal = infile.get_signal().get_signalinfo()
			
 
				         duration = signal['length'] * 1.0 / signal['rate']
			
 
				-    elif 'SILK' in header:
			
 
				+    elif b'SILK' in header:
			
 
				         raw_file = os.path.join('/tmp',
			
 
				                                 os.path.basename(file_name)[:-4] + '.raw')
			
 
				-        proc = Popen('{0} {1} {2}'.format(SILK_DECODER,
			
 
				-                                                file_name, raw_file),
			
 
				-                    shell=True, stdout=PIPE, stderr=PIPE)
			
 
				-        stdout = proc.communicate()[0]
			
 
				-        for line in stdout.split('\n'):
			
 
				-            if 'File length' in line:
			
 
				+        cmd = '{0} {1} {2}'.format(SILK_DECODER, file_name, raw_file)
			
 
				+        out = subproc_succ(cmd)
			
 
				+        for line in out.split(b'\n'):
			
 
				+            if b'File length' in line:
			
 
				                 duration = float(line[13:-3].strip())
			
 
				                 break
			
 
				         else:
			
 
				             raise RuntimeError("Error decoding silk audio file!")
			
 
				 
			
 
				-        # I don't know how to do this with pysox
			
 
				-        proc = call('sox -r 24000 -e signed -b 16 -c 1 {} {}'.format(
			
 
				-            raw_file, mp3_file), shell=True)
			
 
				+        # TODO don't know how to do this with python
			
 
				+        subproc_succ('sox -r 24000 -e signed -b 16 -c 1 {} {}'.format(raw_file, mp3_file))
			
 
				         os.unlink(raw_file)
			
 
				     else:
			
 
				         raise NotImplementedError("Unsupported Audio Format! This is a bug!")
			
 
				-    try:
			
 
				-        mp3_string = get_file_b64(mp3_file)
			
 
				-        os.unlink(mp3_file)
			
 
				-    except:
			
 
				-        raise RuntimeError("Failed to decode audio file: {}".format(file_name))
			
 
				+    mp3_string = get_file_b64(mp3_file)
			
 
				+    os.unlink(mp3_file)
			
 
				     return mp3_string, duration
			
 
				 
			
 
				 if __name__ == '__main__':
			
 
				     import sys
			
 
				     fname = sys.argv[1]
			
 
				-    print parse_wechat_audio_file(fname)[1]
			
 
				+    print(parse_wechat_audio_file(fname)[1])
			
--- a/wechat/avatar.py
+++ b/wechat/avatar.py
@@ -1,11 +1,7 @@
 
				-#!/usr/bin/env python2
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: avatar.py
			
 
				-# Date: Wed Nov 29 03:27:16 2017 -0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 from PIL import Image
			
 
				-import cStringIO
			
 
				+import io
			
 
				 import glob
			
 
				 import os
			
 
				 import numpy as np
			
@@ -13,7 +9,7 @@ import logging
 
				 import sqlite3
			
 
				 logger = logging.getLogger(__name__)
			
 
				 
			
 
				-from common.textutil import ensure_bin_str, md5
			
 
				+from common.textutil import ensure_unicode, md5
			
 
				 
			
 
				 
			
 
				 class AvatarReader(object):
			
@@ -40,7 +36,7 @@ class AvatarReader(object):
 
				         if not self._use_avt:
			
 
				             return None
			
 
				 
			
 
				-        username = ensure_bin_str(username)
			
 
				+        username = ensure_unicode(username).encode('utf-8')
			
 
				         filename = md5(username)
			
 
				         dir1, dir2 = filename[:2], filename[2:4]
			
 
				         filename = os.path.join(dir1, dir2,
			
@@ -58,13 +54,12 @@ class AvatarReader(object):
 
				                     else:
			
 
				                         return None
			
 
				             except TypeError:
			
 
				-                logger.warn("Avatar for {} not found in avatar database.".format(username))
			
 
				+                logger.warning("Avatar for {} not found in avatar database.".format(username))
			
 
				                 return None
			
 
				         except Exception as e:
			
 
				             raise
			
 
				-            print e
			
 
				-            logger.warn("Failed to retrieve avatar!")
			
 
				-            return None
			
 
				+            # logger.exception("Failed to retrieve avatar!")
			
 
				+            # return None
			
 
				 
			
 
				 
			
 
				     def read_img(self, pos, size):
			
@@ -77,7 +72,7 @@ class AvatarReader(object):
 
				             with open(fname, 'rb') as f:
			
 
				                 f.seek(start_pos)
			
 
				                 data = f.read(size)
			
 
				-                im = Image.open(cStringIO.StringIO(data))
			
 
				+                im = Image.open(io.BytesIO(data))
			
 
				                 return im
			
 
				         except IOError as e:
			
 
				             logger.warn("Cannot read avatar from {}: {}".format(fname, str(e)))
			
--- a/wechat/libchathelper.py
+++ b/wechat/libchathelper.py
@@ -1,8 +1,4 @@
 
				-#!/usr/bin/env python2
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: libchathelper.py
			
 
				-# Date: Wed Nov 29 03:44:54 2017 -0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import base64
			
 
				 from pyquery import PyQuery
			
@@ -65,8 +61,8 @@ class LibChatHelper(object):
 
				     def _get_sound(self, msg):
			
 
				         if msg.type == TYPE_SPEAK:
			
 
				             audio_str, duration = self.res.get_voice_mp3(msg.imgPath)
			
 
				-            return '{}:{}'.format(duration, base64.b64decode(audio_str))
			
 
				-        return ''
			
 
				+            return base64.b64decode(audio_str)
			
 
				+        return b''
			
 
				 
			
 
				     def _get_extra(self, msg):
			
 
				         ret = {}
			
@@ -83,7 +79,7 @@ class LibChatHelper(object):
 
				         if img:
			
 
				             # TODO don't use b64, directly return image content
			
 
				             img = base64.b64decode(img)
			
 
				-# TODO do we need to save format?
			
 
				+        # TODO do we need to save format or voice duration?
			
 
				         sound = self._get_sound(msg)
			
 
				         extra = self._get_extra(msg)
			
 
				 
			
--- a/wechat/msg.py
+++ b/wechat/msg.py
@@ -1,8 +1,4 @@
 
				-#!/usr/bin/env python2
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: msg.py
			
 
				-# Date: Thu Jun 18 00:01:00 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 TYPE_MSG = 1
			
 
				 TYPE_IMG = 3
			
 
				 TYPE_SPEAK = 34
			
@@ -16,6 +12,7 @@ TYPE_WX_VIDEO = 62  # video took by wechat
 
				 TYPE_SYSTEM = 10000
			
 
				 TYPE_CUSTOM_EMOJI = 1048625
			
 
				 TYPE_REDENVELOPE = 436207665
			
 
				+TYPE_MONEY_TRANSFER = 419430449  # 微信转账
			
 
				 TYPE_LOCATION_SHARING = -1879048186
			
 
				 TYPE_APP_MSG = 16777265
			
 
				 
			
@@ -40,7 +37,7 @@ class WeChatMsg(object):
 
				         return False
			
 
				 
			
 
				     def __init__(self, values):
			
 
				-        for k, v in values.iteritems():
			
 
				+        for k, v in values.items():
			
 
				             setattr(self, k, v)
			
 
				         if self.type not in _KNOWN_TYPES:
			
 
				             logger.warn("Unhandled message type: {}".format(self.type))
			
@@ -101,6 +98,16 @@ class WeChatMsg(object):
 
				             except:
			
 
				                 pass
			
 
				             return u"[RED ENVELOPE]"
			
 
				+        elif self.type == TYPE_MONEY_TRANSFER:
			
 
				+            data_to_parse = io.BytesIO(self.content.encode('utf-8'))
			
 
				+            try:
			
 
				+                for event, elem in ET.iterparse(data_to_parse, events=('end',)):
			
 
				+                    if elem.tag == 'des':
			
 
				+                        title = elem.text
			
 
				+                        return u"[Money Transfer]\n{}".format(title)
			
 
				+            except:
			
 
				+                pass
			
 
				+            return u"[Money Transfer]"
			
 
				         else:
			
 
				             # TODO replace smiley with text
			
 
				             return self.content
			
@@ -113,14 +120,14 @@ class WeChatMsg(object):
 
				         return msg
			
 
				 
			
 
				     def __repr__(self):
			
 
				-        ret = u"{}|{}:{}:{}".format(
			
 
				+        ret = "{}|{}:{}:{}".format(
			
 
				             self.type,
			
 
				             self.talker_nickname if not self.isSend else 'me',
			
 
				             self.createTime,
			
 
				-            ensure_unicode(self.msg_str())).encode('utf-8')
			
 
				+            ensure_unicode(self.msg_str()))
			
 
				         if self.imgPath:
			
 
				-            ret = u"{}|img:{}".format(ensure_unicode(ret.strip()), self.imgPath)
			
 
				-            return ret.encode('utf-8')
			
 
				+            ret = "{}|img:{}".format(ensure_unicode(ret.strip()), self.imgPath)
			
 
				+            return ret
			
 
				         else:
			
 
				             return ret
			
 
				 
			
--- a/wechat/msgslice.py
+++ b/wechat/msgslice.py
@@ -1,8 +1,4 @@
 
				-#!/usr/bin/env python2
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: msgslice.py
			
 
				-# Date: Thu Jan 08 00:15:49 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 class MessageSlicerByTime(object):
			
 
				     """ Separate messages into slices by time,
			
--- a/wechat/parser.py
+++ b/wechat/parser.py
@@ -1,8 +1,4 @@
 
				-#!/usr/bin/env python2
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: parser.py
			
 
				-# Date: Thu Jun 18 00:03:53 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import sqlite3
			
 
				 from collections import defaultdict
			
@@ -51,7 +47,7 @@ SELECT username,conRemark,nickname FROM rcontact
 
				             else:
			
 
				                 self.contacts[username] = ensure_unicode(nickname)
			
 
				 
			
 
				-        for k, v in self.contacts.iteritems():
			
 
				+        for k, v in self.contacts.items():
			
 
				             self.contacts_rev[v].append(k)
			
 
				         logger.info("Found {} names in `contact` table.".format(len(self.contacts)))
			
 
				 
			
@@ -70,7 +66,7 @@ SELECT {} FROM message
 
				             if not WeChatMsg.filter_type(msg.type):
			
 
				                 self.msgs_by_chat[msg.chat].append(msg)
			
 
				 
			
 
				-        for k, v in self.msgs_by_chat.iteritems():
			
 
				+        for k, v in self.msgs_by_chat.items():
			
 
				             self.msgs_by_chat[k] = sorted(v, key=lambda x: x.createTime)
			
 
				             msgs_tot_cnt += len(v)
			
 
				         logger.info("Found {} message records.".format(msgs_tot_cnt))
			
@@ -166,7 +162,7 @@ SELECT {} FROM message
 
				 
			
 
				     @property
			
 
				     def all_chat_nicknames(self):
			
 
				-        return [self.contacts[k] for k in self.all_chat_ids]
			
 
				+        return [self.contacts[k] for k in self.all_chat_ids if len(self.contacts[k])]
			
 
				 
			
 
				     def get_id_by_nickname(self, nickname):
			
 
				         l = self.contacts_rev[nickname]
			
--- a/wechat/render.py
+++ b/wechat/render.py
@@ -1,8 +1,5 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: render.py
			
 
				-# Date: Wed Nov 29 03:53:55 2017 -0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import os
			
 
				 import base64
			
@@ -36,7 +33,7 @@ TEMPLATES_FILES = {TYPE_MSG: "TP_MSG",
 
				                    TYPE_CUSTOM_EMOJI: "TP_EMOJI",
			
 
				                    TYPE_LINK: "TP_MSG"}
			
 
				 TEMPLATES = {k: ensure_unicode(open(os.path.join(STATIC_PATH, '{}.html'.format(v))).read())
			
 
				-    for k, v in TEMPLATES_FILES.iteritems()}
			
 
				+    for k, v in TEMPLATES_FILES.items()}
			
 
				 
			
 
				 class HTMLRender(object):
			
 
				     def __init__(self, parser, res=None):
			
@@ -99,6 +96,7 @@ class HTMLRender(object):
 
				             format_dict['nickname'] = '>\n       <pre align=\'left\'>'+msg.talker_nickname+'</pre'
			
 
				         else:
			
 
				             format_dict['nickname'] = ' '
			
 
				+
			
 
				         def fallback():
			
 
				             template = TEMPLATES[TYPE_MSG]
			
 
				             content = msg.msg_str()
			
@@ -150,6 +148,7 @@ class HTMLRender(object):
 
				                 content = u'URL:<a target="_blank" href="{0}">{0}</a>'.format(url)
			
 
				                 format_dict['content'] = content
			
 
				                 return template.format(**format_dict)
			
 
				+        # TODO handle TYPE_VIDEO_FILE
			
 
				         elif msg.type == TYPE_WX_VIDEO:
			
 
				             # TODO: fetch video from resource
			
 
				             return fallback()
			
--- a/wechat/res.py
+++ b/wechat/res.py
@@ -1,21 +1,17 @@
 
				-#!/usr/bin/env python2
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: res.py
			
 
				-# Date: Wed Nov 29 03:43:50 2017 -0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import glob
			
 
				 import os
			
 
				 import re
			
 
				 from PIL import Image
			
 
				-import cStringIO
			
 
				+import io
			
 
				 import base64
			
 
				 import logging
			
 
				 logger = logging.getLogger(__name__)
			
 
				 import imghdr
			
 
				 from multiprocessing import Pool
			
 
				 import atexit
			
 
				-import cPickle as pickle
			
 
				+import pickle
			
 
				 import requests
			
 
				 
			
 
				 from .avatar import AvatarReader
			
@@ -36,26 +32,29 @@ class EmojiCache(object):
 
				     def __init__(self, fname):
			
 
				         self.fname = fname
			
 
				         if os.path.isfile(fname):
			
 
				-            self.dic = pickle.load(open(fname))
			
 
				+            with open(fname, 'rb') as f:
			
 
				+                self.dic = pickle.load(f)
			
 
				         else:
			
 
				             self.dic = {}
			
 
				 
			
 
				         self._curr_size = len(self.dic)
			
 
				 
			
 
				     def query(self, md5):
			
 
				-        return self.dic.get(md5, (None, None))
			
 
				+        data, format = self.dic.get(md5, (None, None))
			
 
				+        if data is not None and not isinstance(data, str):
			
 
				+            data = data.decode('ascii')
			
 
				+        return data, format
			
 
				 
			
 
				     def fetch(self, md5, url):
			
 
				         try:
			
 
				             logger.info("Requesting emoji {} from {} ...".format(md5, url))
			
 
				             r = requests.get(url).content
			
 
				-            im = Image.open(cStringIO.StringIO(r))
			
 
				+            im = Image.open(io.BytesIO(r))
			
 
				             format = im.format.lower()
			
 
				-            ret = (base64.b64encode(r), format)
			
 
				+            ret = (base64.b64encode(r).decode('ascii'), format)
			
 
				             self.dic[md5] = ret
			
 
				 
			
 
				-            if len(self.dic) == self._curr_size + 10:
			
 
				-                self._curr_size = len(self.dic)
			
 
				+            if len(self.dic) >= self._curr_size + 10:
			
 
				                 self.flush()
			
 
				             return ret
			
 
				         except Exception as e:
			
@@ -63,8 +62,10 @@ class EmojiCache(object):
 
				             return None, None
			
 
				 
			
 
				     def flush(self):
			
 
				-        with open(self.fname, 'wb') as f:
			
 
				-            pickle.dump(self.dic, f)
			
 
				+        if len(self.dic) > self._curr_size:
			
 
				+            self._curr_size = len(self.dic)
			
 
				+            with open(self.fname, 'wb') as f:
			
 
				+                pickle.dump(self.dic, f)
			
 
				 
			
 
				 class Resource(object):
			
 
				     """ multimedia resources in chat"""
			
@@ -86,7 +87,7 @@ class Resource(object):
 
				         self.avt_reader = AvatarReader(res_dir, avt_db)
			
 
				 
			
 
				     def get_voice_filename(self, imgpath):
			
 
				-        fname = md5(imgpath)
			
 
				+        fname = md5(imgpath.encode('ascii'))
			
 
				         dir1, dir2 = fname[:2], fname[2:4]
			
 
				         ret = os.path.join(self.voice_dir, dir1, dir2,
			
 
				                            'msg_{}.amr'.format(imgpath))
			
@@ -107,21 +108,19 @@ class Resource(object):
 
				         """ for speed.
			
 
				         msgs: a collection of WeChatMsg, to cache for later fetch"""
			
 
				         voice_paths = [msg.imgPath for msg in msgs if msg.type == TYPE_SPEAK]
			
 
				+        # NOTE: remove all the caching code to debug serial decoding
			
 
				         self.voice_cache_idx = {k: idx for idx, k in enumerate(voice_paths)}
			
 
				         pool = Pool(3)
			
 
				         atexit.register(lambda x: x.terminate(), pool)
			
 
				         self.voice_cache = [pool.apply_async(parse_wechat_audio_file,
			
 
				                                              (self.get_voice_filename(k),)) for k in voice_paths]
			
 
				-# single-threaded version, for debug
			
 
				-        #self.voice_cache = map(parse_wechat_audio_file,
			
 
				-                             #(self.get_voice_filename(k) for k in voice_paths))
			
 
				 
			
 
				     def get_avatar(self, username):
			
 
				-        """ return base64 string"""
			
 
				+        """ return base64 unicode string"""
			
 
				         im = self.avt_reader.get_avatar(username)
			
 
				         if im is None:
			
 
				             return ""
			
 
				-        buf = cStringIO.StringIO()
			
 
				+        buf = io.BytesIO()
			
 
				         try:
			
 
				             im.save(buf, 'JPEG', quality=JPEG_QUALITY)
			
 
				         except IOError:
			
@@ -131,7 +130,7 @@ class Resource(object):
 
				             except IOError:
			
 
				                 return ""
			
 
				         jpeg_str = buf.getvalue()
			
 
				-        return base64.b64encode(jpeg_str)
			
 
				+        return base64.b64encode(jpeg_str).decode('ascii')
			
 
				 
			
 
				     def _get_img_file(self, fnames):
			
 
				         """ fnames: a list of filename to search for
			
@@ -167,7 +166,7 @@ class Resource(object):
 
				                 logger.warn("Found big image but not thumbnail: {}".format(fname))
			
 
				                 return (name, "")
			
 
				         big = cands[-1]
			
 
				-        ths = filter(name_is_thumbnail, [k[0] for k in cands])
			
 
				+        ths = list(filter(name_is_thumbnail, [k[0] for k in cands]))
			
 
				         if not ths:
			
 
				             return (big[0], "")
			
 
				         return (big[0], ths[0])
			
@@ -187,10 +186,11 @@ class Resource(object):
 
				             if not img_file.endswith('jpg') and \
			
 
				                imghdr.what(img_file) != 'jpeg':
			
 
				                 im = Image.open(open(img_file, 'rb'))
			
 
				-                buf = cStringIO.StringIO()
			
 
				+                buf = io.BytesIO()
			
 
				                 im.convert('RGB').save(buf, 'JPEG', quality=JPEG_QUALITY)
			
 
				-                return base64.b64encode(buf.getvalue())
			
 
				+                return base64.b64encode(buf.getvalue()).decode('ascii')
			
 
				             return get_file_b64(img_file)
			
 
				+
			
 
				         big_file = get_jpg_b64(big_file)
			
 
				         if big_file:
			
 
				             return big_file
			
@@ -224,7 +224,7 @@ class Resource(object):
 
				         return get_file_b64(f), imghdr.what(f)
			
 
				 
			
 
				     def get_emoji_by_md5(self, md5):
			
 
				-        """ :returns: (b64 img, format)"""
			
 
				+        """ :returns: (b64 unicode img, format)"""
			
 
				         assert md5, md5
			
 
				         if md5 in self.parser.internal_emojis:
			
 
				             # TODO this seems broken
			
--- a/wechat/smiley.py
+++ b/wechat/smiley.py
@@ -1,8 +1,5 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: smiley.py
			
 
				-# Date: Thu Jun 18 00:02:43 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import os
			
 
				 import re
			
@@ -59,7 +56,7 @@ class SmileyProvider(object):
 
				         # some extra smiley from javascript on wx.qq.com
			
 
				         extra_smiley = json.load(open(TENCENT_EXTRASMILEY_FILE))
			
 
				         extra_smiley = {u'[' + k + u']': v for k, v in
			
 
				-                            extra_smiley.iteritems()}
			
 
				+                            extra_smiley.items()}
			
 
				         self.tencent_smiley.update(extra_smiley)
			
 
				 
			
 
				         # 1f35c -> "\ue340"
			
@@ -69,14 +66,14 @@ class SmileyProvider(object):
 
				         # u'\ue415' -> 'e415'       # for android
			
 
				         unicode_smiley_dict = json.load(open(UNICODE_SMILEY_FILE))
			
 
				         self.unicode_smiley = {(self.unichar(int(k, 16))): hex(ord(v))[2:] for k, v in
			
 
				-                                unicode_smiley_dict.iteritems()}
			
 
				+                                unicode_smiley_dict.items()}
			
 
				         self.unicode_smiley.update({v: hex(ord(v))[2:] for _, v in
			
 
				-                                unicode_smiley_dict.iteritems()})
			
 
				+                                unicode_smiley_dict.items()})
			
 
				         self.used_smiley_id = set()
			
 
				 
			
 
				     def unichar(self, i):
			
 
				         try:
			
 
				-            return unichr(i)
			
 
				+            return chr(i)
			
 
				         except ValueError:
			
 
				             return struct.pack('i', i).decode('utf-32')
			
 
				 
			
@@ -88,7 +85,7 @@ class SmileyProvider(object):
 
				         if not UNICODE_SMILEY_RE.findall(msg):
			
 
				         # didn't find the code
			
 
				             return msg
			
 
				-        for k, v in self.unicode_smiley.iteritems():
			
 
				+        for k, v in self.unicode_smiley.items():
			
 
				             if k in msg:
			
 
				                 msg = msg.replace(k, self.gen_replace_elem(v))
			
 
				         return msg
			
@@ -97,7 +94,7 @@ class SmileyProvider(object):
 
				         if (not '[' in msg or not ']' in msg) \
			
 
				            and (not '/:' in msg) and (not '/' in msg):
			
 
				             return msg
			
 
				-        for k, v in self.tencent_smiley.iteritems():
			
 
				+        for k, v in self.tencent_smiley.items():
			
 
				             if k in msg:
			
 
				                 msg = msg.replace(k, self.gen_replace_elem(v))
			
 
				         return msg
			
--- a/wechat/static/parse_tencent_smiley.py
+++ b/wechat/static/parse_tencent_smiley.py
@@ -1,8 +1,5 @@
 
				-#!/usr/bin/env python2
			
 
				+#!/usr/bin/env python3
			
 
				 # -*- coding: UTF-8 -*-
			
 
				-# File: parse_tencent_smiley.py
			
 
				-# Date: Sat Dec 27 00:15:14 2014 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 import xml.etree.ElementTree as ET
			
 
				 import os
			
--- a/wechat/static/see_smiley_name.sh
+++ b/wechat/static/see_smiley_name.sh
@@ -1,6 +1,3 @@
 
				 #!/bin/bash -e
			
 
				-# File: see_smiley_name.sh
			
 
				-# Date: Sun Jan 11 21:37:06 2015 +0800
			
 
				-# Author: Yuxin Wu
			
 
				 
			
 
				 cat tencent-smiley.json | jq 'to_entries | group_by(.value) | .[] | "---------",.[].key'