Quellcode durchsuchen

split train and valid

jstzwj vor 6 Jahren
Ursprung
Commit
af76e4b631
5 geänderte Dateien mit 19341 neuen und 1 gelöschten Zeilen
  1. 9666 0
      data/train_source.txt
  2. 9665 0
      data/train_target.txt
  3. 0 0
      data/valid_source.txt
  4. 0 0
      data/valid_target.txt
  5. 10 1
      preprocess.py

Datei-Diff unterdrückt, da er zu groß ist
+ 9666 - 0
data/train_source.txt


Datei-Diff unterdrückt, da er zu groß ist
+ 9665 - 0
data/train_target.txt


+ 0 - 0
data/octoon_source.txt → data/valid_source.txt


+ 0 - 0
data/octoon_target.txt → data/valid_target.txt


+ 10 - 1
preprocess.py

@@ -70,9 +70,18 @@ def generate_dataset(messages, output_path_source, output_path_target):
                     pbar.update()
 
 if __name__ == "__main__":
+    '''
     print('read message')
     msg = read_qq_history_file('data/Octoon 开发组.txt')
     print('filter message')
     filter_msg(msg)
     print('write to file')
-    generate_dataset(msg, 'data/octoon_source.txt', 'data/octoon_target.txt')
+    generate_dataset(msg, 'data/octoon_source.txt', 'data/octoon_target.txt')
+    '''
+
+    print('read message')
+    msg = read_qq_history_file('data/ISOIEC C++ China Unofficial.txt')
+    print('filter message')
+    filter_msg(msg)
+    print('write to file')
+    generate_dataset(msg, 'data/train_source.txt', 'data/train_target.txt')

Einige Dateien werden nicht angezeigt, da zu viele Dateien in diesem Diff geändert wurden.