txlyre 6 月之前
父節點
當前提交
44652d8b90
共有 1 個文件被更改,包括 3 次插入0 次删除
  1. 3 0
      markov.py

+ 3 - 0
markov.py

@@ -1,4 +1,5 @@
 import os.path
+import re
 import atexit
 
 import ujson
@@ -40,6 +41,8 @@ class Markov:
             return
 
         text = text.replace("\n", " ")
+        text = re.sub(r"(@[a-z0-9_]+,?)", "", text)
+        text = re.sub(r"((\.{2,})|(\!{2,})|(\?{2,})|[.?!,:;\(\)\"'\$\+\-–—])", r" \1 ", text)
         text = text.split(" ")
         text = map(lambda word: word.strip(), text)
         text = filter(bool, text)