пре 3 година · ca13acdfa0
--- a/server.py
+++ b/server.py
@@ -116,6 +116,14 @@ def fix_galactica(s):
 
															     s = s.replace(r'$$', r'$')
														
 
															     return s
														
 
															+def encode(prompt, tokens):
														
 
															+    if not args.cpu:
														
 
															+        torch.cuda.empty_cache()
														
 
															+        input_ids = tokenizer.encode(str(prompt), return_tensors='pt', truncation=True, max_length=2048-tokens).cuda()
														
 
															+    else:
														
 
															+        input_ids = tokenizer.encode(str(prompt), return_tensors='pt', truncation=True, max_length=2048-tokens)
														
 
															+    return input_ids
														
 
															+
														
 
															 def generate_reply(question, tokens, inference_settings, selected_model, eos_token=None):
														
 
															     global model, tokenizer, model_name, loaded_preset, preset
														
@@ -131,14 +139,9 @@ def generate_reply(question, tokens, inference_settings, selected_model, eos_tok
 
															             preset = infile.read()
														
 
															         loaded_preset = inference_settings
														
 
															-    if not args.cpu:
														
 
															-        torch.cuda.empty_cache()
														
 
															-        input_ids = tokenizer.encode(str(question), return_tensors='pt', truncation=True, max_length=2048-tokens).cuda()
														
 
															-        cuda = ".cuda()"
														
 
															-    else:
														
 
															-        input_ids = tokenizer.encode(str(question), return_tensors='pt', truncation=True, max_length=2048-tokens)
														
 
															-        cuda = ""
														
 
															+    input_ids = encode(question, tokens)
														
 
															+    cuda = ".cuda()" if args.cpu else ""
														
 
															     if eos_token is None:
														
 
															         output = eval(f"model.generate(input_ids, {preset}){cuda}")
														
 
															     else:
														
@@ -217,16 +220,20 @@ elif args.chat or args.cai_chat:
 
															     def chatbot_wrapper(text, tokens, inference_settings, selected_model, name1, name2, context, check):
														
 
															         text = chat_response_cleaner(text)
														
 
															-        question = f"{context}\n\n"
														
 
															-        for i in range(len(history)):
														
 
															-            if args.cai_chat:
														
 
															-                question += f"{name1}: {history[i][0].strip()}\n"
														
 
															-                question += f"{name2}: {history[i][1].strip()}\n"
														
 
															-            else:
														
 
															-                question += f"{name1}: {history[i][0][3:-5].strip()}\n"
														
 
															-                question += f"{name2}: {history[i][1][3:-5].strip()}\n"
														
 
															-        question += f"{name1}: {text}\n"
														
 
															-        question += f"{name2}:"
														
 
															+        rows = [f"{context}\n\n"]
														
 
															+        i = len(history)-1
														
 
															+        while i >= 0 and len(encode(''.join(rows), tokens)[0]) < 2048-tokens:
														
 
															+            rows.insert(1, f"{name2}: {history[i][1].strip()}\n")
														
 
															+            rows.insert(1, f"{name1}: {history[i][0].strip()}\n")
														
 
															+            i -= 1
														
 
															+        rows.append(f"{name1}: {text}\n")
														
 
															+        rows.append(f"{name2}:")
														
 
															+
														
 
															+        while len(rows) > 3 and len(encode(''.join(rows), tokens)[0]) >= 2048-tokens:
														
 
															+            rows.pop(1)
														
 
															+            rows.pop(1)
														
 
															+
														
 
															+        question = ''.join(rows)
														
 
															         if check:
														
 
															             reply = generate_reply(question, tokens, inference_settings, selected_model, eos_token='\n')[0]