From 8b9649d2d3b48c5cbe18d39edacb7358a3959cd1 Mon Sep 17 00:00:00 2001 From: Liuyang <2746366019@qq.com> Date: Wed, 15 Jan 2025 13:16:55 +0800 Subject: [PATCH] =?UTF-8?q?[update]=20=E6=B7=BB=E5=8A=A0=E6=B3=A8=E9=87=8A?= MIME-Version: 1.0 Content-Type: text/plain; charset=UTF-8 Content-Transfer-Encoding: 8bit --- .../module/llm/utils/DataProcessUtil.java | 23 +++++++++++++++++++ 1 file changed, 23 insertions(+) diff --git a/yudao-module-llm/yudao-module-llm-biz/src/main/java/cn/iocoder/yudao/module/llm/utils/DataProcessUtil.java b/yudao-module-llm/yudao-module-llm-biz/src/main/java/cn/iocoder/yudao/module/llm/utils/DataProcessUtil.java index 47d3a3ab1..4f8c6adb6 100644 --- a/yudao-module-llm/yudao-module-llm-biz/src/main/java/cn/iocoder/yudao/module/llm/utils/DataProcessUtil.java +++ b/yudao-module-llm/yudao-module-llm-biz/src/main/java/cn/iocoder/yudao/module/llm/utils/DataProcessUtil.java @@ -10,6 +10,12 @@ import java.util.regex.Pattern; public class DataProcessUtil { + /* + * --------------------------------------------------------------- + * 🔖 【 异常清洗配置 】 + * --------------------------------------------------------------- + */ + /** * 移除不可见字 * 移除ASCII中的一些不可见字符, 如0-32 和127-160这两个范围 @@ -146,6 +152,12 @@ public class DataProcessUtil { return count; } + /* + * --------------------------------------------------------------- + * 🔖 【 过滤配置 】 + * --------------------------------------------------------------- + */ + /** * 检查文档的词数目 * 词数目不在指定范围会被过滤掉,如中文[1,1000000] @@ -296,6 +308,17 @@ public class DataProcessUtil { return specialCharRate > threshold; } + /* + * --------------------------------------------------------------- + * 🔖 【 去重配置 】 + * --------------------------------------------------------------- + */ + + /* + * --------------------------------------------------------------- + * 🔖 【 去隐私配置 】 + * --------------------------------------------------------------- + */ // 定义一个正则表达式来匹配电子邮件地址 private static final String EMAIL_REGEX = "[a-zA-Z0-9._%+-]+@[a-zA-Z0-9.-]+\\.[a-zA-Z]{2,6}";