Улучшение системы фильтрации мата и управления кармой

Фильтрация бранных слов: - Добавлена полная транслитерация латиница→кириллица (все 26 букв) - Добавлен маппинг цифр→буквы (0→о, 3→з, 4→ч, 6→б, 8→в и др.) - Добавлено определение ASCII-art паттернов (><→х, }|{→ж и др.) - Реализована 3-уровневая система категоризации паттернов: * whole_word - только целые слова с границами \b * word_start - только начало слова (новая категория) * contains - любое вхождение (минимум 4 буквы) - Добавлен расширенный список исключений для предотвращения ложных срабатываний (требует, употреблять, скребу, гребу, республика, документ и др.) Система кармы: - Добавлен штраф за эмодзи клоуна 🤡 (-20 кармы тому, кто добавил) - Карма не возвращается при снятии клоуна - Реализована возможность отключения кармы в конкретных топиках: * Новая таблица disabled_karma_topics в БД * Методы: is_karma_disabled_in_topic(), disable/enable_karma_in_topic() - Перенесены команды управления кармой из /badwords в /karma: * /karma disable - отключить карму в текущем топике * /karma enable - включить карму в текущем топике * /karma status - показать статус кармы во всех топиках - Убраны упоминания пользователей в команде /top (используется <code>) Аудит и логирование: - Добавлена отправка в канал аудита для операций со словами: * Добавление/удаление бранных слов * Добавление/удаление исключений - Расширен action_reporter для поддержки операций без привязки к пользователю
2025-11-18 18:16:59 +03:00
parent 0bd399f121
commit 6a7df9bc55
7 changed files with 531 additions and 84 deletions
--- a/src/bad_words.py
+++ b/src/bad_words.py
@@ -15,6 +15,7 @@ BAD_WORDS_FILE = os.path.join(os.path.dirname(__file__), 'data', 'bad_words.json
 _bad_words_cache = None
 _exceptions_cache = None
 _whole_word_patterns_cache = None
+_word_start_patterns_cache = None
 _contains_patterns_cache = None

 def load_bad_words():
@@ -25,7 +26,7 @@ def load_bad_words():
    Returns:
        tuple: (список бранных слов, список исключений)
    """
-    global _bad_words_cache, _exceptions_cache, _whole_word_patterns_cache, _contains_patterns_cache
+    global _bad_words_cache, _exceptions_cache, _whole_word_patterns_cache, _word_start_patterns_cache, _contains_patterns_cache

    try:
        with open(BAD_WORDS_FILE, 'r', encoding='utf-8') as f:
@@ -36,14 +37,16 @@ def load_bad_words():
                # Новый формат с паттернами
                patterns = data['patterns']
                _whole_word_patterns_cache = patterns.get('whole_word', [])
+                _word_start_patterns_cache = patterns.get('word_start', [])
                _contains_patterns_cache = patterns.get('contains', [])
                _exceptions_cache = data.get('exceptions', [])

                # Для обратной совместимости объединяем в один список
-                _bad_words_cache = _whole_word_patterns_cache + _contains_patterns_cache
+                _bad_words_cache = _whole_word_patterns_cache + _word_start_patterns_cache + _contains_patterns_cache

                logger.info(
                    f"Загружено паттернов: {len(_whole_word_patterns_cache)} whole_word, "
+                    f"{len(_word_start_patterns_cache)} word_start, "
                    f"{len(_contains_patterns_cache)} contains, {len(_exceptions_cache)} исключений"
                )
            else:
@@ -51,6 +54,7 @@ def load_bad_words():
                _bad_words_cache = data.get('bad_words', [])
                _exceptions_cache = data.get('exceptions', [])
                _whole_word_patterns_cache = []
+                _word_start_patterns_cache = []
                _contains_patterns_cache = _bad_words_cache.copy()

                logger.info(f"Загружено {len(_bad_words_cache)} бранных слов (старый формат) и {len(_exceptions_cache)} исключений")
@@ -114,9 +118,12 @@ def get_exceptions():

 def reload_words():
    """Перезагружает списки из файла (сбрасывает кэш)"""
-    global _bad_words_cache, _exceptions_cache
+    global _bad_words_cache, _exceptions_cache, _whole_word_patterns_cache, _word_start_patterns_cache, _contains_patterns_cache
    _bad_words_cache = None
    _exceptions_cache = None
+    _whole_word_patterns_cache = None
+    _word_start_patterns_cache = None
+    _contains_patterns_cache = None
    return load_bad_words()

 def normalize_text(text: str) -> str:
@@ -124,6 +131,10 @@ def normalize_text(text: str) -> str:
    Нормализует текст для обхода обфускации.

    Убирает:
+    - Транслитерацию латиницы в кириллицу (xyu → хуй, p0rn → porn)
+    - Цифры похожие на буквы (0→о, 3→з, 6→б)
+    - Языковые варианты (ё→е)
+    - ASCII-имитации (><→х, |\|→и, /\→л)
    - Звездочки, точки, подчеркивания между буквами (х*й, х.у.й, х_у_й → хуй)
    - Повторяющиеся символы (хууууууй → хуй)
    - ОДИНОЧНЫЕ пробелы между ОДИНОЧНЫМИ буквами (х у й → хуй, но "не бу" остаётся "не бу")
@@ -140,6 +151,72 @@ def normalize_text(text: str) -> str:
    # Приводим к нижнему регистру
    normalized = text.lower()

+    # 1. Транслитерация латиницы → кириллица (защита от обхода через латиницу)
+    # Основано на визуальном сходстве букв
+    transliteration_map = {
+        'a': 'а',  # a → а
+        'b': 'в',  # b → в
+        'c': 'с',  # c → с (латинская c похожа на кириллическую с)
+        'd': 'д',  # d → д
+        'e': 'е',  # e → е
+        'f': 'ф',  # f → ф
+        'g': 'г',  # g → г
+        'h': 'н',  # h → н
+        'i': 'и',  # i → и
+        'j': 'ж',  # j → ж
+        'k': 'к',  # k → к
+        'l': 'л',  # l → л
+        'm': 'м',  # m → м
+        'n': 'н',  # n → н
+        'o': 'о',  # o → о
+        'p': 'р',  # p → р
+        'q': 'к',  # q → к
+        'r': 'р',  # r → р
+        's': 'с',  # s → с
+        't': 'т',  # t → т
+        'u': 'и',  # u → и
+        'v': 'в',  # v → в
+        'w': 'в',  # w → в
+        'x': 'х',  # x → х
+        'y': 'у',  # y → у
+        'z': 'з',  # z → з
+    }
+
+    # Применяем транслитерацию
+    for lat, cyr in transliteration_map.items():
+        normalized = normalized.replace(lat, cyr)
+
+    # 2. Замена цифр на похожие буквы
+    digit_map = {
+        '0': 'о',  # 0 → о
+        '1': 'и',  # 1 → и (или l)
+        '3': 'з',  # 3 → з
+        '4': 'ч',  # 4 → ч
+        '6': 'б',  # 6 → б
+        '8': 'в',  # 8 → в
+    }
+
+    for digit, letter in digit_map.items():
+        normalized = normalized.replace(digit, letter)
+
+    # 3. Языковые паттерны (унификация написания)
+    normalized = normalized.replace('ё', 'е')  # ё → е
+
+    # 4. ASCII-имитации букв (сложные комбинации символов)
+    # Важно: делать это ДО удаления других символов
+    ascii_patterns = [
+        (r'\|\|', 'и'),      # |\| → и (вертикальные черты)
+        (r'/\\', 'л'),       # /\ → л (треугольник)
+        (r'><', 'х'),        # >< → х
+        (r'\}\{', 'х'),      # }{ → х
+        (r'\)\(', 'х'),      # )( → х
+        (r'>\|<', 'ж'),      # >|< → ж
+        (r'\}\|\{', 'ж'),    # }|{ → ж
+    ]
+
+    for pattern, replacement in ascii_patterns:
+        normalized = re.sub(pattern, replacement, normalized)
+
    # Циклически убираем обфускацию, пока что-то меняется
    max_iterations = 10
    for _ in range(max_iterations):
@@ -170,11 +247,12 @@ def contains_bad_word(text: str) -> bool:
    """
    Проверяет, содержит ли текст бранные слова.

-    Использует:
+    Использует комбинированный подход для минимизации ложных срабатываний:
    - Нормализацию текста для обхода обфускации
    - Проверку границ слов для whole_word паттернов
-    - Проверку подстрок для contains паттернов
-    - Список исключений
+    - Проверку начала слова для word_start паттернов (НОВОЕ!)
+    - Проверку подстрок для contains паттернов с минимальной длиной
+    - Расширенный список исключений

    Args:
        text: Текст для проверки
@@ -189,33 +267,72 @@ def contains_bad_word(text: str) -> bool:
    normalized_text = normalize_text(text)

    # Получаем паттерны и исключения
-    global _whole_word_patterns_cache, _contains_patterns_cache, _exceptions_cache
+    global _whole_word_patterns_cache, _word_start_patterns_cache, _contains_patterns_cache, _exceptions_cache

    # Если кэш не загружен, загружаем
    if _whole_word_patterns_cache is None:
        load_bad_words()

    whole_word_patterns = _whole_word_patterns_cache or []
+    word_start_patterns = _word_start_patterns_cache or []
    contains_patterns = _contains_patterns_cache or []
    exceptions = _exceptions_cache or []

-    # 1. Проверяем whole_word паттерны (только целые слова)
+    # Вспомогательная функция для проверки исключений
+    def is_in_exception(pattern_pos, pattern_len, text, exceptions_list):
+        """Проверяет, входит ли найденный паттерн в слово-исключение"""
+        for exception in exceptions_list:
+            # Нормализуем исключение
+            norm_exception = normalize_text(exception)
+            if pattern_len == 0 or len(norm_exception) == 0:
+                continue
+
+            # Ищем исключение в тексте около найденного паттерна
+            # Проверяем область от (pos - len(exception)) до (pos + len(pattern))
+            search_start = max(0, pattern_pos - len(norm_exception))
+            search_end = min(len(text), pattern_pos + pattern_len + len(norm_exception))
+            search_area = text[search_start:search_end]
+
+            if norm_exception in search_area:
+                exc_pos = search_area.find(norm_exception)
+                abs_exc_pos = search_start + exc_pos
+                abs_exc_end = abs_exc_pos + len(norm_exception)
+
+                # Проверяем, что паттерн полностью внутри исключения
+                if abs_exc_pos <= pattern_pos < abs_exc_end:
+                    return True
+        return False
+
+    # 1. Проверяем whole_word паттерны (только целые слова с границами \b)
    for pattern in whole_word_patterns:
        # Используем границы слов \b для поиска только целых слов
        regex = r'\b' + re.escape(pattern) + r'\b'
-        if re.search(regex, normalized_text, re.IGNORECASE):
-            # Проверяем, не входит ли в исключения
-            is_exception = False
-            for exception in exceptions:
-                if exception in normalized_text and pattern in exception:
-                    is_exception = True
-                    break
-
-            if not is_exception:
+        match = re.search(regex, normalized_text, re.IGNORECASE)
+        if match:
+            if not is_in_exception(match.start(), len(pattern), normalized_text, exceptions):
                return True

-    # 2. Проверяем contains паттерны (любое вхождение)
+    # 2. Проверяем word_start паттерны (НОВОЕ! только начало слова)
+    # Паттерн должен быть либо в начале строки, либо после не-буквы
+    for pattern in word_start_patterns:
+        # Regex: начало строки ИЛИ не-буква, затем паттерн
+        # (?:^|(?<=[^а-яёa-z])) - положительный lookbehind для начала или не-буквы
+        regex = r'(?:^|(?<=[^а-яёa-z]))' + re.escape(pattern)
+        match = re.search(regex, normalized_text, re.IGNORECASE)
+        if match:
+            if not is_in_exception(match.start(), len(pattern), normalized_text, exceptions):
+                return True
+
+    # 3. Проверяем contains паттерны (любое вхождение)
+    # Применяем минимальную длину для снижения false positives
+    MIN_CONTAINS_LENGTH = 4
+
    for pattern in contains_patterns:
+        # Пропускаем слишком короткие паттерны (для безопасности)
+        if len(pattern) < MIN_CONTAINS_LENGTH:
+            logger.warning(f"Паттерн '{pattern}' слишком короткий для contains, пропускаем")
+            continue
+
        if pattern in normalized_text:
            # Проверяем все вхождения паттерна
            start = 0
@@ -224,18 +341,7 @@ def contains_bad_word(text: str) -> bool:
                if pos == -1:
                    break

-                # Проверяем, не входит ли в исключение
-                is_exception = False
-                for exception in exceptions:
-                    if pattern in exception:
-                        exc_start = normalized_text.find(exception, max(0, pos - len(exception)))
-                        if exc_start != -1:
-                            exc_end = exc_start + len(exception)
-                            if exc_start <= pos < exc_end:
-                                is_exception = True
-                                break
-
-                if not is_exception:
+                if not is_in_exception(pos, len(pattern), normalized_text, exceptions):
                    return True

                start = pos + 1
@@ -246,11 +352,12 @@ def get_bad_words_from_text(text: str) -> list:
    """
    Возвращает список найденных бранных слов в тексте.

-    Использует:
+    Использует комбинированный подход для минимизации ложных срабатываний:
    - Нормализацию текста для обхода обфускации
    - Проверку границ слов для whole_word паттернов
-    - Проверку подстрок для contains паттернов
-    - Список исключений
+    - Проверку начала слова для word_start паттернов (НОВОЕ!)
+    - Проверку подстрок для contains паттернов с минимальной длиной
+    - Расширенный список исключений

    Args:
        text: Текст для проверки
@@ -266,35 +373,62 @@ def get_bad_words_from_text(text: str) -> list:
    found_words = []

    # Получаем паттерны и исключения
-    global _whole_word_patterns_cache, _contains_patterns_cache, _exceptions_cache
+    global _whole_word_patterns_cache, _word_start_patterns_cache, _contains_patterns_cache, _exceptions_cache

    # Если кэш не загружен, загружаем
    if _whole_word_patterns_cache is None:
        load_bad_words()

    whole_word_patterns = _whole_word_patterns_cache or []
+    word_start_patterns = _word_start_patterns_cache or []
    contains_patterns = _contains_patterns_cache or []
    exceptions = _exceptions_cache or []

+    # Вспомогательная функция для проверки исключений
+    def is_in_exception(pattern_pos, pattern_len, text, exceptions_list):
+        """Проверяет, входит ли найденный паттерн в слово-исключение"""
+        for exception in exceptions_list:
+            norm_exception = normalize_text(exception)
+            if pattern_len == 0 or len(norm_exception) == 0:
+                continue
+
+            search_start = max(0, pattern_pos - len(norm_exception))
+            search_end = min(len(text), pattern_pos + pattern_len + len(norm_exception))
+            search_area = text[search_start:search_end]
+
+            if norm_exception in search_area:
+                exc_pos = search_area.find(norm_exception)
+                abs_exc_pos = search_start + exc_pos
+                abs_exc_end = abs_exc_pos + len(norm_exception)
+
+                if abs_exc_pos <= pattern_pos < abs_exc_end:
+                    return True
+        return False
+
    # 1. Проверяем whole_word паттерны (только целые слова)
    for pattern in whole_word_patterns:
-        # Используем границы слов \b для поиска только целых слов
        regex = r'\b' + re.escape(pattern) + r'\b'
-        if re.search(regex, normalized_text, re.IGNORECASE):
-            # Проверяем, не входит ли в исключения
-            is_exception = False
-            for exception in exceptions:
-                if exception in normalized_text and pattern in exception:
-                    is_exception = True
-                    break
-
-            if not is_exception and pattern not in found_words:
+        match = re.search(regex, normalized_text, re.IGNORECASE)
+        if match:
+            if not is_in_exception(match.start(), len(pattern), normalized_text, exceptions) and pattern not in found_words:
                found_words.append(pattern)

-    # 2. Проверяем contains паттерны (любое вхождение)
+    # 2. Проверяем word_start паттерны (НОВОЕ! только начало слова)
+    for pattern in word_start_patterns:
+        regex = r'(?:^|(?<=[^а-яёa-z]))' + re.escape(pattern)
+        match = re.search(regex, normalized_text, re.IGNORECASE)
+        if match:
+            if not is_in_exception(match.start(), len(pattern), normalized_text, exceptions) and pattern not in found_words:
+                found_words.append(pattern)
+
+    # 3. Проверяем contains паттерны (любое вхождение)
+    MIN_CONTAINS_LENGTH = 4
+
    for pattern in contains_patterns:
+        if len(pattern) < MIN_CONTAINS_LENGTH:
+            continue
+
        if pattern in normalized_text:
-            # Проверяем все вхождения паттерна
            start = 0
            word_is_valid = False
            while True:
@@ -302,24 +436,12 @@ def get_bad_words_from_text(text: str) -> list:
                if pos == -1:
                    break

-                # Проверяем, не входит ли в исключение
-                is_exception = False
-                for exception in exceptions:
-                    if pattern in exception:
-                        exc_start = normalized_text.find(exception, max(0, pos - len(exception)))
-                        if exc_start != -1:
-                            exc_end = exc_start + len(exception)
-                            if exc_start <= pos < exc_end:
-                                is_exception = True
-                                break
-
-                if not is_exception:
+                if not is_in_exception(pos, len(pattern), normalized_text, exceptions):
                    word_is_valid = True
                    break

                start = pos + 1

-            # Добавляем слово только если оно действительно найдено (не в исключении)
            if word_is_valid and pattern not in found_words:
                found_words.append(pattern)