forked from Muzifs/LGBot
Улучшение системы фильтрации мата и управления кармой
Фильтрация бранных слов:
- Добавлена полная транслитерация латиница→кириллица (все 26 букв)
- Добавлен маппинг цифр→буквы (0→о, 3→з, 4→ч, 6→б, 8→в и др.)
- Добавлено определение ASCII-art паттернов (><→х, }|{→ж и др.)
- Реализована 3-уровневая система категоризации паттернов:
* whole_word - только целые слова с границами \b
* word_start - только начало слова (новая категория)
* contains - любое вхождение (минимум 4 буквы)
- Добавлен расширенный список исключений для предотвращения ложных срабатываний
(требует, употреблять, скребу, гребу, республика, документ и др.)
Система кармы:
- Добавлен штраф за эмодзи клоуна 🤡 (-20 кармы тому, кто добавил)
- Карма не возвращается при снятии клоуна
- Реализована возможность отключения кармы в конкретных топиках:
* Новая таблица disabled_karma_topics в БД
* Методы: is_karma_disabled_in_topic(), disable/enable_karma_in_topic()
- Перенесены команды управления кармой из /badwords в /karma:
* /karma disable - отключить карму в текущем топике
* /karma enable - включить карму в текущем топике
* /karma status - показать статус кармы во всех топиках
- Убраны упоминания пользователей в команде /top (используется <code>)
Аудит и логирование:
- Добавлена отправка в канал аудита для операций со словами:
* Добавление/удаление бранных слов
* Добавление/удаление исключений
- Расширен action_reporter для поддержки операций без привязки к пользователю
This commit is contained in:
240
src/bad_words.py
240
src/bad_words.py
@@ -15,6 +15,7 @@ BAD_WORDS_FILE = os.path.join(os.path.dirname(__file__), 'data', 'bad_words.json
|
||||
_bad_words_cache = None
|
||||
_exceptions_cache = None
|
||||
_whole_word_patterns_cache = None
|
||||
_word_start_patterns_cache = None
|
||||
_contains_patterns_cache = None
|
||||
|
||||
def load_bad_words():
|
||||
@@ -25,7 +26,7 @@ def load_bad_words():
|
||||
Returns:
|
||||
tuple: (список бранных слов, список исключений)
|
||||
"""
|
||||
global _bad_words_cache, _exceptions_cache, _whole_word_patterns_cache, _contains_patterns_cache
|
||||
global _bad_words_cache, _exceptions_cache, _whole_word_patterns_cache, _word_start_patterns_cache, _contains_patterns_cache
|
||||
|
||||
try:
|
||||
with open(BAD_WORDS_FILE, 'r', encoding='utf-8') as f:
|
||||
@@ -36,14 +37,16 @@ def load_bad_words():
|
||||
# Новый формат с паттернами
|
||||
patterns = data['patterns']
|
||||
_whole_word_patterns_cache = patterns.get('whole_word', [])
|
||||
_word_start_patterns_cache = patterns.get('word_start', [])
|
||||
_contains_patterns_cache = patterns.get('contains', [])
|
||||
_exceptions_cache = data.get('exceptions', [])
|
||||
|
||||
# Для обратной совместимости объединяем в один список
|
||||
_bad_words_cache = _whole_word_patterns_cache + _contains_patterns_cache
|
||||
_bad_words_cache = _whole_word_patterns_cache + _word_start_patterns_cache + _contains_patterns_cache
|
||||
|
||||
logger.info(
|
||||
f"Загружено паттернов: {len(_whole_word_patterns_cache)} whole_word, "
|
||||
f"{len(_word_start_patterns_cache)} word_start, "
|
||||
f"{len(_contains_patterns_cache)} contains, {len(_exceptions_cache)} исключений"
|
||||
)
|
||||
else:
|
||||
@@ -51,6 +54,7 @@ def load_bad_words():
|
||||
_bad_words_cache = data.get('bad_words', [])
|
||||
_exceptions_cache = data.get('exceptions', [])
|
||||
_whole_word_patterns_cache = []
|
||||
_word_start_patterns_cache = []
|
||||
_contains_patterns_cache = _bad_words_cache.copy()
|
||||
|
||||
logger.info(f"Загружено {len(_bad_words_cache)} бранных слов (старый формат) и {len(_exceptions_cache)} исключений")
|
||||
@@ -114,9 +118,12 @@ def get_exceptions():
|
||||
|
||||
def reload_words():
|
||||
"""Перезагружает списки из файла (сбрасывает кэш)"""
|
||||
global _bad_words_cache, _exceptions_cache
|
||||
global _bad_words_cache, _exceptions_cache, _whole_word_patterns_cache, _word_start_patterns_cache, _contains_patterns_cache
|
||||
_bad_words_cache = None
|
||||
_exceptions_cache = None
|
||||
_whole_word_patterns_cache = None
|
||||
_word_start_patterns_cache = None
|
||||
_contains_patterns_cache = None
|
||||
return load_bad_words()
|
||||
|
||||
def normalize_text(text: str) -> str:
|
||||
@@ -124,6 +131,10 @@ def normalize_text(text: str) -> str:
|
||||
Нормализует текст для обхода обфускации.
|
||||
|
||||
Убирает:
|
||||
- Транслитерацию латиницы в кириллицу (xyu → хуй, p0rn → porn)
|
||||
- Цифры похожие на буквы (0→о, 3→з, 6→б)
|
||||
- Языковые варианты (ё→е)
|
||||
- ASCII-имитации (><→х, |\|→и, /\→л)
|
||||
- Звездочки, точки, подчеркивания между буквами (х*й, х.у.й, х_у_й → хуй)
|
||||
- Повторяющиеся символы (хууууууй → хуй)
|
||||
- ОДИНОЧНЫЕ пробелы между ОДИНОЧНЫМИ буквами (х у й → хуй, но "не бу" остаётся "не бу")
|
||||
@@ -140,6 +151,72 @@ def normalize_text(text: str) -> str:
|
||||
# Приводим к нижнему регистру
|
||||
normalized = text.lower()
|
||||
|
||||
# 1. Транслитерация латиницы → кириллица (защита от обхода через латиницу)
|
||||
# Основано на визуальном сходстве букв
|
||||
transliteration_map = {
|
||||
'a': 'а', # a → а
|
||||
'b': 'в', # b → в
|
||||
'c': 'с', # c → с (латинская c похожа на кириллическую с)
|
||||
'd': 'д', # d → д
|
||||
'e': 'е', # e → е
|
||||
'f': 'ф', # f → ф
|
||||
'g': 'г', # g → г
|
||||
'h': 'н', # h → н
|
||||
'i': 'и', # i → и
|
||||
'j': 'ж', # j → ж
|
||||
'k': 'к', # k → к
|
||||
'l': 'л', # l → л
|
||||
'm': 'м', # m → м
|
||||
'n': 'н', # n → н
|
||||
'o': 'о', # o → о
|
||||
'p': 'р', # p → р
|
||||
'q': 'к', # q → к
|
||||
'r': 'р', # r → р
|
||||
's': 'с', # s → с
|
||||
't': 'т', # t → т
|
||||
'u': 'и', # u → и
|
||||
'v': 'в', # v → в
|
||||
'w': 'в', # w → в
|
||||
'x': 'х', # x → х
|
||||
'y': 'у', # y → у
|
||||
'z': 'з', # z → з
|
||||
}
|
||||
|
||||
# Применяем транслитерацию
|
||||
for lat, cyr in transliteration_map.items():
|
||||
normalized = normalized.replace(lat, cyr)
|
||||
|
||||
# 2. Замена цифр на похожие буквы
|
||||
digit_map = {
|
||||
'0': 'о', # 0 → о
|
||||
'1': 'и', # 1 → и (или l)
|
||||
'3': 'з', # 3 → з
|
||||
'4': 'ч', # 4 → ч
|
||||
'6': 'б', # 6 → б
|
||||
'8': 'в', # 8 → в
|
||||
}
|
||||
|
||||
for digit, letter in digit_map.items():
|
||||
normalized = normalized.replace(digit, letter)
|
||||
|
||||
# 3. Языковые паттерны (унификация написания)
|
||||
normalized = normalized.replace('ё', 'е') # ё → е
|
||||
|
||||
# 4. ASCII-имитации букв (сложные комбинации символов)
|
||||
# Важно: делать это ДО удаления других символов
|
||||
ascii_patterns = [
|
||||
(r'\|\|', 'и'), # |\| → и (вертикальные черты)
|
||||
(r'/\\', 'л'), # /\ → л (треугольник)
|
||||
(r'><', 'х'), # >< → х
|
||||
(r'\}\{', 'х'), # }{ → х
|
||||
(r'\)\(', 'х'), # )( → х
|
||||
(r'>\|<', 'ж'), # >|< → ж
|
||||
(r'\}\|\{', 'ж'), # }|{ → ж
|
||||
]
|
||||
|
||||
for pattern, replacement in ascii_patterns:
|
||||
normalized = re.sub(pattern, replacement, normalized)
|
||||
|
||||
# Циклически убираем обфускацию, пока что-то меняется
|
||||
max_iterations = 10
|
||||
for _ in range(max_iterations):
|
||||
@@ -170,11 +247,12 @@ def contains_bad_word(text: str) -> bool:
|
||||
"""
|
||||
Проверяет, содержит ли текст бранные слова.
|
||||
|
||||
Использует:
|
||||
Использует комбинированный подход для минимизации ложных срабатываний:
|
||||
- Нормализацию текста для обхода обфускации
|
||||
- Проверку границ слов для whole_word паттернов
|
||||
- Проверку подстрок для contains паттернов
|
||||
- Список исключений
|
||||
- Проверку начала слова для word_start паттернов (НОВОЕ!)
|
||||
- Проверку подстрок для contains паттернов с минимальной длиной
|
||||
- Расширенный список исключений
|
||||
|
||||
Args:
|
||||
text: Текст для проверки
|
||||
@@ -189,33 +267,72 @@ def contains_bad_word(text: str) -> bool:
|
||||
normalized_text = normalize_text(text)
|
||||
|
||||
# Получаем паттерны и исключения
|
||||
global _whole_word_patterns_cache, _contains_patterns_cache, _exceptions_cache
|
||||
global _whole_word_patterns_cache, _word_start_patterns_cache, _contains_patterns_cache, _exceptions_cache
|
||||
|
||||
# Если кэш не загружен, загружаем
|
||||
if _whole_word_patterns_cache is None:
|
||||
load_bad_words()
|
||||
|
||||
whole_word_patterns = _whole_word_patterns_cache or []
|
||||
word_start_patterns = _word_start_patterns_cache or []
|
||||
contains_patterns = _contains_patterns_cache or []
|
||||
exceptions = _exceptions_cache or []
|
||||
|
||||
# 1. Проверяем whole_word паттерны (только целые слова)
|
||||
# Вспомогательная функция для проверки исключений
|
||||
def is_in_exception(pattern_pos, pattern_len, text, exceptions_list):
|
||||
"""Проверяет, входит ли найденный паттерн в слово-исключение"""
|
||||
for exception in exceptions_list:
|
||||
# Нормализуем исключение
|
||||
norm_exception = normalize_text(exception)
|
||||
if pattern_len == 0 or len(norm_exception) == 0:
|
||||
continue
|
||||
|
||||
# Ищем исключение в тексте около найденного паттерна
|
||||
# Проверяем область от (pos - len(exception)) до (pos + len(pattern))
|
||||
search_start = max(0, pattern_pos - len(norm_exception))
|
||||
search_end = min(len(text), pattern_pos + pattern_len + len(norm_exception))
|
||||
search_area = text[search_start:search_end]
|
||||
|
||||
if norm_exception in search_area:
|
||||
exc_pos = search_area.find(norm_exception)
|
||||
abs_exc_pos = search_start + exc_pos
|
||||
abs_exc_end = abs_exc_pos + len(norm_exception)
|
||||
|
||||
# Проверяем, что паттерн полностью внутри исключения
|
||||
if abs_exc_pos <= pattern_pos < abs_exc_end:
|
||||
return True
|
||||
return False
|
||||
|
||||
# 1. Проверяем whole_word паттерны (только целые слова с границами \b)
|
||||
for pattern in whole_word_patterns:
|
||||
# Используем границы слов \b для поиска только целых слов
|
||||
regex = r'\b' + re.escape(pattern) + r'\b'
|
||||
if re.search(regex, normalized_text, re.IGNORECASE):
|
||||
# Проверяем, не входит ли в исключения
|
||||
is_exception = False
|
||||
for exception in exceptions:
|
||||
if exception in normalized_text and pattern in exception:
|
||||
is_exception = True
|
||||
break
|
||||
|
||||
if not is_exception:
|
||||
match = re.search(regex, normalized_text, re.IGNORECASE)
|
||||
if match:
|
||||
if not is_in_exception(match.start(), len(pattern), normalized_text, exceptions):
|
||||
return True
|
||||
|
||||
# 2. Проверяем contains паттерны (любое вхождение)
|
||||
# 2. Проверяем word_start паттерны (НОВОЕ! только начало слова)
|
||||
# Паттерн должен быть либо в начале строки, либо после не-буквы
|
||||
for pattern in word_start_patterns:
|
||||
# Regex: начало строки ИЛИ не-буква, затем паттерн
|
||||
# (?:^|(?<=[^а-яёa-z])) - положительный lookbehind для начала или не-буквы
|
||||
regex = r'(?:^|(?<=[^а-яёa-z]))' + re.escape(pattern)
|
||||
match = re.search(regex, normalized_text, re.IGNORECASE)
|
||||
if match:
|
||||
if not is_in_exception(match.start(), len(pattern), normalized_text, exceptions):
|
||||
return True
|
||||
|
||||
# 3. Проверяем contains паттерны (любое вхождение)
|
||||
# Применяем минимальную длину для снижения false positives
|
||||
MIN_CONTAINS_LENGTH = 4
|
||||
|
||||
for pattern in contains_patterns:
|
||||
# Пропускаем слишком короткие паттерны (для безопасности)
|
||||
if len(pattern) < MIN_CONTAINS_LENGTH:
|
||||
logger.warning(f"Паттерн '{pattern}' слишком короткий для contains, пропускаем")
|
||||
continue
|
||||
|
||||
if pattern in normalized_text:
|
||||
# Проверяем все вхождения паттерна
|
||||
start = 0
|
||||
@@ -224,18 +341,7 @@ def contains_bad_word(text: str) -> bool:
|
||||
if pos == -1:
|
||||
break
|
||||
|
||||
# Проверяем, не входит ли в исключение
|
||||
is_exception = False
|
||||
for exception in exceptions:
|
||||
if pattern in exception:
|
||||
exc_start = normalized_text.find(exception, max(0, pos - len(exception)))
|
||||
if exc_start != -1:
|
||||
exc_end = exc_start + len(exception)
|
||||
if exc_start <= pos < exc_end:
|
||||
is_exception = True
|
||||
break
|
||||
|
||||
if not is_exception:
|
||||
if not is_in_exception(pos, len(pattern), normalized_text, exceptions):
|
||||
return True
|
||||
|
||||
start = pos + 1
|
||||
@@ -246,11 +352,12 @@ def get_bad_words_from_text(text: str) -> list:
|
||||
"""
|
||||
Возвращает список найденных бранных слов в тексте.
|
||||
|
||||
Использует:
|
||||
Использует комбинированный подход для минимизации ложных срабатываний:
|
||||
- Нормализацию текста для обхода обфускации
|
||||
- Проверку границ слов для whole_word паттернов
|
||||
- Проверку подстрок для contains паттернов
|
||||
- Список исключений
|
||||
- Проверку начала слова для word_start паттернов (НОВОЕ!)
|
||||
- Проверку подстрок для contains паттернов с минимальной длиной
|
||||
- Расширенный список исключений
|
||||
|
||||
Args:
|
||||
text: Текст для проверки
|
||||
@@ -266,35 +373,62 @@ def get_bad_words_from_text(text: str) -> list:
|
||||
found_words = []
|
||||
|
||||
# Получаем паттерны и исключения
|
||||
global _whole_word_patterns_cache, _contains_patterns_cache, _exceptions_cache
|
||||
global _whole_word_patterns_cache, _word_start_patterns_cache, _contains_patterns_cache, _exceptions_cache
|
||||
|
||||
# Если кэш не загружен, загружаем
|
||||
if _whole_word_patterns_cache is None:
|
||||
load_bad_words()
|
||||
|
||||
whole_word_patterns = _whole_word_patterns_cache or []
|
||||
word_start_patterns = _word_start_patterns_cache or []
|
||||
contains_patterns = _contains_patterns_cache or []
|
||||
exceptions = _exceptions_cache or []
|
||||
|
||||
# Вспомогательная функция для проверки исключений
|
||||
def is_in_exception(pattern_pos, pattern_len, text, exceptions_list):
|
||||
"""Проверяет, входит ли найденный паттерн в слово-исключение"""
|
||||
for exception in exceptions_list:
|
||||
norm_exception = normalize_text(exception)
|
||||
if pattern_len == 0 or len(norm_exception) == 0:
|
||||
continue
|
||||
|
||||
search_start = max(0, pattern_pos - len(norm_exception))
|
||||
search_end = min(len(text), pattern_pos + pattern_len + len(norm_exception))
|
||||
search_area = text[search_start:search_end]
|
||||
|
||||
if norm_exception in search_area:
|
||||
exc_pos = search_area.find(norm_exception)
|
||||
abs_exc_pos = search_start + exc_pos
|
||||
abs_exc_end = abs_exc_pos + len(norm_exception)
|
||||
|
||||
if abs_exc_pos <= pattern_pos < abs_exc_end:
|
||||
return True
|
||||
return False
|
||||
|
||||
# 1. Проверяем whole_word паттерны (только целые слова)
|
||||
for pattern in whole_word_patterns:
|
||||
# Используем границы слов \b для поиска только целых слов
|
||||
regex = r'\b' + re.escape(pattern) + r'\b'
|
||||
if re.search(regex, normalized_text, re.IGNORECASE):
|
||||
# Проверяем, не входит ли в исключения
|
||||
is_exception = False
|
||||
for exception in exceptions:
|
||||
if exception in normalized_text and pattern in exception:
|
||||
is_exception = True
|
||||
break
|
||||
|
||||
if not is_exception and pattern not in found_words:
|
||||
match = re.search(regex, normalized_text, re.IGNORECASE)
|
||||
if match:
|
||||
if not is_in_exception(match.start(), len(pattern), normalized_text, exceptions) and pattern not in found_words:
|
||||
found_words.append(pattern)
|
||||
|
||||
# 2. Проверяем contains паттерны (любое вхождение)
|
||||
# 2. Проверяем word_start паттерны (НОВОЕ! только начало слова)
|
||||
for pattern in word_start_patterns:
|
||||
regex = r'(?:^|(?<=[^а-яёa-z]))' + re.escape(pattern)
|
||||
match = re.search(regex, normalized_text, re.IGNORECASE)
|
||||
if match:
|
||||
if not is_in_exception(match.start(), len(pattern), normalized_text, exceptions) and pattern not in found_words:
|
||||
found_words.append(pattern)
|
||||
|
||||
# 3. Проверяем contains паттерны (любое вхождение)
|
||||
MIN_CONTAINS_LENGTH = 4
|
||||
|
||||
for pattern in contains_patterns:
|
||||
if len(pattern) < MIN_CONTAINS_LENGTH:
|
||||
continue
|
||||
|
||||
if pattern in normalized_text:
|
||||
# Проверяем все вхождения паттерна
|
||||
start = 0
|
||||
word_is_valid = False
|
||||
while True:
|
||||
@@ -302,24 +436,12 @@ def get_bad_words_from_text(text: str) -> list:
|
||||
if pos == -1:
|
||||
break
|
||||
|
||||
# Проверяем, не входит ли в исключение
|
||||
is_exception = False
|
||||
for exception in exceptions:
|
||||
if pattern in exception:
|
||||
exc_start = normalized_text.find(exception, max(0, pos - len(exception)))
|
||||
if exc_start != -1:
|
||||
exc_end = exc_start + len(exception)
|
||||
if exc_start <= pos < exc_end:
|
||||
is_exception = True
|
||||
break
|
||||
|
||||
if not is_exception:
|
||||
if not is_in_exception(pos, len(pattern), normalized_text, exceptions):
|
||||
word_is_valid = True
|
||||
break
|
||||
|
||||
start = pos + 1
|
||||
|
||||
# Добавляем слово только если оно действительно найдено (не в исключении)
|
||||
if word_is_valid and pattern not in found_words:
|
||||
found_words.append(pattern)
|
||||
|
||||
|
||||
Reference in New Issue
Block a user