Исправление по переносам и ссылкам

2024-06-02 13:44:52 +03:00
parent c66f6d693b
commit 9d8e823f7f
1 changed files with 29 additions and 6 deletions
--- a/news-bot.py
+++ b/news-bot.py
@@ -3,6 +3,7 @@
 import re
 import sys
 import time
+import urllib.parse
 import discord
 import logging
 import colorlog
@@ -83,18 +84,22 @@ def html_to_text(html_content):
    # Убираем переносы строк внутри квадратных скобок []
    markdown_text = re.sub(r'\[(.*?)\]', lambda x: '[' + x.group(1).replace('\n', ' ') + ']', markdown_text, flags=re.DOTALL)

-    # # Удаление переносов строк и пробелов внутри текста
-    # markdown_text = re.sub(r'(?<!\n)\n(?!\n)', ' ', markdown_text)
-
    # Удаление строк, содержащих '* * *'
    markdown_text = re.sub(r'^.*\* \* \*.*$', '', markdown_text, flags=re.MULTILINE)

-    markdown_text = re.sub(r'^.*\*', '*', markdown_text, flags=re.MULTILINE)
+    markdown_text = re.sub(r'^.*\* ', '* ', markdown_text, flags=re.MULTILINE)
+
+    # Убираем переносы строк, кроме строк, начинающихся с *
+    markdown_text = re.sub(r'^(?!\*).*?\n(?!\*)', lambda x: x.group(0).replace('\n', ' '), markdown_text, flags=re.MULTILINE)
+
+    # Преобразование всех ссылок с параметрами URL
+    markdown_text = convert_links(markdown_text)

    # Работа с #
    patterns_to_remove = [
        r'###',
        r'##',
+        r'#',
        r'\[scripts\]\(\/tag\/scripts\) version \d+ ',
        r'##\[scripts\]\(\) version \d+ ',
        r'\d{4}×\d{3} \d+ KB'
@@ -107,16 +112,34 @@ def html_to_text(html_content):
    markdown_text = re.sub(r'\n\s*\n', '\n', markdown_text)

    # Изменение ссылок без описания
-    markdown_text = re.sub(r'\[\]\((https:\/\/[^\)]+)\)', r'[content](\1)', markdown_text)
-    markdown_text = re.sub(r'\[\s]\((https:\/\/[^\)]+)\)', r'[content](\1)', markdown_text)
+    markdown_text = re.sub(r'\[\]\((https:\/\/[^\)]+)\)', r'[.](\1)', markdown_text)
+    markdown_text = re.sub(r'\[\s]\((https:\/\/[^\)]+)\)', r'[.](\1)', markdown_text)

    # Удаление дублирующихся ссылок
    markdown_text = remove_duplicate_links(markdown_text)

+    # Добавление переноса после "История изменений:"
+    re.sub(r'^.*\* \* \*.*$', '', markdown_text)
+    markdown_text = re.sub(r'История изменений:', r'\n', markdown_text)
+
    logging.debug(f"Текст после обработки {markdown_text}")
    return markdown_text


+def convert_links(text):
+    url_pattern = re.compile(r'https?://[^\s\)]+')
+    return url_pattern.sub(lambda match: decode_url_params(match.group(0)), text)
+
+
+def decode_url_params(url):
+    parsed_url = urllib.parse.urlparse(url)
+    query_params = urllib.parse.parse_qs(parsed_url.query)
+    for key, values in query_params.items():
+        if key.lower() == 'to' and values:
+            return urllib.parse.unquote(values[0])
+    return url
+
+
 def remove_empty_lines(text_data):
        lines = text_data.splitlines()
        non_empty_lines = [line for line in lines if line.strip()]