fix(listener): 拦贴纸/GIF聚合站 + 裸媒体文件，避免 Discord 表情包误入分享库

longsizhuo · longsizhuo · commit 7db2586d292f · 2026-04-25T07:47:40.000Z
事故：用户 yhn 在分享频道发了一个 Discord 贴纸（klipy GIF），message.content 里就是裸 https://klipy.com/gifs/... URL，listener 当成正常分享走完 OG fetch + 分类，被打成 APPROVED 上架成 #18。 原 _SKIP_HOSTS 只拦了 discord.com / cdn.discordapp.com 等 Discord 自家域，没考虑贴纸面板默认走 tenor / klipy / giphy。同类问题：mmbiz.qpic.cn 这类纯图片直链（#5）也不该入库。 改法两层：(1) _SKIP_HOSTS 加入 tenor / klipy / giphy 全套；(2) 兜底在 path 上做媒体扩展名（.gif/.png/.jpg/.mp4/...）匹配，host 永远穷举不完。匹配只看 path，query 里出现 .jpg 不算（避免误伤带 ?file=foo.jpg 的正常 API 链接）。+19 个测试 case 覆盖。
diff --git a/src/chat_bot/cogs/listener.py b/src/chat_bot/cogs/listener.py
@@ -28,31 +28,72 @@
 
 _URL_RE = re.compile(r"https?://[^\s<>\"'\]\)]+", re.IGNORECASE)
 
-# 跳过 Discord 自身的各种链接：用户经常复制错（比如右键"复制消息链接"会粘
-# discord.com/channels/.../... 出来，这不该被当作"分享"入库）。静默忽略，不
-# 回复也不提交，像 bot 没看到一样。
+# 跳过的链接源。两层：
+#   1. Discord 自身（消息链接 / 附件 CDN）—— 用户复制消息链接时常误粘
+#   2. 贴纸 / GIF / meme 聚合站 —— Discord 内置贴纸面板会发 tenor/klipy/giphy
+#      链接出来，message.content 里就是裸 URL。这些不是"分享资源"，不该入库
+# 静默忽略，不回复不提交，像 bot 没看到一样。
 _SKIP_HOSTS = frozenset({
-    # 主站
+    # Discord 主站
     "discord.com",
     "www.discord.com",
     "canary.discord.com",
     "ptb.discord.com",
-    # 邀请短链
+    # Discord 邀请短链
     "discord.gg",
-    # 附件 / CDN
+    # Discord 附件 / CDN
     "discordapp.com",
     "cdn.discordapp.com",
     "media.discordapp.net",
+    # 贴纸 / GIF 聚合（Discord 贴纸面板默认走这些）
+    "tenor.com",
+    "media.tenor.com",
+    "c.tenor.com",
+    "giphy.com",
+    "media.giphy.com",
+    "media0.giphy.com",
+    "media1.giphy.com",
+    "media2.giphy.com",
+    "media3.giphy.com",
+    "media4.giphy.com",
+    "klipy.com",
+    "media.klipy.com",
 })
 
+# 兜底：只指向静态媒体文件的 URL（路径以这些扩展名结尾）一律跳过——常见于
+# WeChat / 各种图床的裸图片链接，非分享资源。把扩展名匹配做在 path 上避免误伤
+# 带 query 的正常链接（query 里出现 .jpg 不算）。
+_MEDIA_EXTENSIONS = (
+    ".gif",
+    ".png",
+    ".jpg",
+    ".jpeg",
+    ".webp",
+    ".bmp",
+    ".svg",
+    ".ico",
+    ".mp4",
+    ".webm",
+    ".mov",
+    ".m4v",
+    ".mp3",
+    ".wav",
+    ".ogg",
+    ".flac",
+)
+
 
 def _should_skip(url: str) -> bool:
-    """URL 是否属于需要跳过的源（当前只屏蔽 Discord 自身域名）。"""
+    """URL 是否属于需要跳过的源：Discord 域、贴纸聚合、或裸媒体文件。"""
     try:
-        host = urlparse(url).netloc.lower().split(":")[0]
+        parsed = urlparse(url)
     except Exception:
         return False
-    return host in _SKIP_HOSTS
+    host = parsed.netloc.lower().split(":")[0]
+    if host in _SKIP_HOSTS:
+        return True
+    # path 走小写匹配，跟 query 解耦：?foo=bar.jpg 不会误命中
+    return parsed.path.lower().endswith(_MEDIA_EXTENSIONS)
 
 # 轮询最终状态的参数：每 2s 查一次，最多 30s
 _POLL_INTERVAL_SEC = 2.0
diff --git a/tests/test_listener_skip.py b/tests/test_listener_skip.py
@@ -31,6 +31,59 @@ def test_should_skip_discord_urls(url: str) -> None:
     assert _should_skip(url) is True
 
 
+@pytest.mark.parametrize(
+    "url",
+    [
+        # 这次实事故的 klipy GIF
+        "https://klipy.com/gifs/hello-8126--k01KQ1SBY07FP9N8QRABJGVNGQC",
+        # Tenor（Discord 贴纸面板默认）
+        "https://tenor.com/view/cat-cute-gif-1234567",
+        "https://media.tenor.com/AbCdEfGhIj/cat.gif",
+        # Giphy（也常见）
+        "https://giphy.com/gifs/cat-cute-AbCdEfGhIj",
+        "https://media2.giphy.com/media/AbCdEfGhIj/giphy.gif",
+        # Klipy CDN
+        "https://media.klipy.com/some.gif",
+    ],
+)
+def test_should_skip_sticker_gif_aggregators(url: str) -> None:
+    assert _should_skip(url) is True
+
+
+@pytest.mark.parametrize(
+    "url",
+    [
+        # 裸图片（WeChat 图床、随便哪个 host 的图片直链）
+        "https://mmbiz.qpic.cn/mmbiz_jpg/abc/640.jpg",
+        "https://example.com/path/photo.PNG",
+        "https://i.example.com/cat.gif",
+        "https://example.com/foo.webp",
+        # 视频/音频直链
+        "https://example.com/clip.mp4",
+        "https://example.com/audio.mp3",
+        # SVG（即便 host 不在黑名单也拦，配合服务端 SVG 上传黑名单）
+        "https://example.com/icon.svg",
+    ],
+)
+def test_should_skip_bare_media_files(url: str) -> None:
+    assert _should_skip(url) is True
+
+
+@pytest.mark.parametrize(
+    "url",
+    [
+        # path 不带媒体扩展，但 query 里出现 .jpg —— 不该误命中
+        "https://example.com/api?file=foo.jpg",
+        # 微信公众号文章 URL（典型分享）
+        "https://mp.weixin.qq.com/s/abc",
+        # 小红书帖子（path 没扩展名）
+        "https://www.xiaohongshu.com/explore/abc123",
+    ],
+)
+def test_should_not_skip_normal_articles_with_media_query(url: str) -> None:
+    assert _should_skip(url) is False
+
+
 @pytest.mark.parametrize(
     "url",
     [