feat(scraper): add WebScraper integration via FactChecker

PyDevDeep · PyDevDeep · commit 159b22661146 · 2026-04-03T17:11:41.000+03:00
- Add WebScraper in integrations/external — isolated from business logic
- FactChecker._fetch_from_web() delegates to WebScraper.scrape()
diff --git a/backend/integrations/external/web_scraper.py b/backend/integrations/external/web_scraper.py
@@ -0,0 +1,31 @@
+import asyncio
+
+import structlog
+from llama_index.readers.web import (  # type: ignore[import-untyped]  # noqa: E402
+    BeautifulSoupWebReader,
+)
+
+logger = structlog.get_logger()
+
+MAX_CHARS = 12000
+
+
+class WebScraper:
+    def __init__(self) -> None:
+        self.reader = BeautifulSoupWebReader()
+
+    async def scrape(self, url: str) -> str | None:
+        """Повертає текст сторінки або None при помилці/порожньому результаті."""
+        logger.info("web_scraper_started", url=url)
+        try:
+            documents = await asyncio.to_thread(self.reader.load_data, urls=[url])
+            if not documents:
+                logger.warning("web_scraper_empty", url=url)
+                return None
+
+            content = documents[0].get_content()[:MAX_CHARS].strip()
+            logger.info("web_scraper_success", url=url, chars=len(content))
+            return f"--- Джерело: WEB ({url}) ---\n{content}"
+        except Exception as e:
+            logger.error("web_scraper_failed", url=url, error=str(e))
+            return None