Dieses repo beinhaltet alle Bibliotheken, die wir für den Hackathon brauchen, sowie ein paar Beispiele.
- Docker: https://docs.docker.com/get-docker/
- Dieses repo lokal clonen
Im repo-root eine neue Datei erstellen, die ".env" heißt. Wir geben euch einen OpenAI API Key, den ihr in der .env Datei als "OPENAI_API_KEY" speichern müsst. Diese Datei wird von docker-compose automatisch geladen.
OPENAI_API_KEY=...
Es gibt zwei Möglichkeiten, den Container zu bauen und zu starten:
docker-compose build
docker-compose up
In VS Code die Docker-Extension von Microsoft installieren und ihre Option "Reopen in Container" mit der docker-compose.yml im repo auswählen.
Die Vektordatenbank mit den SMC-Angeboten und den vorberechneten Embeddings kann hier heruntergeladen werden. Die ZIP-Datei dann einfach im Unterverzeichnis /data entpacken. Im container folgende Kommandos ausführen:
wget -P ./data/ https://media.sciencemediacenter.de/share/hackathon_2023/chroma_db.zip
unzip ./data/chroma_db.zip -d ./data/
# rm ./data/chroma_db.zip
Hier ist eine Einleitung für die Installation von wget.
Wir haben Jupyter Notebooks mit Beispielen vorbereitet. Ihr könnt diese als Grundlage für eure Lösungen nehmen. Die Jupyter Notebooks sind im notebooks/ Ordner. Diese könnt ihr
- in VS Code öffnen und benutzen (wir empfehlen die Jupyter-Extension von Microsoft zu installieren)
- mit dem laufenden Container im Browser öffnen (http://localhost:9999)
Das SMC Lab hat ein eigenes Blog. Unter diesem Link findet ihr Hintergründe zu großen Sprachmodellen. Der Code zu den dort gezeigten Beispiel-Anwendungen befindet sich hier.
