Commit 8ce404f4 authored by pracht's avatar pracht
Browse files

Added some links

parent 943ef204
Loading
Loading
Loading
Loading
+11 −2
Original line number Diff line number Diff line
@@ -17,7 +17,7 @@ Wir vergleichen mit den Metriken verschiedene Prompting-Architekturen:
- Werden die Dialoge besser mit einem Beispiel?
- AF: Add: Erreichen wir die Qualität vergleichbarer Arbeiten/existierender Trainingsdaten bzgl. automatisierter Metriken?
- Generierung von negativen Beispielen mit zusätzlichen Verhaltensmuster-Vorgaben
  AF: würde ich nicht prioriesieren, zugunsten anderer Optionen unten:
  [AF: würde ich nicht prioriesieren, zugunsten anderer Optionen unten:]
  - "System: Sei unhöflich"
  - "User: Wechsel random das Thema"
  - ...
@@ -140,6 +140,15 @@ Code: https://github.com/shmsw25/FActScore

## Ressourcen

### Multi-Agent

- [LangChain Multi-Agent Guide](https://python.langchain.com/docs/modules/agents/)
- [Langroid - Multi-Agent framework](https://github.com/langroid/langroid)

### Local LLM

- [LangChain local LLM Guide](https://python.langchain.com/docs/guides/local_llms)

### Computing

- Local PC (3080 10GB)
@@ -175,7 +184,7 @@ Code: https://github.com/shmsw25/FActScore
- AF: to my knowledge the model suffers from missing regulation (safeguards)
- LFC: Safeguards sind in unserem Kontext weniger wichtig, da wir den Task vorgeben; Wilde Spekulationen/Halluzinationen sollten von unseren Metriken als solche erkannt werden
- AF: [here] some critical voices (haven't tested LLama 2 for comparison)
- LFC: Ein 7B Parameter Modell mit einem 1.76T Parameter Modell zu vergleichen, ist interessant. Wir erwarten keine GPT-4 Qualität von diesen kleinen Modellen.
- LFC: Ein 7B Parameter Modell mit 4-Bit Präzision mit einem 1.76T Parameter Modell wie GPT-4 nicht zu vergleichen. Wir erwarten keine GPT-4 Qualität von diesen kleinen Modellen.

##### T5