Added some links (8ce404f4) · Commits · hillengass / SynDRA

documentation/notes.md

+11 −2

Original line number	Diff line number	Diff line
		@@ -17,7 +17,7 @@ Wir vergleichen mit den Metriken verschiedene Prompting-Architekturen:
		- Werden die Dialoge besser mit einem Beispiel?
		- AF: Add: Erreichen wir die Qualität vergleichbarer Arbeiten/existierender Trainingsdaten bzgl. automatisierter Metriken?
		- Generierung von negativen Beispielen mit zusätzlichen Verhaltensmuster-Vorgaben
		AF: würde ich nicht prioriesieren, zugunsten anderer Optionen unten:
		[AF: würde ich nicht prioriesieren, zugunsten anderer Optionen unten:]
		- "System: Sei unhöflich"
		- "User: Wechsel random das Thema"
		- ...
		@@ -140,6 +140,15 @@ Code: https://github.com/shmsw25/FActScore

		## Ressourcen

		### Multi-Agent

		- [LangChain Multi-Agent Guide](https://python.langchain.com/docs/modules/agents/)
		- [Langroid - Multi-Agent framework](https://github.com/langroid/langroid)

		### Local LLM

		- [LangChain local LLM Guide](https://python.langchain.com/docs/guides/local_llms)

		### Computing

		- Local PC (3080 10GB)
		@@ -175,7 +184,7 @@ Code: https://github.com/shmsw25/FActScore
		- AF: to my knowledge the model suffers from missing regulation (safeguards)
		- LFC: Safeguards sind in unserem Kontext weniger wichtig, da wir den Task vorgeben; Wilde Spekulationen/Halluzinationen sollten von unseren Metriken als solche erkannt werden
		- AF: [here] some critical voices (haven't tested LLama 2 for comparison)
		- LFC: Ein 7B Parameter Modell mit einem 1.76T Parameter Modell zu vergleichen, ist interessant. Wir erwarten keine GPT-4 Qualität von diesen kleinen Modellen.
		- LFC: Ein 7B Parameter Modell mit 4-Bit Präzision mit einem 1.76T Parameter Modell wie GPT-4 nicht zu vergleichen. Wir erwarten keine GPT-4 Qualität von diesen kleinen Modellen.

		##### T5