Nächstes Treffen
Das nächste Treffen findet am ... um ... im Raum ... statt. Bitte lest bis dahin:
Hallo zusammen!
Es gab mal die Idee, gemeinsam die grundlegenden Paper, auf denen ChatGPT aufbaut, zu lesen und drüber zu reden. Das Ganze ist jetzt keine ascii-interne Veranstaltung, aber ich hatte im ascii schonmal mit Leuten darüber gesprochen und das Interesse war scheinbar da. Um das mal zu besprechen, würde ich vorschlagen, dass wir uns mal im ascii treffen. Danach können wir auch schauen, ob/wie wir es weiter bewerben wollen. Das ascii als Café scheint mir aber erstmal ein geeigneter Ort für so eine Veranstaltung zu sein.
Für ein erstes Treffen habe ich ein dudle zur Terminfindung rum geschickt. Wer das nicht bekommen hat, kann
gerne eine E-Mail an reading-group(at)deep.cooking
schicken. Das erste Treffen kann auch erstmal rein
organisatorisch sein. Dann können wir mal sehen, wie viele wir eigentlich sind und ob das Format (siehe unten)
so passt. Nur der thematische Fokus ist fest.
"Reading Group"
Die Idee wäre, dass wir uns regelmäßig (zwei wöchentlich?) zusammen setzen. Pro Termin gibt es ein Paper o.ä., das alle vorher lesen und im Idealfall auch direkt ein paar offene Punkte, Unklarheiten oder sonstige Fragen aufschreiben. Eine Person stellt das Paper dann anhand von ein paar Slides vor (da reichen auch die Abbildungen und Tabellen in eine Präsentation.). Wichtig ist eben, dass wir für jedes Paper eine/n Verantwortliche/n haben, um Fragen zu stellen und ein bisschen den Termin zu strukturieren. Das ist aber auch einfacher als es klingt :) Das erste Papier kann ich gerne selbst übernehmen.
Fokus
Als Fokus für die Reading Group hätte ich, wie oben geschrieben, gerne alles was irgendwie mit ChatGPT und den aktuellen Sprachmodellen, die für Chats und Co. benutzt werden, zu tun hat. Es gibt ja eine Reihe von Weiterentwicklungen und Verbesserungen. Die würde ich mir gerne mal anschauen.
Das Ganze soll also keine Lehrveranstaltung sein, auch kein Programmierkurs oder ähnliches. Einfach nur Paper lesen und dann bei einem Kaffee, Tee oder einem Kaltgetränk darüber reden.
Paper
Als Paper würde ich folgende vorschlagen (nicht zwingend in der Reihenfolge):
- Transformers: Attention is All You Need: https://arxiv.org/pdf/1706.03762.pdf
- GPT-3: https://arxiv.org/pdf/2005.14165.pdf
- InstructGPT: https://arxiv.org/pdf/2203.02155.pdf
- Alpaca: A Strong, Replicable Instruction-Following Model: https://crfm.stanford.edu/2023/03/13/alpaca.html
- Vicuna: https://lmsys.org/blog/2023-03-30-vicuna/
- LoRA: Low-Rank Adaptation of Large Language Models: https://arxiv.org/pdf/2106.09685.pdf
- LLaMA: https://arxiv.org/pdf/2302.13971.pdf
- LLaMA-Adapter: https://arxiv.org/pdf/2303.16199.pdf
- LLaMA 2: https://arxiv.org/pdf/2307.09288.pdf
- Dataset for RLHF: https://drive.google.com/file/d/10iR5hKwFqAKhL3umx8muOWSRm7hs5FqX/view
- FlashAttention: https://arxiv.org/pdf/2205.14135.pdf
- Orca: Progressive Learning from Complex Explanation Traces of GPT-4: https://arxiv.org/pdf/2306.02707.pdf
- Quantization: ?
Über die konkreten Arbeiten und die Liste können wir gerne reden, allerdings möchte ich den Fokus auf Arbeiten legen, die eine Grundlage für Large Language Models bzw. Transformer-basierte Sprachmodelle legen, oder darauf aufbauen.
Zum Beispiel haben wir dort GPT-3 und InstructGPT, die beide die Grundlagen für ChatGPT geschafften haben. Beide Paper sind auch von OpenAI. Außerdem gibt es das Äquivalent von Meta: LLaMA und dessen Verbesserungen und Weiterentwicklungen (Vicuna, Alpaca, LLaMA-2). Die restlichen Paper sind Techniken, die im Zusammenhang mit den genannten Modellen stehen, also Optimierungen oder Trainingsmechaniken etc. sind (LoRA, RLHF, FlashAttention, Orca, LLaMA-Adapter). Ich denke, alles, das sich hier in diese Liste gut einfügt, kann eingebracht werden.
Nicht alle davon sind wissenschaftliche Papiere, aber vielleicht eignen sie sich trotzdem. Vielleicht aber auch nicht, dann schmeißen wir die eben wieder raus.
Voraussetzungen
Um die Paper zur verstehen, wäre es wichtig, wenn ihr wisst wie man grundsätzlich ein neuronales Netz trainiert. Im Idealfall habt ihr schonmal ein CNN oder RNN Modell trainiert oder benutzt, aber da Transformer anders aufgebaut sind, ist das jetzt kein Muss, würde ich sagen.
Vergangene Treffen
Kontakt
Anja: reading-group(at)deep.cooking