ChatGPT und Co. - Vor- und Nachteile

ProxySurfer · 23 Januar 2023

Ich habe heute einen Artikel über GPT gelesen: Künstliche Intelligenz Technologie zur Sprachverarbeitung. Soll google bei Weitem übertreffen: Dadurch ist es möglich, dass auf eine gestellte Frage ein konkreter Antworttext kommt. Ideal für Schüler, Studenten, Journalisten u.ä., die ihre Texte/Arbeiten nicht selbst schreiben wollen.
Welche Vor- und Nachteile wird das haben? Hier der Artikel dazu:

GPT: Eine Software, die die Welt verändert | Terra-X-Kolumne

GPT-3 hat binnen weniger Monate an Einfluss und Reichweite zugelegt. Die Software wird sich massiv auf Ökonomie und Gesellschaft auswirken.

www.zdf.de

Caelyn · 24 Januar 2023

Naja man erkennt schon ziemlich schnell / genau, ob GPT einen Text geschrieben hat. Die Texte folgen sehr genau einem gewissen Schema und sind teilweise super schwammig formuliert.

AK3 · 24 Januar 2023

Ich finde das Thema spannend. Und ich stimme zu, was an Ende des Artikels steht. Es muss eine Umordnung im Thema Lernen und Arbeiten stattfinden.
Wir hängen noch viel zu fest in alten starren Strukturen.
Ich sage nur Schule 🤯🙄 und das ist nur ein Beispiel.

ProximaCentauri · 24 Januar 2023

GPT schreibt halt nur Texte und überprüft keine Fakten. Wenn man GPT-Texte über ein Gebiet liest, in dem man sich gut auskennt, stellt man oft fest, dass da keine Substanz dahinter steckt, und oft sogar klare Fehlinformationen eingebaut sind.

axis mundi · 24 Januar 2023

Nachdem hier in den letzten Tagen ein fünf seitiger Fachbericht damit entstand: Mega!
Sehr beeindruckend.
Teilweise sind die Server etwas überlastet und als Input muss sehr klar formuliert werden, was man möchte, aber davon abgesehen waren wir bisher von den Ergebnissen beeindruckt, lesen nochmal gegen, aber eigentlich passt es.
Eigentlich mal eine Idee… ich werde mal meine Bewerbung schreiben lassen 😁
Aufsätze in der Schule werden damit bestimmt deutlich leichter 😌

mozillafox · 24 Januar 2023

Ich bin da sehr zwiegespalten. Einerseits ist es krass, was KI mittlerweile kann, andererseits macht es mir als Mensch, der u.a. mit Schreiben seine Brötchen verdient auch etwas Sorgen. Zwar gehe ich nicht davon aus, in absehbarer Zeit von einer KI ersetzt zu werden, da mein Tätigkeitsfeld doch recht speziell und auch nicht aufs bloße produzieren von Text beschränkt ist, aber natürlich macht man sich Gedanken. Gerade, was die Wertschätzung der eigenen Arbeit angeht. Wobei sich dann auch Grafikdesigner und alle anderen kreativen Jobs Gedanken machen müssen, denn KI erzeugt ja auch bereits Bilder anhand von Befehlen, die man eingibt. Siehe: Text To Image - AI Image Generator

Wer weiß, wo das noch alles hinführt. Man kann es jetzt so sehen: Juhu, KI wird mir helfen, meine Texte noch besser zu machen! Vielleicht wird mein Job dann einfacher und wir alle können unsere Arbeitszeit bei gleichem Gehalt irgendwann in der Zukunft reduzieren und frohlocken, yaay. Oder eben so: Oh Fuck, wer weiß, welche CEOs jetzt auf die Idee kommen, mithilfe von KI in den Marketing-/Kommunikations-/PR-Abteilungen Kosten einsparen zu wollen

Wir werden es erleben 🤷‍♂️

WomanInTheMirror · 24 Januar 2023

ProximaCentauri schrieb:
und oft sogar klare Fehlinformationen eingebaut sind.

Frag ChatGPT mal, was schwerer ist: eine Tonne Federn oder eine Tonne Blei

mozillafox · 24 Januar 2023

Hab das Thema mal mit einem Sci-Fi begeisterten Kollegen diskutiert und wir kamen auf die Fragestellung: Was macht die Gesellschaft eigentlich, wenn irgendwann eine Vielzahl der Jobs durch KI wegautomatisiert wurde? Bekommen wir dann alle ein Bürgergeld, das zum komfortablen Leben reicht? Oder endet alles in Endzeit-mäßigen Szenarien, in denen die wegautomatisierten Leute in ihren Slums hausen und zur Revolte gegen die KI bzw die einzigen noch gebrauchten Arbeitskräfte (vielleicht Softwareentwickler und Handwerksberufe) aufrufen

Ich hab da Szenen wie aus Terminator 2 im Kopf 😅

WomanInTheMirror · 24 Januar 2023

[Screenshot entfernt]
Die KI wird uns bald ersetzen, oh nein 😱

lenny84 · 24 Januar 2023

Ich setze seit geraumer Zeit KI fürs Texten bei der Arbeit ein. Allerdings handelt es sich dabei eher um kurze, knappe Social Media Teaser oder mal ne Newsletter-Einleitung. Wichtig ist mir dabei, dass der Text Qualität hat, ob das Ergebnis bspw. besser performt als das manuell geschriebene. Dann find ich den Einsatz lohnenswert und zeitersparend.

Ansonsten ist mir GPT in vielen Dingen zu oberflächlich. Man muss sich schon damit beschäftigen, damit das Ergebnis am Ende stimmt.

mozillafox · 24 Januar 2023

Ok ich nutze seit geraumer Zeit auch KI fürs Übersetzen auf der Arbeit. DeepL beschleunigt meinen Job an der Stelle schon drastisch, sodass ich mehr Zeit für anspruchsvollere/kreativere Sachen hab als das 100% händische Übersetzen eines 2000 Wörter Texts. Natürlich muss man was von der Materie verstehen, um die Fehler der KI zu korrigieren, aber man kann sich da viel Fleißarbeit abnehmen lassen. Auch immer lustig zu sehen, wie einer unserer hauptberuflichen Übersetzer innerhalb von Sekunden mit seiner Übersetzung fertig ist, während die anderen stundenlang brauchen.

Schweinebacke · 24 Januar 2023

Es generiert halt keine Fakten und ist auch nicht auf die Art intelligent, so wie viele sich das fälschlischerweise vorstellen.
Alle KI sind derzeit statistische Verfahren, die teils erstaunliche Ergebnisse generieren, teils aber auch einfach nur Quatsch.
Mit harter KI ("echter Intelligenz") hat das alles nichts zu tun.

Im Internet stand aber halt auch schon vorher viel (oft einfach nur nach SEO Prämisse geschriebener) wenig informativer Kram. Sowas kann ChatGPT halt auch...

mozillafox · 24 Januar 2023

Off-Topic:
Die Gamestar hat btw. einen Testbericht zu Skyrim von ChatGPT generieren lassen. Ich sag mal, das Ding ersetzt auf dem Niveau zumindest noch keinen Test eines Redakteurs :tentakel:

Alles ist sehr oberflächlich, dieselben Worthülsen werden ewig wiederholt usw.

lemonicetea · 24 Januar 2023

"Ich habe mich für einen Charakter entschieden, der gut im Klettern ist" - Lügen-KI! In Skyrim kann man gar nicht klettern! 🤷‍♀️

knopper84 · 24 Januar 2023

WomanInTheMirror schrieb:
Anhang anzeigen 172908
Die KI wird uns bald ersetzen, oh nein 😱

huch das überrascht mich nun doch etwas

Ist deine Frage etwa besonders klug bzw. frech gestellt...oder ist ChatGPT doch nicht so schlau? :rolleyes:

Ich meine bei dem Hype den es die letzten Wochen macht.... komisch.

Nikki.B · 24 Januar 2023

..wir haben das gerade mal ausprobiert, es ist extrem interessant, was da so rauskommt. Fragen im technischen Bereich werden recht klar und eindeutig beantwortet. Schwammige Fragen bekommen schwammige Antworten.
Ich hatte eine sexuell bezogene Frage gestellt und wurde sofort abgebügelt, "entspricht nicht unseren Nutzungsrichtlinien"

Aber die Frage nach einem Fachvortrag fürs Studium ergab ein verblüffend gutes Ergebnis, dass man absolut als Grundlage für einen echten Vortrag nutzen kann. Der Wissenstand von OpenAI ist bei 2021.

Sehr interessant ist auch die KI, die aus Texten Bilder generiert
Das hier ist ihr zum Thema Wasserfarbenbild zu einem Plante mit Liebe eingefallen:

DALL·E 2023-01-24 14.45.55 - bild im wasserfarbenstil das einen planet mit liebe darstellt.png

axis mundi · 17 Februar 2023

Sorceress Apprentice schrieb:
Dass Menschen quasi aus den gleichen Gründen Vorurteilen unterliegen wie KI? Weil sie reproduzieren was sie anderswo aufnehmen?

Würde ich so nicht sagen.

Sorceress Apprentice schrieb:
Aber vielleicht gibt es da auch noch soziologische orientierte Ansätze à la "Gruppenbildung und wir vs andere"?

Menschen denken von kleinauf schon in den Kategorien „gehört dazu“/„ist anders“. Das geht dann später über das Gruppengefühl noch weiter — sprich: man ist Teil einer Gruppe und gehört warum auch immer dazu und andere sind es nicht. Zur einfacheren Einschätzung gibt es Vorurteile und zusätzlich auch eine gewisse Zurückhaltung gegenüber den Menschen, die (noch) nicht dazugehören. Dank unserer kognitiven Fähigkeiten können wir das überwinden. Wir können uns in neuen Gruppen anordnen, unsere Gruppe wechseln und z.B. auch trotz sichtbarer Unterschiede respektvoll miteinander umgehen, merken, dass es mit anderen ebenfalls ähnliche Merkmale gibt und dass uns anderes auch von Menschen, die uns stark ähneln, trennt/unterscheidet.
Eine KI kann das nicht. Sie begreift womöglich noch das soziale Standing, eine Art „Rangfolge“, aber sie ist nicht in der Lage, Vorurteile zu überwinden — weil sie selbst keine hat, sondern nur das reproduziert, was kommt. Da kann zum Beispiel ein sorgfältiger ausgewählter Datensatz helfen. Wirklich „blind“ für Herkunft, Hautfarbe, Religion, Geschlecht, etc. wird eine AI womöglich nicht werden, denn auch bei den Personen, die solche Dinge entwickeln, existiert wie bei allen andere Menschen auch ein Bias, das über die eigene Identität hineinkommt.

axis mundi · 8 März 2023

ProxySurfer schrieb:
Zwischenfrage:
Was wäre eigentlich, wenn sich eine künstliche Intelligenz hier bei PL registrieren und Beiträge schreiben würde? 🤖
Würdet ihr das erkennen?

Ja, es würde auffallen, wenn ChatGPT Antworten für einen Nutzer erstellen würde, da die Antworten oft einen formalen und künstlichen Ton haben und nicht auf den individuellen Kontext oder die Sprache des Nutzers abgestimmt sind.

...schreibt ChatGPT

axis mundi · 23 Juli 2023

Erkennbar wird es aus meiner Sicht nur dann, wenn offensichtlich immer die gleichen Textbausteine verwendet werden. Das kann zum Nachweis auch reproduziert werden.
Ansonsten: Erfundenen Quellen. Recherche kann ChatGPT noch nicht ausreichend gut, das könnte also auffliegen.
Mittlerweile habe ich es noch etwas intensiver erprobt. Insbesondere, wenn viele ähnliche Dinge vorgestellt werden, dann sind die Textblöcke auffallend ähnlich.
Dennoch: ich finde es immernoch sehr praktisch!

Mamas Liebling · 24 Juli 2023

Ali Mente schrieb:
Nein, dass kann man nicht. Bzw. kann man natürlich, aber die Antworten sind "ausgedacht".

Es gibt Software dafür, mit angeblich guter Präzision, aber eben ohne Aussage zu Recall. Also sehr fragwürdig.
Aber ChatGPT bietet das nicht an.
OpenAI selbst kann aber erkennen, ob ein Text von ChatGPT geschrieben wurde, oder nicht.
Ist dringend notwendig für sie: sie trainieren ChatGPT mit Texten aus dem Internet. Wenn sie nun von ChatGPT erstellte Texte in die Trainingsdaten einfliessen lassen, haben sie plötzlich ganz komische und problematische Feedback Loops im System drin, die die Qualität rapide verschlechtern.
Mit der Präsenz mehrerer solcher KIs (nicht nur ChatGPT) und insbesondere von Systemen, die bewusst Missinformation generieren, wird das zwangsläufig passieren.

Ali Mente · 24 Juli 2023

Mamas Liebling schrieb:
Es gibt Software dafür, mit angeblich guter Präzision, aber eben ohne Aussage zu Recall. Also sehr fragwürdig.
Aber ChatGPT bietet das nicht an.
OpenAI selbst kann aber erkennen, ob ein Text von ChatGPT geschrieben wurde, oder nicht.
Ist dringend notwendig für sie: sie trainieren ChatGPT mit Texten aus dem Internet. Wenn sie nun von ChatGPT erstellte Texte in die Trainingsdaten einfliessen lassen, haben sie plötzlich ganz komische und problematische Feedback Loops im System drin, die die Qualität rapide verschlechtern.
Mit der Präsenz mehrerer solcher KIs (nicht nur ChatGPT) und insbesondere von Systemen, die bewusst Missinformation generieren, wird das zwangsläufig passieren.

Naja.

Zitat New AI classifier for indicating AI-written text

Our classifier is not fully reliable. In our evaluations on a "challenge set" of English texts, our classifier correctly identifies 26% of AI-written text (true positives) as "likely AI-written," while incorrectly labeling human-written text as AI-written 9% of the time (false positives).

Das halte ich für ziemlich miserabel. Würde über den Daumen gepeilt sagen, Münzwurf ist nicht schlechter

Ali Mente · 24 Juli 2023

In den letzten Tagen wurde ja viel berichtet wegen des Papers aus Stanfordm dass ChatGPT dümmer geworden sei. Ich kann das aus meiner subjektiven Wahrnehmung bestätigen. Ich nutze die Pro-Variante von ChatGPT. Als ChatGPT 4 neu war, waren die Antworten teilweise wirklich beeindruckend und das Tool extrem hilfreich. Das hat doch stark nachgelassen, sodass ich, wenn keine Besserung eintritt, vermutlich die Subscription kündige. Ich denke nicht, dass das (schon) etwas mit der prognostizierten "KI-Demenz" zu tun hat (KI-Modelle werden auf KI-Output trainiert), sondern vermutlich hat man hier schlicht optimiert um Ressourcen zu sparen. ChatGPT4 ist dadurch aber in meinen Augen in den letzten Wochen deutlich weniger hilfreich geworden, braucht sehr viel mehr Feintuning und Boilerplate-Prompt und auch signifikant mehr Nacharbeit. Manche Aufgabe bewältigt es schlicht garnicht mehr oder absolut unzufriedenstellend. Vor allem wirkt die ganze Interaktion sehr viel "dümmer" und weniger antizipierend als am Anfang. Hat es für mich von einem enorm hilfreichem Tool zu einer netten Spielerei mit geringem Mehrwehrt an den meisten Stellen degradiert.

Hans-im-Glück · 24 Juli 2023

Sponsch schrieb:
Tipps für diejenigen, die mit ChatGPT Schularbeiten faken:
– Tippfehler einbauen
– Doppelte Wortabstände einbauen (sind oft das Resultat von Umformulierungen)
– Kommas einbauen (Anwender setzen i.d.R. zu viele Kommas, also noch ein paar falsche dazusetzen)
– Superlative reduzieren (KI schreiben sehr amerikanisch)
– Zitate, Quellen und kühne Behauptungen verifizieren.

Was bitte sind das denn für Tipps? Man lernt doch nicht für die Schule sondern für sich und das Leben. Und nun soll ich nicht mehr selber schreiben und nachdenken, sondern stattdessen richtige Dinge mit Fehlern versehen, damit das "Abschreiben" nicht auffällt.

Leute, Leute, Leute, wo soll das hinführen? :kopfwand:

Mamas Liebling · 24 Juli 2023

Ali Mente schrieb:
sondern vermutlich hat man hier schlicht optimiert um Ressourcen zu sparen. ChatGPT4 ist dadurch aber in meinen Augen in den letzten Wochen deutlich weniger hilfreich geworden,

Ja.
Wahrscheinlich ist ChatGPT4 mehrstufig.
Wenn es Deine Anfrage einfach findet, wird sie von einer Version des Modells mit weniger Parametern behandelt, wenn sie kompliziert erscheint, von einemModell mit mehr Parametern. Wenn man denkt, dass die originale Version pro Anfrage schon je nach Bericht mehrere Cents Stromkosten verursacht hat, ist ein mehrfach so grosses Modell nicht mehr für alle Anfragen zu finanzieren.

Ebenfalls nicht irrelevant, weiter aber sehr offen ist, wie sie genau "Nutzer- und Expertenfeedback integrieren" wollen. Einerseits sicher vielversprechend, andererseits bestimmt auch angreifbar.

Kommt dazu, dass jede neue Version wieder anders auf die Prompts reagiert, die Nutzer müssen sich etwas ungewöhnen, und wenn ich mich richtig erinnere, ist die Kontextlänge auch grösser geworden, was wiederum einen Effekt auch auf den selben, wie auch auf längeren Input haben kann (Verlust von Signifikanz, "Washout")

KI Demenz hat zwei Aspekte:
* Das Lernen von generierten Inhalten. Da passiert wohl noch nicht allzu viel, ausser vielleicht bei politischer Falschinformation etc.
* Der Entzug von Rechten: da denke ich, dass mehr passiert: Rechteinhaber, die nicht mehr erlauben, dass ihre Daten (Artikel, Beiträge, Bücher, ..) dafür verwendet werden dürfen, oder Gebühren fordern, die OpenAI nicht bezahlen will. Ich kann mir gut vorstellen, dass ihr Corpus deswegen einigermassen geschrumpft ist, seit sie an den Start gegangen sind.

Zu guter Letzt: ich denke, OpenAI weiss sehr genau, dass es keine Suchmaschine ist, und nie eine sein wird, sondern viel mehr ein Tool zum Kreieren.
Es kann sein, dass sie es stärker in diese Richtung drücken wollen, und dafür mehr Fehler in faktueller Information akzeptieren.

Schweinebacke · 24 Juli 2023

Mittelfristig ist es wahrscheinlich auch gar nicht so einfach, diese KI-Modelle finanziell tragbar zu gestalten. Es läuft eben auf recht teurer Hardware, wo jetzt die nächsten Jahre keine großen Sprünge bei der Performance nach oben und dem Preis nach unten zu erwarten sind. Sieht man ja schon jahrelang bei Grafikkarten und Co. Und KI wird derzeit vor allem durch mehr Rechenpower (eben mehr Parameter) besser.

Anne99 · 24 Juli 2023

Schweinebacke schrieb:
Mittelfristig ist es wahrscheinlich auch gar nicht so einfach, diese KI-Modelle finanziell tragbar zu gestalten. Es läuft eben auf recht teurer Hardware, wo jetzt die nächsten Jahre keine großen Sprünge bei der Performance nach oben und dem Preis nach unten zu erwarten sind. Sieht man ja schon jahrelang bei Grafikkarten und Co. Und KI wird derzeit vor allem durch mehr Rechenpower (eben mehr Parameter) besser.

Dafür gibt es aber alle paar Monate massive Sprünge in der Softwarearchitektur. Wenn ein Softwaresprung dazu führt, dass ein 7B Modell plötzlich so gut ist wie das vorherige 70B Modell, dann kannst du es auf günstigerer Hardware laufen lassen und brauchst keine $30,000 teuren H100 mehr. Stattdessen nutzt man dann die $1,000 teure V100 und dann sparst du einfach mal 90%+ der Investitionskosten.

Teuer ist nur state-of-the-art. Die ist aber insbesondere bei LLMs aktuell schon nach wenigen Monaten überholt

celavie · 24 Juli 2023

Ali Mente schrieb:
In den letzten Tagen wurde ja viel berichtet wegen des Papers aus Stanfordm dass ChatGPT dümmer geworden sei. Ich kann das aus meiner subjektiven Wahrnehmung bestätigen. Ich nutze die Pro-Variante von ChatGPT. Als ChatGPT 4 neu war, waren die Antworten teilweise wirklich beeindruckend und das Tool extrem hilfreich. Das hat doch stark nachgelassen, sodass ich, wenn keine Besserung eintritt, vermutlich die Subscription kündige. Ich denke nicht, dass das (schon) etwas mit der prognostizierten "KI-Demenz" zu tun hat (KI-Modelle werden auf KI-Output trainiert), sondern vermutlich hat man hier schlicht optimiert um Ressourcen zu sparen. ChatGPT4 ist dadurch aber in meinen Augen in den letzten Wochen deutlich weniger hilfreich geworden, braucht sehr viel mehr Feintuning und Boilerplate-Prompt und auch signifikant mehr Nacharbeit. Manche Aufgabe bewältigt es schlicht garnicht mehr oder absolut unzufriedenstellend. Vor allem wirkt die ganze Interaktion sehr viel "dümmer" und weniger antizipierend als am Anfang. Hat es für mich von einem enorm hilfreichem Tool zu einer netten Spielerei mit geringem Mehrwehrt an den meisten Stellen degradiert.

Sehr interessant. Ich nutze die Plus-Version erst seit ein paar Wochen und finde deine Beobachtung spannend. Habe die Berichterstattung verfolgt und habe ich gefragt was genau das bedeutet.

Mamas Liebling · 24 Juli 2023

Anne99 schrieb:
Dafür gibt es aber alle paar Monate massive Sprünge in der Softwarearchitektur.

Ja, die Open Source Community hat kürzlich Einiges erreicht beim Verkleinern von Modellen ohne grossen Verlust an Performance, etc.
Aber das sind inhärent nicht anhaltende Prozesse, irgendwann nähert sich dann auch ein Limit, und die Kosten, um eine "Einheit Fortschritt" zu erreichen, werden immer grösser.

Anne99 schrieb:
und dann sparst du einfach mal 90%+ der Investitionskosten.

Die Hauptkosten sind meist nicht die Anschaffung, sondern der Strom. Kommt noch drauf an natürlich, wo das ganze läuft, Strom in Europa ist derzeit wesentlich teurer als in den USA, etc.

Schweinebacke · 24 Juli 2023

Anne99 schrieb:
Dafür gibt es aber alle paar Monate massive Sprünge in der Softwarearchitektur. Wenn ein Softwaresprung dazu führt, dass ein 7B Modell plötzlich so gut ist wie das vorherige 70B Modell, dann kannst du es auf günstigerer Hardware laufen lassen und brauchst keine $30,000 teuren H100 mehr. Stattdessen nutzt man dann die $1,000 teure V100 und dann sparst du einfach mal 90%+ der Investitionskosten.

Teuer ist nur state-of-the-art. Die ist aber insbesondere bei LLMs aktuell schon nach wenigen Monaten überholt

Diese Optimiererei auf Softwareebene hat aber eben auch (harte) Grenzen. Da holt man irgendwann einfach keine Größenordnungen mehr heraus. Bei den meisten Algorithmen ist doch auch ziemlich klar, wie es mit Skalenverhalten/Lower Bounds (sehr wahrscheinlich) aussieht. Die Modelle sind sich ja auch alle recht ähnlich.

Ali Mente · 25 Juli 2023

Anne99 schrieb:
Dafür gibt es aber alle paar Monate massive Sprünge in der Softwarearchitektur. Wenn ein Softwaresprung dazu führt, dass ein 7B Modell plötzlich so gut ist wie das vorherige 70B Modell, dann kannst du es auf günstigerer Hardware laufen lassen und brauchst keine $30,000 teuren H100 mehr. Stattdessen nutzt man dann die $1,000 teure V100 und dann sparst du einfach mal 90%+ der Investitionskosten.

Teuer ist nur state-of-the-art. Die ist aber insbesondere bei LLMs aktuell schon nach wenigen Monaten überholt

Was heißt "genauso gut". Die Benchmarks, die da gefahren werden, sind aus meiner Sicht für Real-World-Use-Cases halt auch nur bedingt aussagekräftig. Kleinere Modelle sind mit entsprechendem Tuning zwar ähnlich gut im formulieren oder decken einen Spezial-Use-Case gut ab, was ChatGPT4 aber so gut macht (bzw. gemacht hat), is das massive Kontextwissen, das im Modell eingebettet ist, verbunden mit der Breite der Fähigkeiten. Dieses Kontextwissen steckt letztlich in den Parametern. Dem 7B und selbst dem 70B Modell fehlt dieses "Kontextwissen", gerade in den Cases, in denen ein LLM wirklich nützlich ist. Letztlich tendieren die kleinen Modelle da viel stärker zum Halluzinieren, auch wenn es schön klingt, was sie schreiben. Man weiß ja nicht, wieviele Parameter ChatGPT4 in der größten Ausbaustufe hat, schätzungsweise ja im Bereich 400 Milliarden bis 1Billion. (ChatGPT3 175 Mrd.), aber man muss ja nur ins gerade erschienene LLAMA2-Paper gucken, um einen Eindruck zu bekommen, wie hart ChatGPT-4 die "kleinen" Konkurrenzmodelle schon in den Benchmarks outperformed (Llama 2: Open Foundation and Fine-Tuned Chat Models | Meta AI Research).

ChatGPT4 ist (bzw. war) ist aus meiner Sicht so die unterste Stufe, bei der sich ein LLM wirklich nützlich anfühlt als "Sparringspartner" im professionellen Einsatz. Das liegt vor allem am "Wissen", das in dem Modell steckt und daran, dass dieses LLM sich im Dialog anfühlt(e), als ob es antizipiert und "mitdenkt". Das kriegst du mit weniger Parametern halt nicht hin für "Allgemeine Nutzung".

Mamas Liebling · 25 Juli 2023

Ali Mente schrieb:
Das kriegst du mit weniger Parametern halt nicht hin für "Allgemeine Nutzung".

Es gibt natürlich eine Untergrenze für das Verkleinern von Modellen, aber es ist sicher auch nicht korrekt, anzunehmen, dass ChatGPT4 die kleinstmögliche Architektur für diese Performance bereits gefunden hat.
Aus einem ganz einfachen Grund: sie wollen bahnbrechende Performance demonstrieren. Optimieren, Energieeffizienz steigern, das kommt alles später. Das wurde sicher noch nicht zum Maximum getrieben, es würde ihre Ressourcen binden und wahrscheinlich auch die Komplexität erhöhen, und damit die Entwicklung des Produkts verlangsamen.

Anne99 · 25 Juli 2023

Ali Mente schrieb:
Was heißt "genauso gut". Die Benchmarks, die da gefahren werden, sind aus meiner Sicht für Real-World-Use-Cases halt auch nur bedingt aussagekräftig. Kleinere Modelle sind mit entsprechendem Tuning zwar ähnlich gut im formulieren oder decken einen Spezial-Use-Case gut ab, was ChatGPT4 aber so gut macht (bzw. gemacht hat), is das massive Kontextwissen, das im Modell eingebettet ist, verbunden mit der Breite der Fähigkeiten. Dieses Kontextwissen steckt letztlich in den Parametern. Dem 7B und selbst dem 70B Modell fehlt dieses "Kontextwissen", gerade in den Cases, in denen ein LLM wirklich nützlich ist. Letztlich tendieren die kleinen Modelle da viel stärker zum Halluzinieren, auch wenn es schön klingt, was sie schreiben. Man weiß ja nicht, wieviele Parameter ChatGPT4 in der größten Ausbaustufe hat, schätzungsweise ja im Bereich 400 Milliarden bis 1Billion. (ChatGPT3 175 Mrd.), aber man muss ja nur ins gerade erschienene LLAMA2-Paper gucken, um einen Eindruck zu bekommen, wie hart ChatGPT-4 die "kleinen" Konkurrenzmodelle schon in den Benchmarks outperformed (Llama 2: Open Foundation and Fine-Tuned Chat Models | Meta AI Research).

ChatGPT4 ist (bzw. war) ist aus meiner Sicht so die unterste Stufe, bei der sich ein LLM wirklich nützlich anfühlt als "Sparringspartner" im professionellen Einsatz. Das liegt vor allem am "Wissen", das in dem Modell steckt und daran, dass dieses LLM sich im Dialog anfühlt(e), als ob es antizipiert und "mitdenkt". Das kriegst du mit weniger Parametern halt nicht hin für "Allgemeine Nutzung".

Verglichen mit GPT 4 kommt aktuell natürlich kein Open-Source-Modell auch nur ansatzweise ran. Aber im Vergleich zu GPT 3.5 muss sich das 33B Modell von Vicuna nicht verstecken. In MT-Bench und MMLU performen beide Modelle sehr ähnlich.

GPT 4 ist erst seit 4 Monaten raus. Gib der Open-Source-Community noch ein paar Monate Zeit, dann schmilzt auch der Vorsprung von GPT 4 hin.

Anne99 · 25 Juli 2023

Schweinebacke schrieb:
Diese Optimiererei auf Softwareebene hat aber eben auch (harte) Grenzen. Da holt man irgendwann einfach keine Größenordnungen mehr heraus. Bei den meisten Algorithmen ist doch auch ziemlich klar, wie es mit Skalenverhalten/Lower Bounds (sehr wahrscheinlich) aussieht. Die Modelle sind sich ja auch alle recht ähnlich.

Betonung ist auf irgendwann.

Man muss sich bewusst machen, dass Vicuna 33B ähnlich performt wie GPT 3.5 und GPT 4 erst seit wenigen Monaten existiert. Die ganzen Open-Source-Modelle haben sich in den großen Benchmarks alleine in den letzten 5 Monaten im Score verzigfacht und kommen mittlerweile wie gesagt sehr nah an die Leistung von GPT 3.5.

Und das alles auf Consumer-Hardware. So ein 33B Modell lädt man auf ne 3090 und die spuckt dir dann 10 Token/s aus

Mamas Liebling · 25 Juli 2023

Anne99 schrieb:
In MT-Bench und MMLU performen beide Modelle sehr ähnlich

Ich frage mich sehr, wie aussagekräftig diese Benchmarks sind. Ein standardisiertes Benchmark kann praktisch nur mit Memorization gut absolviert werden, Generalization braucht es nicht sehr viel dazu.
Wie echt das Zero/Few Shotting dann wirklich war, ist schwierig zu sagen. Ganz echt kann es unmöglich sein, denn kein Modell der Welt erfindet z.B. algebraische Konzepte und benennt sie auch noch gleich "zufälligerweise" so, wie die Mathematiker es tun.
Deshalb sind diese Benchmarks fragwürdig, ein Modell, das nur dort gut abschneidet, könnte wohl auch recht klein sein.

Anne99 schrieb:
So ein 33B Modell lädt man auf ne 3090 und die spuckt dir dann 10 Token/s aus

Das ist wieder technisch richtig, aber (kommerziell) praktisch unnütz. Eher zu teuer im echten Betrieb, und vom Hersteller in vielen Fällen nicht gestattet.
Die wollen Consumer HW eben für Consumer, und alle anderen sollen richtig bezahlen. Dafür ist dann oft (aber nicht immer) der Stromverbrauch pro Inference niedriger, es lohnt sich dann also auch für diese Käufer.

Anne99 schrieb:
Gib der Open-Source-Community noch ein paar Monate Zeit, dann schmilzt auch der Vorsprung von GPT 4 hin.

Wie gesagt, OS hat tolle Resultate erzielt.
Es ist aber auch niemand wirklich überrascht, dass es einfacher ist, die Performance eines existierenden Modells anzuvisieren, als das führende Modell zu bauen.