KI-basierte Beschleunigung und Optimierung von Q&A- und Verhandlungsprozessen
M&A Prozesse sind anspruchsvoll und häufig zeitkritisch. So sind insbesondere die Vorvertragsverhandlungen (LOI), die Due Diligences (Financial, Legal, Tax, Commercial, Carve-out etc.) sowie die SPA/APA-Verhandlungen geprägt von intensiven Abstimmungsrunden zwischen Verkäufer- und potenzieller Käuferseite sowie dem intensiven Austausch von Informationen. Vor
1. Einleitung
M&A Prozesse sind anspruchsvoll und häufig zeitkritisch. So sind insbesondere die Vorvertragsverhandlungen (LOI), die Due Diligences (Financial, Legal, Tax, Commercial, Carve-out etc.) sowie die SPA/APA-Verhandlungen geprägt von intensiven Abstimmungsrunden zwischen Verkäufer- und potenzieller Käuferseite sowie dem intensiven Austausch von Informationen. Vor dem Hintergrund der zunehmenden Nutzung von generativer Künstlicher Intelligenz (KI) sollten diese zeitintensiven Prozesse überdacht und geprüft werden, ob und gegebenenfalls wie diese mit Hilfe von KI optimiert werden können.
Gut zu wissen: Es gibt Möglichkeiten, durch KI-basierte Lösungen diese Q&A- und Verhandlungsprozesse (vor allem in der zeitlich besonders kritischen Due-Diligence-Phase) zu beschleunigen.
Stellen Sie sich einmal vor, am Ende eines stundenlangen physischen oder virtuellen (Due-Diligence- oder Verhandlungs-) Meetings liegt Ihnen eine automatisierte und detaillierte Mitschrift der besprochenen Inhalte vor – inklusive einer Zusammenfassung der Key Points. Zugleich sind auch die Action Points (ggf. nach Adressaten) bereits vollständig aufgelistet. Darüber hinaus können den Teilnehmenden auch während des Meetings (in Echtzeit) relevante gewünschte Informationen zu den bisherigen Gesprächsinhalten angezeigt werden.
Der Vorteil einer solchen generativen KI-Lösung ist enorm. Die Arbeitszeit für das Erstellen von Mitschriften und die Erarbeitung vollständiger Action Points (wie etwa besprochene Informationen, Request Lists etc.) wird erheblich reduziert, was zu einer signifikanten Beschleunigung des Abstimmungsprozesses führt. Der Nutzen geht jedoch weit über das Maß bisher üblicher Zusammenfassungen von Meetings hinaus.
2. Wie funktionieren generative KI-Lösungen bei Q&A- und Verhandlungsprozessen?
Vereinfacht erklärt, ermöglichen dies KI-basierte Speech-to-text Modelle (auch automatische Spracherkennung oder ASR – Automatic Speech Recognition genannt), die im hier beschriebenen Anwendungsfall mit einem fortschrittlichen NLP-Model (Natural Language Processing steht für computergestützte Verarbeitung und Analyse menschlicher Sprache) kombiniert werden.
Aufgrund der Abstraktionsfähigkeit von Machine-Learning-Modellen (insbesondere Large Language Models (LLMs)) lässt sich bei einem KI-begleiteten Meeting mit den gespeicherten Gesprächsinhalten interagieren und es können dabei präzise Fragen zu den Meetinginhalten gestellt werden. Einige Beispiele wären spezifische kontextbasierte Fragen oder die Frage, welche Position eine bestimmte Person bezogen hat und welche Vorschläge sie gemacht hat. Eine weitere Möglichkeit besteht darin, im Meeting genannte Vor- und Nachteile tabellarisch auflisten zu lassen etc. Auch eine automatische Zuordnung von mündlichen Antworten zu bereits bestehenden schriftlichen Q&A-Listen wäre in einem nächsten Schritt denkbar.
Sogar sogenannte Sentimentanalysen (als „Stimmungsradar“, ob die Aussagen in dem Meeting überwiegend positiv oder negativ waren) sind durch die Anwendung von Machine-Learning-Algorithmen möglich.
Neben der reinen Stimmungsanalyse können KI-Modelle auch Muster in der Gesprächsdynamik erkennen – dies betrifft etwa die Fragen, ob bestimmte Themen wiederholt auf Widerstand stoßen oder ob sich Konsens abzeichnet. Diese Informationen können in Echtzeit visualisiert werden und helfen, Verhandlungen strategisch zu steuern. Hierzu bedarf es neben der Kombination von Speech-to-text Modellen und NLP-Modellen der Implementierung sogenannter Automations, die dafür sorgen, dass in Echtzeit durch die KI vorher definierte Prompts (sogenannte Eingabeaufforderungen) ausgeführt werden.
Der wesentliche Nutzen einer solchen generativen KI-Lösung liegt darin, dass Abstimmungsprozesse (insbesondere der Austausch von Q&A) zeitlich verkürzt und aufgrund eines sehr hohen Genauigkeitsgrads eben einer solchen KI-basierten Informationsaufbereitung mögliche Abstimmungsschwierigkeiten oder Missverständnisse im Vorfeld reduziert werden. Ein Beispiel ist hier der Abbau von Sprachbarrieren im Kontext von Cross-Border-Deals. Darüber hinaus ist auch eine Verbesserung der Verhandlungsergebnisse durch den automatisierten Abbau von Informationsasymmetrien und gegebenenfalls die Einbeziehung von Handlungsempfehlungen der eingesetzten KI-Systeme denkbar.
3. KI kann Sprachbarrieren abbauen
Besonders bei Cross-Border- und Inbound-Transaktionen können durch KI-unterstützte Meetings zusätzlich auch Missverständnisse aufgrund von sprachlichen Barrieren vermindert werden. Weltweit werden Cross-Border- und auch Inbound-Unternehmenstransaktionen (teilweise aber auch rein nationale Prozesse aufgrund der Beteiligung von international agierenden Private-Equity-Investoren) überwiegend in der englischen Sprache durchgeführt. Hier erreichen aktuelle Deep-Learning-Modelle (Neuronale Netze) eine unübertroffene Erkennungsrate auch unterschiedlicher gesprochener Akzente. Dadurch überwiegen in diesem besonderen Fall die Vorteile deutlich.
In der Praxis hat sich gezeigt, dass die Spracherkennung auf Englisch heutzutage noch deutlich besser funktioniert als in anderen Sprachen wie zum Beispiel auf Deutsch. Dies liegt daran, dass aktuell gängige und führende Systeme im angelsächsischen Raum entwickelt und daher verstärkt auf englischem Sprachmaterial trainiert wurden. Ein von OpenAI entwickeltes Sprachmodell namens Whisper beherrscht jedoch schon heute das Transkribieren von 99 Sprachen, was beeindruckend ist. Klar ist: Durch die Nutzung derartiger automatisierter KI-Systeme können insbesondere bei internationalen Transaktionsprozessen signifikante Effizienzsteigerungen und ein Abbau von Sprachbarrieren im Cross-Border-Kontext erreicht werden.
4. Datenschutz beachten
Der Einsatz einer solchen generativen KI-Lösung bedarf möglicherweise jedoch auch einer juristischen Prüfung (zum Beispiel Zustimmung aller am Meeting beteiligten Personen) und könnte auch durch Bedenken der Teilnehmenden bezüglich des Datenschutzes und Sicherheit verhindert werden.
Bei Anwendung und Nutzung solcher KI-basierten Systeme innerhalb Deutschlands und der EU sind insbesondere die DSGVO und seit August 2024 der EU AI Act einzuhalten. Der EU AI Act teilt KI-Systeme in vier Risikoklassen (wie verbotene Systeme, z.B. manipulative KI; hochriskante Systeme, z.B. biometrische Identifikation, kritische Infrastrukturen; begrenzt riskante Systeme, z.B. Chatbots mit Transparenzpflicht; minimal riskante Systeme (z.B. Spamfilter) ein. Für KI-Systeme, die in Verhandlungen eingesetzt werden – etwa zur Stimmungs- oder Konsensanalyse – ist in der Regel von einem begrenzten oder hochriskanten Einsatz auszugehen, insbesondere wenn sie Einfluss auf Entscheidungen oder Bewertungen von Personen haben. Neben Dokumentations- und Transparenzpflichten (Nutzer müssen darüber informiert werden, dass sie mit einem KI-System interagieren – z. B. durch Hinweise in der Meeting-Software) müssen hochriskante Systeme durch Menschen überwacht und kontrolliert werden. Entscheidungen dürfen nicht vollständig automatisiert erfolgen, wenn sie rechtliche oder ähnlich erhebliche Auswirkungen haben. Bei Nichteinhaltung dieser KI-Bestimmungen drohen dem anwendenden Unternehmen erhebliche Strafen. Eine vollständige juristische Einordnung soll an dieser Stelle nicht erfolgen.
Ferner spielt es rechtlich auch eine Rolle, wo diese KI-Systeme gehostet und die Daten verarbeitet und gespeichert werden. Wenn in einem Drittland außerhalb der EU zum Beispiel kein angemessenes Datenschutzniveau besteht, kann nicht davon ausgegangen werden, dass die einschlägigen Rechtsnormen (DSGVO/EU AI Act) eingehalten werden.
In der Praxis werden sich Datenschutzbedenken jedoch im Sinne der Teilnehmenden gestalten lassen, indem man zum Beispiel die Datenerhebung des KI-Modells zu besonders sensiblen Gesprächsinhalten unterbricht beziehungsweise beendet. Alternativ könnte die KI-Lösung auch erst zum Ende eines Meetings starten, indem dann alle Parteien abschließend nochmals verbal die wichtigsten Punkte und Action Points benennen und die generative KI nur hieraus einen entsprechenden Mehrwert leisten kann.
Aufgrund der gewonnenen Effizienzsteigerung durch eine Reduzierung von Rückfragen und eine dadurch gewonnene zusätzliche Entlastung der in den M&A-Prozess involvierten Mitarbeiter – insbesondere des Managements beim Transaktionsobjekt selbst – zeigt sich in der Praxis eine hohe Bereitschaft, der KI-Unterstützung durch automatisiertes Transkribieren der Gesprächsinhalte zuzustimmen.
5. Praktischer Nutzen und Anwendungsmöglichkeiten
Im Ergebnis kann ein solches System aber auch nur die Effizienz des Meetings steigern, indem es den Teilnehmenden eine zusätzliche Hilfestellung bietet. Die Vollständigkeit und Richtigkeit der KI-generierten Inhalte und Ergebnisse muss immer noch vom jeweiligen Anwender selbst geprüft werden. Darüber hinaus weisen NLP-Modelle heutzutage auch noch Schwächen auf, etwa wenn es darum geht, sprachliche Besonderheiten wie Ironie oder Sarkasmus zu interpretieren. Auch können ihnen – genauso wie menschlichen Wesen – Fehler unterlaufen. Aufgrund des hohen Automatisierungsgrades ist jedoch anzunehmen, dass ein solches KI-System mit einer manuell verfassten Besprechungsnotiz in zahlreichen Aspekten vergleichbar, dieser aber im Hinblick auf Schnelligkeit und der beschriebenen Funktionalität (Interaktion mit den Gesprächsinhalten durch gezielte Fragestellungen an das KI-System, automatisierte Zuordnung von Antworten zu bestehenden Fragelisten sowie Sentiment und Konsensanalyse) deutlich überlegen ist.
In der Praxis hat sich gezeigt, dass die Qualität zum Beispiel von automatisierten Meeting-Zusammenfassungen stark von den eingesetzten KI-Systemen abhängt. Im ersten Schritt wird eine möglichst genaue Transkription der Inhalte des Meetings benötigt. Diese entspricht einer wörtlichen Mitschrift aller Gesprächsinhalte, und idealerweise wird dabei auch das gesprochene Wort den einzelnen Gesprächsteilnehmern richtig und vollständig zugeordnet.
Das Ergebnis dieses ersten Schrittes hängt somit stark von dem eingesetzten Spracherkennungsmodell und auch – wie vorstehend beschrieben – aktuell noch von der gesprochenen Sprache des Meetings ab. Je besser die erzielte Genauigkeit der transkribierten Gesprächsinhalte ist, umso besser können im nächsten Schritt die Ergebnisse der Verarbeitung eben dieser Transkriptionstexte sein.
Bei der KI-gestützten Verarbeitung der transkribierten Inhalte spielt neben der Wahl des NLP/LLM-Models auch das richtige Prompten (vereinfacht: Formulierung von Fragen und Handlungsaufforderungen für die KI) eine wichtige Rolle. Je spezifischer der Prompt beziehungsweise die Frage, umso höher ist die Wahrscheinlichkeit einer hohen Qualität der KI-Antwort.
Die KI-generierten Zusammenfassungen und Antworten zu den Gesprächsinhalten lassen sich auch manuell aus der vorliegenden Mitschrift des Meetings überprüfen, indem man zum Beispiel durch Nutzung der Suchfunktion die relevanten Gesprächsabschnitte findet und entsprechend auf Richtigkeit überprüft.
6. KI-Anwendung bei virtuellen und physischen Meetings möglich
Ferner ist die Anwendung dieser KI-basierten Möglichkeiten auch nicht nur auf virtuelle Meetings beschränkt. Bei physischen Meetings bestehen in Abhängigkeit davon, ob ein Online-Zugang besteht und welche Hardware eingesetzt wird, folgende Optionen siehe Abb.1.
Abb. 1 Transkriptionsmöglichkeiten bei physischen Meetings
Quelle: Grant Thornton Analyse
Auch ohne Online-Zugang können in Präsenzmeetings durch sogenanntes Edge-Computing beziehungsweise Edge-KI zum Beispiel automatisierte Meetingmitschriften genutzt werden. In diesem Fall werden KI-Algorithmen und -Modelle auf lokalen Geräten (Edge-Computing Device) ausgeführt, um idealerweise in Echtzeit den KI-generierten Content nahe an der Datenquelle (in diesem Fall als KI-Assistent eines physischen Geschäftsmeetings) zu ermöglichen. Darüber hinaus bietet Edge-Computing/Edge-KI sogar den Vorteil eines höheren Datenschutzes und einer höheren Datensicherheit, da die relevanten Daten nur lokal erhoben und verarbeitet und gegebenenfalls – soweit gewünscht – nicht in eine Cloud übertragen werden.
Technisch ist es heutzutage bereits möglich, mit fortschrittlichen Smartphones Gespräche lokal und in Echtzeit in ausgewählte Sprachen zu transkribieren. Zum Beispiel bietet Apple auf dem iPhone (ab iPhone 15 Pro mit A17 Pro Prozessor oder höher) und iPad (mit M1-Chip oder höher) ab iOS 18.4 und iPadOS 18.4 eine lokal auf dem Gerät laufende Transkriptionsfunktion an – unterstützt durch die leistungsstarken Prozessoren mit Neural Engine und die aktivierte Apple Intelligence. Diese Funktion steht zunächst für eine begrenzte Anzahl an Sprachen zur Verfügung, darunter Englisch (USA), Deutsch, Französisch, Spanisch, Italienisch.
Die Anwendung eines solchen KI-basierten Ansatzes, ob bei virtuellen oder physischen Meetings, ist auf jede Form von geschäftlichen Konferenzen übertragbar, der Nutzen jedoch umso höher, je zeitkritischer die Umsetzung der zugrunde liegenden Geschäftsanliegen sowie der Umfang und der Detailgrad der ausgetauschten Informationen sind (wie im konkreten Anwendungsbeispiel bei M&A-Transaktionsprozessen).
7. Zusammenfassung der Ergebnisse und Ausblick
Schon heute kann generative KI M&A-Prozesse – insbesondere Q&A-Prozesse in der Due-Diligence-Phase und Vertragsverhandlungen – erheblich beschleunigen, indem sie automatisiert Gesprächsinhalte transkribiert, zusammenfasst und Action Points generiert. Die Kombination aus Speech-to-Text und NLP/Machine Learning Modellen ermöglicht präzise Analysen wie beispielsweise Sentimentanalysen und kontextbasierte Rückfragen zu Meetinginhalten. Besonders bei internationalen Transaktionen kann KI bestehende Sprachbarrieren reduzieren. Der Einsatz solcher Systeme innerhalb der EU erfordert die Einhaltung der DSGVO und des EU AI Acts. Solche KI-Systeme können sowohl in virtuellen als auch physischen Meetings eingesetzt werden – etwa durch Edge-KI auf mobilen Geräten. Trotz hoher Automatisierung bleibt die Verantwortung für die Prüfung der KI-Ergebnisse jedoch beim Menschen.
Durch multimodale Modelle könnte KI zukünftig in der Lage sein, nicht nur Sprache, sondern auch Mimik, Gestik und visuelle Inhalte (z.B. Präsentationen) in Echtzeit zu erfassen und zu interpretieren. Durch eine verbesserte Kontextualisierung könnte die Genauigkeit der Transkription des Meetings beziehungsweise der gewünschten Mitschriften erheblich gesteigert werden. Darüber hinaus lernen KI-Systeme mit der Zeit, welche Fragen und Prompts in bestimmten Verhandlungssituationen besonders hilfreich sind – und können diese proaktiv vorschlagen. Auch Fortschritte im Bereich Natural Language Understanding (NLU) wären denkbar, sodass langfristig möglicherweise auch Ironie, Zurückhaltung oder strategische Andeutungen in Verhandlungen besser erkannt werden können.
In Zukunft werden KI-Systeme möglicherweise nicht nur passiv „mitschreiben“, sondern könnten sogar aktiv in Meetings eingebunden sein. Hierbei wären das Einbringen von Fakten, das Erkennen von Widersprüchen oder das Vorschlagen von Kompromisslinien in Echtzeit denkbar.
Grundsätzlich bietet der heutige Stand der Technik bereits nutzbare KI-Systeme, die die Effizienz von Q&A-Prozessen und Verhandlungsmeetings, wie vorstehend beschrieben, steigern können. Es ist zu erwarten, dass in den kommenden Jahren die ASR-Modelle hinsichtlich Erkennungsraten des gesprochenen Wortes und die Fehleranfälligkeit (zum Beispiel Halluzination etc.) von LLM-Modellen weiter verbessert werden und damit der praktische Nutzen (durch geringere manuelle Review- und Verbesserungsschritte) weiter steigen wird.