Why humanity is needed to propel conversational AI
(会話型AIを推進するために人類が必要な理由)
要約(英語):
conversational AI is a subset of artificial intelligence that allows consumers to interact with computer applications as if they were interacting with another human. The global conversational AI market is set to grow by 22% between 2022 and 2025 and is estimated to reach $14 billion by 2025. However, the data used to train conversational AI models does not adequately account for subtleties of dialect, language, speech patterns and inflection. MetaBeat 2022 will bring together thought leaders to give guidance on how metaverse technology will transform the way all industries.
要約(日本語):
会話AIは、消費者が別の人間とやり取りしているかのようにコンピューターアプリケーションと対話できるようにする人工知能のサブセットです。グローバルな会話型AI市場は、2022年から2025年の間に22%増加するように設定されており、2025年までに140億ドルに達すると推定されています。しかし、会話型AIモデルのトレーニングに使用されるデータは、方言、言語、言語、音声パターン、およびスピーチパターンの微妙さを十分に説明していません。変曲。Metabeat 2022は、Metaverse Technologyがすべての業界の方法をどのように変えるかについてガイダンスを提供するために、Sound Leadersを集めます。
本文
Conversational AI is a subset of artificial intelligence (AI) that allows consumers to interact with computer applications as if they were interacting with another human. According to Deloitte, the global conversational AI market is set to grow by 22% between 2022 and 2025 and is estimated to reach $14 billion by 2025.
会話AIは、消費者が別の人間とやり取りしているかのようにコンピューターアプリケーションと対話できるようにする人工知能(AI)のサブセットです。デロイトによると、世界の会話型AI市場は2022年から2025年の間に22%増加する予定であり、2025年までに140億ドルに達すると推定されています。
Providing enhanced language customizations to cater to a highly diverse and vast group of hyper-local audiences, many practical applications of this include financial services, hospital wards and conferences, and can take the form of a translation app or a chatbot. According to Gartner, 70% of white-collar workers purportedly regularly interact with conversational platforms, but this is just a drop in the ocean of what can unfold this decade.
非常に多様で膨大な局所的な視聴者のグループに応えるための強化された言語のカスタマイズを提供することで、これの多くの実用的なアプリケーションには、金融サービス、病棟、会議が含まれ、翻訳アプリまたはチャットボットの形をとることができます。Gartnerによると、ホワイトカラーの労働者の70%は、会話のプラットフォームと定期的に対話すると言われていますが、これはこの10年を展開できるものの海の減少に過ぎません。
Despite the exciting potential within the AI space, there is one significant hurdle; the data used to train conversational AI models does not adequately account for the subtleties of dialect, language, speech patterns and inflection.
AIスペース内のエキサイティングな可能性にもかかわらず、1つの重要なハードルがあります。会話型AIモデルのトレーニングに使用されるデータは、方言、言語、音声パターン、変曲の微妙さを適切に説明していません。
When using a translation app, for example, an individual will speak in their source language, and the AI will compute this source language and convert it into the target language. When the source speaker deviates from a standardized learned accent — for example, if they speak in a regional accent or use regional slang — the efficacy rate of live translation dips. Not only does this provide a subpar experience, but it also inhibits users’ ability to interact in real-time, either with friends and family or in a business setting.
たとえば、翻訳アプリを使用する場合、個人はソース言語で話します。AIはこのソース言語を計算し、ターゲット言語に変換します。ソーススピーカーが標準化された学習アクセントから逸脱している場合 – たとえば、地域のアクセントで話したり、地域のスラングを使用したりした場合、ライブ翻訳ディップの有効率。これは、サブエクスペリエンスを提供するだけでなく、友人や家族やビジネス環境のいずれかとリアルタイムでやり取りするユーザーの能力を阻害します。
In order to avoid a drop in efficacy rates, AI must make use of a diverse dataset. For instance, this could include having an accurate depiction of speakers across the U.K. — both on a regional and national level — in order to provide a better active translation and speed up the interaction between speakers of different languages and dialects.
有効性の低下を回避するために、AIは多様なデータセットを使用する必要があります。たとえば、これには、地域レベルと国家レベルの両方で、英国全体のスピーカーの正確な描写を含めることが含まれます。
The idea of using training data in ML programs is a simple concept, but it is also foundational to the way that these technologies work. Training data works in a singular structure of reinforcement learning and is used to help a program understand how to apply technologies like neural networks to learn and produce sophisticated results. The wider the pool of people interacting with this technology on the back-end, for example, speakers with speech impediments or stutters, the better the resulting translation experience will be.
MLプログラムでトレーニングデータを使用するというアイデアは単純な概念ですが、これらのテクノロジーが機能する方法の基礎でもあります。トレーニングデータは、強化学習の特異な構造で機能し、プログラムがニューラルネットワークのようなテクノロジーを適用して洗練された結果を学習して生成する方法を理解するのを支援するために使用されます。バックエンドでこのテクノロジーとやり取りする人々のプールが、たとえば、音声障害やスタッターを持つスピーカーなど、結果として生じる翻訳体験が良くなります。
Specifically within the translation space, focusing on how a user speaks rather than what they speak about is the key to augmenting the end-user experience. The darker side of reinforcement learning was illustrated in recent news with Meta, who recently came under fire for having a chatbot that spewed insensitive comments — which it learned from public interaction. Training data should therefore always have a human-in-the-loop (HITL), in which a human can ensure the overarching algorithm is accurate and fit for purpose.
具体的には、翻訳スペース内で、ユーザーが話すことではなく、ユーザーがどのように話すかに焦点を当てることが、エンドユーザーエクスペリエンスを増やすための鍵です。補強学習の暗い側面は、最近のニュースで説明されました。メタは、最近、鈍感なコメントを吐き出したチャットボットを持っているために発砲しました。したがって、トレーニングデータには常に人間のループ(HITL)が必要である必要があります。この場合、人間は包括的なアルゴリズムが正確で目的に合うようにすることができます。
Of course, human interaction is incredibly nuanced and building bot conversational design that can navigate its complexity is a perennial challenge. However, once achieved, well-structured, fully realized conversational design can lighten the load on customer service teams, translation apps and improve customer experiences. Beyond regional dialects and slang, training data needs to also account for active conversation between two or more speakers interacting with each other. The bot must learn from their speech patterns, the time taken to actualize an interjection, the pause between speakers and then the response.
もちろん、人間の相互作用は非常に微妙であり、その複雑さをナビゲートできるボットの会話デザインを構築することは、永続的な挑戦です。ただし、達成されると、十分に構造化された完全に実現された会話設計が、カスタマーサービスチーム、翻訳アプリの負荷を軽減し、カスタマーエクスペリエンスを向上させることができます。地域の方言やスラングを超えて、トレーニングデータはまた、互いに対話する2人以上のスピーカー間の積極的な会話を説明する必要があります。ボットは、音声パターン、間隔を実現するのにかかった時間、スピーカー間の一時停止、そして応答から学習する必要があります。
Prioritizing balance is also a great way to ensure that conversations remain an active experience for the user, and one way to do so is via eliminating dead-end responses. Think of this akin to being in an improv setting, in which “yes, and” sentences are foundational. In other words, you’re supposed to accept your partner’s world-building while bringing a new element to the table. The most effective bots operate similarly by phrasing responses openly that encourage additional inquiries. Offering options and additional, relevant choices can help ensure all end users’ needs are met.
バランスの優先順位付けは、会話がユーザーにとって積極的なエクスペリエンスであり続けることを保証する素晴らしい方法であり、そのための1つの方法は、行き止まりの応答を排除することです。「はい、」文が基礎となる即興設定にあることに似ていると考えてください。つまり、テーブルに新しい要素をもたらしながら、パートナーの世界構築を受け入れることになっています。最も効果的なボットは、追加の問い合わせを促進する応答を公然とフレージングすることで同様に動作します。オプションと追加の関連する選択肢を提供すると、すべてのエンドユーザーのニーズが満たされるようになります。
Numerous people have trouble remembering long strings of thought or take a bit longer to process their thoughts. Because of this, translation apps would do well to allow users enough time to compute their thoughts before taking a pause at the end of an interjection. Training a bot to learn filler words — including so, erm, well, um, or like, in English for example — and getting them to associate a longer lead time with these words is a good way of allowing users to engage in a more realistic real-time conversation. Offering targeted “barge-in” programming (chances for users to interrupt the bot) is also another way of more accurately simulating the active nature of conversation.
多くの人々が、長い思考の弦を思い出すのに苦労したり、自分の考えを処理するのに少し時間がかかります。このため、翻訳アプリは、ユーザーが間違いの終わりに一時停止する前に、自分の考えを計算するのに十分な時間を確保するのに適しています。フィラーの単語を学ぶためにボットをトレーニングする – そう、まあ、ええと、ええと、たとえば英語のようなものを含む – 。リアルタイムの会話。ターゲットを絞った「バージイン」プログラミング(ユーザーがボットを中断する可能性)を提供することは、会話のアクティブな性質をより正確にシミュレートするもう1つの方法です。
Conversational AI still has some way to go before all users feel accurately represented. Accounting for subtleties of dialect, the time taken for speakers to think, as well as the active nature of a conversation will be pivotal to propelling this technology forward. Specifically within the realm of translation apps, accounting for pauses and words associated with thinking will ameliorate the experience for everyone involved and simulate a more natural, active conversation.
会話型AIには、すべてのユーザーが正確に表現されると感じる前に、まだ何らかの方法があります。方言の微妙さを考慮して、スピーカーが考えるのに時間がかかる時間、会話の積極的な性質は、この技術を前進させることに極めて重要です。具体的には、翻訳アプリの領域内で、思考に関連する一時停止と単語を説明することで、関係者全員の経験を改善し、より自然で積極的な会話をシミュレートします。
Getting the data to draw from a wider data set in the back-end process, for example learning from both English RP and Geordie inflections, will avoid the efficacy of a translation dropping owing to processing issues due to accent. These innovations provide exciting potential, and it is time translation apps and bots account for linguistic subtleties and speech patterns.
バックエンドプロセスでより幅広いデータセットからデータを描画すること、たとえば英語のRPとGeordieの変曲の両方から学習することで、アクセントによる処理のために翻訳がドロップする有効性が回避されます。これらの革新はエキサイティングな可能性を提供し、それは時間翻訳アプリとボットが言語の微妙さと音声パターンを説明することです。
元記事
https://venturebeat.com/ai/why-humanity-is-needed-to-propel-conversational-ai/