たまたまYouTubeのおすすめに出てきた動画を見て知ったのですが、AI音声生成の分野もなかなかすごいことになってきているようです。
以前、NotebookLMの音声概要がすごいということは記事にしましたが、それからおよそ半年経ってこのNotebookLMも進化して、動画解説という機能まで登場しています。これはスライドを使用した解説を動画として生成してくれるというもので、これもなかなか大したものですが、音声概要のほうはほとんど変わっておらず、漢字の読みが苦手なのは相変わらずのようです。
今回知ったのはElevenLabsというAI音声処理を得意とするサービスで、読み上げの他、ボイスチェンジャー、効果音生成、音楽生成、吹き替え、文字起こしなどを行うことができるようです。無料でも一部サービスは利用できるので、私は読み上げを試してみました。
読み上げは3000文字まで受け付けることができるようなので、試してみたのは私のブログ記事です。音声は男性・女性それぞれたくさん取り揃えられていて、声質や発声、イントネーションなどにそれぞれ特徴があるようです。モデルは現在、読み上げに適したマルチリンガルv2、会話向けのフラッシュv2.5と、アルファ版のv3とがあり、さらにスピード、安定性、類似性(similarity)を調整して生成ボタンを押してしばらくすると、音声が生成されます。
最初に試したのはv2ですが、読み上げのペースが音読や朗読のようで聞きやすく、固有名詞や漢字の読みもNotebookLMよりちょっといいかなという程度でした。実用上は十分というケースが多いのではないでしょうか。その後v3も試してみたところ、こちらでは固有名詞も漢字の読みも完璧で、アルファ版と言いながらも全く問題ない出来ではないかと感じました。NotebookLMの掛け合い形式のポッドキャスト生成は面白いと思うのですが、なにしろ漢字に弱いのが辟易するところで、それをクリアしてしまっているというのは非常に大きいと思います。
ということで、最後にこの記事を読み上げてもらったものを貼っておこうと思います。実際に聞いてみて皆さんはどのように感じるでしょうか。ここまで来たらもうアナウンサーという職業もAIで置き換えられてしまうのではないか、というのも言い過ぎとは言えないのではないでしょうか。

