音声認識を学ぶおすすめの本5選

AI（人工知能）がこれだけ社会に浸透し、日々の経済ニュースでも頻繁に取り上げられるようになると、これまでAIと無関係だったビジネスパーソンも基礎知識を獲得したいと考えているのではないだろうか。

そこでAIについてあまり詳しくない人が、音声認識について本で学ぶときに参考にできる5冊を紹介する。

音声認識はAIのメーンテーマではないと考えられがちだが、インターフェースとしてはともて重要な技術であり、AIを搭載したデバイスでも多く用いられている。

さらに音声認識は、今後ますます発展が期待される機械翻訳技術とも深い関係にある。これらの本を通じて初歩的な音声認識に関する知識を身につけておいてはいかがだろうか。

【1冊目】音声認識（機械学習プロフェッショナルシリーズ）

●書名：音声認識（機械学習プロフェッショナルシリーズ）
●著者：篠田浩一
●出版社：講談社
●価格：2,800円（税別）

本書が想定する読者は、音声についても、音声を処理する技術についても知識がまったくない人である。そのため第1章のタイトルは「音声とは」となっている。AIに関する知識から入るのではなく、音声についての「そもそも論」から学べるのが嬉しい。

AIを理解する上で必要な基礎的な数学についても触れている。ただ数字が苦手な人は、数学に関する部分は飛ばして読んでも問題ない。アルゴリズムに関する説明は、ビジネスシーンに有効な実用性を重視した内容になっている。

章タイトルは次のとおり。

第1章音声とは
第2章音声分析
第3章音声認識とは
第4章隠れマルコフモデル
第5章言語モデル
第6章大語彙連続音声認識
第7章耐雑音音声認識
第8章話者適応と話者認識
第9章深層学習

初学者向けとはいえ基礎的な話ばかりではビジネスパーソンにはつらい。その点、本書は深層学習における音声認識の位置づけについて詳しく解説している。

例えば、本書の読者が最も興味を持つであろう「第9章深層学習」の節立ては次のようになっている。

第9章　深層学習

9.1　ニューラルネットワーク
9.2　誤差逆伝播法
9.3　ニューラルネットワークによる音声認識
9.4　音声認識のための深層学習
9.5　音声認識の要素技術における深層学習
9.6　End-to-End学習
9.7　今後の展望

ニューラルネットワークや誤差逆伝播法といった、音声認識以外のAI知識を獲得できるようになっている。あえて深掘りしていないのもいいかもしれない。

著者の篠田浩一氏は、東京工業大学情報理工学院情報工学系教授。研究分野は音声認識のほか、統計的パターン処理やヒューマン・コンピュータインタラクションである。

【2冊目】イラストで学ぶ　音声認識

●書名：イラストで学ぶ　音声認識
●著者：荒木雅弘
●出版社：講談社
●価格：2,600円（税別）

タイトルとおりイラストを多用しているため、とっつきやすい。音声認識の歴史を文字で追うと退屈だが、本書はそれをイラストで補っているため頭に入りやすい。音声認識は、何度かのブレークスルーを経て現代の形になっているので、歴史は押さえておきたいところだ。しかしAI関連の業務に携わって1年以上経過している人が読むと既知の知識ばかりかもしれない。

ただ、本書のハイライトでもあるWFST（重みつき有限状態トランスデューサ）の解説は読みごたえがある。近年新たに登場した概念なので、この部分だけは予備知識がないと少しつらいかもしれない。

本書の章立ては以下のとおり。

第1章　はじめに
第2章　音声とは
第3章　統計的パターン認識
第4章　有限状態オートマトン
第5章　音声からの特徴抽出
第6章　音声の認識：基本的な音響モデル
第7章　音声の認識：高度な音響モデル
第8章　音声の認識：言語モデル
第9章　音声の認識：探索アルゴリズム
第10章　音声の認識：WFSTの演算
第11章　音声の認識：WFSTによる音声認識
第12章　意味・意図の解析
第13章　音声対話システムの実現に向けて
第14章　おわりに

著者の荒木雅弘氏は京都工芸繊維大学大学院工芸科学研究科准教授である。

荒木氏の研究テーマは、雑談対話システムやシステムとの対話における興味判定、機械学習チュータリングシステムなど。本書のほか「フリーソフトではじめる機械学習入門」や「音声対話システム」といった著書もある。

【3冊目】リアルタイム音声認識

●書名：リアルタイム音声認識
●著者：安藤彰男
●出版社：電子情報通信学会
●価格：3,600円（税別）

本書のタイトルでもある「リアルタイム音声認識」は、同時通訳システムの開発に欠かせない技術である。同時通訳システムは2020年の東京オリンピック・パラリンピックのときに日本にやってくる外国人観光客に最高の「おもてなし」になるだろう。そのため関連企業が開発を急いでいる技術である。

サービス業においても、同時通訳システムが大きなビジネスチャンスを生むことは確実である。つまりオリンピック関連企業の関係者も、このリアルタイム音声認識に関する知識を有していてもよいといえる。

本書の章立ては以下のとおり。

第１章　音声認識入門
第２章　音響分析
第３章　音響モデル概要
第４章　音響モデルの学習と適応化
第５章　言語モデル
第６章　サーチ
第７章　リアルタイムシステム
第８章　今後の課題

著者の安藤彰男氏は、九州芸術工科大学音響設計を卒業した「音の専門家」だ。NHKに入局し、放送技術の研究に従事、そこで音声認識に出会った。音声認識を使ったリアルタイム字幕の開発にも携わった。電子情報通信学会論文賞、日本音響学会技術開発賞などを受賞している。

【4冊目】人と対話するコンピュータを創っています音声認識の最前線

●書名：人と対話するコンピュータを創っています音声認識の最前線
●著者：古井貞熙
●出版社：角川学芸出版
●価格：1,800円（税別）

音声認識の概略をつかむのに適している本である。

タイトルの軟らかさから推測できるように、不要な専門用語を使わない「親切さ」が好感。数式もほとんど出てこないので「安心」できる読者も多いだろう。

人の声を聞きそれを文字にするまでにどれほどの課題があるのかがわかる。またところどころエッセー調の文体の読み物があり、読むストレスを軽減してくれる。

ただ突然、難解になる部分が出てくる。しかし初心者は、そのような難解な部分を読み飛ばしても、本書から得られる有益情報は多いだろう。

著者の古井貞熙氏は、音声認識技術の世界的な権威。東京大学工学部計数工学科を卒業したのち、NTTの前身、日本電電公社に入社。その後渡米し、ベル研究所の研究員を務めた。1994年に東京工業大学の客員教授に就任し、そのご教授に。東京工業大学名誉教授。文化功労者顕彰を受章している。

【5冊目】自然言語処理の基本と技術（仕組みが見えるゼロからわかる）

●書名：自然言語処理の基本と技術（仕組みが見えるゼロからわかる）
●著者：奥野陽、グラム・ニュービッグら
●出版社：翔泳社
●価格：2,400円（税別）

「ゼロからわかる」とあるとおり、初心者にフレンドリーな内容と文体。

自然言語処理とは、普段の日常会話をコンピュータに理解させるための技術である。音声認識を搭載したデバイスが誰でも使えるようになるためには、この技術が欠かせない。

本書では、現代の自然言語処理が「どこまで到達」していて、次のステップに進むには「どの課題」をクリアする必要があるのかがわかる。

入門書らしく、巻末には推薦図書が記されている。本書からスタートして、音声認識の世界に突き進んでみてはいかがだろうか。

まとめ～腰を据えて勉強しよう

ネット上のサイトでも音声認識に関する情報は得られるが、詳しすぎたり簡単すぎたりする印象を持っていないだろうか。

ここに紹介した本のうち1冊でいいので、通勤時間中に1週間ぐらいかけてじっくり音声認識に向き合えば、経済ニュースの理解度が格段に高まるだろう。

<参考>

音声認識（機械学習プロフェッショナルシリーズ）（講談社）
https://www.kspub.co.jp/book/detail/1529274.html
イラストで学ぶ　音声認識（講談社）
http://bookclub.kodansha.co.jp/product?isbn=9784061538245
リアルタイム音声認識（電子情報通信学会、紀伊国屋書店）
https://www.kinokuniya.co.jp/f/dsg-01-9784885521959
人と対話するコンピュータを創っています音声認識の最前線（角川学芸出版）https://www.kadokawa.co.jp/product/200810000055/
自然言語処理の基本と技術（仕組みが見えるゼロからわかる）（翔泳社）
http://www.shoeisha.co.jp/book/detail/9784798128528

役にたったらいいね！
してください

NISSEN DIGITAL HUB編集部

NISSENデジタルハブは、法人向けにA.Iの活用事例やデータ分析活用事例などの情報を提供しております。

【1冊目】音声認識（機械学習プロフェッショナルシリーズ）

【2冊目】イラストで学ぶ 音声認識

【3冊目】リアルタイム音声認識

【4冊目】人と対話するコンピュータを創っています 音声認識の最前線

【5冊目】自然言語処理の基本と技術（仕組みが見えるゼロからわかる）

まとめ～腰を据えて勉強しよう

カテゴリー

注目記事

【2冊目】イラストで学ぶ　音声認識

【4冊目】人と対話するコンピュータを創っています音声認識の最前線