音程を変えて音声を測定 - 日本語音声の分析4　(ノートパソコンで手軽に音響測定入門)

| Japanese | English |

音程を変えて音声を測定
(日本語音声の分析4)

ドレミファソラシドと音程の違う「あ」の音声を測定します。

　

計測日時 2002年9月30日 10:00

計測場所愛知県名古屋市

マイク SONY ECM-MS957

マイクアンプ SONY DAT WALKMAN TCD-D100

パソコン DELL INSPIRON 7500

OS Windows 2000 Professional

測定分析ソフト DSSF3

WAVE sound file: voice4.wav (44.1kHz / Stereo / 12.67sec / 2.13MB)

「あ」をドレミファの音程で測定しました。ここでは、リアルタイムの測定は後で正確にやり直すつもりで、積分時間0.2秒、ランニングステップ0.5秒で行なっています。

「あ」のパワースペクトラム　2回目の「あ」です。

グラフをみると、ピーク周波数は　210Hz、420Hz、640Hz、840Hz、1050Hz、1260Hz、1470Hなど、後高域に3150Hzなどの盛り上がりがあります。非常にすっきりしたパワースペクトラムなので読みやすいです。高域は全体的に1オクターブ 6dB の減衰の音声のスペクトラムになっています。基本周波数は210Hzで、フォルマント(F1)は840Hzです。

4回目です。

グラフをみると、ピーク周波数は　250Hz、500Hz、750Hz、1000Hz、1250Hz、1500Hz、1750、3250Hz、5000Hzなどです。これも非常にすっきりしています。音程を上げた場合は、基本周波数は250Hz　で、フォルマント(F1)は750Hzです。両方とも上がります。

6回目です。

グラフをみると、ピーク周波数は　330Hz、660Hz、990Hz、1320Hz、1650Hz、3000Hz、4300Hz、7200Hzなどです。これも非常にすっきりしています。音程を上げた場合は、基本周波数は330Hz　で、フォルマント(F1)は660Hzです。さらに上がります。

8回目です。

グラフをみると、ピーク周波数は　370Hz、740Hz、1100Hz、1500Hz、1900Hz、3000Hz、3400Hなどです。これも非常にすっきりしています。音程を上げた場合は、基本周波数は370Hzで、フォルマント(F1)は740Hzです。さらに上がります。

それではランニングACF分析を行なってみます。実験開始後0.33秒に発声し、その5/1000秒(5msec)ごとのACF分析を順に見ていきましょう。

ランニングACF分析　積分時間10msecで、ランニングステップ5msec刻みに設定して計算してみました。

5回の発声です。ドレミ...と、音程を上げていっています。ただ、音圧レベルの時間的変化のグラフは「あ」の特徴を表しています。

それぞれ具体的に発声後すぐの数10 msecのデータを比較してみます。

発声5-15msec後　(実験開始後　0.595-0.605秒)
1回目の発声です。

τe　4.69msec　発声からピークパワーまでの上昇過程でのτeは大雑把には減少していきます。「あ」の発声の仕方とτeの関係があるようです。自己相関の波形を眺めると、0.73、1、1.3msecにそれぞれピークがあります。基本周波数はつかんでいません。

前回明らかになったように、自己相関の最初の山より前に小さな山があるときには小さな山のピークから谷のマイナスのピークと、次の大きな山のピークの3つがF3～F1に対応していました。これは低い周波数帯域の音声がまだ解析できていないときによく発生します。このような場合はそれより低い基本周波数もまだ把握していません。

0.73msec　フォルマント周波数　1000/0.73=1369Hz　第3フォルマント(F3)
1msec 次のマイナスのピーク　1000/1=1000Hz 第2フォルマント(F2)
1.3msec　フォルマント周波数　1000/1.3=769Hz　第1フォルマント(F1)

前回、1の実験の「あ」だけを音程をかえて測定したときの1回目の発声後15msecのデータは次のとおりです。

0.8、1.35 msec　基本周波数　4.5msec 222Hz
0.8 msec　フォルマント周波数　1000/0.8=1250Hz　第3フォルマント(F3)
1 msec 次のマイナスのピーク　1000/1=1000Hz 第2フォルマント(F2)
1.35 msec　フォルマント周波数　1000/1.35=750Hz　第1フォルマント(F1)

2回目の発声　10msec後のデータ　実験2.04秒後

0.7 msec　フォルマント周波数　1000/0.7=1428 Hz　第3フォルマント(F3)
0.95 msec 次のマイナスのピーク　1000/0.95=1052Hz 第2フォルマント(F2)
1.22 msec　フォルマント周波数　1000/1.22=819 Hz　第1フォルマント(F1)

3回目の発声　 10msec 後のデータ　　実験3.565秒後

0.65 msec　フォルマント周波数　1000/0.65=1538 Hz　第3フォルマント(F3)
0.9 msec 次のマイナスのピーク　1000/0.9=1111Hz 第2フォルマント(F2)
1.2 msec　フォルマント周波数　1000/1.2=833 Hz　第1フォルマント(F1)

同　15msec 後のデータ　　実験3.57秒後

0.9 msec　フォルマント周波数　1000/0.9=1111 Hz　第3フォルマント(F3)
1.1 msec 次のマイナスのピーク　1000/1.1=909Hz 第2フォルマント(F2)
1.36 msec　フォルマント周波数　1000/1.36=735 Hz　第1フォルマント(F1)

基本周波数　232Hz

全部同じ「あ」の発声ですが、5基本周波数(声帯の振動数)やフォルマント周波数がこんなにひとつの発音の中でも変化し、ましてや音の高さを変えて発音をすれば、同じ「あ」でも周波数情報は大きく変わってしまいます。

一般的な基本周波数(声帯の振動数ですら)などもこんなに変動しているのを体験すると、音声認識などをフォルマント周波数(周波数情報)から行なおうとするのはやはり無理があるようです。

DSSF3のスクリーンコピー機能を使用してワンタッチで出力した自己相関相互相関のパラメータすべての時間変化を表しています。

ACFのグラフは最後の実験3.57秒後の表示です。一定なΦ(0)音圧レベルの時間変化と、音程により規則的に変化するτ1の表示が印象的です。この二つの図には母音「あ」の発音と音程の違いがわかりやすく表示されています。以下にはτe最小の時点でのτ1、φ1、τeの値を比較するために表にまとめておきます。

8回の発声について、上記の組み合わせでまとめてみました。

	実験開始後の時間	発声後 (ms)	t₁(ms)	f₁	t_e(ms)
1st	0.615	25	1.02	0.36	41.39
	0.62	30	1.11	0.3	16.88
	0.625	35	1.13	0.27	6.8
	0.63	40	1.09	0.24	7.32
2nd	2.035	5	1.25	0.37	15.67
	2.04	10	1.22	0.32	4.3
	2.045	15	1.2	0.26	42.67
	2.05	20	1.25	0.49	35.12
	2.06	25	1.25	0.41	31.22
3rd	3.56	5	1.22	0.48	5.37
	3.565	10	1.2	0.41	6.4
	3.57	15	1.36	0.13	7.37
	3.575	20	1.2	0.32	6.27
	3.58	25	1.2	0.37	22.97
4th	5.07	15	1.2	0.49	8.56
	5.075	20	1.22	0.38	4.94
	5.08	25	1.22	0.29	16.1
	5.085	30	1.2	0.42	18.51
5th	6.595	15	1.29	0.28	14.03
	6.6	20	1.25	0.41	8.36
	6.605	25	1.2	0.66	7.76
	6.61	30	1.16	0.49	7.76
	6.615	35	1.18	0.58	12.48
	6.62	40	1.2	0.31	12.03
6th	8.14	5	1.18	0.49	6.45
	8.145	10	1.29	0.82	33.04
	8.15	15	1.25	0.51	11.03
	8.155	20	1.25	0.5	8.11
	8.16	25	1.22	0.53	60.22
	8.165	30	1.22	0.53	27.77
	8.17	35	1.2	0.52	20.53
	8.175	40	1.18	0.59	84.69
7th	9.65	10	1.3	0.3	4.91
	9.655	15	1.27	0.54	139.92
	9.66	20	1.22	0.48	50.91
	9.665	25	1.2	0.5	25.74
	9.67	30	1.16	0.45	37.18
8th	11.24	5	1.3	0.15	18.8
	11.245	10	1.25	0.35	5.69
	11.25	15	1.25	0.6	6.77
	11.255	20	1.25	0.5	4.45
	11.275	40	1.27	0.53	29.25

τeというパラメータについては「建築音響学」(安藤四一著/シュプリンガーフェアラーク東京刊)の14ページに詳しく説明があります。「τe最小は主観的応答に必要な刺激の最小継続時間である。またτe最小は音楽がもっとも激しく変動する部分であるため、重要な情報を含んでいると考えられる」とあります。

τe最小は「100m走の最高新記録」と同じです。

いくらでも遅く走ることはできますから、長いのはいくらでもありますが、短くするには限度があります。ですから「τeの最小値」には重要な意味があります。

今回のように音声を1/1000秒で分析した場合、波長が短い、高音を短時間にまず認識するようです。その次に波長の長い低音は波長差分の長さの時間だけ遅れて認識します。そのわずかな時間がうまく分析できればフォルマント1、2、3が自己相関のピークに対応しました。

音声の分析を何のために行うかが重要です。「あ」「い」であれば、音圧レベルの時間軸上での変化のグラフで判断できます。どの音の高さで、発音したかどうかであれば、τ1の測定でフォルマント周波数が出せます。発声者が男か女かは、声帯の基本周波数を調べるのが簡単でしょう。

	実験開始後の時間	発声後 (ms)	t1(ms)	f1	te(ms)
1st	0.625	35	1.13	0.27	6.8
2nd	2.04	10	1.22	0.32	4.3
3rd	3.575	20	1.2	0.32	6.27
4th	5.075	20	1.22	0.38	4.94
5th	6.605	25	1.2	0.66	7.76
6th	8.14	5	1.18	0.49	6.45
7th	9.65	10	1.3	0.3	4.91
8th	11.255	20	1.25	0.5	4.45

April 2003 by Masatsugu Sakurai

計測日時	2002年9月30日 10:00
計測場所	愛知県名古屋市
マイク	SONY ECM-MS957
マイクアンプ	SONY DAT WALKMAN TCD-D100
パソコン	DELL INSPIRON 7500
OS	Windows 2000 Professional
測定分析ソフト	DSSF3
WAVE sound file:	voice4.wav (44.1kHz / Stereo / 12.67sec / 2.13MB)

音程を変えて音声を測定 (日本語音声の分析4)

音程を変えて音声を測定
(日本語音声の分析4)