| Japanese | English |
計測日時 | 2002年9月30日 10:00 |
計測場所 | 愛知県名古屋市 |
マイク | SONY ECM-MS957 |
マイクアンプ | SONY DAT WALKMAN TCD-D100 |
パソコン | DELL INSPIRON 7500 |
OS | Windows 2000 Professional |
測定分析ソフト | DSSF3 |
WAVE sound file: | voice4.wav (44.1kHz / Stereo / 12.67sec / 2.13MB) |
「あ」のパワースペクトラム 2回目の「あ」です。
グラフをみると、ピーク周波数は 210Hz、420Hz、640Hz、840Hz、1050Hz、1260Hz、1470Hなど、後高域に3150Hzなどの盛り上がりがあります。非常にすっきりしたパワースペクトラムなので読みやすいです。 高域は全体的に1オクターブ 6dB の減衰の音声のスペクトラムになっています。基本周波数は210Hzで、フォルマント(F1)は840Hzです。
4回目です。
グラフをみると、ピーク周波数は 250Hz、500Hz、750Hz、1000Hz、1250Hz、1500Hz、1750、3250Hz、5000Hzなどです。これも非常にすっきりしています。音程を上げた場合は、基本周波数は250Hz で、フォルマント(F1)は750Hzです。両方とも上がります。
6回目です。
グラフをみると、ピーク周波数は 330Hz、660Hz、990Hz、1320Hz、1650Hz、3000Hz、4300Hz、7200Hzなどです。これも非常にすっきりしています。音程を上げた場合は、基本周波数は330Hz で、フォルマント(F1)は660Hzです。さらに上がります。
8回目です。
グラフをみると、ピーク周波数は 370Hz、740Hz、1100Hz、1500Hz、1900Hz、3000Hz、3400Hなどです。これも非常にすっきりしています。音程を上げた場合は、基本周波数は370Hzで、フォルマント(F1)は740Hzです。さらに上がります。
それではランニングACF分析を行なってみます。実験開始後0.33秒に発声し、その5/1000秒(5msec)ごとのACF分析を順に見ていきましょう。
ランニングACF分析 積分時間10msecで、ランニングステップ5msec刻みに設定して計算してみました。
5回の発声です。ドレミ...と、音程を上げていっています。
ただ、音圧レベルの時間的変化のグラフは「あ」の特徴を表しています。
それぞれ具体的に発声後すぐの数10 msecのデータを比較してみます。
発声5-15msec後 (実験開始後 0.595-0.605秒)
1回目の発声です。
τe 4.69msec 発声からピークパワーまでの上昇過程でのτeは大雑把には減少していきます。「あ」の発声の仕方とτeの関係があるようです。自己相関の波形を眺めると、0.73、1、1.3msecにそれぞれピークがあります。基本周波数はつかんでいません。
前回明らかになったように、自己相関の最初の山より前に小さな山があるときには小さな山のピークから谷のマイナスのピークと、次の大きな山のピークの3つがF3~F1に対応していました。これは低い周波数帯域の音声がまだ解析できていないときによく発生します。このような場合はそれより低い基本周波数もまだ把握していません。
前回、1の実験の「あ」だけを音程をかえて測定したときの1回目の発声後15msecのデータは次のとおりです。
2回目の発声 10msec後のデータ 実験2.04秒後
3回目の発声 10msec 後のデータ 実験3.565秒後
同 15msec 後のデータ 実験3.57秒後
基本周波数 232Hz
全部同じ「あ」の発声ですが、5基本周波数(声帯の振動数)やフォルマント周波数がこんなにひとつの発音の中でも変化し、ましてや音の高さを変えて発音をすれば、同じ「あ」でも周波数情報は大きく変わってしまいます。
一般的な基本周波数(声帯の振動数ですら)などもこんなに変動しているのを体験すると、音声認識などをフォルマント周波数(周波数情報)から行なおうとするのはやはり無理があるようです。
DSSF3のスクリーンコピー機能を使用してワンタッチで出力した自己相関相互相関のパラメータすべての時間変化を表しています。
ACFのグラフは最後の実験3.57秒後の表示です。一定なΦ(0)音圧レベルの時間変化と、音程により規則的に変化するτ1の表示が印象的です。この二つの図には母音「あ」の発音と音程の違いがわかりやすく表示されています。以下にはτe最小の時点でのτ1、φ1、τeの値を比較するために表にまとめておきます。
8回の発声について、上記の組み合わせでまとめてみました。
実験開始後の時間 | 発声後 (ms) | t1(ms) |
f1 |
te(ms) | |
1st | 0.615 | 25 | 1.02 | 0.36 | 41.39 |
0.62 | 30 | 1.11 | 0.3 | 16.88 | |
0.625 | 35 | 1.13 | 0.27 | 6.8 | |
0.63 | 40 | 1.09 | 0.24 | 7.32 | |
2nd | 2.035 | 5 | 1.25 | 0.37 | 15.67 |
2.04 | 10 | 1.22 | 0.32 | 4.3 | |
2.045 | 15 | 1.2 | 0.26 | 42.67 | |
2.05 | 20 | 1.25 | 0.49 | 35.12 | |
2.06 | 25 | 1.25 | 0.41 | 31.22 | |
3rd | 3.56 | 5 | 1.22 | 0.48 | 5.37 |
3.565 | 10 | 1.2 | 0.41 | 6.4 | |
3.57 | 15 | 1.36 | 0.13 | 7.37 | |
3.575 | 20 | 1.2 | 0.32 | 6.27 | |
3.58 | 25 | 1.2 | 0.37 | 22.97 | |
4th | 5.07 | 15 | 1.2 | 0.49 | 8.56 |
5.075 | 20 | 1.22 | 0.38 | 4.94 | |
5.08 | 25 | 1.22 | 0.29 | 16.1 | |
5.085 | 30 | 1.2 | 0.42 | 18.51 | |
5th | 6.595 | 15 | 1.29 | 0.28 | 14.03 |
6.6 | 20 | 1.25 | 0.41 | 8.36 | |
6.605 | 25 | 1.2 | 0.66 | 7.76 | |
6.61 | 30 | 1.16 | 0.49 | 7.76 | |
6.615 | 35 | 1.18 | 0.58 | 12.48 | |
6.62 | 40 | 1.2 | 0.31 | 12.03 | |
6th | 8.14 | 5 | 1.18 | 0.49 | 6.45 |
8.145 | 10 | 1.29 | 0.82 | 33.04 | |
8.15 | 15 | 1.25 | 0.51 | 11.03 | |
8.155 | 20 | 1.25 | 0.5 | 8.11 | |
8.16 | 25 | 1.22 | 0.53 | 60.22 | |
8.165 | 30 | 1.22 | 0.53 | 27.77 | |
8.17 | 35 | 1.2 | 0.52 | 20.53 | |
8.175 | 40 | 1.18 | 0.59 | 84.69 | |
7th | 9.65 | 10 | 1.3 | 0.3 | 4.91 |
9.655 | 15 | 1.27 | 0.54 | 139.92 | |
9.66 | 20 | 1.22 | 0.48 | 50.91 | |
9.665 | 25 | 1.2 | 0.5 | 25.74 | |
9.67 | 30 | 1.16 | 0.45 | 37.18 | |
8th | 11.24 | 5 | 1.3 | 0.15 | 18.8 |
11.245 | 10 | 1.25 | 0.35 | 5.69 | |
11.25 | 15 | 1.25 | 0.6 | 6.77 | |
11.255 | 20 | 1.25 | 0.5 | 4.45 | |
11.275 | 40 | 1.27 | 0.53 | 29.25 |
τeというパラメータについては「建築音響学」(安藤四一著/シュプリンガーフェアラーク東京刊)の14ページに詳しく説明があります。「τe最小は主観的応答に必要な刺激の最小継続時間である。またτe最小は音楽がもっとも激しく変動する部分であるため、重要な情報を含んでいると考えられる」とあります。
τe最小は「100m走の最高新記録」と同じです。
いくらでも遅く走ることはできますから、長いのはいくらでもありますが、短くするには限度があります。ですから「τeの最小値」には重要な意味があります。
今回のように音声を1/1000秒で分析した場合、波長が短い、高音を短時間にまず認識するようです。その次に波長の長い低音は波長差分の長さの時間だけ遅れて認識します。そのわずかな時間がうまく分析できればフォルマント1、2、3が自己相関のピークに対応しました。
音声の分析を何のために行うかが重要です。「あ」「い」であれば、音圧レベルの時間軸上での変化のグラフで判断できます。どの音の高さで、発音したかどうかであれば、τ1の測定でフォルマント周波数が出せます。発声者が男か女かは、声帯の基本周波数を調べるのが簡単でしょう。
|
実験開始後の時間 |
発声後 (ms) |
t1(ms) |
f1 |
te(ms) |
1st |
0.625 |
35 |
1.13 |
0.27 |
6.8 |
2nd |
2.04 |
10 |
1.22 |
0.32 |
4.3 |
3rd |
3.575 |
20 |
1.2 |
0.32 |
6.27 |
4th |
5.075 |
20 |
1.22 |
0.38 |
4.94 |
5th |
6.605 |
25 |
1.2 |
0.66 |
7.76 |
6th |
8.14 |
5 |
1.18 |
0.49 |
6.45 |
7th |
9.65 |
10 |
1.3 |
0.3 |
4.91 |
8th |
11.255 |
20 |
1.25 |
0.5 |
4.45 |
April 2003 by Masatsugu Sakurai