研究 – ページ 2

2018年の徳田先生，大浦先生のクリスマスリリースは，Open JTalk の version 1.11 とそれ用の新しい辞書，MMDAgent の “Sample Script” の version 1.8 でした．OSS版 Sinsy の更新はないようです… ．残念．

knoike / 2018年12月27日2018年12月27日 / コンピュータ, 研究, 音楽・音響信号ツール

日本語テキスト音声合成ソフトウェアOpen JTalkの新バージョンを公開しました。
The Open JTalk version 1.11
release December 25, 2018https://t.co/LufOTA2y5m
— Keiichi Tokuda/徳田恵一 (@KeiichiTokuda) 2018年12月25日

音声インタラクションシステム構築ツールキットMMDAgentの"Sample Script"の新バージョンを公開しました。
MMDAgent "Sample Script" version 1.8
release December 25, 2018https://t.co/Yy9JToFw9x
— Keiichi Tokuda/徳田恵一 (@KeiichiTokuda) 2018年12月25日

音声インタラクションシステム構築ツールキットMMDAgent "Sample Script" version 1.8には、男性キャラクターの3Dモデル一式（モーションファイルを含む）とボイス（音声合成用モデル）が追加されています。
— Keiichi Tokuda/徳田恵一 (@KeiichiTokuda) 2018年12月26日

2018年の徳田先生，大浦先生のクリスマスリリースは，Open JTalk の version 1.11 とそれ用の新しい辞書，MMDAgent の “Sample Script” の version 1.8 でした．
OSS版 Sinsy の更新はないようです… ．残念．

Open JTalk のほうは，ML で説明されていましたが，辞書のバージョンアップがメインの更新内容のようです．

https://sourceforge.net/p/open-jtalk/mailman/message/36501953/

There are three major updates in version 1.11.

1. add UniDic.
New dictionary includes unidic-csj-2.2.0 in https://unidic.ninjal.ac.jp/

2. remove long vowels of naturalized words in dictionary.
(example) “HEY” = /h/ /e/ /e/ -> “HEY” = /h/ /e/ /i/

3. add digit rules for digits including comma.
(example) “1,000円” = /i/ /ch/ /i/ /pau/ /z/ /e/ /r/ /o/ /e/ /N/ ->
“1,000円” = /s/ /e/ /N/ /e/ /N/

コンマ(,) を含んだ「1,000円」を，「せんえん」と読み上げられるようになったようです．

「Open JTalk」
http://open-jtalk.sourceforge.net/

「mmdagent.jp」
http://www.mmdagent.jp/

2018年01月01日
現在の OSS版 Sinsy と nitech_jp_song070_f001.htsvoice で歌声を生成するときは，生成可能な音高に留意する必要があるそうです．ざっと調べてみたところ，生成可能な音高レンジは，F5(MIDI note no 77) から A#3(MIDI note no 58) のようでした．
http://knoike.seesaa.net/article/455909764.html

2017年12月26日
今年の徳田先生，大浦先生のクリスマスリリースは，Web版 Sinsy の新しい日本語男性ボイス m01083j と，HTS の 2.3.2 でした．HTS は，HMM だけでなく，DNN による学習と生成も使用できるようになったようです．
http://knoike.seesaa.net/article/455787832.html

2017年12月07日
新しい「スコアメーカー」は「ZERO」というシリーズで，入力した歌詞を歌わせることができるらしい．歌声合成エンジンは，名工大の徳田先生のところの Sinsy らしい．
http://knoike.seesaa.net/article/455378097.html

2016年12月25日
オープンソース版の Sinsy 0.92 には，調号に関する不具合があるっぽい．音高が調号どおりに上下しないときがある．Web 版 Sinsy 3.7 だと，それが直っている．次のリリースでそれが直っているといいなぁ．
http://knoike.seesaa.net/article/445223285.html

2016年01月23日
オープンソース版の Sinsy が 0.92 になったので，ごく簡単に試してみました．0.90, 0.91 で生成したときの歌声も残っていましたので，それも並べて置いておきます．意味があるかどうかわかりませんが，聴き比べが可能です．
http://knoike.seesaa.net/article/432882730.html

2015年12月31日
オープンソース版の Sinsy 0.92 ほかいろいろの，年末リリースが来てるー．
http://knoike.seesaa.net/article/431938155.html

2014年12月26日
オープンソース版の Sinsy が 0.91 になったので，ほんの少しだけ試してみました．詳細はよくわかりませんが，0.90 の頃とはかなり異なった歌声が生成されます．
http://knoike.seesaa.net/article/411276694.html

2014年12月26日
Web 版の Sinsy が Ver. 3.6 になり，歌詞を発音記号で入力することが可能になったそうなので，ほんの少しだけ試してみました．
http://knoike.seesaa.net/article/411275377.html

2014年12月26日
オープンソース版の Sinsy ほかいろいろのバージョンアップがきたー！
http://knoike.seesaa.net/article/411274416.html

2013年12月27日
「Julius-4.3 リリース 2013/12/25(Wed.)」
http://knoike.seesaa.net/article/383709007.html

2013年12月27日
「先頭の小節は休符から始まる必要があります．」あぁっ，逆か！そんな制約があったとは．
http://knoike.seesaa.net/article/383672711.html

2013年12月26日
とりあえず，手元の sinsy コマンドで歌わすことができました．またそのうち，何か作ろうー．
http://knoike.seesaa.net/article/383587048.html

2013年12月26日
「Sinsy version 0.90 (25 December, 2013)」 Sinsy のソースコードのリリース，きたー！
http://knoike.seesaa.net/article/383579357.html

2013年12月26日
「MMDAgent version 1.4 (December 25, 2013)」
http://knoike.seesaa.net/article/383578604.html

2013年12月25日
「Open JTalk version 1.07 (25 December, 2013)」
http://knoike.seesaa.net/article/383557852.html

2013年12月25日
「hts_engine API version 1.08 (December 25, 2013) 」
http://knoike.seesaa.net/article/383557677.html

2013年12月25日
「Speech Signal Processing Toolkit (SPTK) Version 3.7 December 25, 2013」今年は，これか！
http://knoike.seesaa.net/article/383556746.html

2013年04月26日
大浦圭一郎先生は，いつも，クリスマス前とか年末年始とかに合わせて楽しい道具を投下してくださる（笑）．今回は，GW 直前だよー（笑）．
http://knoike.seesaa.net/article/357374145.html

2013年04月26日
「音声合成・歌声合成の新星「CeVIO」、その謎が解けた！ – ITmedia ニュース」
http://knoike.seesaa.net/article/357360932.html

2012年12月26日
「The Open JTalk version 1.06 release December 25, 2012」
http://knoike.seesaa.net/article/309985124.html

2012年12月26日
「The hts_engine API version 1.07 release December 25, 2012」
http://knoike.seesaa.net/article/309984708.html

2012年08月06日
名古屋工業大学のデジタルサイネージ「メイちゃん」の Skype アカウント
http://knoike.seesaa.net/article/285137572.html

2012年04月18日
徳田恵一先生が，「平成24年度文部科学大臣表彰科学技術賞」を受賞されたそうです．業績名は，「隠れマルコフモデルに基づいた次世代音声合成方式の研究」だそうです．
http://knoike.seesaa.net/article/265355312.html

2012年02月01日
徳田恵一先生の提案研究課題が CREST で採択されたそうです．研究課題名は「コンテンツ生成の循環系を軸とした次世代音声技術基盤の確立」だそうです．
http://knoike.seesaa.net/article/249745241.html

2010年12月25日
「Open JTalk version 1.02 (December 25, 2010)」
http://knoike.seesaa.net/article/175604203.html

2010年12月25日
「hts_engine API version 1.04 (December 25, 2010)」
http://knoike.seesaa.net/article/175603976.html

2010年03月12日
「Open JTalk – HMM-based Text-to-Speech System」
http://knoike.seesaa.net/article/152843018.html

2010年01月10日
Sinsy サイトの MusicXML も，ぼーか郎で歌えるようにしました．
http://knoike.seesaa.net/article/152842419.html

2010年01月10日
Cubase 4 の MusicXML 書き出し処理にバグがあるっぽい．
http://knoike.seesaa.net/article/152842420.html

2010年01月03日
Sinsy を試させていただきました．
http://knoike.seesaa.net/article/152842136.html

2009年12月27日
Eji さんとのチャットでいろいろ教えてもらって，状況把握(^^;)．
http://knoike.seesaa.net/article/152842155.html

2009年12月27日
謎でもなんでもなくて，酒向慎司さんでしょ(^^;)．
http://knoike.seesaa.net/article/152842156.html

Pocket

「ピアノ演奏と対応する MIDI データを集めた大規模データセット MAESTRO」この人たちのやっていることをあまり追いきれていないのだけど，楽譜情報とのアライメントはやっていなくて，ピアノロール MIDI 情報とのアライメントをしているような感じ．

knoike / 2018年11月6日2018年12月25日 / コンピュータ, データセット, 研究, 音楽・音響信号ツール

Pocket

「ピアノ演奏と対応する MIDI データを集めた大規模データセット MAESTRO – ENABLING FACTORIZED PIANO MUSIC MODELING AND GENERATION WITH THE MAESTRO DATASET」
http://createwith.ai/dataset/20181106/1358

よくわからないところがあるな．Piano-e-Competition は波形と同時にMIDIでも収録しているはずだよ，分解能を拡張したヤマハのXP形式で．それで世界中に同時配信していて，配信先でもピアノが動いて鳴っている．たぶん，それとは別に wave to MIDI もやっているよ，ということが言いたいのだろうな．

— Kenzi NOIKE (求職中) (@knoike) 2018年11月6日

「全体のプロセスを指して Wave2Midi2Wave と呼ばれています．」

wave to MIDI のところだけほしいな．あとで TensorFlow/Magenta のソースから探してみよう．

— Kenzi NOIKE (求職中) (@knoike) 2018年11月6日

この人たちのやっていることをあまり追いきれていないのだけど，楽譜とのマッピング（アライメント）はやっているのかなぁ？なんか，生 MIDI を直に突っ込んでいるように見えなくもないんだよなぁ．

— Kenzi NOIKE (求職中) (@knoike) 2018年11月6日

「MAESTRO (MIDI and Audio Edited for Synchronous TRacks and Organization) dataset」

あぁっ，MAESTRO ってその略だったのか．これは原著論文を読んでおいたほうがいいな．

— Kenzi NOIKE (求職中) (@knoike) 2018年11月6日

「[1810.12247] Enabling Factorized Piano Music Modeling and Generation with the MAESTRO Dataset」
https://arxiv.org/abs/1810.12247

「Blog」
https://magenta.tensorflow.org/blog

「The MAESTRO Dataset」
https://magenta.tensorflow.org/datasets/maestro

ざっと眺めただけだけど，やっぱりこの人たちはピアノロールMIDIと波形を対応付けているだけっぽい．つまり，テンポ変化は扱えていない．楽譜から人間味のある演奏を生成できるわけではない．人間味のあるベロシティくらいは付くけれど． | The MAESTRO Dataset https://t.co/VcpPYnYZ72

— Kenzi NOIKE (求職中) (@knoike) 2018年11月6日

とはいえ，wave と MIDI との対応づけツールは使いたいな(^^;)．あとで探してみよう．

— Kenzi NOIKE (求職中) (@knoike) 2018年11月6日

そのツールが DP マッチングのように柔軟に時間軸方向への伸び縮み対応付けをしてくれるのであれば，かなり有用．楽譜どおりの MIDI データを用意することでいろいろと応用ができる．

— Kenzi NOIKE (求職中) (@knoike) 2018年11月6日

この人たちのやっていることをあまり追いきれていないのだけど，楽譜情報とのマッピング（アライメント）はやっていなくて，ピアノロールMIDI情報とのマッピングをしているような感じ．
そうだとすると，テンポ変化や，（和音の各音のズレ以外の）アタックのズレは扱えないので，楽譜情報から人間味のある演奏を自動生成することはまだできない．人間味のある打鍵強弱づけはできると思う．

とはいえ，wave と MIDI との対応づけツールは使いたいな(^^;)．あとで Magenta の中から探してみよう．
もし，そのツールが DP マッチングのように柔軟に時間軸方向への伸び縮み対応付けをしてくれるのであれば，かなり有用だと思う．楽譜どおりの MIDI データを用意することでいろいろと応用ができる．

Pocket

「URMP Dataset」「a dataset for facilitating audio-visual analysis of musical performances.」

knoike / 2018年9月18日2018年12月27日 / コンピュータ, データセット, 研究, 音楽・音響信号ツール

Pocket

「URMP Dataset」
http://www2.ece.rochester.edu/projects/air/projects/URMP.html

「

Overview
We introduce a dataset for facilitating audio-visual analysis of musical performances. The dataset comprises a number of simple multi-instrument musical pieces assembled from coordinated but separately recorded performances of individual tracks. For each piece, we provide the musical score in MIDI format, the high-quality individual instrument audio recordings and the videos of the assembled pieces. We anticipate that the dataset will be useful for multi-modal information retrieval techniques such as music source separation, transcription, performance analysis and also serve as ground-truth for evaluating performances.

」

「

For each piece, we provide:

o Musical score in MIDI and PDF format
o Audio recordings of each individual track and mixture of pieces
o Videos of the assembled pieces.
o Ground-truth frame-level/note-level pitch annotations

」

Pocket

2024年4月
日	月	火	水	木	金	土
	1	2	3	4	5	6
7	8	9	10	11	12	13
14	15	16	17	18	19	20
21	22	23	24	25	26	27
28	29	30