Programování dialogového systému pro češtinu – Text to Speech (TTS)

Popis společnosti

Společnost Oplatai s.r.o. založil v roce 2018 Ondřej Plátek za účelem dodávání řešení založených na technologiích strojového učení pro audio. Společnost se specializuje na zakázkovou výrobu algoritmů pro zpracování řeči a audia a vyvíjí dobře definované a relativně izolované zakázky na míru – často prototypy nebo soutěžní projekty. Typickým zákazníkem společnosti je startup, ale často také velká korporace, která službu v dané oblasti outsourcuje.

Hlavní myšlenkou k založení společnosti bylo zpřístupnění řečové technologie pro společnosti, které si nemohou dovolit vlastní experty na strojní učení.

Ač je společnost nová a prozatím má pouze čtyřčlenný tým, tak její start je raketový a úspěšně se jí daří rozšiřovat spektrum služeb, ale i zákazníků a oslovuje klienty v nových oblastech  zpracování řeči a audia. Společnost hojně spolupracuje s akademií a se studenty a nabízí  jedinečnou příležitost participovat na projektu programování dialogového systému pro češtinu, jehož součástí je Text to Speech (TTS).

 
Průběh spolupráce a cíle projektu

Společnost pracuje na vývoji dialogového systému pro češtinu, v současnosti jí však ještě chybí mnoho technologií. Jednou z nich je právě TTS. Student v rámci práce vyzkouší pro standardní anglická data různé architektury a algoritmy, které jsou pro tuto technologii k dispozici. Porovná je a následně zvolí ty nejvhodnější (dle zadaných parametrů).

Zvolená varianta bude následně nasazena pro česká data. Student bude provádět a vyhodnocovat experimenty a bude pro ni provádět dostatečnou dokumentaci určenou k následné reprodukci. V rámci práce budou popsané vyvstalé problémy, nejzásadnější z nich se student pokusí blíže popsat a vyřešit.

Hodnocení projektu bude provedeno na základě:

  1. Zdůvodnění výzkumu pro výběr správné architektury neuronové sítě založené na parametrech rychlosti řešení a požadavcích na množství dat.
  2. Správnosti implementace
  3. Kreativity s využitím stávajících dat
  4. Tvořivého řešení problému

Diskuze bude probíhat na týdenní bázi, předpokládá se studentova samostatnost. Výhodou projektu pro studenta je časová flexibilita a je možná vzdálená komunikace např. prostřednictvím Skype. Spolupráce by měla trvat přibližně 5-10 měsíců.

Student bude mít za cíl porovnat několik různých systémů a zjistit, jestli jsou aplikovatelné do praxe v rámci českého jazyka.

 

Očekávání

  • Ideálně student IT oborů se znalostí počítačových věd
  • Aktivní přístup
  • Motivovaný student se zájmem o daný obor
  • znalost anglického jazyka

Společnost nabízí studentovi platové ohodnocení v hodnotě 30 000,-Kč po úspěšném odevzdání práce a další bonusy v případě vynikajících výsledků v průběhu projektu. Zároveň nabízí další možnost spolupráce se studentem.

 

For students

You will learn and evaluate 2-3 Text-To-Speech (TTS) state-of-the art engines based on neural networks e.g. Tacotron, Tacotron2, Wavenet and compare them to common tools like Festival & Merlin. Based on your findings you will select best solution for training TTS on noisy data for Czech real-time system. You will describe problems of such implementation and (optionally) try to solve the most pressing issues. The evaluation of the project will be done based on: 1. justification of your research for selecting the right neural network architecture based on speed parameters of the solution and requirements for the amount of data. 2. implementation correctness 3. Creativity using existing audio data 4. Creatively solving problems which are attached to the problem. Note: guidance will be provided regularly weekly basis but independent and strong coding capabilities are assumed.

You should learn the basic theory about Text-To-Speech (guidance will be provided). Play with and compare hands on different architectures and their implementations on English standard data. You will need to organize experiments so they are reproducible. You will select one approach and try Czech raw audio data for training the best TTS possible. You will be guided to write reproducible scripted experiments, clean code and concise but useful documentation.

The outputs of the project are: 1. a short report describing the motivation for your solution and achieved results . 2. bundled data used 3. training scripts and libraries. 4. documentation how to replicate your results.

Typ práce: bakalářská/diplomová 

Obor: IT, počítačové vědy

Přihlášky: do 30. 6. 2019

Odevzdání výstupu společnosti: není definováno

Místo: celá ČR, možná vzdálená spolupráce (Skype)

Klíčová slova
IT, dialogové systémy, TTS, neuronové sítě, strojové učení, Tacotron, Wavenet