طراحی و ضبط پایگاهدادگان گفتاری برای سیستمهای تبدیل متن به گفتار فارسی | ||
پژوهش های زبان شناسی تطبیقی | ||
مقاله 5، دوره 6، شماره 12، مهر 1395، صفحه 69-84 اصل مقاله (928.26 K) | ||
نوع مقاله: مقاله پژوهشی | ||
شناسه دیجیتال (DOI): 10.22084/rjhll.2016.1728 | ||
نویسندگان | ||
مرتضی طاهری اردلی* 1؛ سهیل خرم2؛ مصطفی عاصی3؛ حسین صامتی4؛ محمود بی جن خان5 | ||
1استادیار گروه زبان انگلیسی دانشگاه شهرکرد | ||
2پژوهشگر/دانشگاه صنعتی شریف | ||
3استاد/پژوهشگاه علوم انسانی و مطالعات فرهنگی | ||
4استاد/دانشگاه صنعتی سریف | ||
5استاد/دانشگاه تهران | ||
چکیده | ||
مقالة حاضر به ارائة روشی برای طراحی و ساختِ پایگاهدادگانی مختص سیستمهای تبدیل متن به گفتار با در نظر گرفتن ساخت نوایی فارسی میپردازد. این مجموعه به لحاظ آوایی و نوایی غنی و مشتمل بر 2826 نمونه جملة فارسی است. این نمونه جملات در شرایط استودیو و با تکصدای گویندة خانم که به صورت حرفهای در زمینة صدا فعالیت میکند ضبط شده است. پوشش حالتهای مختلف نوایی در کنار پوشش حالتهای مختلف آوایی از نقاط قوت این پایگاه است که برای نخستین بار در سیستمهای تبدیل متن به گفتارِ فارسی لحاظ میشود. این مجموعه در کنار فایلهای صوتی، دارای برچسبهای متن و صورت آوایی است که به صورت دستی اصلاح شدهاند. در نهایت، با بکارگیری مجموعه دادگان مذکور و با استفاده از روش بازسازی گفتار آماری ـ پارامتری ساخت صدا انجام گرفت. آزمودنیها کیفیت صدای ساختهشده را با استفاده از معیار میانگینِ امتیازاتِ نظردهی (MOS) 4.3 ارزیابی کردند. | ||
کلیدواژهها | ||
پایگاهدادگان گفتاری؛ تبدیل متن به گفتار؛ نوای گفتار؛ پیکرة متنی | ||
موضوعات | ||
پژوهش های توصیفی زبان شناسی | ||
مراجع | ||
- اسلامی، محرم؛ شیخزادگان، جواد؛ احمدینیا، زهرا و بهرامی، علی (1388)، مراحل و نحوه تهیه دادگانهای صوتی هجایی و دایفونی برای سامانه تبدیل متن به گفتار فارسی. دوفصلنامه علمی- پژوهشی پردازش علائم و دادهها، (۱۲)، ۳-۱۲. - آیت، سیدسعید (1389)، طراحی و پیادهسازی دادگان دایفون زبان فارسی برای کاربرد زبانشناسی رایانهای، پژوهشهای زبانشناسی دانشگاه اصفهان، سال دوم، پاییز و زمستان 1389، شماره 2 (پیاپی 3)، 1ـ11. - بیجنخان، محمود (1386)، مطالعه و تحقیق جهت تدوین پژوهشنامه عملیاتی دادگان: پیاده سازی استاندارد ایگلز در پیکرة متنی زبان فارسی معاصر، دبیرخانة شورای عالی اطلاعرسانی. - طاهری اردلی، مرتضی و خرم، سهیل (1391)، مدلسازی نوای گفتار در سیستمهای سنتز گفتار فارسی، مجموعه مقالات هشتمین همایش زبانشناسی ایران، به کوشش محمد دبیرمقدم، تهران: دانشگاه علامه طباطبایی، 480-492. - همایونپور، محمدمهدی (1391)، پژوهشنامة تبدیل متن به گفتار، تهران: شوراى عالى اطلاع رسانى، دبیرخانه. - Abolhasanizadeh, V., Bijankhan, M., & Gussenhoven, C. (2012), The Persian pitch accent and its retention after the focus. Lingua, 122(13), 1380-1394.
- Black, A. (2006), CLUSTERGEN: A Statistical Parametric Synthesizer Using Trajectory Modeling. In: Proc. Interspeech, 1762–1765.
- Black A. W., Zen H. & K. Tokuda (2007), Statistical Parametric Speech Synthesis, ICASSP'2007, pp. IV-1229-IV-1232, Honolulu, Hawai'i, USA.
- Campbell, N. (2005), Developments in corpus-based speech synthesis: Approaching natural conversational speech. IEICE transactions on information and systems, 88(3), 376-383.
- Heusinger, K. (1999), Intonation and information structure. Habilitationsschrift, University of Konstanz.
- Hunt, A., & Black, A. (1996), Unit Selection in a Concatenative Speech Synthesis System Using a Large Speech Database. In: Proc. ICASSP, 373-376.
- Jurafsky, D., & Martin, J. H. (2007), Speech and language processing. Pearson Education India.
- Khorram, S., Sameti, H., Bahmaninezhad, F., King, S., & Drugman, T. (2014), Context-dependent acoustic modeling based on hidden maximum entropy model for statistical parametric speech synthesis. EURASIP Journal on Audio, Speech, and Music Processing, 2014(1), 12.
- Kominek, J., & Black, A. (2003), CMU ARCTIC databases for speech synthesis. CMU Language Technologies Institute, Tech Report CMU-LTI-03-177.
- Ling, Z.-H., Wang, R.-H. (2006), HMM-based unit selection using frame sized speech segments. In: Proc. Interspeech. 2034-2037.
- Matoušek, J., Tihelka, D., & Romportl, J. (2008), Building of a speech corpus optimized for unit selection TTS synthesis. In Proceedings of LREC 2008, Marrakech, Morocco.
- Moulines, E., Charpentier, F. (1990), Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communication, 9, 453-467.
- Nespor, M., & Vogel, I. (2007), Prosodic phonology: with a new foreword (Vol. 28). Walter de Gruyter.
- Sadat-Tehrani, N. (2007), Intonational grammar of Persian, Doctoral dissertation. Manitoba: University of Manitoba.
- Taheri-Ardali, M. & Y. Xu (2012), "Phonetic realization of prosodic focus in Persian". Speech Prosody 2012, Shanghai.
- Taylor, P. (2009), Text-to-speech synthesis. Cambridge, Cambridge University Press.
- Zen, H., Toda, T., Nakamura, M., Tokuda, T., (2007), Details of the Nitech HMM-based speech synthesis system for the Blizzard Challenge 2005. IEICE Trans. Inf. Syst, E90-D (1), 325-333.
- Zen H., Tokuda K. and A. W. Black (2009), Statistical Parametric Speech Synthesis, Speech Communication Elsevier, 51(11), 1039-1064.
| ||
آمار تعداد مشاهده مقاله: 1,880 تعداد دریافت فایل اصل مقاله: 2,473 |