طراحی و ضبط پایگاه‌دادگان گفتاری برای سیستم‌های تبدیل متن به گفتار فارسی

طاهری اردلی, مرتضی; خرم, سهیل; عاصی, مصطفی; صامتی, حسین; بی جن خان, محمود

doi:10.22084/rjhll.2016.1728

اخذ مجوز راه اندازی 5 عنوان نشریه ی جدید از وزارت علوم ، تحقیقات و فناوری

تعداد نشریات	22
تعداد شماره‌ها	536
تعداد مقالات	5,580
تعداد مشاهده مقاله	10,786,461
تعداد دریافت فایل اصل مقاله	7,156,640

	طراحی و ضبط پایگاه‌دادگان گفتاری برای سیستم‌های تبدیل متن به گفتار فارسی
پژوهش های زبان شناسی تطبیقی
مقاله 5، دوره 6، شماره 12، مهر 1395، صفحه 69-84 اصل مقاله (928.26 K)
نوع مقاله: مقاله پژوهشی
شناسه دیجیتال (DOI): 10.22084/rjhll.2016.1728
نویسندگان
مرتضی طاهری اردلی^* ¹؛ سهیل خرم²؛ مصطفی عاصی³؛ حسین صامتی⁴؛ محمود بی جن خان⁵
¹استادیار گروه زبان انگلیسی دانشگاه شهرکرد
²پژوهشگر/دانشگاه صنعتی شریف
³استاد/پژوهشگاه علوم انسانی و مطالعات فرهنگی
⁴استاد/دانشگاه صنعتی سریف
⁵استاد/دانشگاه تهران
چکیده
مقالة حاضر به ارائة روشی برای طراحی و ساختِ پایگاه‌دادگانی مختص سیستم‌های تبدیل متن به گفتار با در نظر گرفتن ساخت نوایی فارسی می‌پردازد. این مجموعه به لحاظ آوایی و نوایی غنی و مشتمل بر 2826 نمونه جملة فارسی است. این نمونه جملات در شرایط استودیو و با تک‌صدای گویندة خانم که به صورت حرفه‌ای در زمینة صدا فعالیت می‌کند ضبط شده است. پوشش حالت‌های مختلف نوایی در کنار پوشش حالت‌های مختلف آوایی از نقاط قوت این پایگاه است که برای نخستین بار در سیستم‌های تبدیل متن به گفتارِ فارسی لحاظ می‌شود. این مجموعه در کنار فایل‌های صوتی، دارای برچسب‌های متن و صورت آوایی است که به صورت دستی اصلاح شده‌‌اند. در نهایت، با بکارگیری مجموعه دادگان مذکور و با استفاده از روش بازسازی گفتار آماری ـ پارامتری ساخت صدا انجام گرفت. آزمودنی‌ها کیفیت صدای ساخته‌شده را با استفاده از معیار میانگینِ امتیازاتِ نظردهی (MOS) 4.3 ارزیابی کردند.
کلیدواژه‌ها
پایگاه‌دادگان گفتاری؛ تبدیل متن به گفتار؛ نوای گفتار؛ پیکرة متنی
موضوعات
پژوهش های توصیفی زبان شناسی

مراجع
- اسلامی، محرم؛ شیخ‌زادگان، جواد؛ احمدی‌نیا، زهرا و بهرامی، علی (1388)، مراحل و نحوه تهیه دادگان‌های صوتی هجایی و دایفونی برای سامانه تبدیل متن به گفتار فارسی. دوفصل‌نامه علمی- پژوهشی پردازش علائم و داده‌ها، (۱۲)، ۳-۱۲. - آیت، سیدسعید (1389)، طراحی و پیاده‌سازی دادگان دایفون زبان فارسی برای کاربرد زبان‌شناسی رایانه‌ای، پژوهش‌های زبان‌شناسی دانشگاه اصفهان، سال دوم، پاییز و زمستان 1389، شماره 2 (پیاپی 3)، 1ـ11. - بی‌جن‌خان، محمود (1386)، مطالعه و تحقیق جهت تدوین پژوهشنامه عملیاتی دادگان: پیاده سازی استاندارد ایگلز در پیکرة متنی زبان فارسی معاصر، دبیرخانة شورای عالی اطلاع‌رسانی. - طاهری ‌اردلی، مرتضی و خرم، سهیل (1391)، مدل‌سازی نوای گفتار در سیستم‌های سنتز گفتار فارسی، مجموعه مقالات هشتمین همایش زبانشناسی ایران، به کوشش محمد دبیرمقدم، تهران: دانشگاه علامه طباطبایی، 480-492. - همایون‌پور، محمدمهدی (1391)، پژوهشنامة تبدیل متن به گفتار، تهران: شوراى عالى اطلاع رسانى، دبیرخانه. - Abolhasanizadeh, V., Bijankhan, M., & Gussenhoven, C. (2012), The Persian pitch accent and its retention after the focus. Lingua, 122(13), 1380-1394. - Black, A. (2006), CLUSTERGEN: A Statistical Parametric Synthesizer Using Trajectory Modeling. In: Proc. Interspeech, 1762–1765. - Black A. W., Zen H. & K. Tokuda (2007), Statistical Parametric Speech Synthesis, ICASSP'2007, pp. IV-1229-IV-1232, Honolulu, Hawai'i, USA. - Campbell, N. (2005), Developments in corpus-based speech synthesis: Approaching natural conversational speech. IEICE transactions on information and systems, 88(3), 376-383. - Heusinger, K. (1999), Intonation and information structure. Habilitationsschrift, University of Konstanz. - Hunt, A., & Black, A. (1996), Unit Selection in a Concatenative Speech Synthesis System Using a Large Speech Database. In: Proc. ICASSP, 373-376. - Jurafsky, D., & Martin, J. H. (2007), Speech and language processing. Pearson Education India.‏ - Khorram, S., Sameti, H., Bahmaninezhad, F., King, S., & Drugman, T. (2014), Context-dependent acoustic modeling based on hidden maximum entropy model for statistical parametric speech synthesis. EURASIP Journal on Audio, Speech, and Music Processing, 2014(1), 12. - Kominek, J., & Black, A. (2003), CMU ARCTIC databases for speech synthesis. CMU Language Technologies Institute, Tech Report CMU-LTI-03-177. - Ling, Z.-H., Wang, R.-H. (2006), HMM-based unit selection using frame sized speech segments. In: Proc. Interspeech. 2034-2037. - Matoušek, J., Tihelka, D., & Romportl, J. (2008), Building of a speech corpus optimized for unit selection TTS synthesis. In Proceedings of LREC 2008, Marrakech, Morocco. - Moulines, E., Charpentier, F. (1990), Pitch-synchronous waveform processing techniques for text-to-speech synthesis using diphones. Speech Communication, 9, 453-467. - Nespor, M., & Vogel, I. (2007), Prosodic phonology: with a new foreword (Vol. 28). Walter de Gruyter. - Sadat-Tehrani, N. (2007), Intonational grammar of Persian, Doctoral dissertation. Manitoba: University of Manitoba. - Taheri-Ardali, M. & Y. Xu (2012), "Phonetic realization of prosodic focus in Persian". Speech Prosody 2012, Shanghai. - Taylor, P. (2009), Text-to-speech synthesis. Cambridge, Cambridge University Press. - Zen, H., Toda, T., Nakamura, M., Tokuda, T., (2007), Details of the Nitech HMM-based speech synthesis system for the Blizzard Challenge 2005. IEICE Trans. Inf. Syst, E90-D (1), 325-333. - Zen H., Tokuda K. and A. W. Black (2009), Statistical Parametric Speech Synthesis, Speech Communication Elsevier, 51(11), 1039-1064.
آمار تعداد مشاهده مقاله: 2,200 تعداد دریافت فایل اصل مقاله: 2,797

سامانه مدیریت نشریات علمی. طراحی و پیاده سازی از سیناوب

پیوندهای مفید

اخبار و اعلانات

آمار

طراحی و ضبط پایگاه‌دادگان گفتاری برای سیستم‌های تبدیل متن به گفتار فارسی