לדלג לתוכן

קידוד חיזוי ליניארי

מתוך ויקיפדיה, האנציקלופדיה החופשית

קידוד חיזוי ליניאריאנגלית: Linear Predictive Coding או בקיצור LPC) הוא כלי המשמש בעיקר לעיבוד אותות אודיו ולעיבוד דיבור לייצוג המעטפה הספקטראלית של אות דיבור דיגיטלי בצורה דחוסה, תוך שימוש במידע של מודל חיזוי ליניארי[1]. זוהי אחת הטכניקות החזקות ביותר לניתוח דיבור, ואחת השיטות היעילות ביותר עבור קידוד דיבור באיכות טובה בקצב סיביות נמוך, ומספק הערכות מדויקות ביותר של פרמטרי דיבור.

מבט על

קידוד חיזוי לינארי מתחיל עם ההנחה כי אות דיבור מיוצר על ידי זמזום בקצה של צינור (קולות דיבור), כאשר מדי פעם נוספים קולות של שריקות ופיצוצים (עיצורים שורקים ועיצורים סותמים). למרות שמודל זה נראה גס, הוא למעשה קירוב טוב של המציאות של קולות דיבור. הגלוטיס (החלל שבין הקפלים הקוליים) מייצר את הזמזום, המאופיין בעוצמתו (עוצמת קול) ותדירות (גובה הצליל). מערכת הקול (הגרון והפה) יוצרת את הצינור, המאופיין על ידי התהודה שלו, אשר מעוררים פורמנטים בצליל המיוצר.

קידוד חיזוי לינארי מנתח את האות דיבור על ידי אמידת פורמנטים, הסרת ההשפעות שלהם מאות הדיבור, והערכת העוצמה והתדירות של הזמזומים הנותרים. התהליך של הסרת פורמנטים נקרא סינון הפוך, והאות הנותר לאחר חיסור של האות המסונן נקרא אות שארית (residue).

את המספרים המתארים את האינטנסיביות ואת התדירות של הזמזום, הפורמנטים, ואת אות השארית, ניתן לאחסן או להעביר אותם בנפרד. שיטת קידוד החיזוי הלינארי מסנתזת את אות הדיבור על ידי הפיכת התהליך: משתמשת בפרמטרים של הזמזום ואות השארית כדי ליצור אות מקור, אחר כך משתמשת בפורמטים כדי ליצור מסנן (המייצג את הצינור), ולבסוף מעבירה את המקור דרך המסנן, כדי לייצר דיבור.

בגלל שאותות הדיבור משתנים עם הזמן, תהליך זה נעשה על חתיכות קצרות של אות הדיבור, אשר נקראים מסגרות; בדרך כלל 30 עד 50 מסגרות לשנייה מניבות דיבור מובן עם דחיסה טובה.

ייצוג מקדמים של קידוד חיזוי לינארי

קידוד חיזוי לינארי משמש לעתים קרובות לשידור מידע לגבי המעטפת הספקטרלית, ולכן הוא צריך להיות מסוגל לספוג שגיאות שידור. העברת מקדמי המסנן ישירות אינה רצויה, שכן הם רגישים מאוד לשגיאות. במילים אחרות, טעות קטנה יכולה לעוות את כל הספקטרום, או גרוע מכך, טעות קטנה עלולה להפוך את מסנן החיזוי לבלתי יציב.

קיימות שיטות מתקדמות לייצוג המקדמים כגון מקדמי החזרה LAR ו - LSP. כאשר האחרונה צברה פופלריות שכן היא מבטיחה יציבות של החזאי ושגיאות ספקטראליות הינן מקומיות עבור סטיות מקדמים קטנות.

ראו גם

קישורים חיצוניים

הערות שוליים

  1. ^ Deng, Li; Douglas O'Shaughnessy (2003). Speech processing: a dynamic and optimization-oriented approach. Marcel Dekker. pp. 41–48. ISBN 0-8247-4040-8.