דמיין את עצמך יושב רגוע על הספה ורק מזמין את המחשב או המחשב הנייד או הטלפון הסלולרי שלך לבצע משימות פשוטות כמו להקליד מכתב או לבצע כמה פקודות. האם זה אפשרי?

כמובן שזה המקום בו זיהוי קול נכנס לתמונה.

בהגדרה זה תהליך של הכרה בדיבור אנושי ופענח אותו לטופס טקסט.

עִקָרוֹן

העיקרון הבסיסי של זיהוי קולי כרוך בעובדה שדיבור או מילים שנאמרות על ידי בן אנוש כלשהו גורמים לרטט באוויר, המכונים גלי קול. גלים רציפים או אנלוגיים אלה עוברים דיגיטציה ומעובדים ואז מפוענחים למילים מתאימות ואז למשפטים מתאימים.

זיהוי קולי

רכיבי מערכת זיהוי דיבור

אז ממה מורכבת מערכת זיהוי דיבור בסיסית?

רכיבי מערכת זיהוי דיבור

מכשיר לוכד נאומים : הוא מורכב ממיקרופון, הממיר את אותות גלי הקול לאותות חשמליים וממיר אנלוגי לדיגיטלי המדגים ומספר את האותות האנלוגיים כדי להשיג את הנתונים הנפרדים שהמחשב יכול להבין.
מודול איתות דיגיטלי או מעבד : הוא מבצע עיבוד על אות הדיבור הגולמי כמו המרת תחום תדרים, ומשחזר רק את המידע הנדרש וכו '.
אחסון אותות מעובד מראש : הדיבור המעובד מראש נשמר בזיכרון לביצוע משימה נוספת של זיהוי דיבור.
התייחסות לדפוסי דיבור : המחשב או המערכת מורכבים מדפוסי דיבור או תבניות מוגדרים מראש שכבר נשמרים בזיכרון, וישמשו כנקודת התייחסות להתאמה.
אלגוריתם התאמת תבניות : אות הדיבור הלא ידוע מושווה לדפוס הדיבור להתייחסות כדי לקבוע את המילים בפועל או את דפוס המילים.

עבודה של המערכת

עכשיו בואו נראה איך המערכת כולה עובדת בפועל.

עבודה של המערכת

ניתן לראות נאום כצורת גל אקוסטית, כלומר מידע הנושא אות המסר. בן אדם רגיל עם קצב תנועה מוגבל של המפרקים שלו (איברי דיבור) יכול להפיק דיבור בקצב ממוצע של 10 צלילים בשנייה. קצב המידע הממוצע הוא כ- 50-60 ביט / שנייה. זה אומר שלמעשה נדרש רק 50 ביט / שנייה של מידע באות הדיבור. צורת גל אקוסטית זו מומרת לאותות חשמל אנלוגיים על ידי המיקרופון. הממיר האנלוגי לדיגיטלי ממיר אות אנלוגי זה לדגימות דיגיטליות על ידי ביצוע מדידות מדויקות של הגל במרווחים נפרדים.
האות הדיגיטלי מורכב מזרם של אותות תקופתיים שנדגמו ב 16000 פעמים בשנייה ואינו מתאים לבצע בפועל זיהוי דיבור תהליך מכיוון שלא ניתן לאתר את התבנית בקלות. כדי לחלץ את המידע בפועל, האות בתחום הזמן מומר לאות בתחום התחום. זה נעשה על ידי מעבד האותות הדיגיטלי בטכניקת FFT. באות הדיגיטלית, הרכיב אחרי כל 1/100^השל שניה נותח וספקטרום התדרים עבור כל רכיב כזה מחושב. במילים אחרות האות הדיגיטלי מפולח לחלקים קטנים של משרעות תדרים.
כל קטע או גרף התדרים מייצגים את הצלילים השונים שמשמיעים בני אדם. המחשב מבצע התאמה של הקטעים הלא ידועים לפונטיקה המאוחסנת של השפה המסוימת. התאמת תבנית זו נעשית בשלוש דרכים:

באמצעות גישה פונטית אקוסטית : בגישה הפונטית האקוסטית, בדרך כלל משתמשים במודל מרקוב הנסתר. מודל זה מפתח מודל הסתברות לא דטרמיניסטי לזיהוי הדיבור. מודל זה מורכב משני משתנים - המצבים הנסתרים של הפונמות השמורות בזיכרון המחשב וקטע התדרים הגלוי של האות הדיגיטלי. לכל פונמה יש הסתברות משלה והקטע תואם לפונמה על פי ההסתברות והפונמות המותאמות אז נאספות יחד כדי ליצור את המילים הנכונות על פי כללי הדקדוק השמורים.

באמצעות גישה לזיהוי תבניות : בגישה לזיהוי תבניות, המערכת מאומנת עם דפוס דיבור מסוים לכל שפה ודפוס הדיבור הלא ידוע מושווה לדפוס הדיבור הייחוס על ידי קביעת המרחק בין האותות בטכניקת עיוות זמן.

שימוש בבינה מלאכותית : גישת האינטליגנציה המלאכותית מבוססת על ניצול מקורות ידע בסיסיים כמו ידיעת צלילים הנאמרים על בסיס מדידות ספקטרליות, הכרת מילים משמעותיות ותחבירתיות נכונות.

גורמים בהם תלויה מערכת זיהוי הדיבור

מערכת זיהוי הדיבור תלויה בגורמים הבאים:

מילים מבודדות : צריך להיות הפסקה בין המילים הרציפות שנאמרות מכיוון שמילים רציפות יכולות לחפוף ומקשות על המערכת להבין מתי מילה מתחילה או מסתיימת. לכן צריך להיות שקט בין מילים רצופות.
רמקול יחיד : דוברים רבים המנסים לתת קלט דיבור בו זמנית עלולים לגרום לחפיפה של האותות וההפרעות. רוב מערכות זיהוי הדיבור המשמשות הן מערכות תלויות רמקולים.
גודל אוצר המילים : קשה להתייחס לשפות בעלות אוצר מילים גדול להתאמת תבניות מאשר לשאלות בעלות אוצר מילים קטן, שכן הסיכויים למילים דו-משמעיות נמוכות יותר באחרות.

מערכת זיהוי דיבור ב- Windows 7

ברצוני להמליץ על הצעדים הבאים לכל אדם המשתמש ב- Windows 7 למערכת זיהוי הדיבור

פתח את לוח הבקרה מתפריט ההתחלה או על ידי לחיצה על הסמל.
בחר קלות גישה ואז לחץ על זיהוי דיבור.
לחץ על הגדר מיקרופון הבא ובחר מיקרופון שולחן עבודה מבין האפשרויות הזמינות.
לאחר מכן קח את מדריך הדיבור ופעל לפי ההוראות הנתונות.
לאחר מכן, הכשיר את המחשב שלך לאפשרויות טובות יותר, כך שהמחשב יאחסן תבנית מוגדרת של אות הדיבור שלך. זה נעשה על ידי לחיצה על האפשרות 'אימן את המחשב שלך כדי להבין אותך טוב יותר' ולאחר מכן פעל לפי ההוראות.
עכשיו התחל את סמל זיהוי הדיבור והתחל להכתיב את הדיבור שלך למחשב. אתה יכול גם להוסיף מילים משלך למילון המחשבים.

מערכות זיהוי דיבור מעשיות: שימוש ב- HM2007

ניתן לבנות מערכת זיהוי דיבור מעשית באמצעות IC זיהוי דיבור HM2007 . HM2007 הוא IC עם 48 פינים המספק פונקציית זיהוי דיבור. זה עובד בשני מצבים: מצב ידני או מצב מעבד. בשני המצבים, ה- IC מאומן לראשונה בזיהוי מילים על ידי המשתמש האומר כל מילה למספר המתאים שנלחץ על המקש. ה- IC מאחסן כל אות מילים במיקום הזיכרון המתאים למילה. פלט הנתונים מה- IC מתממשק למיקרו-בקר ממנו הוא מוצג על גבי ה- LCD.

מערכות זיהוי דיבור מעשיות

בדרך כלל אנו משתמשים במצב ידני להפעלת HM2007.

ה- HM2007 מורכב מסיכת RDY שהיא סיכה נמוכה פעילה המציינת שה- IC מוכן למטרת אימונים.
הכניסה הקולית תינתן באמצעות מיקרופון המחובר לסיכת MICIN של ה- IC.
ה- IC מתממשק עם לוח המקשים המשמש לספק קלט מספר המתאים לכל מילה. ה- IC עובד בשתי פונקציות - Clear ו- Train. כאשר לוחצים על מקש הרכבת על המקלדת, ה- IC מתחיל בתהליך האימון שלו.
המשתמש לוחץ על מקש מספר לפני לחיצה על מקש הפונקציה 'רכבת' ואומר את המילה הנדרשת למיקרופון.
ה- IC שולח אות גבוה לפין ME (זיכרון אפשר) המחובר לסיכת ME המתאימה של SRAM. אות הנתונים של 8 סיביות המתאים למספר שנלחץ נשמר ב- SRAM (זיכרון RAM חיצוני) דרך האוטובוס החיצוני.
לאחר זיהוי הקלט הקולי, סיכת ה- RDY גבוהה בהיגיון וה- IC מגיע למצב זיהוי, שם הוא מתחיל את תהליך הזיהוי.
התוצאה של התהליך ניתנת דרך אוטובוס הנתונים עם סיכת DEN (Data Enable) גבוהה.
נתוני 8 הסיביות ניתנים לאחר מכן למיקרו-בקר באמצעות מעבד ממשק סדרתי או נעולים לראשונה באמצעות תפס IC 74HC573.
המיקרו-בקר מתממשק עם LCD ומתוכנת כך שהמילה המתאימה תוצג בתצוגה.

אמצעי הזהירות היחיד שיש לנקוט הוא לא להשתמש בהומונים (מילים עם צליל דומה) וגם לדאוג לריגוש בקול.

אז, ככה א מערכת זיהוי דיבור בסיסית עובד. כל קלט נוסף מוזמן להוסיף.