$
כלכליסט-טק

הסודות שמאחורי הגאדג'טים: הסברים פשוטים לשאלות מורכבות

איך הסמארטפון יודע לסובב את התמונה? למה קוראי הספרים הדיגיטליים לא מעייפים את העיניים? ואיך מזהה הקינקט את תנועות השחקנים? "כלכליסט" נכנס אל תוך הגאדג'טים ומסביר איך זה עובד באמת

עומר כביר 14:55 11.09.11

 

איך הסמארטפון יודע שסובבתי אותו על הצד?

 

אחד החידושים המהפכניים שהפכו את האייפון של אפל להצלחה מסחררת היה יכולתו הכמעט פלאית לדעת באיזו זווית מחזיק המשתמש את המכשיר, ולהתאים את התצוגה אליה. יכולת זו אפשרה ליצור אפליקציות ומשחקים בעלי חוויית משתמש ייחודית, דוגמת משחק נהיגה שבו משמש האייפון עצמו כהגה. כיום האייפון לא לבד, ויכולות אלו קיימות בשלל סמארטפונים וטאבלטים.

 

הטכנולוגיה שמאחורי כולם זהה, והיא אינה פלאית כלל. זיהוי התנוחה שבה מוחזק המכשיר מבוסס על שימוש במד תאוצה (Accelerometer). מדובר במשקולות זעירות אשר מחוברות לקפיצים מיקרוסקופיים, הערוכים בשלושה צירים. כוח המשיכה דוחף את הקפיצים באופן שונה, בהתאם לתנוחה שבה מוחזק המכשיר, וחיישנים מיוחדים קוראים את רמת הלחץ המופעלת על הקפיצים - דבר שמאפשר למערכת ההפעלה של המכשיר לזהות את הזווית שבה הוא מוחזק ואת המהירות שבה הוא נע.

 

 

ואולם, למערכת זו יש מגבלות מסוימות, ובראשן טווח הזוויות המוגבל שלה. באייפון 4, בנוסף למד התאוצה שילבה אפל גם ג'יירוסקופ דיגיטלי, בעל טווח זוויות מלא של 360 מעלות.

 

ג'יירוסקופ מכני מורכב מגלגל וציר נתונים בתוך מסגרת, אשר מאפשרת להם להסתובב סביב עצמם. הכוחות שנוצרים בזמן הסיבוב מאפשרים לג'יירוסקופ להתייצב בצורה אנכית על כל משטח. בהתאם לחוק השלישי של ניוטון, שלפיו גוף שמופעל עליו כוח כלשהו מגיב בכוח שווה בעוצמתו אך מנוגד לכיוונו, כך גם הג'יירוסקופ מתנגד לכל לחץ שמופעל עליו.

 

תכונה זו שימושית מאוד לקביעת זוויות של חפצים. במטוסים מודרניים, למשל, מותקן ג'יירוסקופ בתוך כלוב מיוחד, המאפשר לו להישאר מאונך בכל מצב. כאשר המטוס משנה את זוויתו, נעים חיישנים המותקנים מסביב לג'יירוסקופ, וכך ניתן לחשב את זווית המטוס ביחס לג'יירוסקופ. הסרטון הבא מדגים זאת מצוין.

 

 

הג'יירוסקופ הדיגיטלי שבאייפון מתבסס על עקרונות דומים אך מיישם אותם בצורה שונה. ההבדל המרכזי הוא, כמובן, היעדרו של גלגל מסתובב: מדובר באמצעי מכני מורכב מדי ובעל צריכת אנרגיה גדולה מדי בשביל גאדג'ט קטן. במקום זה נעשה שימוש ב־Micro Electro Mechanical System, או בשפה פשוטה יותר, מערכת הכוללת רכיבים אלקטרוניים ומכניים בקנה מידה מיקרוסקופי.

 

הרכיב המרכזי במערכת זו הוא לוחית מתכת המכונה באנגלית Proof Mass, שרוטטת כאשר מועבר בה זרם חשמלי. בדומה לג'יירוסקופ מסתובב, עצמים רוטטים ימשיכו לרטוט באותה זווית, גם אם הכלי שבו הם נתונים משנה את זוויתו. כאשר אנו מניעים את האייפון 4 לפנים, לאחור, ימינה או שמאלה, המכשיר עצמו נע סביב אותה לוחית. ובדומה למטוס, חיישנים המותקנים מסביב למכשיר יכולים לחשב את השינוי בתנוחת המכשיר, בהתאם לשינוי היחסי בזווית של הלוחית.

 

אז מה באמת קורה בתוך הסמארטפון שלכם?
אז מה באמת קורה בתוך הסמארטפון שלכם?איור: רחלי שלו

 

איך הקינקט עוקב אחריכם?

 

הקינקט, בקר התנועה לקונסולת אקס בוקס 360 של מיקרוסופט אשר פיתחה פריימסנס הישראלית, הוא מהכלים הראשונים ששחררו את התלות שלנו בעזרים חיצוניים, בזכות השילוב של כמה תכונות מתקדמות.

 

ראשית, רכיב מיוחד בבקר פולט אור אינפרה־אדום. אור זה פוגע בעצמים שעומדים מול המצלמה, חוזר אליה ושם נקלט על ידי חיישן מיוחד, המודד את הזמן שלקח לו לחזור למצלמה. כמו במכ"מ, היכולת למדוד את פרק הזמן הזה מאפשרת לקינקט לאמוד את המרחק של העצם ולדעת אם הוא מתקרב, מתרחק או עומד במקום. כך נוצרת תמונה תלת־ממדית של הסביבה שמול הקינקט בדיוק כה רב, עד שאפשר להבחין גם בתנועות קטנות יחסית, כמו תזוזה של היד.

 

תכונה מתקדמת נוספת מאפשרת תרגום חכם של המידע שנאסף. כך למשל, המערכת יודעת להבדיל בין אדם לסתם חפץ באמצעות אלגוריתם שמגדיר לה כי "אדם" הוא אוביקט שנמצא בטווח גבהים מסוים וכולל שתי ידיים ושתי רגליים. נשמע בסיסי, אבל אלגוריתם זה מונע מהקינקט לזהות את הכלב שלכם כשחקן נוסף שהצטרף למשחק.

 

הקינקט גם יודע לנתח את הסיטואציה שבה אתם נמצאים. תנוחה מסוימת יכולה להסתיר למצלמה חלק מהגוף, וכדי לפתור את הבעיה הזו כולל הקינקט מאגר של תנוחות גוף נפוצות, שמאפשר להשלים את חלקי הגוף המוסתרים. המערכת גם "מחפשת" תנועות גוף בהתאם למשחק, כך שבמשחק נהיגה היא תתמקד באיתור תנועות ידיים רלבנטיות ותתעלם מפעולות שלא קשורות בנהיגה.

 

שחקני קינקט. אם כלב עובר בסביבה, הבקר לא יזהה אותו כשחקן
שחקני קינקט. אם כלב עובר בסביבה, הבקר לא יזהה אותו כשחקןצילום: יאיר שגיא

 

למה הקינדל לא מעייף את העיניים?

 

כל מי שניסה לקרוא לאורך זמן ממושך טקסט במחשב, בסמארטפון או בטאבלט, מכיר את התופעה: לאחר זמן מה העיניים מתעייפות והקריאה נעשית קשה יותר ויותר. אז מה הסוד של קוראי הספרים הדיגיטליים, דוגמת הקינדל של אמזון, המיועדים בראש ובראשונה לקריאת ספרים עבי כרס?

 

מסכי LCD, מהסוג שיש כנראה במחשב, בטלוויזיה או בסמארטפון שלכם, פועלים באמצעות הקרנת אור דרך שני רכיבים אופטיים המכונים מקטבים, שביניהם מצויות מולקולות גביש נוזלי. זרם חשמלי מאפשר לשנות את זווית המולקולות האלה, וכך בעצם מווסת את האור. כל פיקסל במסך LCD מורכב מאוסף של כמה מולקולות כאלו.

קינדל
קינדל

 

מסכי E-ink (כמו זה שיש בקינדל) עובדים בצורה פשוטה יותר: התצוגה במסכים אלו מבוססת על קפסולות זעירות ברוחב שערה אנושית, המושהות בנוזל. קפסולות אלו מכילות חלקיקים לבנים בעלי מטען חיובי וחלקיקים שחורים בעלי מטען שלילי. זרם חשמלי שלילי מציף את החלקיקים הלבנים כלפי מעלה, ואילו זרם חשמלי חיובי מבצע את אותה פעולה בקרב החלקיקים השחורים.

 

באמצעות הפעלת הזרם המתאים על הקפסולות, מוצגות המילים והתמונות הרצויות על גבי המסך. המסך לא זקוק למקור תאורה מיוחד, ודי בתאורה שבסביבה כדי לקרוא מהם. בנוסף, לא נדרש זרם חשמלי כדי להציג את התמונה, אלא רק כדי לשנותה. התוצאה היא תצוגה שכמעט אינה מרצדת, וצורכת הרבה פחות אנרגיה ממסכי LCD.

 

איך הטלפון יודע היכן הכספומט הקרוב?

 

מציאות מועשרת או מרובדת (Augmented Reality ובקיצור AR), הופכת למושג שגור בזכות אפליקציות אייפון ואייפד שונות. מה זה בעצם? מדובר בכל יישום או הליך שמוסיף שכבה של מידע לתמונת המציאות המוצגת, בין אם בזמן אמת ובין אם לאו. לצורך העניין, גם שידור חוזר של מהלך במשחק ספורט, שבו מסומנים על גבי המסך תנועות השחקנים, עונה להגדרה של מציאות מועשרת.

 

אבל העניין האמיתי הוא יישומים, לרוב למכשירים ניידים, המספקים שכבה נוספת על גבי תמונת הסביבה, לצורכי משחק, שעשוע או מידע. כל יישום AR מורכב משלושה גורמים: תמונת המציאות, זו שנלכדת בעדשת המצלמה ומוצגת על גבי מסך המכשיר; המידע המוצג, שמגיע ממאגר מידע מוגדר (מקוון או מקומי); והרכיב שמקשר בין השניים, זה שבוחר את המידע המתאים ומציג אותו בנקודה הנכונה על גבי שכבת המציאות.

 

מציאות מרובדת
מציאות מרובדת

 

אותו גורם מקשר הוא לרוב רכיב ה־GPS, בשילוב עם המצפן הדיגיטלי של המכשיר. מרגע שהמכשיר יודע באיזה מקום בעולם נמצא המשתמש ולאיזה כיוון הוא פונה, הוא יכול להציג על גבי המסך מידע רלבנטי ממאגר המידע. למשל, אפליקציה לחיפוש דירות תוכל להציג מידע על דירה למכירה שאליה מופנית מצלמת המכשיר, אפליקציית מסעדות תפרט מנות נבחרות ושעות פעילות, ומדריך למציאת עסקים יציג בתי עסק שנמצאים בסמוך.

 

באפליקציות מסוימות, דוגמת משחקים, אין צורך ב־GPS. המשחק AR Invaders, שמפותח על ידי חברת SoulBit7 הישראלית, מציג מציאות מועשרת על מסך האייפון. המשחק מבוסס על המשחק הקלאסי פולשי החלל (Space Invaders), שבו מוצגות החלליות על רקע הסביבה הנקלטת בעדשת המצלמה. במשחק זה אין חשיבות למיקום המשתמש, ולכן לא נעשה שימוש ב־GPS.

 

מה שרלבנטי הוא הכיוון שאליו מופנה המכשיר, הזווית שבה הוא מוחזק ומהירות התנועה שלו - שכן האויבים מגיעים מכל הכיוונים ועל המשתמש לחפש אותם בעזרת מצלמת המכשיר. לצורך זה עושה המשחק שימוש במצפן, מד התאוצה והג'יירוסקופ, כדי לקבוע את הכיוון שאליו מופנה המכשיר ותנוחתו, ולהציג את הגרפיקה המתאימה.

 

גורם מקשר אחר יכול להיות מצלמת המכשיר עצמו. מעבר לשימושה לצורך קליטת תמונת המציאות, באפליקציות מסוימות ניתן להשתמש במצלמה כדי לזהות את העצמים הנקלטים בה ולהציג מידע רלבנטי עליהם. למשל, המצלמה יכולה לזהות את מגדל אייפל בפריז, בהתאם למאגר מידע שהוא חלק מהאפליקציה, ולהציג מידע רלבנטי לגביו.

 

המחשב זיהה תמונה שלי. איך הוא יודע מי אני?

 

היכולת לתייג אוטומטית את כל חברי הפייסבוק שלכם היא אמנם חשובה, אך ליכולת זיהוי הפנים של מחשב יכולים להיות עוד שימושים, קריטיים לא פחות - למשל במערכות אבטחה שונות ובסיוע למלחמה בטרור. על מנת שתוכנה כלשהי תדע לזהות מי זה יוסי ומי זה חיים, היא צריכה קודם לדעת אם יש בכלל פנים בתמונה (Face Detection): מרגע שאותרו פנים, אפשר לנסות ולזהות למי הם שייכים.

 

הטכנולוגיות הידועות והמסורתיות מתבססות על איתור יחסים בפנים עצמם (מרחק בין עיניים, גודל האף, מרחק בין העין לאף, גודל הפה), והשוואתם לנתונים שהוגדרו מראש לצורך זיהוי האדם. ואולם, טכנולוגיות אלו מושפעות מאוד מגורמים משתנים כמו תנאי התאורה, רזולוציית התמונה ואף התנוחה שבה ניצב המשתמש. בתמונת דו-ממדיות קשה לאמוד מרחקים, ושינוי זווית של 20 מעלות יוצר הבדל גדול.

 

עם בעיות אלה התמודדו אותן טכנולוגיה באמצעות המרת התמונה מצבע לשחור-לבן, מה שמפחית מהחשיבות של תנאי התאורה, וכן באמצעות יישור אוטומטי של התמונה, שמבטל הבדלים בתנוחות (למשל, לתקן אותה כך שהעיניים יוצגו בקו ישר).

 

זיהוי פנים
זיהוי פנים

 

ואולם, פייסבוק ומיליארדי התמונות שהעלו אליה משתמשים אפשרה את כניסתה של טכנולוגיה חדשה, שעושה שימוש במאגרי התמונות הנרחבים של הרשת החברתית על מנת לזהות פנים. החלוצה בתחום זה היא Face.com הישראלית, שהטכנולוגיה שפיתחה נחשבת לאחת מהתמקדמות בעולם בתחום.

 

אדן שוחט, אחד ממייסדי Face.com, מסביר: "הטכנולוגיה שלנו לומדת לזהות בן-אדם ספציפי, באמצעות איתור מאפיינים שמבדילים אותו מאנשים אחרים. אם לבן אדם יש אף גדול, שומה, שפתיים צרות במיוחד ועיניים ירוקות, האלגוריתם שלנו יוכל לזהות אותו בתוך תמונות שונות, להשתמש במאפיינים אלו על-מנת להבדיל בינו לבין אנשים אחרים".

 

על מנת שטכנולוגיה זו תעבוד בהצלחה דרוש בסיס תמונות רחב, הן של מי שמבקשים לזהות והן של אנשים אחרים כבסיס להשוואה. היקף התמונות העצום בפייסבוק מתאים לכך במיוחד, ומאפשר למערכת של Face.com לזהות את הופעתו של אדם ספציפי בתמונות שונות, בזוויות שונות ובתנאי תאורה שונים. למרות התחכום, עדיין דרוש למערכת מגע אנושי, שיקבע את זהותו של המצולם. זה נעשה באופן חד־פעמי על ידי המשתמש או, אם יש הרשאת גישה, על סמך תמונות שכבר הועלו לחשבון הפייסבוק. 

x