נתונים, קרי ייצוגם המספרי של עובדות או תופעות כלשהן במציאות, מאז ומעולם היו מעמודי התווך של העבודה העיתונאית. עיתונאים משתמשים בנתונים כדי לבחון ולבסס טענות או להציג שינוי בנושא מסוים (למשל מספר המתים מתאונות הדרכים או התפלגות תקציב המדינה). לרוב השימוש בנתונים אלו יהיה זניח יחסית ויהיו חלק נלווה לידיעה העוסקת בנושא רחב יותר. במקרים מסוימים, נתונים תופסים חלק נכבד יותר בידיעה כיוון שהם עומדים במרכזם של מספר תחומי סיקור כגון תחום הכלכלה או תחום הספורט.
בעידן הדיגיטלי ישנה עלייה דרסטית בכמות הנתונים שניתן לייצר, לשמור, להיחשף אליהם, לצרוך או לשתף אותם. למעשה כיום כמעט כל דבר מיוצג במספרים. הסיבות לכך מגוונות ודיון נרחב בהן יוצג בהמשך. לעת עתה כדי לזכור כי העלייה בכמות הנתונים יצרה (ועדיין יוצרת) מקבצי נתונים – דאטה – עצומים במגוון רחב של תחומים. עבור העיתונאי המסורתי מדובר במכרה זהב ממנו הוא יכול לכרות אין סוף של סיפורים. אלא שלעיתונאי המסורתי אין את הכישורים או היכולת לגשת, לעבד ולנתח את כמויות המידע העצומות הללו, וחשוב לא פחות אין לו את הכלים הטכנולוגים הנדרשים על מנת להנגיש את המידע הזה בצורה טובה מספיק לקוראים.
כתוצאה מפער זה, בשנים האחרונות התפתח בעולם העיתונות סגנון חדש של עיתונאות – עיתונאות נתונים, או ה-דאטה ג'ורנליזם (data journalism) על פי ז'רגון המקצועי. מעל הכול מדובר בפרקטיקה עיתונאית בעזרתה מספרים סיפור עיתונאי באמצעות שימוש בנתונים מספריים וכלים דיגיטליים. בניגוד לעיתונות המסורתית, בדאטה ג'ורנליזם, תפקידן של המילים הוא לספק את ההקשר הכללי, ואילו הסיפור מתואר ומוסבר באמצעות מספרים, ונבנה סביבם. בפוסט הנוכחי, וברבים מאלו שיבואו אחריו אני אנסה באמצעות שורה ארוכה של שאלות לפרק ולנתח את התופעה המסקרנת הזו שנקראת דאטה ג'ורנליזם, בין היתר ננסה להבין מהן הסיבות שהובילו להתפתחותה של פרקטיקה זו, מהם מאפייניה, מהם הכלים בהם משתמשים העיתונאים כדי לייצר ידיעות מבוססות דאטה, ומה מגוון הידיעות שניתן לייצר איתם? כמו כן נעמוד על השפעותיה על עולם העיתונות ועל הקהל, על יתרונותיה וחסרונותיה לעומת פרקטיקות מסורתיות יותר של העיתונאים ועוד.
מהי ההכשרה של עיתונאים בתחומי הדאטה?
הסתברות וסטטיסטיקה, כריית נתונים וכו'
דאטה ג'ורנליזם היא פרטיקה שמשלבת יכולות וכישורים ממגוון רחב של תחומים ובעיקרם: עיתונאות, עיצוב גרפי ומדעי המחשב. בנוסף ידע בסיסי בסטטיסטיקה הוא חשוב אך לא הכרחי (ניתן למשל לייצר אייטמים מבוססי צירי זמן ומפות שאינן מחייבים ידע בסטטיסטיקה אך עדין נמצאים תחת ההגדרה של דאטה ג'ורנליזם) . הדאטה ג'ורנליסט האידיאלי יהיה זה שיהיה בעל הכישורים המירבים בכל אחד מהתחומים הללו אך מכיוון שזהו מקרה נדיר, נהוג לעבוד בתחום הזה בצוות הכולל מעצב גרפי, מתכנת ועיתונאי. כל אחד מחברי הצוות בעל כישורים מעמיקים בתחומו וביחד הם יכולים לייצר אייטם מבוסס דאטה בצורה רצינית. יחד עם זאת, במקרים בהם העיתונאי עובד לבדו, אזי מידת הכישורים שיש לו בכל אחד מהתחומים הללו (עיתונאות, עיצוב גרפי ותכנות) ישפיע על סוג האייטם שיוכל לייצר, כמו גם על איכותו. כמו כן, הכישורים הנדרשים מהדאטה גו'רנליסט נגזרים במידה רבה מסוג האייטם שהוא מבקש לייצר. אם הדאטה ג'ורנליסט רוצה לייצר אינפוגרפיקות אזי נדרשים ממנו יותר כישורים גרפיים מאשר עיתונאיים או כישורי תכנות. אם ברצונו לכרות נתונים מאתרי אינטרנט אזי כישוריו צריכים להתרכז בתכנות.
ברמה הבסיסית ביותר, הדאטה ג'ורנליסט צריך כישורים בסיסיים במציאת מקורות מבוססי דאטה (סקרים, דו"חות, API כו'), ידע באקסל או כל תוכנה אחרת שמאפשרת ארגון, ניקוי וניתוח של הדאטה וידע בסיסי בהדמיית נתונים (איך להציג את הנתונים בצורה נכונה).