اکونومیست
مترجم: جلیل پژواک
متخصصان دستور زبان دیریست دربارهی اینکه واژه انگلیسی data به معنی مفرد آن استفاده شود یا جمع، اختلافنظر دارند. (اکونومیست برخلاف استفاده رایج این واژه، دیتا را در معنای جمع آن استفاده میکند.) پرسش این است که چرا دادهها اینقدر چندگونه است؟ چرا دادهها اینقدر چهرهها/جوانب مختلف دارد؟
برای یافتن پاسخ این پرسش از استعارههایی که برای توصیف جریان دادهها استفاده میشود، شروع میکنیم. دادهها در ابتدا به نفت تشبیه شدند؛ تشبیهی که نشان میدهد دادهها نیروی سوخت آینده است. اخیرا دادهها را با نور خورشید مقایسه کردهاند؛ زیرا دادهها همانند نور خورشید بهزودی همهجا خواهد بود و همهچیز را تحت شعاع قرار خواهد داد. در مواردی هم از دادهها بهعنوان زیرساخت صحبت شده است؛ به این معنا که دادهها باید بهعنوان نوعی دوقلوهای دیجیتال جادهها یا راهآهن در نظر گرفته شود؛ زیرساختهای اساسی که مدیریت آن نیاز به سرمایهگذاری عمومی و ایجاد نهادهای جدید دارد.
تعدد استعارهها نشاندهندهی اقتصاد نرم دادهها است. اول، دادهها «غیررقابتی» هستند: غیررقابتیبودن به این معنا است که مصرف آن کالا توسط یک نفر، دسترسی کالا برای مصرف توسط دیگران را محدود نمیکند. اما دادهها «تخصیصپذیر» نیز هستند: به این معنا که میتوان آن را به کسی یا کسانی تخصیص داد و افراد دیگر را از استفاده آن مستثنی کرد. فناوریهایی چون رمزگذاری میتواند کنترل کند چه کسی به دادهها دسترسی داشته باشد و چه کسی نداشته باشد. در واقع بسته به نوعیت رمزگذاری و مکان آن، دادهها میتوانند مانند نفت کالای شخصی، یا مانند نور خورشید کالای عمومی یا چیزی در بین این دو که «کالای باشگاهی» یاد میشود، باشد.
این مفاهیم نشان میدهد که صرفا یک اقتصاد داده وجود ندارد بلکه سه اقتصاد کموبیش متمایز از هم وجود دارد و هرکدام نیز ایدئولوژی خاص خود را دارند. پرسش مهم این است که آیا امکان دارد یکی از اینها بهعنوان اقتصاد غالب مطرح شود یا خیر.
اگر نفت هنوز پراستفادهترین استعاره در مورد دادهها است، به این دلیل است که مقایسه دادهها با چیزهای سیاه آسان است. دادهها همانند نفت باید نخست تصفیه شوند تا مفید واقع شوند. در بیشتر موارد، دادهها باید «پاکسازی» و «برچسبگذاری» شوند؛ به این معنا که اشتباهات آن برداشته شود و مشخص شود که چه چیزی مثلا در یک ویدیو، دیده شود. همین پاکسازی و برچسبگذاری دادهها باعث ایجاد صنعت جهانی شده است که صدها هزار نفر عمدتا در کشورهای کمدرآمد، در آن مشغول کارند. استارتاپ (Scale ai) در سانفراسیسکو حدود 30 هزار برچسبگذار در سراسر جهان استخدام کرده که فیلمهای مربوط به موترهای خودران را بررسی میکنند تا اطمینان حاصل کنند که نرمافزارهای این شرکت مواردی چون خانه و پیادهرو و پیادهها را به درستی شناسایی و طبقهبندی میکند.
قبل از اینکه دادهها بتوانند نیروی خدمات هوش مصنوعی را تأمین کنند، باید از طریق الگوریتم تغذیه شوند. به این معنا که آنها بیاموزند که چهرهها را شناسایی کنند، موترهای خودران را هدایت و پیشبینی کنند که موتورهای جت چه موقع نیاز به بررسی و ترمیم دارند. و برای اینکه الگوهای آماری لازم شکل بگیرد، مجموعهدادههای مختلف باید ترکیب شوند. برای مثال در مورد موتورهای جت، ترکیب دادههای مصرف و دادههای آبوهوا به پیشبینی ساییدگی و پارگی کمک میکند.
دلیل دیگر استفاده از نفت بهعنوان استعاره برای دادهها این است که برخی از انواع دادهها و برخی از بینشهای استخراجشده از آنها از هماکنون بهطور گسترده مورد معامله قرار میگیرند. تبلیغات آنلاین شاید بزرگترین بازار دادههای شخصی باشد: کلیکها براساس پروفایل دیجیتالی دقیق هر بیننده یا کاربر، خرید و فروش میشود. براساس گزارش شرکت مشاورهدهی (Strategy&) ارزش معاملهی کلیک در سال 2018 در سطح جهان 178 میلیارد دالر بوده است. دلالان دادهها نیز که میتوانند هزاران نقطهداده را برای هر فرد ردیابی کنند، کاروبار پر رونقی با اطلاعات شخصی افراد پیش میبرند. آنها این اطلاعات را به هرکس و هر نهادی، از بانکها گرفته تا شرکتهای مخابراتی، میفروشند و سالانه طبق گزارش شرکت Strategy& درآمدی بیش از 21 میلیارد دالر برای خود تولید میکنند.
ارائه بینش استخراجشده از دادهها نیز میتواند سودآور باشد. در وبسایت Kaggle که متعلق به گوگل است و مسابقات یادگیری ماشینی را میزبانی میکند، هزاران تیم متشکل از دانشمندان داده با یکدیگر رقابت میکنند که ببینند چه کسی میتواند بهترین الگوریتمها را برای پیشبینی مصرف انرژی یک ساختمان یا تشخیص ویدیوهای «جعل عمیق» توسعه دهد. جوایز این مسابقات گاهی بیش از 1 میلیون دالر تعیین میشود. استخراج بینش از دادهها، راه و روش گوگل و فیسبوک برای کسبدرآمد نیز میباشد. آنها به ندرت دادهها را میفروشند اما فروش بینشهای استخراجشده از این دادهها مثلا در مورد اینکه چه کسی بهترین هدف برای تبلیغات کفش یا موتر است، راه اصلی شان برای کسبدرآمد است.
مجمع جهانی اقتصاد در سال 2011 پیشبینی کرده بود که دادهها در آینده به «طبقه جدید دارایی» تبدیل میشوند، اما اینطور نشده است. اکثر دادهها هرگز دستبهدست نمیشوند و تلاشها برای قابلمعاملهتر ساختن آنها به جایی نرسیده است. تولیدکنندگان، به ویژه در اروپا، برای تغییر این امر در تلاشند تا حق مالکیت دادههای حاصلشده از محصولات خود را به دست بیاورند. برخی دیگر میخواهند که مصرفکنندگان دادههایی را که ایجاد میکنند، خود تحت مالیکت داشته باشند تا بعدا بتوانند آنها را بفروشند و سهم بیشتری از اطلاعات خود به دست بیاورند.
با اینحال، مسأله باز هم اقتصاد است. هرچند دادهها اغلب بهعنوان کالا تصور میشود اما مجموعهدادههای شرکتی نمیتوانند کالای قابلمعاوضه (کالای مثلی) باشند. هر مجموعه داده از لحاظ نحوه جمعآوری، هدف و قابلاطمینانبودن آن متفاوت است. این امر توافق بین خریداران و فروشندگان را در مورد قیمت دادهها دشوار میکند؛ به این معنا که مقایسه و تغییر ارزش انواع دادهها در طول زمان دشوار است. مانع دیگر سد راه تجارت دادهها این است که ارزش یک مجموعهداده به این بستگی دارد که چه کسی آنرا کنترل میکند. آنچه که امکان دارد صرفا دادههای ناکارآمد برای یک شرکت باشد، میتواند برای شرکت دیگر طلای دیجیتال به حساب آید. دیان کویل از دانشگاه کمبریج میگوید: «برای دادهها یک ارزش واقعی وجود ندارد.»
تعریف حق مالکیت برا دادههای شخصی دشوار است، زیرا بسیاری از اطلاعات را نمیتوان به یک شخص نسبت داد. برای مثال، چه کسی میداند که یک سایت دوستیابی یک زوج را به هم رسانده است؟ خود زوج؟ یا خدمات؟ آنچه حق مالکیت برای دادههای شخصی را پیچیده میکند این است که دادهها ظواهر مثبت و منفی بسیاری دارد که بازار نمیتواند با آن سازگار شود. چرا یک شبکه اجتماعی دادههای شخصی کاربری را بخرد وقتی خودش میتواند با تحلیل دادههای سایر کاربران پیشبینی دقیقی درباره او انجام دهد؟
هرچند بعید است زمینه دادوستد گسترده دادهها (مانند نفت) فراهم شود اما بنگاههای فناوری تلاش میکنند معامله دادهها را آسانتر کنند. «خدمات وب آمازون» که بازوی رایانش ابری این غول تجارت الکترونیکی به تازگی بازارچهای را راهاندازی کرده است که هدف آن آسانساختن تجارت دادهها است. این بازار اندکی شبیه به فروشگاه آنلاین اپلیکیشنهای تلفنهای هوشمند (اپ استور) کار میکند: خریداران مشترک میشوند، با شرایط خدمات آن موافقت میکنند و خدمات وب آمازون پرداخت را پروسس میکند.
از آنجا که استعاره نفت برای دادهها بهطور فزایندهای مشکلساز است، اینروزها مقایسه دادهها با نور خورشید یا منابع مشابه مانند هوا و آب، رایجتر شده است. بسیاری از کسانی که این استعاره را ترجیح میدهند، میخواهند بدانند که اگر دادهها را واقعا نمیتوان به کالاهای قابل معامله تبدیل کرد، پس چرا بیهوده تلاش کنیم؟ آیا بهتر نیست که مطمئن شویم که از دادهها تا جایی که امکان دارد استفاده شود؟ آخر استفاده از داده میتواند ثروت اجتماعی را به حداکثر برساند. به عبارت دیگر، مگر چه کسی روی خورشید پرده میاندازد تا از تابش نور آن پول بگیرد؟
این استدلال به تولد آنچه که بهعنوان جنبش «داده باز» شناخته میشود، منجر شده است. طرفداران این جنبش سازمانها و دانشگاهها را وارد میکنند تا دادههای خود را در دسترس عموم (مثلا استارتاپها) قرار دهند تا بتوان از آنها بهصورت گسترده استفاده کرد. امروزه اکثر حکومتها پروژههایشان در زمینه داده باز را به رخ یکدیگر میکشند هرچند کیفیت دادههایی که در دسترس عموم قرار میگیرند، بسیار متفاوت است.
اخیرا شرکتها نیز شروع انتشار دادههای خود کردهاند. چندین شرکت که در زمینه موترهای خودران کار میکنند، برخی از اطلاعات جمعآوری توسط موترهای خود را در دسترس عموم قرار دادهاند. دراگومیر انگلوف، سرمحقق شرکت (Waymo) متعلق به شرکت فناوری (Alphabet)، شرکتی که گوگل زیرمجموعهای از آن است، میگوید: «برای اینکه پژوهشگران پرسش درست را بپرسند، به دادههای مناسب نیاز دارند.» برخی دیگر در حال کار روی فناوریهایی هستند که اشتراکگذاری دادهها را آسانتر کند. برای مثال مایکروسافت و سایر شرکتهای سازنده نرمافزار به زودی اجرای آنچه را که «ابتکارعمل داده باز» نامیده شده، آغاز خواهند کرد.
برخی محققان این تلاشها را آغاز جنبش منبع باز برای دادهها میدانند. این دقیقا مانند رویکردی است که اکنون بر بخش بزرگی از صنعت نرمافزار حاکم است. شرکت مایکروسافت مشتاق است این اتفاق بیفتد. برد اسمیت، رییس و مدیر حقوقی ارشد شرکت مایکروسافت در کتاب خود «ابزار و اسلحه» مینویسد که «ما باید هوش مصنوعی و دادههایی را که هوش مصنوعی به آن اتکا میکند دموکراتیزه کنیم.» جای تعجب ندارد که این حرف طعم منافع شخصی دارد، زیرا مایکروسافت بهصورت مستقیم از دادهها درآمد چندانی ندارد، اما ابزارها و خدماتی که دادهها را کنترل میکنند، منبع درآمد مایکروسافت است.
با اینحال، قیاس داده بهعنوان نور خورشید میتواند تا حدودی مانند مقایسه آن با نفت باشد: دادههای باز نیز با محدودیت مواجه است. محدودیت اصلی برای دادههای شخصی، قوانین مربوط به حریم خصوصی مانند «مقرره عمومی حفاظت از دادهها»ی اتحادیه اروپا و همچنین «قانون حفظ حریم خصوصی مصرفکننده» ایالت کالیفرنیا که از ماه جولای اجرایی میشود، است. برای دادههای شرکتی، محدودیتها ماهیت اقتصادی دارند: تولید دادههای خوب گران است و میتواند چیزهای زیادی را درباره محصولات یک شرکت افشا کند. مایکل چوی از «موسسه جهانی مککینز» که یک اندیشکدهی مشاورهدهی است، میگوید: «شرکتهای تصامیم بسیار استراتژیکی را در مورد مجموعهدادههایی که عمومی خواهند کرد و دادههایی که محرمانه نگه خواهند داشت، اتخاذ میکنند.»
جداکردن/تفکیک آنچه که میتوان با اطمینان عمومی کرد از آنچه که باید شدیدا محافظت شود، دشوار خواهد بود، اما فناوری باید به مرور زمان چنین تصامیمی را آسانتر کند. برای مثال، حریم خصوصی تفاضلی (differential privacy) یک مجموعهداده را با دادههای دیگری که شامل اطلاعات مختلف اما الگوهای آماری یکسان است، جایگزین میکند. رمزنگاری همریختی (Homomorphic encryption) به الگوریتمها اجازه میدهد دادهها را بدون رمزگشایی آنها تحلیل کنند. همچنین زنجیره بلوکی (blockchains) بانکهای اطلاعاتی خاصی هستند که پایه بسیاری از ارزهای دیجیتال را تشکیل میدهند و به مردم و شرکتها این امکان را میدهند تا با جزئیات دقیقه به دقیقه کنترل کنند که چه کسی اجازهی دسترسی به دادههایشان را داشته باشد و چه کسی تاکنون داشته است.
این فناوریها به آرامی جا میافتند. ابتکار «رمزگشایی» که تا سال گذشته توسط اتحادیه اروپا تمویل میشد، از ترکیبی از این فناوریها برای ایجاد ابزاری استفاده کرده است که به فرد امکان میدهد دادههایی را که در مورد محیط خود بهعنوان مثال در مورد سطح آلودگی صوتی و کیفیت هوا، تولید و جمعآوری میکنند، کنترل کنند.
چنین فناوریهای کنترل داده کسانی که دادهها را به زیرساختها تشبیه میکنند، نیز کمک میکند. جنی تنیسون، رییس «موسسه داده باز» که یک مرکز پژوهشی در انگلیس است، میگوید که شما باید جادههای دیجیتال بسیاری را طی و مجموعهدادهها و جریانهای مختلفی را ترکیب کنید تا به بینشهای جدید دست یابید. برخی از آن جادهها کالاهای عوارضی خصوصی و برخی دیگر بزرگراههای چندخطه عمومی خواهند بود اما اکثرا باید بهعنوان منابع دیجیتال مشترک که توسط کاربران بهعنوان کالاهای باشگاهی اداره میشوند، مورد استفاده قرار گیرند. با اینوجود فناوری به تنهایی برای تولید این «کالاهای باشگاهی» کافی نخواهد بود. این کالاهای به مؤسساتی احتیاج دارند که آنچه را که خانم تنیسون «مباشرت بر دادهها» مینامد، ارائه دهد. هنوز اول راه است اما چنین موسساتی در بسیاری نقاط شروع به ظاهرشدن کردهاند. مایدیتا (midata) یک شرکت تعاونی سویسی است که اطلاعات مربوط به سلامتی اعضای خود را جمعآوری و مدیریت میکند.
اکثر این پروژهها هنوز کوچک هستند و با بودجه اندک اجرا میشوند و این در مورد اینکه چنین پروژههایی اصلا در اقتصاد داده در نظر گرفته خواهند شد یا خیر، شک و تردید ایجاد میکند. با اینحال فرانچسکا برایا، بنیانگذار ابتکار رمزگشایی میگوید که موفقیت یا عدم موفقیت آنها منوط به ارادهی سیاسی است. او میگوید که شهرها باید گزینههای بدیل را برای پلتفرمهای آنلاین بزرگ ایجاد کنند. پلتفرمهای آنلاین بزرگ با دادههای مردم بهعنوان ملکیت خودشان رفتار میکنند. خانم برایا که مدیر اسبق تکنولوژی شهر بارسلونا است، این شهر را به الگوی آنچه که در نظر دارد تبدیل کرده است. شهروندان بارسلونا نهتنها میتوانند دادههایشان را که در اختیار شهر است، کنترل کنند، بلکه کارکنان شهر نیز باید اطلاعاتی را که هنگام ارائه خدمات جمعآوری میکنند، به پایگاه اطلاعاتی شهری اضافه کنند.
با توجه به محدودیتها، هیچ یک از سه نوع اقتصاد داده (داده همانند نفت، داده همانند نور خورشید و داده همانند زیرساختها) بهعنوان اقتصاد غالب مطرح نخواهند شد، اما برتریهای خود را احتمالا حفظ خواهند کرد. در امریکا با دادهها مانند نفت رفتار میشود: هرکس که دادهها را استخراج کند، صاحب آن است. چین نمونهی برجسته کشوری است که در آن دادهها کالاهای عمومی و کنترل دولت بر آن بسیار شدید است. در اروپا، بسیاری از تنظیمکنندهها دادهها را بهعنوان زیرساختها میبینند. کمیسیون اروپا در بروکسل برنامههای بزرگی برای حمایت از ایجاد موسساتی در نظر دارد که از دادهها سرپرستی کند.
با توجه به این، به نظر میرسد که اتحادیه اروپا خودش را محکوم به عقبماندن در زمینه فناوری میکند. اما مسأله این نیست. لوکاس الویس، نویسنده گزارش «Sitra in Finland) میگوید که یک اقتصاد داده عادلانه که در آن منافع شهروندان و مصرفکنندگان که سوخت آینده را تولید میکنند، در نظر گرفته شود ممکن است کاملا رقابتی از آب درآید. اگر مردم و همچنین شرکتها بتوانند به زیرساختها دادهها اعتماد کنند، حتما مایل به اشتراکگذاری دادههای بیشتر و بهتری خواهند بود و این به معنای خدمات بهتر برای همه است. به راه افتادن چنین «چرخه فضیلت» به معنای بازگشت خوشبختیهای دنیای قدیم در عصر مدرن خواهد بود.