متا برای آموزش مدلهای هوش مصنوعی و تحلیل دادههای وب با چالشهایی روبه رو است_سیاه پوش
نوشته و ویرایش شده توسط مجله سیاه پوش
ابزارهای مولد هوش مصنوعی برای آموزش خود به حجم عظیمی از داده نیاز دارند که زیاد تر از طریق فرایند وبخزیدن (scraping) از اینترنت جمعآوری میبشود. شرکت متا نیز همانند دیگر غولهای فناوری، با گسترش رباتهای تازه، به جمعآوری داده از وب پرداخته است.
رقابت شدیدی بین شرکتهای فناوری برای گسترش مدلهای هوش مصنوعی قوی وجود دارد. یکی از عوامل کلیدی در این رقابت، دسترسی به دادههای آموزشی با کیفیت بالا است. به همین علت، تعداد بسیاری از شرکتها از جمله گوگل، OpenAI و Anthropic، به جمعآوری داده از وب روی آوردهاند.
با این حال، جمعآوری بیرویه دادهها از وب، چالشهایی را برای مالکان وبسایتها به وجود اورده است. تعداد بسیاری از وبسایتها از روشی به نام robots.txt برای جلوگیری از خزیدن خودکار رباتها منفعت گیری میکنند. اما با افزایش تقاضا برای دادههای آموزشی، این روش به تنهایی کافی نیست. تحقیقات مشخص می کند که برخی شرکتها از جمله متا، OpenAI و Anthropic، به راه حلهای مختلفی برای دور زدن محدودیتهای robots.txt عمل کردهاند. به گفتن مثال، ربات Meta-ExternalFetcher امکان پذیر قوانین robots.txt را نادیده بگیرد.
این چنین، ترکیب دو کارکرد جمعآوری دادههای آموزشی و فهرستبندی محتوا در یک ربات واحد (Meta-ExternalAgent)، علتشده است تا مسدود کردن این ربات برای مالکان وبسایتها دشوارتر بشود. مالکان وبسایتها با چالش پیچیدهای روبه رو می باشند. از یک سو، آنها نمیخواهند دادههای وبسایتشان بدون اجازه برای آموزش مدلهای هوش مصنوعی منفعت گیری بشود. از نظر دیگر، تمایل دارند که وبسایتشان توسط موتورهای جستجو و دیگر خدمات آنلاین فهرستبندی بشود تا بازدیدکنندگان بیشتری جذب کند.
متا اظهار کرده است که در تلاش است تا برای ناشران، امکان اشکار کردن ترجیحاتشان را آسانتر کند. این چنین، این شرکت از وجود چندین ربات خزنده وب خبر داده است تا با اراعه گزینههای زیاد تر به ناشران، انعطافپذیری بیشتری را فراهم کند.
جمعآوری داده از وب برای آموزش مدلهای هوش مصنوعی، یک نوشته پیچیده با ابعاد حقوقی و اخلاقی است. از یک سو، این دادهها برای گسترش فناوریهای هوش مصنوعی الزامی می باشند. از نظر دیگر، جمعآوری بیرویه دادهها بدون اجازه مالکان وبسایت، میتواند به حریم خصوصی آنها صدمه رساند. شرکتها و قانونگذاران باید برای یافتن راه حلهایی تعادلی تلاش کنند تا از یک سو، گسترش فناوریهای هوش مصنوعی را تسهیل کنند و از نظر دیگر، حقوق مالکان وبسایتها را نیز مراعات کنند.
دسته بندی مطالب