پرش به محتوا

مولد اعداد شبه تصادفی

از ویکی‌پدیا، دانشنامهٔ آزاد

مولّد اعداد شبه تصادفی (انگلیسی: Pseudorandom number generator)، که به مولد قطعی (deterministic) اعداد شبه تصادفی نیز، معروف است،[۱] الگوریتمی است که دنباله‌ای از اعداد را که با تقریب خوبی تصادفی هستند، تولید می‌کند. در واقع دنبالهٔ تولیدشده، واقعاً تصادفی نیست، بلکه به‌طور کامل قابل پیش‌بینی، و از روی حالت اولیهٔ الگوریتم، قابل محاسبه است.

مولدهای اعداد تصادفی، مهم و کاربردی هستند. علت کاربرد گستردهٔ آن‌ها، توانایی تولید دوبارهٔ اعداد تولیدشدهٔ قبلی و سرعت بالای تولید است. برای همین، از این الگوریتم‌ها در شبیه‌سازی‌ها (مثلاً روش مونت‌کارلورمزنگاری، و بازی‌های کامپیوتری بسیار استفاده می‌شود. بیشتر الگوریتم‌های رمزنگاری نیاز دارند که خروجی‌شان غیرقابل پیش‌بینی باشد و این امر جز با استفاده از اعداد شبه تصادفی، میسر نمی‌شود.

در حالت کلی، بررسی‌های دقیق ریاضی لازم است تا تضمین شود که الگوریتمی، اعدادی تولید می‌کند که تا حد معقولی تصادفی هستند. جان فُون نُویمان به سوءبرداشت از الگوریتم‌های تولیدکنندهٔ اعداد تصادفی، اشاره کرده‌است و هشدار داده که همواره باید به تفاوت آن‌ها توجه کرد.[۲]

مشکلات بالقوه با مولدهای قطعی

[ویرایش]

تجربه نشان می‌دهد خروجی‌های تولیدشده، به علت خطاهای موجود، راضی‌کننده نیستند و تعداد کمی از تست‌های آماری را به خوبی می‌گذرانند. می‌توان به تعدادی از این نقص‌ها، اشاره کرد؛

  • برای بعضی از حالات اولیه، دوره تناوب کمتر از حد انتظار است.
  • در دنباله‌های بزرگ تولیدشده، توزیع یکنواخت حاصل نمی‌شود.
  • خودهمبستگی اعداد تولیدشده کاملاً محسوس است.
  • فاصلهٔ بعضی مقدارهای خاص، در دنبالهٔ تولید شده، با حالت مشابه تصادفی خود، بسیار اختلاف دارد.

مولدهای اعداد شبه تصادفی نقص‌های زیادی داشتند از نقص‌هایی که زیاد قابل توجه نبود گرفته تا نقص‌های بسیار آشکار. برای مثال RANDU که یک الگوریتم تولید اعداد تصادفی است که دهه‌ها برای رایانه هایmainframe استفاده می‌شد. این الگوریتم نقص‌های فراوانی داشت، با این وجود برای مدت بسیاری طولانی این نقص‌ها کشف نشدند.

در بسیار از زمینه‌ها، تحقیقاتی قبل از قرن بیست و یکم صورت گرفت که در آنها به انتخاب تصادفی یا شبیه‌سازی مونت کارلو متکلی بوده‌اند یا به روش‌های دیگر وابسته به PRNGها بودند. در این موارد اطمینان بسیار کمتر از حالتی است که از PRNG (مولدهای اعداد شبه تصادفی)های بی کیفیت استفاده شود.[۳] حتی امروزه، برای احتیاط لازم است، هشداری که در زیر نشان داده شده‌است که در دایرةالمعارف بین‌المللی علوم آماری ۲۰۱۰ آمده‌است را نیز جدی گرفت.[۴]

مواردی از مولدهایی که باید بلااستفاده شوند و دور ریخته شوند بسیار بیشتر از مولدهایی های خوب است؛ بنابراین به فروشندگان نرام افزار بدون آگاهی اعتماد نکنید. RNG پیش فرض نرم‌افزار مورد علاقهٔ تان را بررسی کنید. همچنین در صورت نیاز برای تعویض آن آماده باشید. این توصیه بارها طی ۴۰ سال اخیر صورت گرفته‌است. امروز به‌طور شگفت‌آوری همان اندازه مرتبط و لازم است.

برای درک بهتر، زبان‌های برنامه‌نویسی را که به‌طور گسترده استفاده می‌شود را درنظر بگیرید. از سال ۲۰۱۷، جاوا هنوز برای تولید اعداد تصادفی، به یک مولد خطی سازگار (LCG)که کیفیت پایینی دارد، متکی است.[۵][۶]

یکی از مولدهای اعداد شبه تصادفی شناخته شده برای جلوگیری از بروز مشکلات بنیادی و همچین داشتن قابلیت اجرای نسبتاً سریع، مرسن توئیستر (در ادامه مورد بحث است) بود که در سال ۱۹۹۸ منتشر شد. سایر مولدهای تولید اعداد شبه تصادفی که کیفیت بالاتری در جهات محاسبات و کارایی آماری داشتند، قبل و بعد از این تاریخ توسعه یافتند. این موارد را لیست مولدهای اعداد شبه تصادفی یافت.

مولد برمبنای بازگشتی‌های خطی

[ویرایش]

در نیمهٔ دوم قرن بیستم، الگوریتم‌های کلاس استانداری که برای PRNGها استفاده می‌شد، مولدهای سازگار خطی را تشکیل می‌داد. کیفیت LCGها کافی نبود اما روش‌های بهتری نیز وجود نداشت.Press et al در سال ۲۰۰۷ نتایج را اینگونه توصیف می‌کند: «اگر تمامی مقالات عملی ای که به علت LCG‌ها و موارد مرتبط در شک و شبه هستند، ناپدید شوند، در هر قفسهٔ کتابخانه‌ها شکاف‌های بزرگی به‌وجود خواهد آمد.»[۷]

هنگامی پیشرفت اصلی در ساخت مولدهای اعداد شبه تصادفی به‌وجود آمد که تکنیک‌های مبتنی بر بازگشت خطی پدیدآمدند. چنین ژنراتورها مربوط به رجیسترهای تغییر فیدبک خطی هستند.

هنگامی پیشرفت اصلی در ساخت مولدهای اعداد شبه تصادفی به‌وجود آمد که تکنیک‌های مبتنی بر بازگشت خطی پدیدآمدند. آنها مولدهایی هستند که دارای ثبات (رجیستر)های تغییر بازخورد خطی اند.

به‌طور ویژه اختراع مرسن چرخان،[۸] در سال ۱۹۹۷، از بسیار از مشکلات مولدهای پیشین جلوگیری کرد. مرسن چرخان دوره ای از تکرار (≈۴٫۳×106001)را دارد که ثابت شده‌است در ۶۲۳ بعد (برای اعدا ۳۲ بیتی) توزیع شده‌است. در آن زمان این شیوه از سایر مولدهای آماری سریع تر بود.

در سال ۲۰۰۳، جورج Marsaglia خانوادهٔ مولدهای xorshift را که مجدداً بر اساس بازگشت خطی بود معرفی کرد.[۹] چنین مولدهایی بسیار سریع هستند و به همراه عملیات‌های غیرخطی آزمایش‌های آماری قوی و سختی را پشت سر گذاشتند.[۱۰][۱۱][۱۲]

در سال ۲۰۰۶ خانوادهٔ مولدهای WELL توسعه یافتند.[۱۳] مولدهای خانوادهٔ well کیفیت مرسن توئیستر را در برخی جنبه‌ها بهبود دادند. Mersenne Twister دارای فضای حالتی بسیار بزرگ و سرعت بازیابی کمی بود که این بازیابی کند در فضاهای حالتی که تعداد زیادی صفر داشتند رخ می‌داد.

مولدهای شماره شبه تصادفی با رمزنگاری ایمن

[ویرایش]

PRNG مناسب برای کاربردهای رمزنگاری، یک PRNG با رمزنگاری ایمن (CSPRNG) نامیده می‌شود. یک الزام برای CSPRNG این است که طرفی که seed را نداند، تنها شانس بسیار ناچیزی برای تشخیص و تمایز توالی خروجی مولد از یک دنباله تصادفی دارد. به عبارت دیگر، در حالی که یک PRNG فقط باید آزمون‌های آماری را پشت سر بگذارد، یک CSPRNG باید تمام آزمون‌های آماری محدود شده به زمان چند جمله ای را در اندازه seed را بگذراند. گرچه اثبات این خاصیت فراتر از توانایی فعلی نظریه پیچیدگی محاسباتی است، اما ممکن است با کاهش CSPRNG به مسئله ای که فرض بر آن است که از لحاظ محاسباتی سخت است، مانند فاکتورسازی عدد صحیح، شواهد محکمی بدست آید.[۱۴] به‌طور کلی، ممکن سالها بررسی برای اینکه یک الگوریتم به عنوان CSPRNG تأیید شود، مورد نیاز باشد.

برخی از کلاس‌های CSPRNG شامل موارد زیر است:

  • رمزهای دنباله ای
  • رمزگذارهای قالبی که در مدهای کاری رمزهای قطعه‌ای[۱۵] یا در حالت بازخورد خروجی عمل می‌کنند.
  • PRNGهایی که به‌طور خاص برای ایمن‌سازی رمزنگاری طراحی شده‌اند، مانند تابع رابط برنامه‌نویسی برنامه نویسی کاربرد رمزنگاری مایکروسافت CryptGenRandom، الگوریتم Yarrow (در سیستم عامل Mac X X و FreeBSD) و Fortuna
  • ترکیبی از PRNG که سعی در ترکیب چندین الگوریتم PRNG اولیه برای از بین بردن هرگونه عدم تصادف قابل تشخیص دارند.
  • طرح‌های ویژه مبتنی بر فرضیات سختی ریاضی: نمونه‌ها شامل مولد Micali-Schnorr ,[۱۶] عملکرد شبه تصادفی Naor-Reingold و الگوریتم Blum Blum Shub، که یک اثبات امنیتی قوی را ارائه می‌دهند (چنین الگوریتم‌هایی نسبت به سازه‌های سنتی برای بسیاری از کاربردها نسبتاً کند و غیر عملی هستند)
  • PRNGهای عمومی: در حالی که نشان داده شده‌است که یک PRNG ایمن (رمزنگاری شده) می‌تواند به‌طور کلی از هر تابع یک طرفه ساخته شود،[۱۷] این ساختار عمومی در عمل بسیار کند است، بنابراین عمدتاً مورد توجه در موارد تئوری است.

نشان داده شده‌است که به احتمال زیاد آژانس امنیت ملی آمریکا یک درپشتی نامتقارن به NIST قرار داده بود. NIST مولد اعداد شبه تصادفی Dual_EC_DRBG را گواهی می‌کند.[۱۸]

اکثر الگوریتم‌های PRNG توالی‌هایی تولید می‌کنند که به طور یکنواخت توسط آزمون‌های گوناگون توزیع می‌شوند. این یک سؤال بدون پاسخ است، و یک موضوع اصلی برای تئوری و عمل رمزنگاری است که آیا راهی برای تمایز خروجی یک PRNG با کیفیت بالا از یک دنباله واقعاً تصادفی وجود دارد؟ در این تنظیم، تشخیص دهنده می‌داند که یا از الگوریتم شناخته شده PRNG استفاده شده‌است (اما نه وضعیتی که با آن آغاز شد) یا از یک الگوریتم واقعاً تصادفی استفاده شده‌است، و باید بین این دو تفاوت قایل شود.[۱۹] امنیت اکثر الگوریتم‌های رمزنگاری و پروتکل‌های با استفاده از PRNG برفرض آن بناشده اند که تشخیص استفاده از PRNG مناسب از استفاده از یک توالی واقعاً غیرممکن است. ساده‌ترین نمونه‌های این وابستگی، رمزنگاری‌های جریانی هستند، که (اغلب) با یای انحصاری بین متن ساده (رمزنشده) پیام و خروجی PRNG کار می‌کنند و متن رمزشده را تولید می‌کنند. طراحی PRNGهای مناسب از نظر رمزنگاری بسیار دشوار است زیرا آنها باید معیارهای بیشتری را رعایت کنند. اندازه دورهٔ تناوب آنها یک عامل مهم تعیین میزان مناسب بودن رمزنگاری یک PRNG است، اما به تنهایی کافی نیست.

معیارهای ارزیابی BSI

[ویرایش]

دفتر امنیت اطلاعات فدرال آلمان (Bundesamt für Sicherheit in der Informationstechnik , BSI) چهار معیار برای ارزیابی کیفیت مولدهای اعداد تصادفی قطعی تعیین کرده‌است.[۲۰] این موارد به صورت زیر خلاصه می‌شوند:

  • K1 - احتمال متفاوت بودن اعداد متوالی تولید شده از یکدیگر، زیاد است.
  • K2 -اعداد متوالی تولید شده طبق آزمون‌های مخصوص آماری، از اعداد " واقعا تصادفی " قابل تشخیص نیست. این آزمون‌ها عبارتند از آزمون monobit (تعداد مساوی صفرها و یک‌ها در یک توالی)، آزمون poker (نمونهٔ خاص آزمون chi-square)، آزمون runs (تعداد دفعات اجرا در طول‌های متفاوت را محاسبه می‌کند)، آزمون Longruns (ارزیابی اینکه در ۲۰۰۰۰ بیت متوالی آیا بیشتر یا مساوی 34 run به‌وجود آمده‌است یا خیر)- از BSI[۲۰] و NIST، آزمون autocorrelation (آزمون همبستگی). در اصل این نیازمندی‌ها جهت ارزیابی کیفیت دنبالهٔ بیت‌ها هستند: آیا تعداد صفرها و یک‌ها اکثراً مساوی است؟ بعد از دنباله ای از صفرهای متوالی (یا یک‌های متوالی) بیت یک بعدی (یا صفر بعدی) با احتمال ۰٫۵ ظاهر می‌شود؟ آیا هر زیرمجموعهٔ انتخاب شده از بیت‌ها اطلاعاتی دربارهٔ بیت یا بیت‌های بعدی می‌دهند؟
  • K3 - برای مهاجمان در حالت واقعی و عملی، غیرممکن باشد که از هر زیرمجموعه از بیت‌ها هرگونه اطلاعی از مقادیر قبلی یا بعدی را محاسبه کند یا اینکه حالت فعلی مولد را تعیین کند.
  • K4 - برای هر منظور و هدف عملی غیرممکن باشد که مهاجم بتواند از حالت درونی مولد هرعدد قبلی در دنبالهٔ اعداد تولید شده یا حالت قبلی مولد را محاسبه کند یا حدس بزند.

برای کاربردهای رمزنگاری، فقط مولدهایی که موارد K3 و K4 را رعایت کنند، قابل قبول می‌باشند.

تعریف ریاضی

[ویرایش]

داده شده (در صورتی که)

  • - توزیع احتمال (جایی که مجموعه استاندارد Borel بر روی خط واقعی است)
  • - مجموعه ای غیر تهی از مجموعه‌های بورل ، به عنوان مثال . اگر مشخص نشده‌است، ممکن است یا باشد یا که بسته به متن تعیین می‌شود.
  • - یک مجموعه غیر تهی (لزوماً یک مجموعه Borel). غالباً یک مجموعه بین تکیه گاه و درون (توپولوژی) آن؛ به عنوان مثال، اگر توزیع یکنواخت در فاصله باشد، می‌تواند باشد. اگر مشخص نشده باشد، فرض بر این است که مجموعه ای است که همهٔ اعضایش در تکیه گاه موجود اند و شامل توپولوژی اش می‌باشد.

ما یک تابع (جایی که مجموعه اعداد صحیح مثبت است) را یک مولد عدد شبه تصادفی برای به طوری که مقادیر را می‌گیرد مینامیم اگر و تنها اگر

( نشان دهنده تعداد اعضای مجموعه متناهی S است)

می‌توان نشان داد که اگر مولد عدد شبه تصادفی برای توزیع یکنواخت بر روی بازهٔ باشد و اگر تابع توزیع تجمعی برای توزیع توزیع احتمالی داده شده باشد، سپس مولد اعداد شبه تصادفی برای است، به طوری که صدک است، یعنی . به‌طور شهودی، یک توزیع دلخواه می‌تواند توسط یک توزیع استاندارد یکنواخت شبیه‌سازی شود.

رویکردهای اولیه

[ویرایش]

یکی از روش‌های اولیهٔ مبتنی بر کامپیوتر، به وسیلهٔ فُون نویمان در سال ۱۹۴۶ ارائه شد. این روش به روش «میان-مربع» (Middle-Square) معروف است («میانِ مربع» یا «مربعِ میانی» خوانده نشود)؛ یک عدد دلخواه در نظر گرفته، آن را به توان ۲ برسانید (مربع کنید)، ۴ رقم میانی آن را به عنوان یک عدد تصادفی جدید در نظر بگیرید و آن را به‌عنوان عدد بعدی در الگوریتم استفاده کنید و به این کار ادامه دهید.

مثلاً با شروع از عدد ۱۱۱۱، عدد ۱۲۳۴۳۲۱ حاصل می‌شود، که اگر آن را به صورت هشت رقمی بنویسیم، ۰۱۲۳۴۳۲۱ به دست می‌آید. عدد ۲۳۴۳ به عنوان یک عدد تصادفی به دست می‌آید. با تکرار این عمل روی ۲۳۴۳ به ۴۸۹۶ به عنوان عدد تصادفی بعدی خواهیم رسید. می‌توان همین روند را ادامه داد. اگر در روش اصلی از اعداد ۵ رقمی استفاده می‌شد، روند کاملاً مشابه می‌بود.

در این الگوریتم، پس از تعدادی مرحله به عددی تکراری خواهیم رسید. مشکل اینجاست که به‌ازای بعضی از اعداد ورودی، این اتفاق به سرعت می‌افتد. فون نویمان از این مشکل مطلع بود، اما روش ارائه‌شده برای کاربرد موردنظر، کافی بود.

فون نویمان، تولیدکننده‌های سخت‌افزاری اعداد تصادفی را غیرمناسب می‌دانست. چراکه اگر خروجی‌های تولیدشده ذخیره نمی‌شد، بعداً امکان بازتولید آن‌ها و تست‌کردن خطا وجود نداشت. در حالتی هم که خروجی‌ها را ذخیره می‌کردند، حافظه به هدر می‌رفت. اگر اعداد تولیدشده روی کارت پانچ ذخیره می‌شد، زمان خواندن و نوشتن آن‌ها طولانی می‌شد، درحالی‌که استفاده از روش «میان-مربع» سرعتی صدها برابر بیشتر از سرعت خواندن و نوشتن از کارت پانچ داشت.

از آن زمان، روش مربع میانی توسط مولدهای دقیق تر تعویض شد.

یک نوآوری تازه ترکیب مربع میانه با دنباله Weyl می‌باشد. این روش در مدت زمان طولانی تولید خروجی به کیفیت بالا دست میابد (رجوع کنید به توالی PRNG دنباله میدانی Weyl).

مولدهای غیر یکنواخت

[ویرایش]

تعداد انتخاب شده از توزیع احتمال غیر یکنواخت را می‌توان با استفاده از یک توزیع PRNG یکنواخت و تابعی که مربوط به این دو توزیع باشد، تولید کرد.

اعداد انتخاب شده از یک توزیع احتمالاتی غیریکنواخت می‌تواند توسط یک توزیع یکنواخت PRNG و یک تابع که دو توزیع را به هم مرتبط کند، تولید شود.

ابتدا به تایع توزیع تجمعی نیاز داریم توزیع هدف (تابع F توزیع تجمعی f است):

توجه داشته باشید که . با استفاده از عدد تصادفی c که از توزیع یکنواخت آمده‌است، به عنوان چگالی احتمال، دریافت می‌کنیم:

در نتیجه

عددی است که به‌طور تصادفی از توزیع انتخاب شده‌است.

به‌طور مثال، وارونه توزیع گاوسی تجمعی با یک PRNG یکنواخت ایده‌آل با دامنه (۰، ۱) که ورودی توالی از مقادیر (فقط مثبت) با توزیع گاوسی را تولید می‌کند. با این حال

  • زمانی که از نمایش عدد عملی استفاده می‌کنیم، "دم"‌های نامتناهی توزیع باید به مقادیر محدود قطع شوند.
  • محاسبه تکراری باید از طریق الگوریتم زیگورات صورت بگیرد تا تولید اعداد سریع تر شود.

ملاحظات مشابهی برای تولید توزیع‌های غیر یکنواخت دیگر مانند ریلی و پواسون صورت می‌گیرد.

جستارهای وابسته

[ویرایش]

منابع

[ویرایش]
  1. Barker, Elaine; Barker, William; Burr, William; Polk, William; Smid, Miles (July 2012). "Recommendation for Key Management" (PDF). NIST Special Publication 800-57. NIST. Retrieved 19 August 2013.
  2. "Pseudorandom number generators". Khan Academy. Retrieved 2016-01-11.
  3. Press et al. (2007), chap.7
  4. L'Ecuyer, Pierre (2010). "Uniform random number generators". In Lovric, Miodrag (ed.). International Encyclopedia of Statistical Science. Springer. p. 1629. ISBN 3-642-04897-8.
  5. Random (Java Platform SE 8), Java Platform Standard Edition 8 Documentation.
  6. Random.java at OpenJDK.
  7. Press et  al. (2007) §7.1
  8. Matsumoto, Makoto; Nishimura, Takuji (1998). "Mersenne twister: a 623-dimensionally equi-distributed uniform pseudo-random number generator" (PDF). ACM Transactions on Modeling and Computer Simulation. ACM. 8 (1): 3–30. doi:10.1145/272991.272995.
  9. Marsaglia, George (July 2003). "Xorshift RNGs". Journal of Statistical Software. 8 (14).
  10. S.Vigna. "xorshift*/xorshift+ generators and the PRNG shootout".
  11. Vigna S. (2016), "An experimental exploration of Marsaglia’s xorshift generators", ACM Transactions on Mathematical Software, 42; doi:10.1145/2845077.
  12. Vigna S. (2017), "Further scramblings of Marsaglia’s xorshift generators", Journal of Computational and Applied Mathematics, 315; doi:10.1016/j.cam.2016.11.006.
  13. Panneton, François; L'Ecuyer, Pierre; Matsumoto, Makoto (2006). "Improved long-period generators based on linear recurrences modulo 2" (PDF). ACM Transactions on Mathematical Software. 32 (1): 1–16. doi:10.1145/1132973.1132974.
  14. Song Y. Yan. Cryptanalytic Attacks on RSA. Springer, 2007. p. 73. ISBN 978-0-387-48741-0.
  15. Niels Ferguson, Bruce Schneier, Tadayoshi Kohno (2010). "Cryptography Engineering: Design Principles and Practical Applications, Chapter 9.4: The Generator" (PDF).{{cite web}}: نگهداری یادکرد:نام‌های متعدد:فهرست نویسندگان (link)
  16. Klaus Pommerening (2016). "IV.4 Perfect Random Generators". Cryptology. uni-mainz.de. Archived from the original on 21 April 2021. Retrieved 2017-11-12. The MICALI-SCHNORR generator {{cite web}}: External link in |quote= (help)
  17. Pass, Rafael. "Lecture 11: The Goldreich-Levin Theorem" (PDF). COM S 687 Introduction to Cryptography. Retrieved 20 July 2016.
  18. Matthew Green. "The Many Flaws of Dual_EC_DRBG".
  19. Katz, Jonathan; Yehuda, Lindell (2014). Introduction to modern cryptography. CRC press. p. 70.
  20. ۲۰٫۰ ۲۰٫۱ Schindler, Werner (2 December 1999). "Functionality Classes and Evaluation Methodology for Deterministic Random Number Generators" (PDF). Anwendungshinweise und Interpretationen (AIS). Bundesamt für Sicherheit in der Informationstechnik. pp. 5–11. Archived from the original (PDF) on 19 January 2018. Retrieved 19 August 2013.

کتابشناسی - فهرست کتب

[ویرایش]

پیوند به بیرون

[ویرایش]