مقاله معماری توزیع شده برای داده کاوی و ادغام
چکیده
این مقاله یک روش جدید جهت پشتیبانی از افزایش مقیاس (اندازه) Data mining and integration ارائه می کند. در واقع ترکیب Data mining and integration و دستیابی داده در یک framework (چهارچوب کاری) را پیشنهاد می کند. که ما آنرا فعالیت ترکیبی “DMI” می نامیم.برقراری فرایندهای DMI را در طی منابع داده توزیع شده ناهمگون و سرویس های miningپشتیبانی می کند.بین امکانات تاسیس شده برای پشتیبانی از تعریف فرایندهای DMI و تخمین زیرساخت فراهم شده جهت استقرار و ایفای نقش فرایندهای DMI ، یک تقسیم بندی مفید مطرح می کند.
ارتباط بین آن دو بخش به درخواستهای واگذار شده به سرویسهای gateway در یک زبان canonical DMI محدود شده است.با تصحیح و پالایش افزایشی تعاریف فرایند DMI توسط ترکیب مجدد تعاریف سطح پایینتر، فرایندهایی با مقیاس بزرگتر تهیه شده اند. تکامل تدریجی استقلال منابع داده و سرویس ها توسط انواع و توصیفات پشتیبانی می شود که خود کشف همگونی ها و درج نیمه اتوماتیک تطبیق را پشتیبانی خواهد کرد.این ایده های معماری ، در یک مطالعه علمی که یک سناریوی کاربردی و معرف جامعه را در برمی گیرد، ارزیابی شده اند.
مقدمه ای بر داده کاوی:
امروزه با گسترش سیستم های پایگاهی و حجم بالای داده ها ی ذخیره شده در این سیستم ها ، نیاز به ابزاری است تا بتوان داده های ذخیره شده پردازش کرد و اطلاعات حاصل از این پردازش را در اختیار کاربران قرار داد .
با استفاده ار پرسش های ساده در SQL و ابزارهای گوناگون گزارش گیری معمولی ، می توان اطلاعاتی را در اختیار کاربران قرار داد تا بتوانند به نتیجه گیری در مورد داده ها و روابط منطقی میان آنها بپردازند اما وقتی که حجم داده ها بالا باشد ، کاربران هر چند زبر دست و با تجربه باشند نمی توانند الگوهای مفید را در میان حجم انبوه داده ها تشخیص دهند و یا اگر قادر به این کار هم با شند ، هزینه عملیات از نظر نیروی انسانی و مادی بسیار بالا است .
از سوی دیگر کاربران معمولا فرضیه ای را مطرح می کنند و سپس بر اساس گزارشات مشاهده شده به اثبات یا رد فرضیه می پردازند ، در حالی که امروزه نیاز به روشهایی است که اصطلاحا به کشف دانش بپردازند یعنی با کمترین دخالت کاربر و به صورت خودکار الگوها و رابطه های منطقی را بیان نمایند.
داده کاوی یکی از مهمترین این روشها است که به وسیله آن الگوهای مفید در داده ها با حداقل دخالت کاربران شناخته می شوند و اطلاعاتی را در اختیار کاربران و تحلیل گران قرار می دهند تا براساس آنها تصمیمات مهم و حیاتی در سازمانها اتخاذ شوند.
در داده کاوی از بخشی از علم آمار به نام تحلیل اکتشافی داده ها استفاده می شود که در آن بر کشف اطلاعات نهفته و ناشناخته از درون حجم انبوه داده ها تاکید می شود . علاوه بر این داده کاوی با هوش مصنوعی و یادگیری ماشین نیز ارتباط تنگاتنگی دارد ، بنابراین می توان گفت در داده کاوی تئوریهای پایگاه داده ها ، هوش مصنوعی ، یادگیری ماشین و علم آمار را در هم می آمیزند تا زمینه کاربردی فراهم شود.
باید توجه داشت که اصطلاح داده کاوی زمانی به کار برده می شود که با حجم بزرگی از داده ها ، در حد مگا یا ترابایت ، مواجه باشیم . در تمامی منابع داده کاوی بر این مطلب تاکید شده است.
هر چه حجم داده ها بیشتر و روابط میان آنها پیچیده تر باشد دسترسی به اطلاعات نهفته در میان داده ها مشکلتر می شود و نقش داده کاوی به عنوان یکی از روشهای کشف دانش ، روشن تر می گردد.
مفاهیم پایه در داده کاوی
در داده کاوی معمولا به کشف الگوهای مفید از میان داده ها اشاره می شود . منظور از الگوی مفید ، مدلی در داده ها است که ارتباط میان یک زیر مجموعه از داده ها را توصیف می کند و معتبر ، ساده ، قابل فهم و جدید است.
داده کاوی توزیع شده
داده کاوی توزیع شده عبارت است از کشف نیمه خودکار الگوهای پنهان موجود در داده ها، در حالتی که داده ها و یا مکانیزمهای استنتاج، به صورت توزیع شده باشند. غیرمتمرکز بودن داده ها بدان معناست که داده ها به صورت توزیع شده بین دو یا چند سایت بوده و هزینه انتقال تمام یا بخشی از داده ها به یک سایت مرکزی، قابل صرفنظر نباشد. توزیع شده بودن مکانیزمهای استنتاج، به معنای لزوم لحاظ کردن هزینه ارتباط بین مکانیزمهای مختلف در حال استخراج دانش می باشد.
این توزیع شدگی ممکن است به دلایل مختلفی از جمله ارائه شدن مکانیزم استخراج دانش در قالب یک سرویس اینترنتی و یا صرفا ناشی از توزیع شدگی داده ها باشد. چنین رویکردی به داده کاوی، برخلاف جهت کلی تحقیقات انجام شده است که به طور عمده به تکنیکهای متمرکز پرداخته و نه فقط بر تمرکز، که بر همگونی و ساختار مسطح (در مقابل ساختار رابطه ای) داده های هدف متکی می باشند. مسائلی نظیر استخراج دانش در حالت عدم دسترسی به تمام داده های موجود، برقراری ارتباط موثر و بهینه با سایر مکانیزمهای در حال استخراج دانش و نیز تبادل دانش یا اطلاعات میانی به جای اطلاعات خام، فقط تعدادی از مسائل اولیه داده کاوی توزیع شده با توجه به تعریف آن می باشند.
بنابراین، داده کاوی توزیع شده در عین حال که به عنوان راه حلی کلیدی برای مشکلات اصلی پیش روی داده کاوی مطرح می باشد، خود سرمنشاء چالشها و مسائل متعددی گردیده است؛ حل موثر این مشکلات منجر به استفاده هرچه بیشتر از داده کاوی و ایجاد امکانات جدید و بهره-برداری از پتانسیلهای موجود در قلمروهائی خواهد شد که علیرغم نیاز مبرم به داده کاوی، استفاده بسیار محدودی از آن به عمل می آورند. بحث داده کاوی توزیع شده بطور کلی از دو جهت قابل بررسی می باشد. اول حالتی که در آن داده ها بصورت همسان بین پایگاههای مختلف توزیع شده اند و داده های هر پایگاه تمام خصوصیات را دارا هستند.
در اینحالت داده ها ممکن است ذاتا توزیع شده باشند و یا اینکه داده ها متمرکز بدلایل امنیتی یا … بین پایگاههای مختلف تقسیم شده باشند. اصطلاحا به این حالت تقسیم شدن، تقسیم شده بصورت افقی (Horizontally Partitioned) نیز گفته می شود که ما نیز در فاز دوم پروژه گونه ای از این نوع توزیع شدگی را خواهیم دید. حالت دوم حالتی است که در آن داده های موجود در هر پایگاه داده دارای خصوصیتهای مختلف می باشند. معمولا در این موارد داده ها خود بین پایگاههای مختلف تقسیم گردیده اند و ذاتا توزیع شده نیستند.
از اینـــــرو به اینحالت تقسیم شـــــــده عمودی (Vertically Partitioned) نیز گفته می شود. برای ایجاد ارتباط بین خصوصیتهای مختلفی که در پایگاههای مختلف نگهداری می شوند اما متعلق به یک داده هستند، معمولا یک خصوصیت مشترک که بعنوان شناسه مورد استفاده قرار می گیرد، بین تمام پایگاههای مختلف نگهداری می شود که رکوردهای مختلف را بهم ارتباط می دهد.
در داده کاوی توزیع شده نیز مساله کشف و استخراج دانش مشابه داده-کاوی عادی در زمینه های خوشه بندی توزیع شده، کشف قواعد وابستگی بصورت توزیع شده و طبقه بندی توزیع شده (که با نام یادگیری توزیع شده طبقه بند هم از آن نام برده می شود) مورد تحقیق و بررسی قرار دارد،. ضمن اینکه در بحث داده کاوی توزیع شده، مساله مربوط به محرمانگی داده ها (Privacy Preserving) حتما باید مدنظر قرار گیرد.
فرمت فایل:
WORD
تعداد صفحات:
30
پس از پرداخت آنلاین، بلافاصله لینک دانلود فعال می شود و می توانید فایل را دانلود کنید. در صورتیکه ایمیل خود را وارد کرده باشید همزمان لینک دانلود فایل به ایمیل شما نیز ارسال میگردد.