ParsX.com
پذیرش پروژه از دانشجویی ... تا سازمانی 09376225339
 
   ProfileProfile   Log in to check your private messagesLog in to check your private messages  |  FAQFAQ   SearchSearch   MemberlistMemberlist   UsergroupsUsergroups Log inLog in   RegisterRegister 

Datawarehouse Basic Concepts

 
Post new topic   Reply to topic    ParsX.com Forum Index -> داده کاوی اطلاعات
View previous topic :: View next topic  
Author Message
vahid
بي تو هرگز


Joined: 26 Nov 2004
Posts: 3067
Location: Tehran

PostPosted: Tue Mar 06, 2012 9:16 am    Post subject: Datawarehouse Basic Concepts Reply with quote

انباره داده و پردازش تحلیل برخط:
Data warehouse ها داده را در ابعاد فضایی مختلفی عمومیت می دهند و یکی می کنند. ساختن انبار داده شامل data cleaning, data integration و تبدیل داده ها یا data transformation و یکی از مراحل مهم گام پیش پردازش برای داده کاوی می باشد.
انبار داده ابزار های OLAP را نیز برای تحلیل interactive داده های چند بعدی فراهم میکند . خیلی از توابع دیگر داده کاوی همچون association, classification, prediction و خوشه بندی clustering نیز میتوانند با OLAP برای کاوش تعاملی دانش در مراحل مختلف انتزاع بصورت بهبود یافته عمل کنند. بنابراین انبار داده به مقدار زیادی یک platform موثر برای کاوش داده ها شده است که نتیجه می دهد OLAP و کاوش داده ها گام مهمی در پروسه کشف دانش می باشد. در این فصل می خواهیم یک مرور کلی از انبار داده و تکنولوژی OLAP انجام دهیم . دراین قسمت در مورد مکعب داده یا data cube صحبت می کنیم که یک مدل چند بعدی از داده برای انبار داده و OLAP می باشد.


Last edited by vahid on Thu Mar 08, 2012 10:10 am; edited 1 time in total
Back to top
vahid
بي تو هرگز


Joined: 26 Nov 2004
Posts: 3067
Location: Tehran

PostPosted: Tue Mar 06, 2012 10:14 am    Post subject: Data Warehouse: Basic Concepts Reply with quote

انبار داده چیست ؟
انبار داده یا data warehousing معماری و ابزارهایی برای کسب و کار در اختیار قرا می دهند تا بتوان بصورت سیستمی به سازماندهی و فهم و استفاده از داده ها برای ساخت یک تصمیم استراتژیک عمل کنیم . خیلی از مردم احساس می کنند در رقابت موجود در صنعت انبار داده اخرین ابزار بازاریابی برای جذب مشتریان جهت درک نیازمندی های انهاست .
اگر تعریفی از انبار داده بدهیم درواقع یک انبار داده محلی برای انبار کردن داده هاست که از دیتابیس عملیاتی سازمان جدا می باشد. در انبار داده ترکیبی از انواع سیستم های کاربردی جمع می شوند . انها از پردازش اطلاعات از طریق فراهم کردن یک پلتفرم حجمی از داده های تاریخی یکپارچه برای تحلیل داده ها بهره می برند.
به قول اقای ویلیام یک معماری ساختن سیستم انبار داده " یک انبار داده یک subject-oriented فاعلگرا ، جامع ، Time-variant و غیرفرار از مجموعه داده ها در پشتیبانی از ساخت تصمیم های مدیریتی می باشد ." چهار کلمه اصلی Subject-oriented, integrated, time-variant و nonvolatile یک انبار داده را از دیگر سیستم های نگهداشت اطلاعات همچون بانکهای اطلاعاتی و سیستم های پردازش تراکنش و سیستم فایل ها جدا می کند . در ادامه به تشریح این چهار کلمه اصلی می پردازیم :
Subject-oriented : یک Data warehouse سازماندهی شده است برای یک سری موضوعات اصلی مثل مشتریان، تولید کنندگان، محصول و فروش . جای انکه روی فعالیت های روزانه و پردازش تراکنش های یک سازمان تمرکز کنیم ، یک انبار داده روی مدل کردن و انالیز داده بار تصمیم گیرندگان عمل می کند . بنابراین انباره داده بطور نمونه یک نگرش ویژه مختصر و ساده از موضوع مشخص شده را توسط مستثنی کردن داده هایی که غیرقابل استفاده اند برای پردازش پشتیبانی تصمیم نشر می کند .
Integrated : یک انباره داده بطور معمول ساخته شده است توسط تجمیع چندین منبع ناهمگون مثل بانک های اطلاعاتی رابطه ای ، فایل های معمولی ، سیستم انلاین تراکنش ها .تکنیک های Data cleaning و Data integration برای تضمین سازگاری در نام گذاری قرارداد ها ، انکود کردن ساختارها و اندازه گیری خصایص و ... اجرا می شوند.
Time-variant : داده ذخیر می شود تا اطلاعاتی از چشم انداز تاریخی در گذشته مثلا 5 تا 10 سال گذشته بدست اید . هر ساختار کلیدی در انبار داده شامل یک المان زمانی ضمنی یا صریح می باشد.
Nonvolatile : یک انبار داده همیشه بصورت فیزیکی داده ها را بصورت جدا از هم بصورت تبدیل فرم از داده ای که در برنامه کاربری و محیط عملیاتی می باشد ذخیره می کند . براساس این جداسازی یک انباره داده لزومی به پردازش تراکنش ها بازیابی و مکانیزم های کنترل همزمان ندارد. معمولا دو عمل روی داده initial loading of data و access of data لازم است.
در کل یک انبار داده اطلاعات را ذخیره می کند و در کلان جهت ساخت استراتژی تصمیم به کار می رود . براساس اطلاعات ما Data Warehousing را پروسه ای از ساخت و استفاده از انباره داده گویند. ساخت یک انباره داده لازمه data cleaning, data integration و data consolidation می باشد . بهره وری از یک انباره داده اغلب به مجموعه ای از تکنولوژی های پشتیبانی تصمیم نیازمند است . این به کارگران دانش( مدیران ، تحلیلگران و مجریان) اجازه می دهد که از انباره به سرعت و با اطمینان داده های خود را مرور کنند و تصمیماتشان را بگیرند. بعضی نویسندگان به کلمه data warehousing برای پردازش انباره داده استفاده می کنند . در حالیکه انباره DBMS برای مدیریت و بهره وری از انباره داده استفاده می شود .
Back to top
vahid
بي تو هرگز


Joined: 26 Nov 2004
Posts: 3067
Location: Tehran

PostPosted: Tue Mar 06, 2012 11:03 am    Post subject: Operational Dabase Systems و Data Warehouses Reply with quote

تفاوت میان Operational Dabase Systems و Data Warehouses
چون اکثر مردم با سیستم های پایگاه داده تجاری اشنایی دارند، پس بیان اینکه یک انباره داده چیست با مقایسه این دو ساده به نظر می رسد .
وظیفه اصلی یک پایگاه داده عملیاتی انلاین اجرای تراکنش های انلاین و پردازش پرس و جو ها می باشد. به این سیستم ها سیستم های پردازش تراکنش برخط یا OLTP online transaction processing گویند. اینها اکثر عملیات روزانه یک سازمان را چون خرید، فروش و عملیات بانکی، حقوق و دستمزد ثبت نام و حسابداری را پوشش می دهند. سیستم های انباره داده در طرف دیگر برای کاربران و کارگان دانش وظیفه انالیز داده و تصمیم سازی را برای این کاربران بر عهده می گیرند. این سیستم ها می توانند داده حاضر را سازماندهی و نمایش دهند در قالب های متفاوتی جهت همساز کردن نیازهای انواع مشتریان بپردازند.به این سیستم ها online analytical processing یا سیستم های OLAP گویند.
اصلی ترین تفاوت سیستم های OLAP و OLTP را در زیر بیان می کنیم :
کاربران و گرایشات سیستم :
یک سیستم OLTP مشتری گراست و برای پردازش تراکنش ها و پرس و جو ها توسط منشی، مشتری و متخصصان فناوری اطلاعات به کار می رود . یک سیستم OLAP بازارگراست و برای تحلیلگران داده ، کارگران دانش شامل مدیران مجریان و تحلیلگران است.
محتویات اطلاعاتی :
یک سیستم OLTP داده های جاری را که خیلی جزئی و ریز شده هستند و برای تصمیم گیری نیز به راحتی به کارمیروند را مدیریت می کند. یک سیستم OLAP مقادیر زیادی داده تاریخی را مدیریت می کند و امکاناتی برای میانگین گیری و جمع بندی و ذخیره و مدیریت اطلاعات در مراحل مختلف دارند. این امکانات برای تصمیم سازی به کار می روند.
طراحی پایگاه داده :
یک سیستم OLTP اغلب یک نمودار ارتباط موجودیت ها از مدل داده و کاربرد گرا در طراحی بانک می باشد . یک سیستم OLAP از مدل های star و snowflake و موضوع گرا استفاده می کند .
View : یک سیستم OLTP بطور کلی روی جریان داده سازمان یا دپارتمان بدون ارجاع به تاریخچه داده و یا داده سازمان های دیگر عمل می کند . در عوض در یک سیستم OLAP روی نسخه های مختلف دیتابیس های سازمان عمل می شود. سیستم های OLAP روی داده های سازمان های مختلف نیز عمل می کند . بدلیل حجم زیاد داده های OLAP روی رسانه های ذخیره سازی مختلفی نگه داری می شوند.
Access patterns :
الگوهای دسترسی یک سیستم OLTP شامل تراکنش های اتمیک هستند. چنین سیستمی نیازمند کنترل همروند و مکانیزم های بازیابی می باشد. به هر حال دسترسی به سیتسم های OLAP اکثرا عملیات فقط خواندنی می باشند چون اغلب انباره داده ها داده های تاریخی را نگه داری می کنند تا اطلاعات بروز و در نتیجه پرس و جو های سنگین تری دارند.
اختلافات دیگری بین این دو سیستم از جمله سایز بانک، فرکانس عملیات و معیارهای بهره وری نیز وجود دارد .
Back to top
vahid
بي تو هرگز


Joined: 26 Nov 2004
Posts: 3067
Location: Tehran

PostPosted: Tue Mar 06, 2012 3:41 pm    Post subject: چرا باید از یک انبار داده جداگانه استفاده کنیم ؟ Reply with quote

اما چرا باید از یک انبار داده جداگانه استفاده کنیم :
چون دیتابیس های عملیاتی داده های زیادی را نگهداری میکنند ممکن است این سوال برایتان پیش بیاد که "چرا عملیات پردازش تحلیل برخط را روی همین دیتابیس ها انجام نمی دهیم تا هم در وقت هزینه نکنیم و هم منبع جداگانه ای تخصیص ندهیم ؟"
یک دلیل اصلی این عمل جداسازی این است که برای هر دو سیستم کارایی بالایی بدست اوریم . یک دیتابیس عملیاتی برای کارهایی چون شاخص گذاری، هش کردن کلید های اولیه و جستجوی رکوردهای مشخص و اجرای پرس و جو های تکراری طراحی شده است . در طرف دیگر یک انباره داده پرس و جو های پیچیده تری دارد . این انباره داده با محاسباتی روی داده های بسیار زیاد انجام می پذیرد و باید روی ابعاد مختلف view ها عمل کند . پردازش پرس و جو های OLAP در پایگاه داده های عملیاتی اساس کارایی روی وظایف عملیاتی را کاهش می دهد.
علاوه بر این ، یک پایگاه داده عملیاتی از پردازش های موازی روی چندین تراکنش پشتیبانی می کند . در واقعی کنترلهای همزمانی مثل lock و log برای یکپارچگی یک تراکنش در پایگاه داده لازم است . اما در یک پرس و جوی OLAP رعایت مواردی چون همزمانی تراکنش ها و در نظر گرفتن محدودیت های موجود در پایگاه داده معمولی موجب کاهش سرعت خروجی سیستم می شود.
Back to top
vahid
بي تو هرگز


Joined: 26 Nov 2004
Posts: 3067
Location: Tehran

PostPosted: Tue Mar 06, 2012 4:02 pm    Post subject: معماری چند لایه Data Warehousing Reply with quote

معماری چند لایه Data Warehousing :
اکثر انباره های داده از معماری سه لایه استفاده می کنند.
لایه بالایی نیازمند ابزارهای front-end می باشد . Query/report Analysis Data mining
لایه وسطی سرور OLAP می باشد .
لایه پایینی سرور Data warehouse می باشد که شامل مانیتورینگ، سرپرستی، data warehouse و data marts می باشد.
لایه پایینی warehouse database server
لایه زیرین تقریبا همیشه یک سیستم پایگاه داده رابطه ای است. ابزارهای back-end ابزارهایی کمکی هستند که برای تغذیه داده به لایه زیرین از دیتابیس های عملیاتی یا دیگر منابع خارجی استفاده می کند . این ابزارهای برای استخراج داده ، cleaning و تبدیل داده ها استفاده می شود مثل ترکیب داده های مشابه از منابع مختلف به یک فرمت یکپارچه . مثل بارگذاری و توابع Refresh برای بروزرسانی data warehouse داده ها از طریق واسط برنامه ها یی که به نام gateway شناسایی می شوند استخراج می شوند. یک درگاه gateway از طریق یک DBMS پشتیبانی می شود و به مشتریان اجازه می دهد که کد های SQL خود را در سرور اجرا کند. مثال هایی از Gateway همچون ODBC , OLEDB و JDBC را می توان نام برد.این تایر حاوی فراداده هایی برای انباره می باشند که اطلاعاتی درباره انباره داده و محتویاتش تشریح می کند.
لایه مرکزی
این لایه که یک OLAP server می باشد به طور نمونه از طریق یک relational OLAP یا ROLAP یا multi-dimensional OLAP یا MOLAP که یک سرور مخصوص برای پیاده سازی چند بعدی سازی داده و عملیات ان می باشد است.
لایه فوقانی
یک لایه مشتری front-end می باشد که شامل ابزارهای پرس وجو و گزارش گیری ، تحلیل و داده کاوی می باشد.
Back to top
vahid
بي تو هرگز


Joined: 26 Nov 2004
Posts: 3067
Location: Tehran

PostPosted: Thu Mar 08, 2012 9:47 am    Post subject: DataWarehouse Models: EnterpriseWarehouse,Data Mart, and Vir Reply with quote

DataWarehouse Models: EnterpriseWarehouse,
Data Mart, and VirtualWarehouse

از نقطه نظر معماری از این دیدگاه، 3 مدل انبار داده ها وجود دارد
Enterprise warehouse:
یک انبار داده جامع تمام اطلاعات راجع به موضوعات کل سازمان را پوشش می دهد. یک انباره داده جامع ممکن است روی مین فریم ها یا سوپر کامپیوترها یا پلتفرم های موازی باشد و ممکن است سالها برای طراحی و ساخت ان زحمت کشیده شده باشد چرا که اطلاعات چندین سیستم عملیاتی یا حتی اطلاعاتی که از خارج از سازمان فراهم می شود نیز در این سیستم جامع در نظر گرفته شود.
Data mart :
یک data mart شامل یک زیرمجموعه از داده های گروهی از کاربران شرکت می باشد . هدف کوچک سازی برای موضوع خاصی می باشد. برای مثال یک دیتا مارت برای بازاریابی به موضوع مشتری، ایتم ها و فروش بر می گردد. داده شامل شده در دیتا مارت تمایلا خلاصه شده است . دیتا مارت ها معمولا روی سرور های ویندوزی لینوکسی با قیمت نه چندان زیاد هستند. سیکل پیاده سازی یک دیتا مارت تقریبا حدود چند هفته تا چند ماه است .
بسته به منبع داده دیتامارت می تواند در گروه مستقل یا وابسته گروه بندی شود. دیتامارت مستقل از داده ای که از یک یا چند سیستم عامل یا تامین کننده اطلاعات خارجی تامین شده است. دیتا مارت وابسته مستقیما از یک انباره داده بزرگ enterprise منشا می شوند.
Virtual warehouse :
یک انباره مجازی یک مجموعه از View ها روی دیتابیس می باشد.
Back to top
vahid
بي تو هرگز


Joined: 26 Nov 2004
Posts: 3067
Location: Tehran

PostPosted: Thu Mar 08, 2012 9:54 am    Post subject: Extraction, Transformation, and Loading Reply with quote

سیستم های انباره داده با استفاده از ابزارهای back-end و ابزارهایی برای جمع اوری و بازاوری اطلاعات استفاده می کنند . این ابزارها با استفاده از توابع زیر عمل می کنند :
Data extraction
با استفاده از این تابع داده ها از چندین منبع خارجی ناهمگون بازیابی می شوند.
Data cleaning
که خطا ها را در داده ها در صورت امکان شناسایی و تصحیح می کند .
Data transformation
که داده ها را از فورمت جایی که امده اند به فورمت انباره داده تبدیل می کند .
Load :
که مرتب سازی خلاصه سازی و یکدست کردن و محاسبات View ها و چک کردن جامعیت و ساختن پارتیشن ها و شاخص ها را بر عهده دارد.
Refresh که بروزرسانی ها را از دیگر منابع داده به انباره داده انجام می دهد .
Back to top
vahid
بي تو هرگز


Joined: 26 Nov 2004
Posts: 3067
Location: Tehran

PostPosted: Thu Mar 08, 2012 10:09 am    Post subject: Metadata Repository Reply with quote

فراداده ها داد هایی هستند درمورد داده های موجود . وقتی در انباره داده از فراداده ها استفاده می کنیم در واقع برای تعریف اشیای انباره از فراداده ها استفاده می شود . یک فراداده یا متادیتا باید شامل موارد زیر باشد :
تعریفی از ساختار انباره داده شامل شماهای انباره ، Viewها ، ابعاد، سلسله مراتب و داده های مشخص مشتق شده همچون مکان های دیتامارت و محتویات ان .
فراداده عملیاتی: که شامل داده های سطربندی ( تاریخچه مهاجرت داده و توالی تبدیلی که انجام شده است)، رواج داده( فعال، ارشیو شده یا پاکسازی ان) و اطلاعات مانیتورینگ( انباره با استفاده از امارها، گزارش خطاها و بازبینی دنباله ها) می باشد.
الگوریتم هایی که برای خلاصه سازی استفاده شده است، که شامل اندازه و ابعاد مشخص شده در الگوریتم ها پارتیش ها و نواحی موضوعات ، جمع کردن، خلاصه سازی و داده های روی granualarity و پرس و جو های از پیش تعیین شده و گزارشات .
نگاشت از محیط عملیاتی به انباره داده ، که شامل منابع پایگاه داده و محتویات ان ، تعریف دروازه ها gateway و داده partition داده استخراج شده ، پاکسازی، تبدیل قوانین و پیشفرض ها، بازیابی داده ها و قوانین پاکسازی و امنیت( مجوز کاربران و دسترسی کنترل).
داده های مرتبط به کارایی سیستم: که شامل شاخص ها و پروفایل هایی که دسترسی و بازیابی کارایی داده ها را بهبود می بخشند علاوه بر قوانین برای زمان بندی و توالی زماینی بازایبی بروزرسانی و سیکل replicate ها .
فراداده تجاری : که شامل ضوابط تجاری و تعریف ها ، مالکیت داده ها و اطلاعات و سیاست های شارژ کردن
Back to top
Display posts from previous:   
Post new topic   Reply to topic    ParsX.com Forum Index -> داده کاوی اطلاعات All times are GMT + 3.5 Hours
Page 1 of 1

 
Jump to:  
You cannot post new topics in this forum
You cannot reply to topics in this forum
You cannot edit your posts in this forum
You cannot delete your posts in this forum
You cannot vote in polls in this forum