طرح های پژوهشی انجام شده با موضوع اراﺋﻪی ﻣﺪﻟﻲ ﺑﺮای ﭘﻴﺶﺑﻴﻨﻲ ﮔﺮاﻳﺶ ﻋﻤﻮﻣﻲ در ﺑﻼﮔﺴﺘﺎن ﺑﺎ اﺳﺘﻔﺎده از ... |
اما نکته جالب درباره این نمودار این است که در تکرار[۱۳۷] ۱۵۰۰ تا ۲۰۰۰ ناگهان تغییرات شدیدی در گرایش بلاگستان رخ داده است و پس از آن دوباره تغییرات مکان صفر شده و به حالت ثبات ذرات تبدیل شده است.
شکل۴‑۲- تغییرات مکان ذرات
در شکل ۴-۳ خطای کشف trend نسبت به آزمون کای آورده شده است. از آنجا که آزمون کای با بررسی همهی نمونهها به کشف trend میپردازد مقایسه کردن خطای PSO نسبت به کای نمایانگر آن است که در ابتدای الگوریتم PSO حرکت ذرات پراکنده بوده و از گرایش بلاگستان دور بوده اما به مرور به نتیجه همگرا شده است و در انتها تقریبا تفاوتی با نتایج آزمون کای ندارد.
شکل۴‑۳ - خطای کشف trend در PSO نسبت به آزمون کای
در شکل ۴-۴ به مقایسهی خطای کشف گرایش با خطای سرعت پرداختهایم. در هر تغییر مکان ذرات در الگوریتم PSO بردار سرعت نشاندهندهی جهت حرکت ذرات به سمت یک گرایش جدید است. با توجه به اینکه خطای نسبی کشف گرایش توسط PSO به کای را محاسبه کردیم، محاسبه MSE[138] مقدار بردار سرعت به گرایشی که توسط آزمون کای استخراج شده میسر میشود.
شکل۴‑۴ - مقایسه خطای گرایش با خطای بردار سرعت
همانطور که در شکل ۴-۴ مشاهده میکنید خطای بردار سرعت با خطای کشف گرایش تا حدودی در ارتباط است. بنابراین با به دست آوردن خطای بردار سرعت در بازههای زمانی طولانی میتوان با سرعت بیشتری گرایشهای بلاگستان همگرا شد.
در شکل ۴-۵ ارتباط fitness در الگوریتم PSO با trend و velocity نمایش داده شده است. به وضوح مشخص است که علی رغم آنکه MSE مقدار بردار سرعت به گرایشی که توسط آزمون کای استخراج شده مرتبط است اما خود بردار سرعت اطلاعات زیادی پیرامون گرایش بلاگستان در اختیار قرار نمیدهد. در این شکل مشخص است زمانی که fitness value در الگوریتم PSO تغییر میکند میتوانیم انتظار تغییر در گرایش بلاگستان را داشته باشیم.
شکل۴‑۵ - ارتباط fitness در الگوریتم PSO با trend و velocity
مصورسازی[۱۳۹] رفتار PSO
همانگونه که در شکل ۴-۳ مشخص شد در PSO ، طی تکرارهای الگوریتم، خطای محاسباتی کمتر میشود. اما بهبود در تولید پاسخها طی زمان، از طریق رسم گرایشهایی که در تکرارهای مختلف الگوریتم تولید میشوند نیز قبل مشاهده است.
برای این منظور در بازههای مشخص زمانی اطلاعات مربوط کشف گرایش را از الگوریتم استخراج کردیم و با بهره گرفتن از نرمافزار Gephi این دادهها را رسم کردیم. گرایشات مختلف در بلاگستان نمودی مشابه با نمود یک هستیشناسی[۱۴۰] دارند. در واقع زمانی که بین گرایشات مختلف ارتباطها مشخص میشوند معنای دیگری به اطلاعات اضافه میشود که در سطح تجرد[۱۴۱] بالاتری قرار دارد.
برای مثال اگر بین کلمهی sony و کلمهی camera ارتباطی برقرار باشد مشخص میکند که شرکت sony به نحوی در تولید دوربینهای دیجیتال دخیل است و اگر الگوریتم ارتباطی بین کلمهی sony و کلمه cell phone پیدا کند این معنا برای گوشی همراه نیز صدق خواهد کرد و به همین ترتیب لغات و کلمات مشابه با ایجاد ارتباط بیان کننده ی معانی جدیدی خواهند بود.
به منظور مصورسازی نتایج کار PSO و رفتار این الگوریتم در طول زمان سه پارامتر مهم را به ویژگیهای گرایش اضافه کردیم. این سه پارامتر عبارتند از: ارتباط بین گرایش، فاصلهی بین دو گرایش، رتبهی گرایش.
ارتباط بین دو گرایش زمانی ایجاد میشد که الگوریتم بررسی یک پست وبلاگ در histogram تولیدی خود مقام دو گرایش را از یک مقدار threshold بیشتر تشخیص میداد. اگر دو گرایش A و B در یـک پـســت بـا هـم مرتبط باشند فاصلهی آنها مقداری به نام diameter در نظر گرفته میشود (رابطه ۴-۱).
رابطه ۴-۱
رابطه ۴-۲
شکل۴‑۶ - نموادر فاصله دو گرایش بر اساس تکرار
هرچه دو گرایش در پستهای بیشتری با هم تکرار شوند فاصلهی آنها کمتر میشود. همچنین برای هرکدام از گرایشها رتبه بندی[۱۴۲] قائل میشویم که همان fitness در الگوریتم PSO است. در مصور سازی این پارامتر با اندازه و رنگ مشخص شده است یعنی هرچه رتبه گرایش بالاتر باشد اندازه و رنگ آن نیز افزایش مییابد. این روال باعث ایجاد اشکالی شده که در شکلهای ۴-۷ تا ۴-۱۳ تشکیل شوند.
همانطور که در این شکلها مشخص است در ابتدا تعداد گرایشهای کشفشده کم است و در شکل ۴-۸ تعدا گرایشها بیشتر شده اما رتبهی آنها نسبت به هم کاهش مییابد . اما رفته رفته گرایشهای با رتبههای بالاتر مشخص شده و نکتهی جالبتر آنکه با گذشت زمکان فاصلهی بین گرایشهای برتر کمتر میشود.
این نکته نشانگر آن است که گرایشهای بلاگستان در هر دورهی زمانی با هم در یک هستیشناسی قرار میگیرند. بنابراین اگر از جنبهی مقابل به این ماجرا نگاه کنیم زمانی که مطلبی در بلاگستان معروف[۱۴۳] میشود احتمال آنکه مطالب مرتبط با آن در یک هستیشناسی، نیز معروف شوند بالا میرود.
شکل۴‑۷ - مصورسازی تکرار ۱۰ از الگوریتم PSO
شکل۴‑۸ - مصورسازی تکرار ۵۰۰ از الگوریتم PSO
شکل۴‑۹- مصورسازی تکرار ۱۰۰۰ از الگوریتم PSO
Foundations of Neural Computation, MIT Press, ISBN 0-262-58168-X (This book focuses on unsupervised learning in neural networks)
[۳۵] Roweis, S. T.; Saul, L. K. (2000). “Nonlinear Dimensionality Reduction by Locally Linear Embedding". Science 290 (5500): 2323–۲۳۲۶٫ doi: 10.1126/ science. 290.5500.2323. PMID 11125150.
[۳۶] Chapelle, Olivier; Schölkopf, Bernhard; Zien, Alexander (2006). Semi-supervised learning. Cambridge, Mass.: MIT Press. ISBN 978-0-262-03358-9.
[۳۷] Szita, Istvan; Csaba Szepesvari (2010). “Model-based Reinforcement Learning with Nearly Tight Exploration Complexity Bounds". ICML 2010. Omnipress. pp. 1031–۱۰۳۸٫
[۳۸] Alexander L. Strehl, Lihong Li, Eric Wiewiora, John Langford, and Michael L. Littman (2006) Pac model-free reinforcement learning. In Proc. 23nd ICML, pages 881–۸۸۸, ۲۰۰۶٫
[۳۹] David Martens, B. B. (2010). Editorial survey: swarm intelligence for data mining. Machine Learning , 1-42
[۴۰] http://opengarden.net/2010/12/swarm-intelligence-theory/ , Retrievied at 1/1/2014
[۴۱] http://de.wikipedia.org/wiki/Ameisenalgorithmus, Retrievied at 1/2/2014
[۴۲] Boumediene ALLAbdellah LAI, Brahim GA, (eds) (2006), Neuro-Fuzzy DC Motor Speed Control Using Particle Swarm Optimization, Department of Electrical Engineering, Bechar University, B.P 417 BECHAR (08000) Algeria
[۴۳] Jake Van, Olivier Gr, Jaques Gr , (eds), (2010) Tutorial: Machine Learning for Astronomy with Scikit-learn, scikit-learn,
[۴۴] Matt Bunting, (2011); a Linux-Powered Spider Robot, linuxjournal,
[۴۵] Zhang Wang (2010) Information Systems and Evaluations, University of Pittsburgh
[۴۶] http://fa.wikibooks.org/wiki/%D8%B3%DB%8C%D8%B3%D8%AA%D9%85_%D8%B9%D8%A7%D9%85%D9%84/%D8%B3%DB%8C%D8%B3%D8%AA%D9%85%E2%80%8C%D9%87%D8%A7%DB%8C_%D8%AA%D9%88%D8%B2%D9%8A%D8%B9_%D8%B4%D8%AF%D9%87 , Retrievied at 5/1/2014
[۴۷] Nguyen Kim Anh. (2009) Database System Concepts , Vietnam OpenCourseWare on Jul 8, , Connexions
[۴۸] Oracle Team (2007) Distributed Database Concepts, Oracle8i Distributed Database Systems, Release 2 (8.1.6), A76960-01
[۴۹] Jaska, Leslie Lamport, Zuhlke Engineering, (2009) Active and Passive Replication in Distributed Systems,
[۵۰] Mike Masnick, (2012) Why Netflix Never Implemented the Algorithm That Won the Netflix $1 Million Challenge, techdirt Innovation,
[۵۱] “The Netflix Prize" http://www.netflixprize.com//community/viewtopic.php?id=1537 . Retrieved at 2014-01-09
[۵۲] Frank A. Haight (1967). Handbook of the Poisson Distribution. New York: John Wiley & Sons.
[۵۳] Anirban DasGupta (2011) Probability for Statistics and Machine Learning: Fundamentals and Advanced, , Springer,
Abstract
With the fast growing of the convenience and acceptance of social media and mobile technologies, resources such as blogs and other social networks, evolving prospects and experiments arise, as users now widely use online services to pursue the opinions of others and follow leaders of various fields. Analyzing activity of users has associations to data analytic, social network analysis, predictive analytics, targeted advertisement and also keeping customers in loyalty loop. Here we define a new model based on meta-heuristic methods to analyze activity of users on blog data. We aim to precisely model the user manners to find the trend by PSO and predict the future activity of big community after perceiving their communications through training stage. In detail, a Particle Swarm Intelligence model is trained with activity trend from the social media data that chosen to be blogs and is tested over later published posts. Since we need a high throughput system to coordinate PSO behavior with learning strategy for real-time data analytic, we develop a new model for feeding PSO by essential data and prevent executing costly steps for repeated inputs. Composing new feeding model by standard PSO result in high performance throughput analysis that make real-time analytic executed in a timely manner. Desired results were achieved in trend prediction using particle swarm intelligence based on fitness value in algorithm mapped to user sentiments and compared against CHI –squared test. Here we also provide pragmatic schemes for selecting suitable attributes for the model, achieve with interesting comments, and predict future work guidelines.
ISLAMIC AZAD UNIVERSITY
فرم در حال بارگذاری ...
[پنجشنبه 1400-07-29] [ 07:02:00 ب.ظ ]
|