ÀÌ»óÈ£ ȸ¿ø(°­¸ª¿øÁÖ´ëÇб³), "RÀ» È°¿ëÇÑ ÀÌ»óÄ¡ °ËÃâ°ú ó¸®" Ã¥ ÁýÇÊ

°¢Á¾ ½ÇÇè°ú °üÃø ¹× °üÂû µîÀ» ÅëÇØ ¾ò¾îÁø ÀÚ·áµé Àüü¿¡¼­ µ¿¶³¾îÁ® Àְųª ƯÀÌÇÑ Æ¯¼ºÀ̳ª °æÇâÀ» º¸ÀÌ´Â ÀÚ·áµéÀÌ ³ªÅ¸³­´Ù. ÀÌ¿Í °°Àº Çö»óÀº ±Ý¼Ó·Àç·áºÐ¾ß¸¦ Æ÷ÇÔÇÑ Àü ºÐ¾ß¿¡¼­ ³ªÅ¸³ª´Âµ¥, ±×¿Í °°Àº Ư¡À» °¡Áö°í ÀÖ´Â ÀڷḦ ÀÌ»óÄ¡(outlier)¶ó°í ÇÑ´Ù. ½ÇÇèÀÚ¿Í ¿¬±¸ÀÚµéÀº ÀÌ¿Í °°Àº ÀÚ·áµéÀÌ ¾î¶² ¿øÀο¡ ÀÇÇØ ¹ß»ýÇÑ °ÍÀÎÁö, ¿¹¸¦ µé¸é ½Ç¼ö¿¡ ÀÇÇÏ¿© ¹ß»ýÇÑ °ÍÀÎÁö, ¾Æ´Ï¸é »ö´Ù¸£°í Áß¿äÇÑ Æ¯¼ºÀ» °¡Áö°í Àֱ⠶§¹®¿¡ ÀÎÁö, ±×°Íµµ ¾Æ´Ï¸é ¾î¿ ¼ö ¾øÀÌ µå¹°°Ô ³ªÅ¸³ª´Â ¿ÀÂ÷°¡ ¾ÆÁÖ Ä¿¼­ ¹ß»ýÇÑ ÀÚ·áÀÎÁö¸¦ ÆÇ´ÜÇØ¾ß ÇÒ °ÍÀÌ´Ù.

ÀÚ·áÀÇ ½Å·Úµµ¸¦ ³ôÀ̱â À§Çؼ­´Â ÀÌ»óÄ¡ÀÇ °ËÃâ°ú Á¦°Å ¹× ¿øÀÎ ÆľÇÀ» ÇÏ´Â °ÍÀÌ ¿À´Ã³¯¿¡´Â ¾ÆÁÖ Áß¿äÇÑ °úÁ¦°¡ µÇ¾úÀ¸¸ç, ±Ý¼Ó·Àç·áºÐ¾ß¿¡ ´ëÇÑ ¿¬±¸¸¦ ÇÔ²²ÇÏ´Â µµÁß¿¡ ¡®¿¹»óÄ¡ ¸øÇÑ ÀÌ»óÇÑ ÀڷḦ ¾î¶»°Ô ó¸®ÇØ¾ß Çϴ°¡?¡¯¿¡ ´ëÇÑ Áú¹®À» ÀÚÁÖ ¹Þ°Ô µÇ¾î¼­ °ü½ÉÀ» °®°Ô µÇ¾î °ü½ÉÀ» °®°Ô µÇ¾ú´Ù. ÀÌ Ã¥¿¡¼­´Â ÀÚ·á °úÇÐ(Data Science)¿¡¼­ ¸¹ÀÌ »ç¿ëÇÏ´Â ÆÐÅ°Áö R-projectÀ» ÀÌ¿ëÇÏ¿© ÀÌ»óÄ¡¸¦ ã¾Æ³»°í ó¸®ÇÏ´Â ¹æ¹ýÀ» ÀϺ¯·®(univariate)°ú À̺¯·®(bivariate) ±×¸®°í ´Ùº¯·®(multivariate) ÀÚ·á·Î ±¸ºÐÇÏ¿© ´Ù·ç¾ú°í, ½Ã°è¿­(time series) ÀÚ·á¿¡¼­ ÀÌ»óÄ¡¸¦ °ËÃâÇÏ°í ó¸®ÇÏ´Â ¹æ¹ýµµ ´Ù·ç¾ú´Ù.