-
IoT센싱데이터의 머신러닝 위험 감지 및 예측 모델링
▶ 프로젝트 배경정부와 공공기관에서 빅데이터와 인공지능을 도입하려고 하는 가장 핵심적인 분야는 '재난/안전'입니다. 그래서 중앙정부뿐만 아니라 각 지자체에서도 빅데이터와 인공지능을 활용하여 위험을 모리터링, 감지하고, 이에 대한 적절한 대응을 할 수 있는 시스템을 도입하려고 노력하고 있습니다. 그러나 안전 분야의 전문적인 빅데이터 분석업체가 없다보니 공공기관에서는 이러한 사업을 진행하는 데에 어려움을 겪고 있습니다. 혹여 빅데이터 사업을 계획하거나 운영한다면 '재난/안전'에 특화된 전문적인 데이터 및 경험을 축적한다면 충분히 승산이 있을리라 봅니다. 본 프로젝트는 지자체 중 고층건물이 많은 도시에서 연구한 것입니다. 고층건물의 다양한 위험상황(화재, 지진 등)을 센서로 상시 모니터링 하고, 이에 대한 위험 감지를 위해 상황별로 지속적인 학습 데이터를 제공하여, 궁극적으로는 재난/위험 상황에 대한 신호를 감지하는 인공지능 모델링을 구현하는 것입니다. 본 과제뿐만 아니라 다른 데이터 사이언스 프로젝트가 그렇듯이 '데이터'가 충분히 주어져여 좋은 모델을 만들 수가 있습니다. 그러나 본 프로젝트는 IoT 센서로부터 누적된 데이터가 없이, 사업 과정에서 센서를 달고 시작해야 했습니다. 즉 데이터가 없는 상황에서 머신러닝/딥러닝 기법을 적용하여 최적의 재난/안전 상황 모니터링 및 예측 모델링을 해야 하는 과제였습니다. ▶ 주요 결과물 일반적으로 센서를 이용한 모니터링 및 예측은 아래와 같은 프로세스로 진행됩니다. 데이터 수집: 다양한 센서(온도, 습도, 진동 등) 혹은 복합센서를 건물이나 해당 지역에 달고 이 데이터를 실시간으로 서버에 받습니다. 서버에 들어오는 데이터는 아직 분석에 맞게 정제되지 않는 경우가 많기 때문에 변수 단위서 parsing을 통해 DB에 저장을 하게 됩니다. 여기서 센서를 어떻게 달아야 하는가 어떻게 서버로 전송받는가 등 이러한 경험이 없을 경우는 난감할 수 있습니다. 그러나 의외와 품질 좋은 센서는 이미 서버와의 통신모듈을 가지고 있기 때문에 센서를 달면 바로 지정된 서버에 잘 저장이 됩니다. 다만 저장시간단위를 얼마로 할 것인가(초, 분 등)는 서버용량 및 감지의 민감성 등을 고려하여 조정해야 하며, 이 역시 센서 모듈에서 조정할 수 있습니다. 데이터 전처리: 이렇게 DB에 쌓인 센서 데이터를 바로 인공지능 분석법(머신러닝/딥러닝)에 적용하면 안됩니다. 왜냐하면 데이터 변수의 단위가 모두 다르기 때문에 데이터의 단위를 표준화 또는 정규화하는 방법을 거쳐서 단위를 동일하게 해야 합니다. 모니터링: 모니터링은 단일 변수에 대한 모니터링과 다차원 축소과정을 거친 다변수 모니터링이 동시에 이루어져야 합니다. 즉 온도, 습도, 진동 등 각각의 데이터를 시각적으로 혹은 수치로 확인하면서 정상적인 범위에 있는지를 파악함과 동시에 온도+습도+진동 등을 통합한(이를 데이터분석에서는 차원축소: dimension reduction이라고 합니다) 시각화 혹은 수치의 확인이 필요합니다. 이유는 각 단일 측정치도 중요하지만 위험과 재난이라는 것은 특정 변수에서 감지되지 못하지만 여러 상황(예를 들어 진동이 발생하면서 먼지가 많아진다=지진 위험 초기 예측 등)을 통해서 더욱 빠르게 감지될 수 있기 때문입니다.예측: 좋은 예측 모델링 결과는 한 번에, 하나의 알고리즘만을 적용해서 얻어질 수 없습니다. 다양한 알고리즘을 적용하면서 그 중 예측이 최적인 대안적 알고리즘을 선별하는 과정이 여러 상황에서, 여러 데이터에서 확인되어야 합니다. 이러한 과정을 통해서 2~4개의 예측모델링이 최적의 결과를 보인다면, 이중 1개 또는 2-3개의 별도 알고리즘으로 재난 상황을 상시적으로 예측할 수 있는 별도의 예측 모델링을 두는 것이 좋습니다. 위에서 언급한 프로세스를 좀 더 직관적으로 도식화하면 아래와 같이 정리할 수 있을 것입니다. ▶ 프로젝트 뒷 이야기 본 프로젝트에서 가장 어려운 부분은 '기존에 확보된 센서 데이터가 없다'는 것이었습니다. 이에 과업 기간 내에 시뮬레이션을 할 수 있는 상황을 다양하게 만들어, 예를 들어 센서가 부착된 지역에서 담배를 피운다든지, 불을 질러본다든지 등 다양한 상황을 학습시켜야 했습니다. 이것이 실제 상황과 유사하게 하기 위해서는 안전장치를 마련한 상태에서 다양한 상황을 센서를 통해 데이터 학습을 시키는 것이 중요합니다. 아무리 좋은 알고리즘도 데이터가 없으면 쓸모가 없습니다. 알고리즘이 요리 레시피라면 데이터는 요리 재료입니다. 훌륭한 레시피라도 재료가 신선하고 좋아야 맛있는 요리가 됩니다. 따라서 앞으로의 시대를 데이터의 시대라고 하는 것도 알고리즘은 공부를 하든 인력을 구하든 간에 상대적으로 쉽게 확보할 수 있지만, 데이터는 오랜 기간 동안 꾸준이 축적되고 이를 가치있게 만드는 것이 핵심이기 때문입니다. 데이터분석을 학습하시면서, 동시에 여러분들이 가지고 있는 혹은 마련할 수 있는 '데이터 사업'도 같이 고민하시기 바랍니다. 데이터가 돈인 세상이 곧 옵니다.
데이터캠퍼스
2020.02.11
-
바이오메디컬산업 육성산업 발굴 프로젝트
▶ 프로젝트 배경 본 프로젝트는 지자체에서 발주한 연구로서, 해당 지자체가 중점 육성하고자 하는 바이오메디컬 산업에 대한 구체적인 산업과 기술을 발굴하는 것입니다. 2017년 경에 진행한 장기 프로젝트로서, 고난이도의 융합분석이 요구되는 과업입니다. 우선 지자체의 강점 및 연구인프라를 파악해야하고, 이를 바탕으로 다양한 바이오메디컬 분야 중 중점 산업을 타겟팅해야 하므로 단순히 주어진 데이터로 모델링하는 것이 아니라 논리적 프로세스와 객관적 판단이 바탕이 된 분석이 필요하였습니다. 특히 정량적 데이터보다는 연구물(논문, 특허 등)이 분석 대상이 되는 텍스트이므로 텍스트마이닝, 연구지형분석 등 연구물 기반의 클러스터링 및 네트워크에 대한 개념과 방법론을 충분히 알고 진행해야 합니다. ▶ 주요 결과물 본 프로젝트의 핵심은 해당 지자체의 연구인력(대학 및 연구소)이 메디컬 바이오 분야에서 어떤 연구역량과 기술적 우위를 가지고 있는가를 분석하는 것이었습니다. 왜냐하면 아무리 바이오메디컬분야가 미래의 유망산업이라고 할지라도 역량이 되지 않으면 육성할 수 없기 때문입니다. 이에 아래의 전반적인 프로세스 중에서 지자체 소재 연구기관에서의 핵심 연구지형을 탐색하고, 이 중 중점 분야를 발굴하는 것입니다. 특히 아직 미실현된 미래 유망 산업에서는 잠재되어 있는 연구 능력을 파악해야 하는데, 이를 확인하기 위해서 과학기술논문을 분석대상으로 삼았습니다. 세계적 논문기관인 톰슨사에서는 연구분류를 아래와 같이 172개 주제, 252개 연구영역으로 분류합니다. 또한 세부기술에 대해서는 Abstract에서 언급하고 있습니다. 논문 전체보다는 이러한 분류 및 세부기술에 대한 분석을 통해서 분석해야 큰 그림을 파악할 수 있습니다. 이렇게 해당 지자체에서 최근 10년 이내에 발표한 세계 과학기술 논문의 연구지형을 도식화한 결과는 아래와 같습니다. 이를 바탕으로 유사 연구지형에 대한 분석결과, 총 8대 중점 바이오메디컬 분야(산업)이 경쟁우위에 있다는 것을 파악할 수 있었습니다. 그리고 이 8대 산업(분야)를 구성하는 핵심 세부기술 간의 네트워크는 아래와 같이 파악되었습니다. 이러한 큰 그림을 도출한 후, 세부적으로 연구주제 간의 융합 연구와 이를 통한 연구분야를 재확인한 결과, 역시 위의 결과와 마찬가지로 8대 분야가 해당 지자체에서 집중적으로 연구되고 있고, 상대적으로 바이오메디컬 분야의 강점으로 부각되었음을 확인할 수 있었습니다. 또한, 잠재된 연구능력 이외에, 실제 기업의 기술구현 가능성을 파악하기 위해 해당 지역에서 출원 및 등록한 10년간 특허를 분석한 결과 역시 8대 산업과 중복되는 분야가 상당히 발견되었습니다. 이러한 결과를 바탕으로 해당 지자체에 핵심 중점 바이오메디컬 산업에 8개 분야를 제안하였고, 각 산업 육성을 위한 중장기 마스터프랜도 제시했던 과업이었습니다. ▶ 프로젝트 뒷 이야기 본 프로젝트는 분석능력 이외에도 기획, 전략수립이라는 분석 기반 컨설팅에 가까운 것입니다. 과거의 컨설팅이 전문가들의 경험과 직관에 상당부분 의존적이었다면, 최근들어 정량적 분석 기반 컨설팅이 요구되고 있습니다. 그러나 아직도 컨설팅 분야에서는 간단한 서베이 등 요식행위로 데이터가 다루어집니다. 이는 컨설턴트들의 데이터분석 능력이 떨어지기 때문입니다. 데이터가 모든 것을 말해주진 않습니다. 어떤 경우에는 데이터분석보다 직관과 경험이 더 현실적인 경우도 많은 것이 현실입니다. 그러나 데이터 분석에 대한 다양한 접근과 방법론을 안다면, 그리고 이를 프로젝트와 연구에 적용할 수 있다면, 그로부터 얻는 인사이트는 매우 클 것입니다. 기획, 전략, 컨설팅 분야의 연구자와 컨설턴트들 또한 데이터캠퍼스에서 제공하는 다양한 분석에 대한 인사이트를 익힌다면 기업과 기관에게 더욱 올바른 방향을 제시할뿐만 아니라 그 가치도 더욱 커질 것이라고 확신합니다. "데이터캠퍼스와 함께 하십시오"
데이터캠퍼스
2020.02.11
-
공공기관의 보유기술과 수요기업의 매칭 분석
▶ 프로젝트 배경 본 프로젝트는 2016년 경에 와이즈인컴퍼니(데이터인의 모기업)에서 진행한 프로젝트입니다. 국내 최대 연구기관이 보유한 R&D성과물(기술, 지식, 정보)을 수요 기업에 및 산업 전반에 확산함으로써 기술경제 생태계에 긍정적 기여를 해야 하는 기관 본연의 역할이 있습니다. 그러나 기존에는 과학적이고 객관적인 방법으로 연구 성과물을 기업에게 이전하기보다는 다소 주먹구구식의 기술이전 방식을 취해왔습니다. 즉 기관에서는 기술이전 제도의 향상을 위해 기술 마케팅의 질적 변화와 방법의 고도화가 필요했고, 이에 와이즈인컴퍼니는 데이터분석 방법론을 적용하여 보유기술에 맞는 수요기업을 추천하고, 보유 기술 중 유사기술을 추천하는 알고리즘을 개발하여 기술 이전 패키지화를 진행하였습니다. 즉 이 프로젝트는 다음과 같은 목적을 달성하기 위해서 수행되었습니다.첫째, 기술이전 성공에 영향을 미치는 생기원 보유특허의 기술적 특성요인 도출하여 어떤 기술의 기술마케팅 성과가 뛰어난지에 대한 분석을 통해 유망기술 선정의 지표화하고 기술별 이전가능성을 객관적으로 도출하는 것둘째, 수요기업 요인 분석을 통해 어떤 기업에게 생기원 보유 특허가 이전되었는지를 파악하여 잠재 수요기업을 발굴하는 것셋째, 연관기술을 추천할 수 있는 알고리즘을 개발하여 Package 기술이전 성과창출에 기여하는 것 ▶ 주요 결과물 해당 국책연구기간이 보유한 1,392개 특허를 대상으로 기술이전 성공에 영향을 미치는 기술 특성요인의 지표로는 내외부 특허 평가지표, 논문/특허 빅데이터, 기술관련 웹사이트 수집 빅데이터를 활용하였습니다. 또한 기업의 기술이전 여부를 예측하기 위해 본원의 기술을 이전한 179개 기업과 이전 받지 않았으나 이전 기업과 유사한 특성을 보이는 기업을 비교 집단으로 설정하였습니다.예측모델로는 대표적으로 Logsitic Regression Model을 적용하였고, 추천 유망기술 발굴을 위해서는 Text mining 유사성 분석인 Dec2vec과 LDA방법을 적용하였습니다.본원 보유기술의 이전 예측분석 결과, 77.9%~82.3%의 예측력을 보였으며, 특허평가지표만을 예측변수로 할 경우(77.9%)보다 빅데이터 지표를 추가할 경우(82.3%) 예측력이 더 높게 나타나서 더욱 기술별 이전여부를 예측하는 타당한 모델을 구축하였습니다. 다음 기업의 기술이전 예측 분석 결과 91.7%의 정확도를 보였으며, 이를 기준으로 본원 기술을 이전받지 않은 기업 중 이전 확률이 높은 30개 기업을 정리하면 아래와 같이 나타났습니다. 즉 기업별로 기술이전 받을 확률을 분석하여 더욱 집중적인 기술이전 마케팅과 성과를 보일 수 있었습니다. 또한 연구기관이 보유한 유사특허에 추천 모델링을 위해 알고리즘은 Doc2Vec을 이용하여 적용하여 각 특허 간의 유사성을 도축하고 토픽 모델링(Topic Modeling) 방법으로 시각화하였습니다. 우선 전체 보유기술의 유사성을 그룹화한 결과 20개의 유사 기술군(group)으로 도출되었습니다. 이는 단지 시각화에서 그치는 것이 아니라 유사한 기술군을 도출하고 그들 간의 연관성 정도를 객관화하여 기술 이전시 유사한 보유 기술을 추천할 수 있는 기준을 삼은 것입니다. 이 중 6번째 기술군에서 자주 언급된 단어(기술) 및 하위 연관기술 결과는 아래와 같습니다. 즉 기관에서 보유한 특허 중 유사특허 군의 분석을 통해 각 기술은 유사성 지표값을 얻게 됩니다다. 따라서 특정 보유기술별로 유사한 특허를 추천하여 활용할 수 있었습니다. 앞서 분석한 결과를 아래와 같이 기술별 이전확률(등급)-유사특허-잠재 수요기업을 데이터베이스화 하여 본원의 기술이전 마케팅 DB로 활용하여 기술이전 가능성을 질적으로 향상시킬 수 있었습니다. 최종적으로 기관에서 가지고 있는 특허를 이전받을 가능성이 높은 기업 리스트를 매칭하여 실제 기술이전 마케팅의 효율성을 높이는 데에 기여한 프로젝트입니다. ▶ 프로젝트 뒷 이야기 이 프로젝트는 상당히 긴 기간동안 이루어졌습니다. 처음 기획회의부터 최종 마무리까지 약 1년간 진행되었습니다. 그 이유는 첫째, 명확한 방향과 프로젝트의 현실성을 검토하기 위해서 변리사, 타연구기관 기술이전 담당자 등의 조언을 바탕으로 여러 번의 회의를 거쳤었습니다. 둘째, 기업DB의 확보가 쉽지 않았습니다. 국내 기업 중 기술이전 받을 가능성이 높은 기업의 특성을 분석하기 위해서는 다양한 기업의 특성변수가 필요한데, 이에 대한 확보가 쉽지 않았었습니다. 따라서 여러 사람들이 본 과업의 성과에 대해서 회의적인 입장에서 시작하게 되었습니다. 그러나 그럼에도 불구하고 기대 이상의 성과를 보이며 마무리가 되었습니다. 이 프로젝트를 하면서 다시 한 번 확인 한 것은 "시도해봐야 안다"는 것입니다. 많은 기관에서 데이터분석을 통해 인사이트를 발굴하거나 예측모델을 수립하고자 하지만, 시작 전에 회의를 하면서 '안될거야'라는 얘기를 하고 접는 경우를 많이 봅니다. 그러나 해보지 않고서는 알 수 없으며, 비록 실패한다 하더라고 어떤 점이 해결되어야 할 과제인지를 명학하게 알 수 있는 것이 바로 데이터 분석입니다. 여러분들 역시 기업내에서, 혹은 개인적으로 어떤 분석 과제를 수행하려 한다면, 우선 작은 데이터로 전체 과정을 진행해보시기 바랍니다. 처음부터 큰 데이터로 진행하는 것보다 미흡하지만 가능한 수준에서 전체 과정을 한 번 밟아보면 명확하게 가능성과 문제점, 보완점들이 보일 것입니다. 그리고 시도해보십시오. 데이터캠퍼스의 교육과정과 함께!
데이터캠퍼스
2020.02.10
-
개인정보 네트워크분석 및 위험률 예측분석
▶ 프로젝트 배경 본 프로젝트는 데이터캠퍼스 모기업인 와이즈인컴퍼니가 2013년도에 수행한 연구 과업입니다. 현재에서 사회적 문제가 되지만, 2010년도를 전후하여 기업이 보유하고 있는 개인정보 (주민등록번호 등)의 유출문제가 심각하게 대두되고 있었습니다. 이에 관련 공공기관에서는 과연 기업이 수집한 개인정보가 어떻게 흘러가고 있는지, 어떤 기업이 리스크가 큰지, 이에 따라 어디를 중점 관리해야 하는지를 데이터 분석을 기반으로 도출하기를 희망하고 있었습니다. 이에 와이즈인컴퍼니는 아래와 같이 기업의 일반사항, 개인정보처리에 대한 사항 등을 기준으로 약 1만 여개 기업의 홈페이지를 웹크롤링 및 연구인력의 분석을 병행하여 모델링을 하였습니다. ▶ 주요 결과물 우선적으로 수집된 1만여개 기업의 개인정보 흐름을 파악하기 위해서 네트워크 분석기법(network)을 활용하여 어떻게 수집된 정보가 흘러가고 있는지를 분석하였습니다. 아래에서 보는 바와 같이 정보서비스업과 금융업 내부 기업간, 그리고 두 업종 간의 개인정보의 거래가 가장 많이 이루어지고 있었습니다. 사회적 이슈가 되었던 기업들이 대부분 금융기업과 전자정보 기업인 것은 이러한 결과와 무관하지 않았습니다. 그 중에서 주민등록번호를 포함한 개인정보를 가장 많이 다른 업체에 제공해주는 10개 기관을 잡아냈습니다. 아래의 그림에서 흰박스를 칠한 곳입니다. 정보보호상 오픈할 수는 없지만, 실제 10개 기업 중 2군데에서 개인정보 유출의 문제가 발생하였었습니다. 또한 개인정보 민원이 가장 많이 발생한 10개 업체의 정보흐름 네트워크를 파악해보니, 통신회사에서 개인정보 유출관련 민원발생이 가장 많이 나타났고, 이에 대한 관리가 필요하다고 데이터가 말해주고 있습니다. 이 외에도 네트워크 분석을 통해 각 개별 기업의 흐름을 정확하게 분석할 수 있었습니다. 또한 기업 정보를 원인변수로 하고 민원발생을 결과변수로 하여 다변량 예측모델링을 수행한 결과, 기존에 사람이 하던 민원발생 기업을 잡아내는 예측력이 18% 수준인 반면, 모델링 결과는 83% 가량 정확도가 향상되었습니다. 이로 인해 개별 기업에 대한 동일한 모니터링이 아니라 문제가 발생할 가능성이 높은 기업을 중점적으로 관리하여 개인정보의 보호와 사회적 문제를 최소화하는 데에 기여한 프로젝트입니다. ▶ 프로젝트 뒷 이야기 본 프로젝트는 사회적 문제를 데이터 기반으로 명확하게 한 사례입니다. 사람의 감으로 문제가 될 것 같은 기업을 관리감도하는 것이 아니라 데이터 기반의 예측과 네트워크분석을 통해서 어떤 기업이 문제가 발생할 여지가 높으며, 또한 이 기업은 어느 기업에게 정보를 전달하고 있어 파생적으로 관리를 해야 하는지에 대한 맵(map)을 제시한 연구입니다. 이러한 분석을 위해서는 고난이도 네트워크 분석이 요구되지는 않습니다. 다만 네트워크 분석의 개념과 활용을 파악하고 정보간의 흐름을 시각화할 줄 알면 됩니다. 분석도구 역시 거창한 유료 프로그램이 아니라 엑셀노드와 같은 심플한 분석으로도 충분히 가능하였습니다.또한 예측 모델링은 회귀분석, 그 중 로지스틱 회귀분석을 통해 민원발생여부에 미치는 기업 요인을 모델링한 것입니다. 이는 회귀분석에 대한 개념과 활용을 알고 있다면 충분히 모델링할 수 있는 과제입니다. 이렇듯 고급수준의 분석만이 엄청난 인사이트를 가져오는 것은 아닙니다. 어떤 결과를 얻기 위해 어떤 분석법이 활용되어야 하는가.... 이것이 핵심입니다.분석을 다양하게 알아야 그에 맞는 적합한 기법을 적용할 수 있겠죠.데이터캠퍼스의 분석방법을 다양하게 알고 계신다면, 여러분들도 하실 수 있는 프로젝트입니다
데이터캠퍼스
2020.02.08