< 적용할 점 >
CEO, CTO 인터뷰도 매일 하나씩 하기
< 요약 >
올거나이즈코리아는 데이터 범위 설정과 레이아웃 인식의 두가지 차별화된 기술을 가지고 있다. 이러한 기술을 바탕으로 오차 0%의 AI를 고객 입장에 맞춰 구현하는 것이 목표이다.
< 추가 조사: 채용공고 >
자연어 이해(NLU) AI 기술을 기반으로 기업 내의 많은 문서/텍스트 데이터를 분류, 추출, 검색을 해서 업무 자동화를 돕고 있습니다. △ 문서 출처 + 정확한 답변 = 알리GPT △복잡한 표까지 추출하고 원하는 형태로 변환하는 알리 캡처 △ 질문 의도를 이해하고, 빠르게 답을 보여주는 알리 답변봇까지 다양한 기업 맞춤형 AI 솔루션을 개발, 공급하고 있습니다.
현재 미국, 일본, 한국에서 2,500 곳 이상의 고객사에게 서비스를 제공중이며, 현대카드, KB 증권, 일본의 미쓰이스미토모(SMBC)금융그룹, 노무라 증권, AEON(아시아 1 위 라테일), KDDI(일본 2 위 민간통신사), 미국의 트래블러스, 오클라호마 주정부 등에서 사용 중입니다.
올거나이즈는 시리즈 A2까지 누적 투자 금액 1,500만 달러를 유치했고, 일본 시장 확대 및 도쿄거래소 상장을 목표로 본사 기능을 미국에서 일본 도쿄로 이전했습니다. 올거나이즈 팀은 한국, 일본, 미국에 글로벌 오피스를 두고 함께 협업하고 있습니다.
한국팀은 올거나이즈의 R&D센터 역할을 하고 있으며 개발 조직의 규모를 지속적으로 키워갈 계획입니다. 도약의 시작점에 있는 올거나이즈에서 성공의 경험을 함께할 인재를 모시고자 합니다.
올거나이즈 CEO 인터뷰
http://jmagazine.joins.com/forbes/view/334556
올거나이즈 CAIO 인터뷰
https://www.inews24.com/view/1579142
올거나이즈 CTO 인터뷰
https://zdnet.co.kr/view/?no=20230213094718
주요업무
• 문서 기반의 검색 엔진 개발
- Retrieval: 고객사의 문서 내에서 적절한 정보를 추출하도록 검색 시스템을 고도화합니다.
- Keyword base: 각 고객사 문서의 특징과 유니크한 키워드에 대응하는 시스템을 개발합니다. (ex. "파이프"에 대한 질문에 도메인 특성을 고려한 정보 검색)
- Semantic base: 고객의 질문과 의미론적으로 유사한 정보를 검색하는 시스템을 개발합니다. (ex. "태풍"에 대한 질문에 "천재지변" 정보 검색)
- Answer: 고객의 질문에 대한 적절한 답변을 생성 혹은 추출하는 시스템을 고도화합니다.
- RAG: Retrieval System과 LLM Model을 활용해 적절한 답변을 생성합니다.
- Answer Extraction: 고객사의 문서로 부터 적절한 답변 Span을 추출합니다.
• 모델 개발
- sLLM: 오픈소스 모델(ex. llama 등)을 활용하여 Instruction을 잘 따르고 Human preference도 잘하는 모델을 만듭니다.
- Multi-modal: 복잡한 표, 그래프, 이미지를 기반으로 정답을 생성하는 Multi-modal LLM을 개발합니다.
• 엔지니어링
- MLops: LLM Model 서빙 및 학습, Triton을 이용한 모델 자동 서빙, MLFlow를 이용한 실험 관리 등 Model과 관련된 전반적인 업무를 수행합니다.
- Data Pipeline: Genration Model을 활용한 Synthetic Data 생성 및 관리하는 시스템을 개발합니다.
- Document Layout Analysis: 다양한 문서 형태(ex. 테이블 구조, 다단 구조, Image format 문서 등)에서 올바르게 텍스트 추출 및 정제하는 시스템을 개발합니다.
- PoC: 빠른 데모 개발, 다양한 LLM 서비스 아이디어 구현을 통해 고객의 요구사항을 빠르게 검토합니다.
[자격요건]
• 딥러닝 및 NLP의 개념을 깊게 이해하고 원리를 설명 가능하신 분
• Python 사용이 능숙하신 분
• 백엔드의 코드 변경이 고객에게 어떤 영향을 미치는지 고객 관점에서 생각하실 수 있는 분
• 고객의 요구사항에 대해서 기민하게 반응하고, 디자이너, 기획자, 세일즈와 커뮤니케이션이 가능한 분• Readable 한 코드를 작성하시는 분
• 본인이 알고 있는 지식을 팀원과 공유하는데 적극적이신 분
• 문제에 대해 깊은 고민과 해결 방안을 제시 하실 수 있는 분
[우대사항]
• 최신 NLP (특히 LLM) 모델을 사용하거나 공부한 경험이 있으신 분
• NLP Production 개발 경험이 있으신 분
• Large scale web application 개발 경험이 있으신 분
• Open Source 를 사용할 때 가급적 코드의 내부를 들여다 보시는 분
• AI 관련 Challenge 수상 실적(캐글 및 해커톤 등) 또는 논문 작성 경험이 있으신 분
• 대화형 인공지능 제품을 많이 사용해보고, 어떻게 하면 좋은 답변을 제공할지 고민해보신 분
• LLM Model을 serving하거나 finetuning 해보신 분
• 적절한 답변 유도를 위해 Prompt engineering을 수행해보신 분
< 원문: 신기빈 올거나이즈 CAIO "프롬프트 넘어 데이터로 검색 강화...'오류 없는 챗봇' 개발 도전" >
'챗GPT' 인공지능(AI) 챗봇에 좋은 답을 얻기 위해서 좋은 질문이 필요하다는 것은 잘 알려진 사실이다. 이를 두고 '프롬프트 엔지니어링'이라는 분야까지 떠올랐다.
하지만 프롬프트 엔지니어링은 '소비자가 프롬프트 입력을 잘하는 것'이 아니라 '소비자가 어떤 명령어를 입력하든 적합한 대답과 근거를 내놓을 수 있는 구조를 만드는 것'이 핵심이다.
이 문제에 관한 한, 올거나이즈(대표 이창수, 신기빈)를 국내 대표 중 하나라고 해도 이견을 보일 사람은 없을 것이다. 이 회사는 2018년부터 구글의 최초 자연어 모델 'BERT'를 기반으로 각종 AI 솔루션을 개발해 왔기 때문이다. 일본 대형 은행과 북미의 글로벌 기업을 포함, 전 세계 2100여개가 넘는 기업과 파트너십을 맺고 챗봇과 기업 검색 기술을 공급해 온 경력도 있다.
특히 챗GPT 등장으로 주목받은 대표 기술, 즉 '검색 증강 생성(RAG)'이나 '생각의 체인(CoT)'은 이미 몇년 전부터 심혈을 기울인 분야다.
12월 초에는 대원씨티에스의 IT 쇼핑몰인 컴퓨터코리아에 상품 추천 챗봇을 도입했다고 알려 왔다. 어찌 보면 흔해 보이는 서비스같지만, 여기에는 올거나이즈의 핵심 노하우와 기술이 담겨 있다.
신기빈 CAIO는 "언어모델은 결국 검색, 데이터 처리, 프롬프트 엔지니어링의 총체적 결과물"이라고 전했다. 어느 하나만 갖춰서는 실용적인 서비스를 탄생시킬 수 없다는 설명이다. 실제로 '상품 추천 챗봇'이라는 평범해 보이는 기술 설명 뒤에는 많은 기술이 포함돼 있다고 소개했다.
이 제품은 'GPT-3.5 터보' 기반의 '알리 추천 LLM'이 핵심이다. RAG와 CoT를 강화, 컴퓨터코리아에 추가되는 신제품 및 복잡하고 다양한 제품군을 카테고리별로 나눠 빠르고 정확한 대답이 가능해졌다는 설명이다.
여기에 프롬프트 엔지니어링을 넘어 '데이터'까지 기술을 확장했다고 전했다. "어떤 데이터를 어떻게 학습하는지에 따라 답변의 퀄리티가 달라지기 때문"이라는 설명이다.
신 CAIO는 "다양한 비즈니스를 상대하며 자연스럽게 기술을 쌓을 수 있었다"라고 밝혔다. 실제 비즈니스 환경에서 기업이 보유한 문서와 데이터의 특성은 천차만별이라, 문서의 레이아웃 파악은 필수다. AI가 정보의 위치를 파악해야만 정확한 답변을 도출할 수 있기 때문이다.
또 "레이아웃으로 정보 위치를 파악했다면, 어떤 정보를 선별적으로 학습해 이용할 것인지를 결정하는 과정이 필요하다"라며 "올거나이즈의 차별점은 바로 레이아웃 인식과 데이터 범위 설정 등 두가지 분야의 핵심 기술을 보유하고 있다는 점"이라고 강조했다.
다음 목표는 이를 바탕으로 가장 정확한 대답을 내놓는, 즉 오차 0%인 모델을 개발하는 것이다. 그 핵심을 "메모리와 AI 에이전트 분야"라고 지목했다.
대형멀티모달모델(LMM)의 등장으로 AI 시스템은 고도화되고 있지만, 메모리와 에이전트는 아직 보완이 필요하다는 분석이다.
메모리는 말 그대로 AI 챗봇의 기억력을 말한다. 사용자와의 모든 대화 내용을 기억해 답변을 내놓는 LLM은 아직 없다. 또 최근 들어 입력할 수 있는 컨텍스트 창이 커지며 이 문제를 일부 해결하고 있으나, 근본적으로 '기억력이 좋아졌다고' 할 수는 없다는 설명이다. 향후 앞뒤 맥락을 모두 이해하고 기억하는 '언어모델 특화 메모리'가 등장할 경우, 답변의 퀄리티는 비약적으로 높아질 것이라는 말이다.
구체적으로 LMM은 이미지를 ‘벡터화’해서 학습하는데, 향후 AI의 메모리 능력이 강화된다면 LLM의 기억도 ‘벡터화’한 형태로 다룰 수 있다는 예측이다. 신 CAIO는 "정확하게 말하자면 기억이 아닌, 매번 앞에 나온 내용을 다시금 설명해 주는 원리와 같다"라고 소개했다. 결과적으로 AI도 사람처럼 일정한 기억력(메모리)을 소유하게 되고, LMM의 쓰임새는 더 넓어질 것이라는 설명이다.
또 "현재 LMM 글로벌 추이를 감안하면, 이는 아주 먼 미래는 아닐 것"이라고 예측했다. 모든 챗봇의 궁극적인 목표인 '개인 맞춤형 AI 에이전트'는 바로 LMM 메모리에 추론 능력(계획 능력)까지 더해져야 가능할 것으로 봤다. 맥락을 파악하고 정보를 취합해 '큰 그림'까지 그려낼 수 있어야, AI 에이전트가 가능하기 때문이다.
신 CAIO는 "AI 에이전트가 등장한다고 해도, 마지막 문제를 해결해야 한다"라고 지적했다. "AI의 추론과 답변을 완벽하게 신뢰하기 위해서는 '설명 가능한 AI(XAI)'가 등장해야 한다"라고 말했다.
올거나이즈의 계획도 여기에 맞춰 있다. 대표 분야가 '숫자를 다루는 챗봇'이다. "언어는 읽는 방법에 따라 의미가 달라지는 추상적 특성 때문에 비교적 대중에게 관대한 평가를 받는 경향이 있다"라며 "하지만 숫자는 다르다. 한치의 오차도 허용해서는 안 된다"라고 말했다.
'자연어 질문'에 '숫자 답변'을 내놓는 LLM, 즉 오차가 0%인 모델을 개발하는 것이 목표다. "말로는 불가능해 보일지 몰라도, 충분히 실현 가능한 영역"이라며 "질문의 유형이나 범위가 넓은 기존 언어모델과 달리 숫자로만 답변을 진행한다면, 예측 가능한 질문의 범위도 훨씬 한정적이기 때문"이라고 설명했다.
이는 최근 오픈AI가 인공일반지능(AGI)의 실마리라고 개발한 'Q스타'와도 맞닿아 있다. Q스타 역시 이제까지 LLM의 한계였던 간단한 수학 문제를 해결하는 데 성공한 기술로 알려져 있다.
하지만 이런 모든 기술적인 문제에 앞서 늘 하나의 질문으로 고민한다고 전했다. "생성 AI가 화두에 오른 지 1년이 지났고 관련 서비스가 속속 등장하고 있다. 그래서 사용자들은 과연 유용하고 편리해졌는가."
이처럼 올거나이즈의 고민은 비즈니스 모델 모색 차원을 넘었다. "기술이 기술에만 머무르지 않고 일상이 되는 방법에 몰두 중"이라는 말이다.
신기빈 올거나이즈 CAIO는 마지막으로 "우리만이 가진 기술적 강점이 분명히 있을 것"이라며 "올거나이즈는 늘 사용자의 편리함을 향해 나아갈 것"이라고 강조했다.
< 링크 >
https://www.aitimes.com/news/articleView.html?idxno=156207
신기빈 올거나이즈 CAIO "프롬프트 넘어 데이터로 검색 강화...'오류 없는 챗봇' 개발 도전" - AI타
\'챗GPT\' 인공지능(AI) 챗봇에 좋은 답을 얻기 위해서 좋은 질문이 필요하다는 것은 잘 알려진 사실이다. 이를 두고 \'프롬프트 엔지니어링\'이라는 분야까지 떠올랐다.하지만 프롬프트 엔지니어
www.aitimes.com
'경제신문스크랩' 카테고리의 다른 글
[경신스 1/25] 인이지 (1) | 2024.01.25 |
---|---|
[경신스 1/24] 티맥스에이아이 (1) | 2024.01.24 |
[경신스 1/22] 디지털 소외계층을 위한 서비스 (1) | 2024.01.22 |
[경신스 1/19] AI 유망기업 100곳 중 18곳은 NLP 플랫폼 (0) | 2024.01.19 |
[경신스 1/18] AI 활용 증가에 따른 인프라 수요 증가 (1) | 2024.01.18 |