ChatGPT 태스크포스는 유럽에서 설립될 예정입니다.
유럽의 국가 개인 정보 보호 감시 단체를 통합하는 기관은 목요일에 ChatGPT 전담 태스크 포스를 설립했다고 밝혔습니다.
인공지능은 관련성이 없고 일관되지 않은 결과를 생성하는 데서 많은 발전을 이루었습니다. 최신 챗봇은 고급 언어 모델을 사용하여 일반 지식 질문에 답하고, 긴 에세이를 작성하고, 코드를 작성하는 등 여러 가지 복잡한 작업을 수행합니다.
발전에도 불구하고 가장 정교한 시스템에도 한계가 있다는 점을 명심하십시오. AI는 여전히 실수를 할 수 있습니다. AI 환상에 가장 취약한 챗봇을 결정하려면 이러한 요소를 기반으로 정확성을 테스트하십시오.
1. 수학 문제 해결 능력
챗봇을 통해 수학 방정식을 실행해보세요. 문제를 분석하고, 수학적 개념을 번역하고, 공식을 정확하게 적용하는 플랫폼의 능력을 테스트합니다. 소수의 모델만이 안정적인 컴퓨팅 기능을 보여줍니다. 실제로 ChatGPT 초기에 최악의 문제 중 하나는 끔찍한 수학이었습니다.
아래 이미지는 ChatGPT가 기본 통계를 달성하지 못하는 것을 보여줍니다.
ChatGPT가 확률 질문에 잘못 답변했습니다.
ChatGPT는 2023년 5월 OpenAI가 업데이트를 출시한 후 개선된 모습을 보였습니다. 그러나 제한된 데이터 세트를 고려하면 여전히 중급 및 고급 문제로 어려움을 겪을 것입니다.
ChatGPT가 확률 질문에 올바르게 답변합니다.
한편 Bing Chat과 Google Bard는 더 나은 컴퓨팅 기능을 갖추고 있습니다. 그들은 각각의 검색 엔진을 통해 쿼리를 실행하여 공식을 검색하고 답변을 제공할 수 있습니다.
Bing Chat이 확률 질문에 올바르게 답변합니다.
쿼리를 다시 표현해 보세요. 긴 문장을 피하고 약한 동사로 대체하세요. 그렇지 않으면 챗봇이 귀하의 질문을 오해할 수 있습니다.
2. 복잡한 쿼리를 이해하는 능력
최신 AI 시스템은 많은 작업을 수행할 수 있습니다. 고급 LLM을 사용하면 이전 지침을 유지하고 쿼리에 단편적으로 응답할 수 있는 반면, 이전 시스템은 단일 명령을 처리합니다. 예를 들어 Siri는 한 번에 하나의 질문에 대답합니다.
챗봇에게 3~5개의 동시 작업을 제공하여 복잡한 프롬프트를 얼마나 잘 분석하는지 테스트하세요. 덜 복잡한 모델은 많은 정보를 처리할 수 없습니다. 아래 이미지는 HuggingChat이 3단계 프롬프트에 문제가 있음을 보여줍니다. 1단계에서 멈추고 주제에서 벗어납니다.
HuggingChat은 다단계 쿼리에 응답하려고 시도합니다.
HuggingChat의 마지막 대사는 일관되지 않았습니다.
다단계 쿼리에 응답한 후 HuggingChat이 혼란스러워졌습니다.
ChatGPT는 동일한 프롬프트를 신속하게 완료하여 모든 단계에서 오류 없는 스마트한 응답을 생성합니다.
ChatGPT는 다단계 쿼리의 첫 번째 질문에 답변합니다.
Bing Chat은 3단계에 대한 간결한 답변을 제공합니다. 엄격한 제약으로 인해 처리 능력을 낭비하는 불필요하게 긴 출력이 금지됩니다.
Bing Chat은 다단계 프로젝트에 대한 간결한 답변을 제공합니다.
3. 훈련 데이터 세트 제한
AI 훈련은 리소스 집약적이므로 대부분의 개발자는 데이터 세트를 특정 기간으로 제한합니다. ChatGPT를 예로 들어 보겠습니다. 2021년 9월에는 지식이 제한되어 있습니다. 날씨 업데이트, 뉴스 보도 또는 최근 개발을 요청할 수 없습니다. ChatGPT는 실시간 정보에 접근할 수 없습니다.
ChatGPT는 지식이 제한되어 있어 주목할만한 이벤트를 공유할 수 없습니다.
Bard는 인터넷에 접속할 수 있습니다. Google SERP에서 데이터를 가져오므로 최근 사건, 뉴스, 예측 등 더 많은 유형의 질문을 할 수 있습니다.
Bard는 Google 쿼리를 실행하여 주목할만한 이벤트를 공유합니다.
마찬가지로 Bing Chat은 검색 엔진에서 실시간 정보를 가져옵니다.
Bing은 Bing에서 검색 쿼리를 실행하여 주목할만한 이벤트를 공유합니다.
Bing Chat 및 Bard는 시기적절한 최신 정보를 제공하지만 Bing Chat은 더 자세한 피드백을 제공합니다. Bing은 데이터를 있는 그대로 제공합니다. 출력이 링크된 소스의 문구 및 톤과 일치하는 경우가 많다는 것을 알 수 있습니다.
4. 답변의 관련성
챗봇은 관련 출력을 제공해야 합니다. 응답할 때 프롬프트의 문자 그대로의 의미와 맥락을 고려해야 합니다. 이 대화를 예로 들어보겠습니다. 캐릭터는 새 휴대폰이 필요하지만 가지고 있는 돈은 $1000입니다. ChatGPT는 예산을 초과하지 않습니다.
ChatGPT는 1000달러 미만의 스마트폰을 권장합니다.
관련성을 테스트할 때 긴 지침을 만들어 보십시오. 덜 정교한 챗봇은 혼란스러운 지시를 받으면 길을 잃는 경향이 있습니다. 예를 들어 HuggingChat은 가상의 이야기를 구성할 수 있습니다. 하지만 너무 많은 규칙과 지침을 설정하면 기본 주제에서 벗어날 수 있습니다.
HuggingChat은 다단계 메시지로 인해 혼란스러워집니다.
5. 맥락 기억
상황별 메모리는 AI가 정확하고 신뢰할 수 있는 출력을 생성하는 데 도움이 됩니다. 질문 밖에서 보는 대신, 그들은 당신이 언급한 세부 사항을 하나로 묶습니다. 이 대화를 예로 들어보겠습니다. Bing Chat은 두 개의 개별 메시지를 연결하여 하나의 간결하고 유용한 응답을 구성합니다.
Bing Chat은 작가에게 기술을 향상시킬 수 있는 책을 제공합니다.
마찬가지로 상황별 메모리를 통해 챗봇은 지침을 기억할 수 있습니다. 이 이미지는 가상의 인물이 여러 대화에서 말하는 방식을 모방하는 ChatGPT를 보여줍니다.
ChatGPT는 포켓몬의 Ash와 같은 질문에 답변합니다.
이전 명령문을 반복적으로 참조하여 이 기능을 직접 테스트하십시오. 챗봇에게 다양한 정보를 제공한 후 후속 응답에서 이 정보를 기억하도록 강제합니다.
참고 : 상황별 메모리는 제한되어 있습니다. Bing Chat은 20라운드마다 새로운 대화를 시작하는 반면, ChatGPT는 3,000개 이상의 토큰을 초과하는 프롬프트를 처리할 수 없습니다.
6. 보안 제한
AI가 항상 의도한 대로 작동하는 것은 아닙니다. 잘못된 교육으로 인해 머신러닝 기술은 작은 수학적 오류부터 의심스러운 댓글까지 다양한 오류를 일으킬 수 있습니다. Microsoft Tay를 예로 들어 보겠습니다. 트위터 사용자들은 비지도 학습 모델을 악용하여 인종차별적 비방을 퍼뜨렸습니다.
다행히 글로벌 기술 리더들은 Microsoft의 실수로부터 교훈을 얻었습니다. 비용 효율적이고 편리하지만 비지도 학습은 AI 시스템을 속이기 쉽습니다. 따라서 오늘날 개발자는 주로 지도 학습에 의존합니다. ChatGPT와 같은 챗봇은 여전히 대화를 통해 학습하지만 트레이너가 먼저 정보를 필터링합니다.
ChatGPT의 덜 엄격한 제한은 더 넓은 범위의 작업을 포괄할 수 있지만 악용에는 약합니다. 한편 Bing Chat은 더 엄격한 제한을 따릅니다. 악용 시도를 방어하는 데 도움이 되지만 기능도 방해합니다. Bing은 잠재적으로 유해한 대화를 자동으로 음소거합니다.
7. AI 편견
AI는 본질적으로 중립적입니다. AI는 관심과 감정이 부족하여 의견을 형성할 수 없으며, 자신이 알고 있는 정보만 제시합니다. 이것이 ChatGPT가 주관적인 주제에 응답하는 방식입니다.
ChatGPT는 아이언맨과 캡틴 아메리카를 비교합니다.
이러한 중립성에도 불구하고 AI의 편견은 여전히 발생합니다. 이는 개발자가 사용하는 패턴, 데이터 세트, 알고리즘 및 모델에서 비롯됩니다. AI는 공정할 수 있지만 인간은 그렇지 않습니다.
예를 들어, 브루킹스 연구소(The Brookings Institution)는 ChatGPT가 좌파 정치적 편견을 보인다고 주장합니다. 물론 OpenAI는 이러한 비난을 부인합니다. 그러나 최신 모델에서 유사한 문제를 피하기 위해 ChatGPT는 편향된 출력을 완전히 피합니다.
ChatGPT는 종교에 대해 논의할 수 없습니다.
마찬가지로 Bing Chat은 민감하고 주관적인 문제도 피합니다.
Bing Chat에서는 종교에 대해 논의할 수 없습니다.
개방형 의견 기반 질문을 통해 AI 편견을 자가 평가하세요. 정답이나 오답이 없는 주제에 대해 토론하세요. 덜 정교한 챗봇은 특정 그룹에 근거 없는 선호도를 보여줄 수 있습니다.
8. 참고자료
AI는 사실을 다시 확인하는 경우가 거의 없습니다. 데이터 세트에서 정보를 가져와 언어 모델을 통해 다시 작성합니다. 안타깝게도 제한된 훈련으로 인해 AI 환각이 발생합니다. 연구를 위해 여전히 Generative AI 도구를 사용할 수 있지만 사실을 직접 확인해야 합니다.
Bing Chat은 각 출력 후에 참조를 나열하여 사실 확인 프로세스를 단순화합니다.
Bing Chat은 ChatGPT 출시 날짜에 대한 질문에 답변합니다.
Bard AI는 소스를 나열하지 않지만 Google 검색어를 실행하여 심층적이고 최신의 설명을 생성합니다. SERP에서 핵심 포인트를 얻을 수 있습니다.
Bard가 ChatGPT의 최근 출시 데이터 및 업데이트를 설명합니다.
ChatGPT는 부정확한 경향이 있습니다. 2021년 지식 제한으로 인해 최근 사건 및 사건에 대한 질문에 답변할 수 없습니다.
ChatGPT는 최근 사건에 대한 일반 지식 질문에 답변할 수 없습니다.
유럽의 국가 개인 정보 보호 감시 단체를 통합하는 기관은 목요일에 ChatGPT 전담 태스크 포스를 설립했다고 밝혔습니다.
덴마크와 미국 과학자들이 인간의 사망 시간을 높은 정확도로 예측할 수 있는 life2vec이라는 AI 시스템을 개발하기 위해 협력했습니다.
오디오플로우(Audioflow)라는 AI 알고리즘은 배뇨 소리를 듣고 환자의 비정상적인 흐름과 이에 따른 건강 문제를 효과적이고 성공적으로 식별할 수 있습니다.
일본의 인구 노령화와 감소로 인해 특히 서비스 부문에서 상당한 수의 젊은 근로자가 부족해졌습니다.
u/LegalBeagle1966이라는 Reddit 사용자는 이 플랫폼에서 매혹적인 셀카, 심지어 누드 셀카까지 자주 공유하는 영화배우 같은 소녀인 Claudia에 매료된 많은 사용자 중 한 명입니다.
Microsoft는 최근 12개의 기술 회사가 AI for Good 프로그램에 참여할 것이라고 발표했습니다.
사용자 @mortecouille92는 그래픽 디자인 도구 Midjourney의 강력한 기능을 활용하여 Goku, Vegeta, Bulma 및 Elder Kame과 같은 유명한 Dragon Ball 캐릭터의 독특하고 사실적인 버전을 만들었습니다. .
몇 가지 조건을 추가하거나 몇 가지 시나리오를 설정하는 것만으로도 ChatGPT는 쿼리에 대해 보다 관련성 높은 답변을 제공할 수 있습니다. ChatGPT 응답의 품질을 향상할 수 있는 몇 가지 방법을 살펴보겠습니다.
미드저니(Midjourney)는 실제 작가들의 그림에 뒤지지 않을 만큼 아름다운 그림들로 최근 온라인 커뮤니티와 화가계에 '열풍'을 일으키고 있는 인공지능 시스템이다.
중국이 발병을 발표한 지 며칠 후, BlueDot의 AI 시스템은 전 세계 항공권 판매 데이터에 액세스하여 우한 코로나 바이러스가 방콕, 서울, 타이베이, 도쿄로 확산되는 것을 계속해서 정확하게 예측했습니다.