책 살리기 프로젝트 📚 : 온라인 인증 시스템 🤖 1. "나는 로봇이 아닙니다." ✅
🤖 2. 책 살리기 프로젝트 📚 : 온라인 인증 시스템
🤖 3. 🔙 캡차! 그것이 궁금하다.
🤖 4. 기업이 우리의 행동을 활용하는 법 😏 |
|
|
1. "나는 로봇이 아닙니다." ✅
오늘 BURI는 꽤나 재미난 소재를 가지고 왔쥐,
그.전.에. 간단한 백그라운드 설명부터 고고.
|
|
|
회원가입을 하거나, 비밀번호를 찾을 때 다들 한번 쯤은 보았던 이미지일거예요.
그춍?
급 BURI는 이것에 대해 궁굼궁굼하였습니다. 예전에 막 그런 소문을 들은 적이 있어요,
👄👄
오래된 서적을 디지털화 하기 위해서
보안코드 입력할 때 유저들이 입력하는 것을
사용한다는 이야기를 말이죠.
그럼, 내가 틀리게 입력하면.. 어떻게 되는거지?
🤔
먼저, 왜 이게 필요하게 되었을까!
🔍 스팸봇과의 끝없는 전쟁
인터넷이 본격적으로 대중화되던 1990~2000년대 초반, 스팸과 자동화된 프로그램(봇)들의 공격이 기하급수적으로 늘어나기 시작했어요. 📈
- 이메일 📧 : 광고성 메시지가 폭탄처럼 쏟아짐! (스팸 지옥…🔥)
- 온라인 투표 🗳️ : 봇들이 조작해서 결과를 왜곡!
- 게시판 & 블로그 💬 : 댓글 창이 광고 글로 도배!
이제 더 이상 사람들이 직접 신고하면서 막는 방식으로는 한계가 오기 시작했죠. 뭔가 자동으로 "이거 실제 사람이 하는게 맞냐고!"를 걸러낼 시스템이 필요했던 겁니다.🧐
🏗️ CAPTCHA, 첫 번째 방어막이 되다!
그래서 등장한 게 바로 CAPTCHA(캡차)! 🎭 2000년대 초반, 카네기멜런 대학교 연구팀에서 처음 개발했어요. 방식은 간단!
"기괴하게 휘어진 글씨를 보여주고, 사람이 직접 입력하게 만들자!"
이렇게 하면 사람은 알아볼 수 있지만, 당시에는 봇(자동화 프로그램)이 이를 해독을 못 했거든😂 그리고 이 방식이 효과적이라는 게 입증되면서 야후(Yahoo!), MSN, 구글(Google) 같은 글로벌 IT 기업들이 빠르게 도입하기 시작했죠, 🌎
|
|
|
🚀 캡차에서 리캡차로!
하지만 시간이 지나면서 AI 기술이 발전하면서 캡차도 슬슬 한계를 보이기 시작했다고... 😵💫
"어… 이거 이제 봇도 풀어버리는 거 아냐?"
사실은 이거지, 사람들이 너무 복잡한 캡차 때문에 짜증 폭발! 💢 안 보이는 글자 해독하다가 새로고침 겁나 누르거나 포기해본 적 다들 있…?
그러다 2009년, 구글이 "리캡차(reCAPTCHA)"를 인수하면서 판이 또 한 번 바뀌었쥐. 기존 방식에서 더 발전한 새로운 인증 시스템이 등장한 거지! 🎉
|
|
|
2. 책 살리기 프로젝트 📚 : 온라인 인증 시스템
옛날 서적 디지털화에도 쓰였다는 놀라운 이야기를, 먼저 떠들었죠? 근데 또 요즘에는 이상하게… 휘어진 글자 입력하는 캡차가 잘 안 보이지 않나요? 🤔
🔍 1단계: 리캡차와 책 살리기 프로젝트 📚
구글이 도서관 프로젝트를 시작했을 때, 세상의 모든 책을 디지털화해서 보관하겠다!- 했는데, 사람이 직접 보고 입력해줘야 하는... 노가다가 문제였죠.😅
그러다 2006년, 카네기멜런 대학교에서 한 천재적인 아이디어가 나왔어요.
"어차피 캡차로 사람이 입력을 해야 한다면,
이걸 의미 있는 곳에 활용하면 어떨까?"
💡
그래서 리캡차 시스템이 스팸 차단뿐만 아니라, 구글 북스의 OCR 교정 작업에도 활용되기 시작한 거!
📢 어떻게?
- OCR이 인식 못 한 흐릿한 단어를 뽑아낸다.
- 캡차 대신 이 단어를 사용자들에게 보여준다.
- 수많은 사람들이 입력한 결과를 비교해서 가장 많이 입력된 값이 정답!
우리가 리캡차 풀 때마다 옛날 서적과 신문을 살려내는 데 도움을 주고 있었던 거! 🤯
근데, 계속 하고 있냐궁?
🏗️ 2단계: 근데 AI가 너무 똑똑해짐 😵💫
리캡차의 서적 복원 프로젝트가 엄청 성공적이긴 했지만… 시간이 지나면서 새로운 문제가 생겼습니다. OCR 기술 자체가 너무 좋아짐.🙄
즉, 이제는 AI가 흐릿한 글씨도 거의 완벽하게 인식할 수 있게 된 거죠. 사람들이 일일이 입력하지 않아도 충분히 정확한 데이터가 나오니까, 굳이 책 캡차를 쓸 필요가 없어졌던 거지.🧐
게다가 AI도 점점 발전하면서 예전 방식의 캡차(휘어진 글자 입력하기)는 이제 봇들도 쉽게 풀어버릴 수 있게 됐다고. 🤖💥
🚦 3단계: 이미지 기반 리캡차 등장!
그래서 구글은 2014년, "리캡차 v2"를 공개하면서 방식 자체를 확 바꿨어요. 🚦
✅ "나는 로봇이 아닙니다" 체크박스
이겁니다. 요즘 가장 많이 보이는 캡차 중 하나! 이제 복잡한 글자를 입력하는 대신, 단순히 체크박스를 클릭하면 끝!
"어? 이렇게 간단하면 봇도 클릭할 수 있는 거 아냐?"
라고 생각할 수도 있는데, 사실 이건 단순한 클릭이 아니라구요. 😏
✅ 마우스 움직임, 클릭 속도, 페이지 내 행동 패턴 등을 분석해서, 정말 사람이 조작하는지 구분하는 거죠. 즉, 눈에 안 보이는 곳에서 이미 우리 행동 데이터를 분석해서 자동으로 인간 여부를 판별하는 거라고! 좀 무섭. 🤯
|
|
|
🏙️ "신호등을 골라보세요" 같은 이미지 캡차
이거 제일 많이 보셨죠? 신호등, 횡단보도, 버스, 자동차 같은 이미지를 골라야 하는 리캡차! 🏗️
이 방식은 AI의 이미지 인식 학습을 도와주는 태깅 역할도 합니다. 즉, 구글이 자율주행 기술 같은 걸 발전시키는 데 우리가 데이터를 제공하고 있는 셈이지. 😏
우리의 클릭 노동력을 야무지게 써먹고 있는 것...
🤑🤑
|
|
|
3. 🔙 캡차! 그것이 궁금하다.
보다보니 이제 퀘스천이 막막 생기지 않냐궁. BURI만 그래요?
BURI만 그러하니, 궁굼궁굼 해결 👇👇
🧐 초기에 캡차가 문자열이 왜곡된 이미지를 제공했다 했는데,,
직접 만들었어요?
당근.🥕
🔙 초창기 캡차: 사람이 직접 왜곡을 설계했다!
2000년대 초반, 캡차가 처음 등장했을 때는 완전히 보안 목적이었죠, 당시에는 AI(머신러닝)가 지금처럼 강력하지 않아서, 단순한 방법으로도 봇을 막을 수 있는 방식을 고민고민했죠.
✅ 초기 문자 캡차가 만들어지는 방식
1️⃣ 랜덤한 문자 조합 생성 (예: "X7G9P") 2️⃣ 사람이 직접 왜곡 알고리즘을 설계
- 글자를 기울이거나 휘게 만들기
- 겹치는 선, 점, 배경 노이즈 추가
- 글자 간격 불규칙하게 배치
이 방식은 사람은 읽을 수 있지만, 당시의 AI는 거의 해독을 못 했다고.
🧐 그럼 캡차에서 제공된 문자랑 다르게 입력하면 어떡하냐궁?
🥕캡차의 종류에 따라 달랐음!🥕
🔙 1. 완전 랜덤 문자 캡차 (보안 목적, AI 생성)
요즘 흔히 보이는 알파벳+숫자 조합의 왜곡된 문자 캡차는 AI가 만들어낸 랜덤 이미지예요. 즉, 정답이 정해져 있는 문제라서, 틀리게 입력하면 그냥 "다시 시도하세요!" 메시지가 뜨고 실패 처리됨. ❌
🔙 2. 예전 리캡차 (책 OCR 교정용, 2006~2014년쯤 사용됨)
책을 디지털화하던 시절의 리캡차에서는 정확한 정답이 없는 단어들이 아주 천지였겟죠?!
- 책에서 가져온 흐릿한 단어는 OCR도 모르는 단어였기 때문에, 사람이 입력한 데이터를 비교해서 정답을 정하는 방식이었어요.
👀 예시
- 리캡차 이미지: uncl3ar (흐릿한 단어)
- 내가 입력: unclear
- 다른 사람이 입력: unclear
- 또 다른 사람이 입력: unclear
- 결과: "가장 많이 입력된 값이 정답으로 확정!" ✅
즉, OCR이 인식하지 못한 단어에 대해서는 우리가 입력한 값이 곧 정답이 되는 시스템이었던 거지! 🤯✨
|
|
|
근데 만약 아무거나 입력하면?
🤔
- 캡차에는 이미 정답이 확정된 단어(테스트용 단어)도 같이 나오는데, 이걸 틀리게 입력하면 봇일 가능성이 높다고 판단해서 캡차가 실패 처리됨. ❌
책 OCR 기반 리캡차(2006~2014년쯤 사용됨)는 항상 2개의 단어를 보여줬어요.
1️⃣ 하나는 이미 정답이 확정된 단어 (보안 검증용) 2️⃣ 하나는 OCR이 못 읽은 단어 (데이터 수집용)
이게 무슨 뜻이냐면, 우리가 입력한 값이랑 원본 이미지가 다르더라도 그냥 넘어가는 경우가 많았다는 거야! 😆
OCR 교정돈 단어는 대부분 다수결로 정답을 결정했기에, 사람들이 입력한 값들을 비교해서 가장 많이 입력된 값이 정답이 되었으니, 틀리게 입력해도 무시될 가능성이 높았죠.😂
그래서, 이걸 눈치챈 사람들이 리캡차에 장난치는 사례도 많았다고 하죠. 실제로 이런 현상을 이용해서 유명한 장난짤도 많았다죠.
|
|
|
4. 기업이 우리의 행동을 활용하는 법 😏
구독자님, 리캡차를 풀 때마다, AI가 더 똑똑해지고 있다는 사실을 알아봤쥬?
그럼 이제 BURI는, 우리가 일상에서 아무렇지도 않게 하는 행동들이 기업에게 유용한 데이터가 되는 여러 떠들떠들을 가지고 와보았뜹니다.
우리가 모르는 사이 기업들이 데이터를 수집하는 사례들, 그리고 어떻게 이게 비즈니스에 활용되는지 낱낱이 파헤쳐보자! 🔍✨
|
|
|
✅ 음악 스트리밍🎵 → 단순한 추천? 아니, 소비 패턴 분석!
"오늘 기분에 맞는 노래 추천해줘!" 🎶 멜론, 스포티파이, 유튜브 뮤직 같은 음악 스트리밍 서비스에서 AI 추천 기능을 많이 쓰죠?
근데 우리가 듣는 음악이 단순한 추천 알고리즘 개선에만 쓰이는 게 아니라는 사실! 😵💫
예를 들어볼까요?
- 밤 10시마다 잔잔한 재즈나 클래식을 듣는 유저 → "불면증 관련 광고" 노출
- 운동할 때만 신나는 비트 음악 듣는 유저 → "운동 보충제, 러닝화 광고" 추천
- 출퇴근 시간마다 특정 팟캐스트를 듣는 유저 → "유사한 콘텐츠 & 정기구독 서비스" 홍보
즉, 우리가 특정 시간대, 특정 기분에 듣는 음악 데이터를 바탕으로, 기업들은 우리의 ‘생활 패턴’까지 예측하고 맞춤형 광고를 때려 넣는 거야! 😲🔥
🚨 그리고 한 가지 더!
우리가 직접 플레이리스트를 만들면?
👉 이 데이터가 다른 사용자 추천에도 활용됨! 👉 "이 곡과 이 곡을 묶어서 듣는 사람이 많네?" → AI 추천 시스템 자동 학습!
즉, 우리는 그냥 좋아하는 노래를 듣는다고 생각하지만, 사실 기업의 데이터 모델을 훈련시키고, 광고 타겟팅까지 돕고 있는 셈! 🎶🔥
요즘 세상 무섭다. 그치?🙄
✅ 내비게이션 → 내가 간 길이 데이터가 된다?! 🚗
🚘 "구글 지도, 티맵이 실시간 교통 정보를 알려줘서 좋다!" 하지만 사실… 이 정보를 제공하는 건 바로 ‘나’다! 나야 나 나야 나!
기업이 얻어가는 것?
- 어떤 도로가 막히는지 → 실시간 교통 정보 생성
- 출퇴근 시간대 인기 경로 분석 → 도로 최적화 & 광고 타겟팅
- 주차장, 주유소 방문 패턴 분석 → 지역별 소비 트렌드 데이터화
🚨 그리고 여기서 중요한 포인트!
"출퇴근 시간에 이 경로를 많이 쓰네?"
👉 근처 카페, 편의점 광고 노출 증가 👉 운전자 맞춤형 보험 상품 광고 등장
즉, 우리는 그냥 길 찾으려고 내비를 켜는 줄 알았지만, 기업 입장에서는 "운전자 데이터 + 소비 패턴 분석"을 동시에 얻고 있는 겁니다! 🚦🔥
✅ 패스트푸드 키오스크 🍔 → 메뉴 선택도 데이터다!
맥도날드, 롯데리아, 버거킹 가면 키오스크(무인 주문기) 이젠 필수죠? 근데 이 키오스크는 단순한 자동화 기계가 아닙니다. 사실은… 소비자의 선택 데이터를 수집하는 ‘데이터 센터’! 😵
기업이 얻어가는 것?
- 어떤 메뉴가 가장 많이 선택되는지 분석 → 인기 메뉴 순위 조정
- 사람들이 세트 vs 단품을 어떻게 선택하는지 → 마케팅 전략 최적화
- 어떤 시간대에 어떤 메뉴가 많이 팔리는지 → 재고 관리 최적화
🚨 그리고 가장 흥미로운 포인트!
"사람들이 자꾸 세트 메뉴에서 감자튀김을 치즈스틱으로 바꾸네?"
아아.. 빼지마 BURI는 감튀 필수예요.😫
👉 그럼 아예 감자튀김 없는 세트 메뉴 출시! 👉 소비자 행동을 반영한 새로운 상품 기획 가능!
즉, 우리는 그냥 햄버거를 주문하는 것 같지만, 사실 기업 입장에서는 "소비자 행동 패턴"을 데이터화하고 있는 거! 🍔🔥
🎭 그럼 이게 문제일까, 아닐까?
🤔 우리가 제공하는 데이터가 좋은 방향으로 쓰일 수도 있지만, 너무 과도하게 수집된다면 프라이버시 문제는 없을까? "데이터를 제공하는 대가로 더 편리한 서비스를 받는다"는 개념이 정당한 걸까?
이거에 대한 의견은 사람마다 다를 거예요. 하지만 확실한 건… 우리는 생각보다 더 많은 데이터를 기여하고 있다는 사실! 😆🔥
|
|
|
구독자님은
데이터를 이용도 하고,
데이터를 제공도 하는
소즁한 사람
😘
|
|
|
|