● 오늘도 휴대폰과 이메일을 통해서 스팸 메일이 날아든다. 문자 메세지 받을 때 마다 거의 한건도 안빼놓고 스팸신고를 하고, 스팸 편지함도 열심히 비우지만, 시간이 갈수록 양은 점점 늘어난다. 내 개인정보가 샌다는 것도 몹시 기분 나쁜일이지만, 각 통신사와 포털들이 스팸 필터링을 강화하겠다고 열심히 주장함에도 불구하고 여전히 뾰족한 해결책이 나오지 않는 것은 이해하기가 어렵다. 

● 왜냐하면, 스팸 필터링에 대한 궁극의 해결방법이 있기 때문이다. 2005년에 출간된 폴 그레이엄의 "해커와 화가" 에서 "스팸을 위한 계획" 이란 글에서 그 방법을 소개하고 있다. 간단하게 설명하면, 내용 기반으로 스팸을 필터링 하는 방법이다. 

● 현재의 필터링 방식은 특정 단어나 문자열이 들어간 것을 걸러내는 방식이다. 예를 들어, "사과" 라는 단어가 보기 싫으면 "사과" 라는 단어를 필터에 등록하고, 이후 "사과" 가 들어간 문자 메세지나 이메일은 사용자에게 보여주지 않는다. 하지만, 이 방식은 한계가 분명해서, "사 과", "사★과" "4과" 와 같이 문자열을 회피해 버리면 아무 소용이 없다. 더 나아가 "상감", "ㅅㄱ", "죄송" 과 같이 "사과" 를 유추할 수 있는 다른 단어를 들이대는 경우 필터는 아무 힘을 쓰지 못한다. 이런 방식의 스팸필터 때문에 아무리 열심히 신고를 하고, 스팸 메일로 등록을 해도 회피하는 수단이 생겨버린다. 더 나아가, 반어법이나 외국어까지 동원해서 - ㅅr 과 - 사용할 경우, 더 체크하기가 어렵다. 

● 내용 기반 필터링의 경우는 좀 다른다. 스팸 메일도 어떤 "정보" 를 수신인에게 전달하기 위한 것이기 때문에, 문자열을 깨던, 특수 기호를쓰던 어떤 "내용" 을 담고 있다. 어떤 메일을 수신한 사람들이 그 메일을 스팸으로 신고하게 되면, 이후 그 메일과 내용이 비슷한 메일이 또 오면 그 메일은 메일 서버가 모두 버려버리는 방식이다. 10명 이상의 신고, 95% 이상의 유사율 과 같이 역치를 설정할 수 있고, 역치를 적절히 조정하면 스팸 필터의 정확도는 더 올라간다. 추가로 사람이 약간만 개입하면 99.9% 이상의 스팸을 걸러낼 수 있다. 필요한 것은 스팸 신고를 열심히 해주는 사람들이 필요한데, 각 포털사의 직원들만 확실하게 신고해줘도 충분한 표본을 얻을 수 있을 것이다. 

● 얘기가 조금 벗어나지만, 불법 의료행위, 불법 도박장, 불법 사채, 불법 유흥업소 같은 것들을 경찰이 모른 다는 것도 이해가 잘 되지 않는다. 위에 예로든 것들은 모두 고객을 모으기 위해서 "광고" 를 해야 하는데, 이런 내용은 당연히 많은 사람이 보도록 광고를 한다. 아주 규모가 작은 상태에서 점조직으로 운영하는 경우라면 쉽게 알기 어렵겠지만, 사업 확장을 위해 불특정 다수를 상대로 광고를 하기 시작하는 시점부터는 모든 정보를 공개되는 것과 마찬가지기 때문에, 경찰만 모를 수는 없는 일이다. 

● 이미 강력한 해결책이 나온 상태에서 아직도 스팸 필터링이 완벽해지지 못하는 이유는 무엇일까? 뭔가 통신사나 포털의 수입과 연관된 부분이 있는 것인가? 아니면 알고리즘을 다 알려준 상태에서도 실제 구현이 어렵기 때문일까? 이건 마치 우리 주변에 어디 어디 가면 불법 경마장이 있고, 어디에 가면 여전히 불법 오락실이 돌아가고 있는 것을 알지만 경찰력이 미치지 못하는 것과 비슷한 것일까? 

● 아침부터 한무더기 스팸 메일을 지우다 문듣 생각이 나서 몇자 적는다.
Posted by 지그프리드 지그프리드

댓글을 달아주세요:: 네티켓은 기본, 스팸은 사절


프로그래밍은 상상이다
국내도서>컴퓨터/인터넷
저자 : 임백준
출판 : 한빛미디어 2008.09.01
상세보기

  프로그래밍에 관한 여러권의 칼럼과 에세이, 소설을 써온 임백준 님의 최신작이다. 서점에 갔다가 새 책이 나온 것을 보고 얼른 집어온 것을 이제야 다 읽었다. 역시나, 수준 높은 내용과 빼어난 문장이었다. 한국에도 이런 칼럼을 쓰시는 분들이 좀 더 늘어나야 할텐데 아직은 좀 아쉽다. 

  이 책은 기존에 여러 IT잡지들에 연재되었던 글을 모은 것이다. 저자의 개인 경험과 프로그래밍 개발 현장에서 현재 진행형으로 벌어지고 있는 이슈들을 다루고 있다. 이 책을 읽는 것은  현대 IT의 트렌드와 이슈들에 관한 좋은 정보들 얻는 가장 좋은 방법이 될 것이다. 특히 인상적인 부분은 웹 2.0과 메쉬업에 관한 내용이었다. 메쉬업에 관한 부분은 인터넷을 사용하면서도 부족했던 부분들을 채워줄 수 있는 기솔이다. 웹 이외의 모든 전자상품에서도 사용자 경험을 축적해 사용자에게 더 나은 결과를 돌려주는 알고리즘이 응용될 수 있다. 특히 동음이의어에 대한 처리와, 같은 단어가 다른 의미로 사용되는 경우 (ex. Blitzkrieg 에는 "전격전" (역사) 와 실시간 전력시뮬레이션(게임) 과 팝그룹(음악) 의 세가지 결과가 검색된다.) 에 대하여 사용자가 정말로 찾고 싶어했던 결과를 돌려주기 위해서는 사용자의 입력을 분석하여 전후문맥을 찾아주는 방법이 필요하다. 또 다른 예를 들면, 전화번호부에 동명 이인이 있는 경우 - 한국 여자 이름은 동명이인이 특히 많다 - 최근에 전화 기록과 검색결과를 참조하여 어떤 사람을 찾는 것인지 전화번호부가 먼저 알려줄 수도 있을 것이다.

  IT분야에서 일하기를 원하거나 일하고 있는 분들이라면 한번쯤은 읽어볼 필요가 있다. 이 책 뿐만 아니라 임백준 님의 다른 책들도 IT로 밥먹는 사람들이라면 꼭 읽어보길 권한다.
Posted by 지그프리드 지그프리드

댓글을 달아주세요:: 네티켓은 기본, 스팸은 사절

  1. 2009.05.01 20:09 신고
    댓글 주소 수정/삭제 댓글
    임백준씨 저서
    뉴욕의 프로그래머를 매우 흥미롭게 봤었습니다.
    이 책도 한번 봐야겠군요^^
  2. 2009.05.01 21:29 신고
    댓글 주소 수정/삭제 댓글
    전자공학과이지만... C++을 배우고 있는 제게도 아주 좋은 교재가 될거 같습니다!
    • 2009.05.01 21:52 신고
      댓글 주소 수정/삭제
      프로그래밍을 공부하시는군요. S/W 쪽으로 진로를 생각하신다면 역시 좋은 책으로 추천해 드릴만 합니다.

  대학교 3학년쯤 되면 앞으로 어떤 직장에서 어떤 일을 하게 될 것인가 - 진로 문제와는 조금 다은 - 가 가장 큰 관심사 중 하나일 것이다. 취직을 하게 되다면 어떤 회사에서 어떤일을 하게 될 것인지, 단순한 코더, 웹사이트 관리자 부터 거대한 프로젝트를 수행하고 공공시스템을 설계하는 등의 일까지 어떤 일을 하느냐에 따라 모든 졸업 후의 삶은 거대한 미지수이기 때문이다.

컴퓨터를 전공하는 학생에게 이 책은 정말 큰 정보와 조언들이 되었다. 현업의 다양한 분야에서 일하고 있는 선배들의 이야기면서, 어떻게 공부를 해야 하고, 어떤 자세를 갖고 있어야 하는지 아주 실제적이고 현실적인 충고들이 있었다. 특히 앞으로 읽어할 책들의 목록과 순서를 정해준 부분과 코딩의 재미를 넘어서야 한다는 일곱 분의 공통된 조언들이 기억에 남는다. 1학년 때 처음올 프로그래밍을 배울 때 교수님이 하셨던 말씀들 - 프로그래밍은 예술이다, 설계가 가장 중요하다 - 의 의미를 다시 한번 새겨볼 수 있는 기회가 되었다.

이제, 나도 그 길을 걸어보려고 한다. 쉽지는 않겠지만 이 책을 쓴 선배들이 밤새워가며 부딫히고 지금까지도 도전하는 그 길은 몸은 좀 편하겠지만 동일한 일을 반복하는 관리직, A/S직보다는 훨씬 역동적일 것 같기 때문이다.

  - 2004. 8.

 이제 와서 다시 리류를 읽어 보면, 저 책 조차도 IT란 분야를 충분히 많이 설명하지는 못하고 있었다는 생각이 든다. 지금 내가 하고 있는 일이 IT인지 제조업인지 늘 헛갈리는 상태에서 내 일이 계속 이렇게 흘러갈지 어떨지도 모르겠고... 어쩌면 뭔가 알듯 말듯한 지금 상황이 더 혼란이 가중된 상태일지도 모르겠다. 과연 나는 어떻게 나아갈 것인가? 라는 질문은 여전히 답이 없고 미지수다. 그게 고과나 평가와 얽히는 순간 일하기 싫어저 버린다. 그냥 그냥 하루하루 주어진 - 아니, 별로 명확하게 선이 그어지고 주어진 일도 없어보인다 - 일을 해 나갈 뿐이다.

  하루 하루. 그러나 분명하게. 실력을 쌓고, 어제 보다 오늘 더 나아지고 있다고 믿는 수밖에 없다. 믿을 수 없다면? 믿을 수 있는 길로 나아가야겠지. 경력은 쌓여가지만, 아직도 얼치기 같다는 생각도 많이 한다. 직장이 날 발전시키는 곳은 아닐지도 모른다. 입사 면접 때 들었던 말이 생각난다.

"자넨 회사가 자네를 훈련 시키는 곳이라고 생각하나?" 


  그때는 웃으면서 둘러 댔지만, 지금은 말할 수 있을 것 같다. 

"아닙니다. 직장은 일하는 곳입니다.

 하지만, 직장 생활을 통해서 나아지는 것이 없다면,

그 직장은 좋은 직장은 아닐지도 모르겠습니다. "


그럼, 결론이 난건가? 글쎄.
Posted by 지그프리드 지그프리드

댓글을 달아주세요:: 네티켓은 기본, 스팸은 사절


BLOG main image
일상, 프로그래밍, IT 그리고 직장생활, Dive, 여행 by 지그프리드

카테고리

Class List (402)
Studies (30)
Exercise & Quizz (10)
Term Project (0)
ECIM list (Help!) (10)
Issues & News (0)
Gossip about IT & Job (22)
Tools (2)
Think about the Justice (23)
Book Review (170)
조엘 온 소프트웨어(번역) (28)
Diary (87)
Vacations (9)
Clash of clans 클래시 오브.. (11)

글 보관함

달력

«   2020/02   »
            1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
Total : 316,428
Today : 11 Yesterday : 13