Vấn đề thư rác từlâu đã gây không ít phiền nhiễu cho người sửdụng thư điện tử
và là vấn đề đau đầu của những người quản lý mạng. Có rất nhiều giải pháp chống thư
rác đã được đưa ra và áp dụng trong thực tế. Tuy nhiên, các phương pháp này đều tỏra 
chưa thực sựhiệu quảvà mang những nhược điểm cốhữu của nó. Trong luận văn này, 
trên cơsởnghiên cứu cấu trúc và các tính chất đặc trương củamạng thư điện tử (Email 
Networks) từ đó đềxuất một phương pháp lọc thưrác mới dựa trên mạng thư điện tử. 
Khác với phương pháp lọc thưrác dựa trên mạng thư điện tửtrước đây [1], phương 
pháp đưa ra đã khai thác được tính chất có hướng của đồthịmạng thư điện tửvà xem 
xét đồthịmạng thư điện tửlà đồthịcó trọng số đểxây dựng một công thức tính độ
phân cụm (clustering coefficient) mới. Đểkiểm chứng phương pháp đưa ra, khóa luận 
thực hiện thí nghiệm trên log files của máy chủe-mail thực của Đại học Quốc gia Hà 
Nội. Kết quảthực nghiệm cho thấy được tính đúng đắn của phương pháp và phương 
pháp này có thểkhắc phục được nhiều nhược điểm cốhữu của các giải pháp trước đây. 
              
                                            
                                
            
 
            
                 64 trang
64 trang | 
Chia sẻ: luyenbuizn | Lượt xem: 1172 | Lượt tải: 0 
              
            Bạn đang xem trước 20 trang nội dung tài liệu Khóa luận Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thưrác, để xem tài liệu hoàn chỉnh bạn click vào nút DOWNLOAD ở trên
 - 1 - 
ĐẠI HỌC QUỐC GIA HÀ NỘI 
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ 
Bùi Ngọc Lan 
NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ 
VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC 
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI 
Ngành: Công nghệ thông tin 
Hà Nội - 2006 
 - 2 - 
ĐẠI HỌC QUỐC GIA HÀ NỘI 
TRƯỜNG ĐẠI HỌC CÔNG NGHỆ 
Bùi Ngọc Lan 
NGHIÊN CỨU MẠNG THƯ ĐIỆN TỬ 
VÀ ỨNG DỤNG TRONG LỌC THƯ RÁC 
KHÓA LUẬN TỐT NGHIỆP ĐẠI HỌC HỆ CHÍNH QUI 
 Ngành: Công nghệ thông tin 
Cán bộ hướng dẫn: Tiến sĩ Trần Quang Anh 
Cán bộ đồng hướng dẫn: Tiến sĩ Hà Quang Thụy 
Hà Nội - 2006 
 - 3 - 
LỜI CẢM ƠN 
Đầu tiên, em muốn gửi lời cảm ơn chân thành và biết ơn sâu sắc tới Tiến sĩ 
Trần Quang Anh (Trường Đại học Thanh Hoa Trung Quốc) và Tiến sĩ Hà Quang Thụy 
(Trường Đại học Công nghệ - Đại học Quốc Gia Hà Nội) đã tận tình chỉ bảo và hướng 
dẫn em trong suốt quá trình thực hiện khoá luận này. 
Em xin chân thành cám ơn các thầy lãnh đạo Viện CNTT - ĐHQGHN, anh 
Nguyễn Việt Cường (Trường Đại học Công nghệ - ĐHQGHN) và anh Phan Bá Hùng 
(Viện Công nghệ Thông tin - ĐHQGHN) đã giúp đỡ, tạo điều kiện thuận lợi để em 
tiến hành có kết quả các thử nghiệm trên mail-server thực. 
Em xin bày tỏ lời cảm ơn sâu sắc tới các thầy, cô trong trường Đại học Công 
nghệ đã dạy dỗ và tận tình chỉ bảo cho em trong suốt quá trình học tập tại trường. 
Em cũng muốn gửi lời cảm ơn tới các thầy cô, anh chị và các bạn trong nhóm 
xê-mi-na “Khai phá dữ liệu và khám phá tri thức” thuộc bộ môn Các hệ thống thông 
tin, Trường Đại học Công nghệ đã ủng hộ và khuyến khích em trong quá trình nghiên 
cứu và thực hiện khoá luận này. 
Và lời cuối cùng, em xin gửi lời cảm ơn chân thành và biết ơn vô hạn tới bố, mẹ, 
anh chị những người đã có công sinh thành, nuối nấng, dạy dỗ và luôn động viên, 
khuyến khích em trong cuộc sống, trong học tập và làm việc. 
Sinh viên 
Bùi Ngọc Lan 
 - 4 - 
Tóm tắt 
Vấn đề thư rác từ lâu đã gây không ít phiền nhiễu cho người sử dụng thư điện tử 
và là vấn đề đau đầu của những người quản lý mạng. Có rất nhiều giải pháp chống thư 
rác đã được đưa ra và áp dụng trong thực tế. Tuy nhiên, các phương pháp này đều tỏ ra 
chưa thực sự hiệu quả và mang những nhược điểm cố hữu của nó. Trong luận văn này, 
trên cơ sở nghiên cứu cấu trúc và các tính chất đặc trương của mạng thư điện tử (Email 
Networks) từ đó đề xuất một phương pháp lọc thư rác mới dựa trên mạng thư điện tử. 
Khác với phương pháp lọc thư rác dựa trên mạng thư điện tử trước đây [1], phương 
pháp đưa ra đã khai thác được tính chất có hướng của đồ thị mạng thư điện tử và xem 
xét đồ thị mạng thư điện tử là đồ thị có trọng số để xây dựng một công thức tính độ 
phân cụm (clustering coefficient) mới. Để kiểm chứng phương pháp đưa ra, khóa luận 
thực hiện thí nghiệm trên log files của máy chủ e-mail thực của Đại học Quốc gia Hà 
Nội. Kết quả thực nghiệm cho thấy được tính đúng đắn của phương pháp và phương 
pháp này có thể khắc phục được nhiều nhược điểm cố hữu của các giải pháp trước đây. 
 - 5 - 
Mục lục 
LỜI CẢM ƠN ............................................................................................3 
MỞ ĐẦU.....................................................................................................8 
CHƯƠNG 1: TỔNG QUAN VỀ THƯ RÁC .........................................10 
1.1 Khái niệm thư rác ............................................................................10 
1.1.1 Thư rác là gì ?..............................................................................................10 
1.1.2 Các đặc điểm của thư rác. ...........................................................................11 
1.1.3 Phân loại thư rác .........................................................................................12 
1.1.4 Những thiệt hại do thư rác gây ra................................................................13 
1.2 Các giải pháp cho vấn đề lọc thư rác ...............................................16 
1.2.1 Ban hành các bộ luật chống thư rác ............................................................16 
1.2.2 Các phương pháp lọc thư rác trước đây......................................................16 
CHƯƠNG 2: KIẾN THỨC CƠ SỞ .......................................................26 
2.1 Mạng phức hợp (Complex Networks) ..............................................26 
2.1.1 Độ dài đường dẫn trung bình.......................................................................30 
2.1.2 Độ phân cụm ................................................................................................31 
2.1.3 Độ phân bố bậc ............................................................................................31 
2.2 Các mô hình của mạng phức hợp ....................................................33 
2.2.1 Mạng cặp thông thường (Regular coupled networks) .................................33 
2.2.2 Đồ thị ngẫu nhiên (Random Graphs)...........................................................34 
2.2.3 Các mô hình Small-world ............................................................................36 
2.2.4 Các mô hình Scale-free ................................................................................39 
2.3 Mạng xã hội (Social Networks).......................................................41 
2.4 Mạng thư điện tử (Email Networks)................................................43 
2.4.1 Mạng thư điện tử scale-free. .........................................................................43 
2.4.2 Tính chất Small-world của mạng thư điện tử. .............................................44 
2.4.3 Mạng thư điện tử là mạng có hướng............................................................46 
2.4.4 Sự lan rộng của virus trong mạng thư điện tử .............................................48 
2.4.5 Mạng thư điện tử khi bị spam tấn công .......................................................49 
 - 6 - 
CHƯƠNG 3: ỨNG DỤNG MẠNG THƯ ĐIỆN TỬ TRONG LỌC 
THƯ RÁC.................................................................................................50 
3.2 Đề xuất phương pháp.......................................................................51 
3.3 Đặc điểm của phương pháp .............................................................53 
CHƯƠNG 4: THỰC NGHIỆM TRÊN LOG FILES............................55 
4.1 Đặc điểm dữ liệu..............................................................................55 
4.2 Kết quả thực nghiệm và phân tích ...................................................57 
4.3 Nhận xét ..........................................................................................60 
KếT LUậN...................................................................................................61 
 - 7 - 
Bảng từ viết tắt 
Từ hoặc cụm từ Viết tắt 
Unsolicited Commercial Email UCE 
Internet Service Provider ISP 
Short Message Service SMS 
Email Service Provider ESP 
Realtime Black hole List RBL 
Multiple Address Processing System MAPS 
eXtensible Markup Language XML 
Domain Name Server DNS 
Sender Policy Framework SPF 
 - 8 - 
MỞ ĐẦU 
Ngày nay cùng với sự toàn cầu hóa việc kết nối thông tin, thư điện tử (Email) 
đã trở thành một phần quan trọng trong đời sống và trong cả các hoạt động kinh doanh 
thương mại. Thư điện tử cho phép tiết kiệm thời gian và khắc phục mọi vấn đề về 
khoảng cách địa lí, về chi phí trong trao đổi thông tin liên lạc. Chính những thuận tiện 
trong trao đổi thư điện tử lại tạo ra một số sơ hở để cho các loại thư không mong muốn 
(thư rác: spam mail) hoạt động gây phiền toái cho người dùng. Trong một vài năm gần 
đây, những thư điện tử không mong muốn như vậy phát triển và gây ra không ít thiệt 
hại cho người dùng nói riêng và cho nền kinh tế - xã hội nói chung. Theo nhiều bản 
thống kê [10,15], thư rác đã chiếm tới ¾ tổng số thư điện tử lưu thông trên toàn thế 
giới. Có không ít người dùng đã hạn chế sử dụng thư điện tử như một phương tiện liên 
lạc, và điều đó đã gây ra sự trở ngại đáng kể cho liên lạc giữa các người dùng cũng 
như hạn chế việc phát sinh lợi nhuận chính đáng của nền kinh tế nhờ phương tiện liên 
lạc này. 
Hiện nay, thư rác đang là một trong những vấn đề nhức nhối của xã hội. 
Nhiều phương pháp, công cụ lọc thư rác đã được đề xuất, tuy nhiên nhìn chung các 
công cụ lọc thư rác hiện nay vẫn tỏ ra chưa thực sự hiệu quả. Chính vì lý do đó, nhiều 
hướng tiếp cận lọc thư rác mới đã được đề xuất [39], kể cả các hướng tiếp cận kết hợp 
các phương pháp khác nhau, trong đó hướng tiếp cận theo mạng xã hội là một trong 
các hướng nổi bật nhất. Ý thức được điều này, hướng nghiên cứu về các phương pháp 
lọc thư rác, tập trung theo hướng tiếp cận mạng thư điện tử đề tài của khóa luận với tên 
gọi "Nghiên cứu mạng thư điện tử và ứng dụng trong lọc thư rác". 
Khóa luận được tổ chức thành 4 chương như sau: 
Chương 1 giới thiệu tổng quan về thư rác và một số hướng tiếp cận điển hình 
trước đây trong việc lọc thư rác. 
Chương 2 trình bày về một số tính chất quan trọng của mạng phức hợp, mạng 
xã hội, mạng thư điện tử. Đây là cơ sở kiến thức để phát triển nội dung của khóa luận 
trong các chương sau. 
Chương 3 trình bày một phương pháp mới ứng dụng các tính chất của mạng 
thư điện tử vào vấn đề lọc thư rác thông qua việc tính hạng phân cụm của các địa chỉ 
thư. Các nội dung đề xuất được trình bày chi tiết trong chương này. 
 - 9 - 
Chương 4 trình bày về thực nghiệm tiến hành với logs file của máy chủ email 
tại Đại học Quốc gia Hà Nội. Kết quả thực nghiệm cho thấy địa chỉ thư với độ phân 
cụm thấp có khả năng cao là địa chỉ thư rác . 
Phần kết luận tổng kết các kết quả chủ yếu của khóa luận và phương hướng 
nghiên cứu tiếp theo để phát triển, cải tiến phương pháp mạng thư điện tử được đề xuất. 
Cho dù đã cố gắng song không thể tránh khỏi những sai sót, em rất mong 
được sự góp ý của thầy cô và các bạn. 
 - 10 - 
Chương 1 
TỔNG QUAN VỀ THƯ RÁC 
Từ lâu, thư điện tử (Email) đã trở thành một ứng dụng không thể 
thiếu khi Internet và công nghệ mạng phát triển. Đây là điều mà thực tế đã 
chứng minh qua những đóng góp của ứng dụng này trong nhiều lĩnh vực 
như kinh doanh, thương mại, viễn thông và các dịch vụ cá nhân. Tuy nhiên 
trong những năm gần đây, một hình thức mới của thư điện tử đã xuất hiện 
với số lượng lớn gây phiền hà cho người nhận và những thiệt hại không 
nhỏ cho nền kinh tế gọi là thư rác. Chương này sẽ khái quát các vấn đề về 
khái niệm thư rác, ảnh hưởng của thư rác trong cuộc sống của chúng ta và 
các phương pháp ngăn chặn thư rác. 
1.1 Khái niệm thư rác 
1.1.1 Thư rác là gì ? 
Thư rác (spam) là một loại thư được gửi với số lượng lớn, theo chủ ý của 
người gửi, hoàn toàn không có sự liên hệ gì với người nhận. 
Đứng trên quan điểm của người gửi, đó là một hình thức giửi thư theo số 
lượng lớn (nên gọi là bulk email) cho một danh sách địa chỉ chọn lọc ra từ các diễn 
đàn (Usenet discussion group), các danh sách thư (mailing list)… Hiện nay cũng có 
nhiều công ty mà công việc kinh doanh chính là nhận gửi thư rác cho khách hàng của 
họ. 
Về phía người nhận, đa phần các bức thư này không có giá trị và thật sự 
không được mong muốn, chúng bị coi như một thứ rác rưởi, tạp nham (xuất phát từ 
cụm junk email). Phần lớn các thư này có nội dung quảng cáo thương mại cho một loại 
sản phẩm hay dịch vụ nào đó, những bức thư này được gọi là UCE (Unsolicited 
Commercial Email). 
Thư rác hiện nay thường có nội dung: quảng cáo thương mại và dịch vụ, quấy 
nhiễu, phát tán virus và những nội dung không lành mạnh (khiêu dâm, chống phá 
chính trị…). 
 - 11 - 
Việc gửi thư rác làm cho người nhận phải mất thời gian và phải trả tiền cho 
nhà cung cấp dịch vụ Internet ISP (Internet Service Provider) để đọc những bức thư 
không liên quan. Đôi khi những bức thư có chứa virus có thể phá hủy cả hệ thống dữ 
liệu trong máy tính. Ngoài ra, tài nguyên (đường truyền, máy chủ) của ISP cũng bị 
chiếm dụng nhiều khi gửi thư rác. 
1.1.2 Các đặc điểm của thư rác. 
Các loại thư rác hiện nay có một số đặc điểm sau: 
¾ Thư rác được gửi đi một cách tự động: Mục đích của những kẻ gửi thư rác 
(spammer) là có thể phát tán lượng thư rác tới người dùng càng nhiều càng tốt. 
Do vậy, chúng thường viết ra những phần mềm tự động gửi một lượng lớn thư 
rác trong một khoảng thời gian ngắn. 
¾ Thư rác được gửi đến những địa chỉ ngẫu nhiên trên một diện rộng. Địa chỉ 
email của người bị nhận thư rác rất ngẫu nhiên và dường như giữa họ không có 
mối quan hệ với nhau. Có nhiều phương pháp và thủ thuật khác nhau mà những 
kẻ gửi thư rác áp dụng trong việc dò tìm địa chỉ email của người dùng như: 
 Dùng chương trình tự động dò tìm địa chỉ email trên mạng Internet, các 
trang chủ, Newsgroup, Chat room.... 
 Mua địa chỉ email từ những công ty đã xây dựng danh sách khách hàng 
của họ nhưng vì lý do nào đó phải bán đi hoặc đối tác của công ty được 
phép truy cập danh sách khách hàng của công ty này để gửi thông tin về 
dịch vụ hay sản phẩm. 
 Email chuỗi (Chain letter) từ bạn bè và người thân, yêu cầu gửi thư cho 
càng nhiều người càng tốt vì lý do thương người, ủng hộ một chương 
trình nào đó, hoặc mời chào người dùng nếu gửi cho nhiều người sẽ 
được nhận nhiều tiền hơn. 
 Dùng chương trình đoán tên tự động: Những kẻ gửi thư rác dùng chương 
trình này gửi email liên tục vào một nơi để đoán địa chỉ email qua những 
phương pháp như E-pending, Dictionary hay Alphabet. 
Bên cạnh đó, những kẻ gửi thư rác còn có thể có được địa chỉ email của người 
dùng do: 
 - 12 - 
 Các nhà cung cấp dịch vụ ISP không có chính sách và công nghệ bảo 
mật, dẫn đến các tin tặc (hacker) ăn cắp địa chỉ của khách hàng để buôn 
bán và quấy nhiễu. Hoặc có thể do chính nhà cung cấp ISP buôn bán địa 
chỉ email của khách hàng để kiếm lợi nhuận. Nhân viên của các ISP đã 
tiết lộ thông tin về khách hàng cho các đối thủ cạnh tranh của chính ISP 
đó, hoặc cho những công ty muốn quảng cáo cho những khách hàng 
riêng biệt. 
 Chính người dùng cung cấp địa chỉ email của mình qua những lần đăng 
kí thành viên trên Internet hoặc trên giấy tờ các dịch vụ mà chẳng bao 
giờ dùng, những cuộc xổ số mà chẳng bao giờ biết quả, hoặc những bản 
tin điện tử (newsletter) vô nghĩa. 
¾ Nội dung của thư rác thường là những nội dung bất hợp pháp, gây phiền hà 
cho người dùng. Phần lớn nội dung của thư rác là những thông tin mời chào về 
thương mại, quảng cáo sản phẩm. Bên cạnh đó, phải kể đến những thư rác có 
nội dung xấu (như khiêu dâm, chống phá chính trị...) gây tâm lý lo ngại cho 
người làm công nghệ thông tin. Lượng thư rác phát tán virus cũng không nhỏ. 
Trong những thư này thường được gắn kèm những con virus nguy hiểm có thể 
làm tê liệt hoàn toàn máy tính của người dùng, ăn cắp những thông tin cá nhân 
hoặc làm hỏng dữ liệu lưu trên máy. Hiện nay, những thư rác với nội dung hứa 
hẹn mang đến một khoản tiền lớn cho người đọc thư rác đã tăng nhanh. Những 
người dùng kém hiểu biết, cả tin thường bị lừa bởi hình thức này. 
¾ Địa chỉ của người gửi thư rác thường là những địa chỉ trá hình. Để tránh sự 
nghi ngờ của người nhận, một số kẻ gửi thư rác thường giả dạng địa chỉ của 
một người dùng bình thường trong một máy chủ email nào đó một cách bất hợp 
pháp hoặc dùng một địa chỉ ảo nào đó để gửi thư rác. 
1.1.3 Phân loại thư rác 
Việc phân loại thư rác rất quan trọng không chỉ trong lĩnh vực tạo những bộ 
lọc thư rác phù hợp cho hiệu quả cao mà còn giúp cho việc ban hành các bộ luật chống 
thư rác thích hợp. 
Có rất nhiều cách phân loại thư rác. Dưới đây là một số loại điển hình nhất. 
1> Dựa trên kiểu phát tán thư rác 
 - 13 - 
Tính tới thời điểm hiện tại, thư rác có thể bị gửi thông qua những hình thức thư 
điện tử, nhóm thảo luận (newsgroups), điện thoại di động (Short Message 
Service - SMS) và các dịch vụ gửi tin nhắn trên mạng (như Yahoo Messenger, 
Windows Messenger...). 
2> Dựa vào quan hệ với người gửi thư rác 
Các mối quan hệ với người gửi thư rác bao gồm người lạ mặt, bạn bè, người 
quen và các dịch vụ quyên góp giúp đỡ… 
3> Dựa vào nội dung của thư rác. 
Các kiểu nội dung phổ biến như thư về thương mại, thư về chính trị, thư về 
công nghệ, chuỗi thư (chain email) và các loại khác (như thư phát tán virus...). 
4> Dựa trên động lực của người gửi 
Thông thường, thư rác được gửi đi cho những mục đích quảng bá thông tin. 
Ngoài ra, còn có một số loại thư rác được gửi tới một người nhận xác định nào 
đó nhằm mục đích phá vỡ và gây cản trở công việc của người nhận hay mạng 
của nhà cung cấp dịch vụ thư điện tử ESP (Email Service Provider) được gọi là 
“bom thư”. Thư rác còn được cố ý gửi đi nhằm thông báo tin sai lệch, làm xáo 
trộn công việc và cuộc sống của người nhận. 
1.1.4 Những thiệt hại do thư rác gây ra 
Các khảo sát cho thấy thư rác hiện chiếm hơn một nửa số email qua lại hàng 
ngày trên Internet và chính thư rác là nguồn lây lan virus nhanh nhất. Thiệt hại do 
chúng gây ra rất lớn. 
Năm 2003, báo cáo của Hội thảo Thương mại và Phát triển của Liên Hiệp 
Quốc cho thấy thiệt hại do thư rác gây ra khoảng 20,5 tỷ USD. Các hãng diệt virus 
cũng đưa ra ước tính thiệt hại của các cuộc tấn công do virus năm 2001 là 13 tỷ USD, 
năm 2002 khoảng từ 20 - 30 tỷ USD. Chi phí để khắc phục sự cố do virus gây ra trong 
các doanh nghiệp được điều tra ngẫu nhiên ở Mỹ năm 2002 là 81.000 USD, đến năm 
2003 đã tăng lên 100.000 USD. Trên 3/4 số doanh nghiệp cho rằng sự cố virus đã gây 
tổn hại nhất định đến năng suất làm việc và 2/3 cho biết ảnh hưởng chủ yếu của mỗi 
vụ tấn công là làm cho máy tính không thể truy cập được. Những ảnh hưởng khác của 
virus là làm hỏng file và không thể truy xuất dữ liệu. 
 - 14 - 
Theo thống kê toàn cầu của hãng nghiên cứu Ferris Research (San Francisco), 
thư rác gây thiệt hại 50 tỷ USD trong năm 2005. Chỉ tính riêng ở Mỹ, thiệt hại do thư 
rác gây ra đối với các doanh nghiệp ước tính khoảng 17 tỷ USD/năm. 
Không chỉ gây thiệt hại về tiền bạc, thư rác còn làm giảm hiệu quả làm việc, 
gây stress, tiêu tốn thời gian của nhân viên... Những điều này cũng đồng nghĩa với việc, 
năng suất lao động giảm, ảnh hưởng tới tình hình kinh doanh và doanh thu của công ty. 
Báo cáo mới công bố của Tổ chức hợp tác phát triển kinh tế OECD cho thấy 
thư rác đang là vấn nạn toàn cầu, nhưng ảnh hưởng tới người sử dụng Internet ở thế 
giới thứ ba (các nước đang pháp triển) nhiều hơn tại các quốc gia phát triển. Theo phân 
tích của OECD một phần nguyên nhân của việc người sử dụng máy tính ở các nước 
đang phát triển hay bị virus và thư rác tấn công là do họ thường mua hệ điều hành và 
phần mềm chống virus không có bản quyền (do điều kiện kinh tế không cho phép) nên 
không thể được cập nhật một cách đầy đủ, không đối phó với những kỹ thuật liên tục 
thay đổi của những tên tin tặc (hacker) và những tên gửi thư rác (spammer). Bênh cạnh 
đó phải kể đến nguyên nhân thiếu kiến thức, công nghệ và tài chính để đối phó với sự 
gia tăng thư rác trên hệ thống liên lạc trong nước, gây thất thoát đáng kể nguồn lực 
công nghệ vốn đã yếu và thiếu tại những nơi này. Các ISP nội địa thì thiếu những 
chính sách ngăn chặn và xử lý thư rác, trong khi đó, những kênh tiếp vận (relay) và 
proxy “mở toang” cùng với vô số máy tính bị nhiễm virus hoặc Trojan trong mạng đã 
trở thành những nguồn phát tán thư rác lớn. Hậu quả là người sử dụng phải hứng chịu 
tình trạng bất ổn định dịch vụ, gây cản trở quá trình thu hẹp khoảng cách số toàn cầu. 
Từ những con số thống kê trên ta có thể thấy, việc thông qua các chế tài pháp 
lý quốc tế, đầu tư mạnh vào hệ thống lọc thư rác, thiết lập những trung tâm phản ứng 
nhanh liên kết các ISP toàn cầu, đồng thời tăng cường các chiến dịch tuyên truyền 
cộng đồng về sự nguy hại và cách đối phó với thư rác là công việc rất quan trọng và 
cần thiết. 
Ngày nay, spam không phải đơn giản chỉ nằm trong thư điện tử mà còn có cả 
trong blog1, còn gọi là spam blogs hay splogs, trên các tin nhắn trực tuyến. Những xu 
thế này chính là những hình thức mới của spam có thể phát triển nở rộ trong năm 2006. 
1 Blog, gọi tắt của weblog (tiếng Anh, "nhật ký web"), là một dạng đàm luận thời sự trực tuyến, bùng 
nổ từ cuối thập niên 1990. Các bloger(người viết blog), có thể là cá nhân hoặc nhóm, đưa thông tin lên 
mạng với mọi chủ đề, thông thường có liên quan tới kinh nghiệm hoặc ý kiến cá nhân, chủ yếu cung 
cấp thông tin đề cập tới những chủ đề chọn lọc, không giống như các báo truyền thống. Một trang blog 
có thể chứa các siêu liên kết, hình ảnh và liên kết (tới các trang chứa phim và âm nhạc). 
 - 15 - 
Ngoài ra, luật phòng chống spam và các bộ lọc spam ngày càng chặt chẽ sẽ khiến cho 
những kẻ gửi thư rác phải thay đổi đối tượng tấn công. 
Để có thể loại bỏ được thư rác, ta không thể dùng một phương pháp riêng lẻ 
nào để loại bỏ tận gốc mà cần áp dụng các phương pháp kết hợp với nhau. Một trong 
những cách hữu hiệu nhất để chặn spam là giáo dục người dùng cuối. Khi người sử 
dụng đã có kiến thức thì họ sẽ ít bị rơi vào bẫy do những kẻ phát tán thư rác cố tình 
giăng ra để khai thác địa chỉ email và duy trì mục đích của chúng. 
Một số lời khuyên cho người dùng thư điện tử: 
 Yêu cầu và đòi hỏi những nhà chức trách có những luật lệ nghiêm cấm thư 
rác và có những hình phạt thích đáng cho những kẻ cố tình. 
 Mỗi người dùng nên dùng nhiều địa chỉ email. Đây là phương pháp khá hiệu 
quả. Người dùng nên dùng các địa chỉ email khác nhau cho các mục đích 
khác nhau. Chẳng hạn, tạo một địa chỉ email cho công việc, một cho cá nhân, 
và một để đăng ký các dịch vụ, thông tin trên internet. Bằng cách này, người 
dùng có thể suy luận ra được địa chỉ nào bị lộ sau khi đăng ký các dịch vụ 
và tránh được chúng sau này. 
 Hạn chế đăng ký các dịch vụ vô ích. Người dùng nên tìm hiểu và đọc kỹ 
thông tin về dịch vụ trước khi cung cấp địa chỉ email của mình, cần chắc 
chắn là dịch vụ này cho phép lựa chọn “không nhận email quảng cáo từ các 
đối tác của nhà cung cấp dịch vụ”. 
 Kích hoạt các dịch vụ chống thư rác của ISP. Các ISP thường tích hợp các 
công cụ lọc thư rác cũng như chương trình quét virus. Người dùng nên kích 
hoạt các dịch vụ này khi dùng Internet. Phương pháp này cũng giúp giảm 
bớt được phần nào số lượng thư rác phải nhận mỗi ngày. 
 Cài đặt một số chương trình xử lý thư trong máy tính cá nhân để xóa thư rác 
ngay khi chuyển về máy. 
 Bảo vệ mật khẩu của mình bằng cách chọn mật khẩu lạ, khó đoán hoặc 
không thể đoán được, trong đó chữ cái xen lẫn con số, chữ hoa xen lẫn chữ 
thường. 
 Thường xuyên ghi dự phòng những dữ liệu quan trọng. Đồng thời, cảnh giác 
với những thư từ người quen biết nhưng không được báo trước, bởi có thể 
chúng được gửi đi mà người kia không biết. 
 - 16 - 
Spam vẫn từng phút gây thiệt hại cho nền kinh tế Internet. Người ta nhận định 
rằng sẽ không bao giờ có đích đến cho công cuộc chống spam. Tùy vào ý thức của cư 
dân Internet và sức mạnh công nghệ, chỉ có thể hạn chế phần nào nó mà thôi. 
1.2 Các giải pháp cho vấn đề lọc thư rác 
1.2.1 Ban hành các bộ luật chống thư rác 
Thư rác đang gia tăng với tốc độ khủng khiếp và đòi hỏi cần có những biện 
pháp cứng rắn phối hợp từ phía chính phủ. Chính vì vậy, việc ban hành các bộ luật 
chống thư rác là rất cần thiết và xác đáng. 
Hiện nay, có rất ít quốc gia trên thế giới có luật bảo vệ người dùng dưới sự tấn 
công của thư rác. Về mặt luật pháp đối với thư rác, Mỹ là nước đi đầu với bộ luật quy 
định về “Email không do yêu cầu” (Unsolicited Electronic Mail Act), theo sau đó là 
Khối Cộng đồng chung Châu Âu với bộ luật mẫu về Thương mại Điện tử và Quảng 
cáo trên Internet. Hai bộ luật này đều dựa trên những luật căn bản như Quyền riêng tư, 
Bảo vệ Thông tin cá nhân và Quy định Thư tín/Giấy tờ Điện tử. Cả hai đều có những 
điểm chung là bắt buộc người gửi email không được mời phải nêu rõ mục đích và nội 
dung trong phần tiêu đề (Subject) để người nhận có thể xác định thông tin ngay và 
đồng thời phải có thông tin cho phép người nhận được quyền rút tên khỏi danh sách 
email nếu muốn. Thêm vào đó, những công ty hoặc người gửi thư rác phải hiểu và 
nắm vững chính sách quản lý thư rác/quảng cáo của mỗi ISP mà họ gặp phải. 
Ở Việt Nam, chúng ta chỉ mới công nhận tính chất pháp lý của thư điện tử 
trong bộ Luật Hình sự, nhưng chưa có luật quy định và nghiêm cấm các hình thức gửi 
thư rác. Theo dự kiến, Pháp lệnh Thương mại điện tử và các dịch vụ liên quan đang 
được xây dựng, dự kiến sẽ trình Quốc hội phê chuẩn trong thời gian tới, trong đó sẽ có 
một số điều khoản quy định về thư rác được đưa ra xem xét. 
1.2.2 Các phương pháp lọc thư rác trước đây 
Vấn đề thư rác là vấn đề gây nhức nhối trong xã hội trong những năm gần đây. 
Nhiều nhà khoa học và nhiều công trình nghiên cứu về phương pháp lọc thư rác đã 
được đầu tư và tiến hành từ khá lâu. 
Để đánh giá hiệu quả của một công cụ lọc thư rác người ta thường dựa trên 
hai độ đo sau: 
o False Positive – Tỷ lệ thư thường bị lọc nhầm thành thư rác. 
 - 17 - 
o False Negative – Tỷ lệ thư rác bị lọc nhầm thành
            Các file đính kèm theo tài liệu này:
 K47_Bui_Ngoc_Lan_Thesis.pdf K47_Bui_Ngoc_Lan_Thesis.pdf