dự Đoán xu hướng chứng khoán tại sàn hose dựa trên tin tức tài chính

ĐẠI HỌC QUỐC GIA TP. HỒ CHÍ MINH

TRƯỜNG ĐẠI HỌC CÔNG NGHỆ THÔNG TIN

BAO CAO BÀI TẬP CHUYÊN ĐÊ

HỆ HỖ TRỢ QUYẾT ĐỊNH

Đê Tai:

DỰ ĐOAN XU HƯỚNG CHỨNG KHOAN TẠI SÀN HOSE DỰA TRÊN TIN TỨC TÀI CHÍNH

▪ Nganh: KHMT▪ Khoa: 09▪ Giảng viên hướng dẫn:

PGS.TS ĐÔ PHÚC

▪ Nhom học viên thực hiện:Huỳnh Đức Huy CH1401005

Cao Hùng Thiên Bảo CH1401001

Dương Thị Xuân Thoại CH1301061

Trần Thành Tân CH1401018

Tháng 08, Thành phố Hồ Chí Minh.

Mục Lục

Chương 1. GIỚI THIỆU............................................................................................2

Chương 2. QUÁ TRÌNH NGHIÊN CỨU.................................................................4

2.1. Các bước chính trong việc dự đoán xu hướng chứng khoán.......................4

2.1.1. Lấy dữ liệu giá chứng khoán và tin tức tài chính....................................5

2.1.2. Tiền xử lý nội dung văn bản....................................................................6

2.1.3. Gán nhãn văn bản....................................................................................6

2.1.4. Xây dựng bộ từ điển đánh giá mức độ quan trọng của từ........................7

2.1.5. Đánh trọng số của từ trong văn bản.........................................................7

2.1.6. Giảm số chiều của từ trong văn bản........................................................8

2.1.7. Phân lớp cho văn bản...............................................................................9

2.2. Chi tiết hệ thống...........................................................................................9

Chương 3. KẾT QUẢ THỰC NGHIỆM.................................................................11

Chương 4. KẾT LUẬN...........................................................................................15

Chương 5. TÀI LIỆU THAM KHẢO.....................................................................16

Chương 1. GIỚI THIỆU

Chứng khoán là kênh đầu tư có khả năng sinh lợi cao và cũng tiềm ẩn nhiều rủi ro.

Do đó, việc dự báo xu hướng vận động của thị trường và giá cổ phiếu luôn được quan tâm.

Một mô hình dự đoán có hiệu quả có thể được các nhà đầu tư sử dụng để đưa ra quyết định

hoặc có thể được sử dụng bên trong một hệ thống giao dịch tự động. Việc dự đoán đúng giá

một chứng khoán có thể tăng hoặc giảm trong khoảng thời gian tới sẽ giúp đưa ra các quyết

định đầu tư đúng đắn.

Kỹ thuật dự báo phổ biến được thực hiện dựa trên dữ liệu giá trong quá khứ. Các nhà

nghiên cứu đã áp dụng rất nhiều thuật toán như: Moving average của nhóm tác giả Lauren

trong [12], Giải thuật di truyền của Thomas và cộng sự trong [14], Support Vector Machine

của nhóm tác giả Lin trong [13] và các kỹ thuật khác để phân tích xu hướng chứng khoán

và đạt được kết quả khả quan. Vấn đề của các hướng tiếp cận này là các nhà nghiên cứu cố

gắng dự đoán xu hướng chứng khoán từ mức giá trong lịch sử. Tuy nhiên, vấn đề ở đây là

thị trường chứng khoán có sự dịch chuyển của chính nó nên dự đoán chỉ dựa vào giá trong

quá khứ là chưa đủ. Một số sự kiện có thể gây tác động tốt hoặc xấu đến thị trường chứng

khoán. Ví dụ, nếu giá xăng giảm mạnh thì sẽ tác động đến các nhà đầu tư, họ có thể bán tất

cả các cổ phiếu của chứng khoán dầu khí và kết quả là giá chứng khoán dầu khí sẽ đi

xuống. Một giải pháp khác cho vấn đề trên đó là xem xét các tác động của tin tức tài chính

để dự báo cho xu hướng chứng khoán

Trước khi đến với bài báo cáo của em, chúng ta cần phải xác định rằng việc dự đoán

thị trường chứng khoán có khả thi hay không? Theo học thuyết Efficient Market

Hypothesis (EMH), trong thị trường tài chính, cơ hội lợi nhuận được khai thác ngay sau khi

phát sinh, do đó giá cổ phiếu bao gồm dữ liệu lịch sử và thông tin tổng quát của công ty

cũng như tin tức trong nội bộ sẽ gây khó khăn trong việc dự đoán của nhà đầu tư. Tuy

nhiên, theo như các bài báo của nhóm tác giả Kaya trong [5] và nhóm tác giả Lauren trong

[12] chúng ta hoàn toàn có thể dự báo được thị trường chứng khoán. Trong thực tế, phải

mất một thời gian để thị trường tự điều chỉnh theo tác động của tin tức. Vì vậy, hướng tiếp

cận của em sẽ thích hợp hơn trong việc tạo ra một tín hiệu hành động (mua, bán) tương ứng

với các thông tin từ thị trường so với việc dự đoán chính xác giá tương lai của các cổ phiếu.

Tại Việt Nam, sàn giao dịch chứng khoán thành phố Hồ Chí Minh (HOSE) được

thành lập từ năm 2000 và việc dự đoán xu hướng chứng khoán sử dụng tin tức tài chính

3

chưa được nghiên cứu. Hơn nữa, ngôn ngữ tiếng Việt có cấu trúc khác với tiếng Anh [3],

nên việc xử lý ngôn ngữ sẽ phức tạp hơn. Đó là động lực để em làm nghiên cứu này và đề

xuất một mô hình dự đoán xu hướng chứng khoán cho thị trường Việt Nam thông qua sử

dụng tin tức tài chính và dữ liệu giá chứng khoán.

Chương 2. QUA TRÌNH NGHIÊN CỨU

Trong việc xác định xu hướng lên, xuống của thị trường chứng khoán. Cần phải xem

xét nhiều yếu tố:

Dữ liệu đầu vào: Phương pháp tiếp cận thứ nhất là dựa trên giá lịch sử của chứng khoán

và sử dụng các phương thức phân tích kĩ thuật để dự đoán thị trường chứng khoán,

phương thức tiếp cận thứ hai là dựa vào việc sử dụng tin tức tài chính, em sẽ kết hợp cả

hai phương pháp trên với hy vọng tăng độ chính xác khi dự đoán.

Mục tiêu: Mục tiêu chương trình có thể rất đa dạng có thể là dự đoán giá chứng khoán

trong tương lai, xu hướng chứng khoán hoặc biến động thị trường. Xu hướng chứng

khoán đơn giản là sự dịch chuyển của giá cổ phiếu đi lên hoặc đi xuống. Biến động thị

trường thể hiện sự giao động không ổn định của thị trường. Thị trường càng biến động

đồng nghĩa với việc biến động về giá của cổ phiếu tương ứng.

Khoản thời gian xem xét: Khoản thời gian xem xét có thể là dự đoán trong ngắn hạn

hoặc dài hạn. Dự đoán ngắn hạn có thể bắt đầu từ 5 phút đến một ngày sau khi tin tức

được đưa ra, dự đoán dài hạn có thể bắt đầu từ một tuần, tháng hoặc năm sau khi tin tức

được đưa ra. Trong bài nghiên cứu này em sẽ sử dụng việc dự đoán ngắn hạn cụ thể là

theo ngày vì khi tin tức được đưa ra nhà đầu tư sẽ đọc, cập nhật trong thời gian ngắn khi

tin tức được đưa ra và có xu hướng mua hay bán cổ phần mình đang nắm giữ dựa vào

tính tích cực hay tiêu cực của bài báo vì thế ảnh hưởng trực tiếp đến giá cổ phiếu. Nên

em kết luận, tin tức sẽ ảnh hưởng giá cổ phiếu trong thời gian ngắn hạn.

2.1. Các bước chính trong việc dự đoán xu hướng chứng khoán

Dự đoán xu hướng chứng khoán dựa vào tin tức tài chính có thể được xem đơn giản là

việc phân loại tin. Mục tiêu cuối cùng của hệ thống là dự đoán xu hướng thị trường chứng

khoán dựa vào nội dung tin tức. Dựa trên các yếu tố ảnh hưởng đến việc dự đoán được mô

tả trong mục trước, một tập các phân lớp được định sẵn. Ví dụ như: “+1” tương ứng với xu

hướng tăng của giá cổ phiếu, “-1” tương ứng với xu hướng giảm của giá cổ phiếu. Em giả

4

thuyết rằng mỗi tin tức đưa ra đều có ảnh hưởng đến giá cổ phiếu theo chiều hướng tốt hoặc

xấu. Vì vậy, em không đưa lớp trung lập vào hệ thống. Tất cả các tin tức đưa vào hệ thống

sẽ được phân vào một trong hai lớp được đề cập ở trên.

Hệ thống của em được chia làm 2 bước chính: bước huấn luyện và bước kiểm tra.

Trong bước huấn luyện, em sẽ chuẩn bị một tập dữ liệu huấn luyện, chính là các tin tức

được phân lớp sẵn dựa vào dữ liệu giá cổ phiếu theo ngày. Tập dữ liệu này sẽ là đầu vào

cho phương pháp huấn luyện máy học để xây dựng ra một mô hình được sử dụng trong

bước kiểm tra để tìm độ chính xác của việc dự đoán. Mô hình dự đoán chứa các thành phần

cơ bản được mô tả như hình 1 gồm:

Hình 1. Mô hình hệ thống

Lấy dữ liệu giá chứng khoán và tin tức tài chính

Tiền xử lý nội dung văn bản

Gán nhãn văn bản

Xây dựng bộ từ điển mức độ ảnh hưởng tích cực, tiêu cực của từ

Đánh trọng số của từ trong văn bản

Giảm số chiều của từ trong văn bản

Phân lớp cho văn bản

5

2.1.1. Lấy dữ liệu giá chứng khoán va tin tức tai chính

Giá chứng khoán

Trong bài nghiên cứu này, em chọn giá chứng khoán theo ngày của rổ chứng khoán

VN30 trong khoản thời gian từ tháng 01/2014 đến tháng 5/2015.

Tin tức tài chính

Tin tức tài chính được thu thập chủ yếu từ nguồn tin tức của trang web

VIETSTOCK.VN và hai trang cung cấp tin chính thức của các doanh nghiệp niêm yết là

HSX.VN và HNX.VN trong khoản thời gian từ tháng 01/2014 đến tháng 05/2015.

2.1.2. Tiên xử lý nội dung văn bản

Tất cả tin tức thu thập được đều ở dưới dạng html nên chứa rất nhiều thẻ không cần

thiết của ngôn ngữ HTML. Vì thế, đầu tiên cần loại bỏ tất cả các thẻ không cần thiết để

trích lấy nội dung chính và lưu dưới định dạng văn bản.

Đến bước này thì mỗi văn bản chứa nhiều câu, bước tiếp theo của hệ thống là tách từ

từ các câu trong văn bản. Em sử dụng chương trình tách từ Tiếng Việt VNTOKENIZER

của nhóm tác giả Dien Dinh và Hoang Kiem trong [3]. Công cụ này được chứng minh đem

lại độ chính xác hơn 90% trong việc tách từ Tiếng Việt. Tất cả các từ thu được sẽ là đầu

vào cho bước tiếp theo.

Trong bước cuối cùng của giai đoạn này, hệ thống sẽ lấy từ được tách từ tất cả các

văn bản và cải thiện mức độ hiệu quả và tài nguyên hệ thống bằng cách loại bỏ các từ

không cần thiết mà không đem lại thông tin có ích gì cho việc phân loại: các từ dừng (và,

của, là,...), số, kí hiệu. Vì mục đích này mà một danh sách các từ dừng trong Tiếng Việt với

hơn 900 từ đã được em thu thập bằng tay.

2.1.3. Gán nhãn văn bản

Trong các nghiên cứu trước đây, có hai cách tiếp cận trong việc gán nhãn văn bản.

Cách tiếp cận thứ nhất là gán nhãn cho từng văn bản bằng tay dựa vào ý kiến của chuyên

gia về nội dung của bài báo ảnh hưởng thế nào đến xu hướng chứng khoán. Mặc dù đạt tỉ lệ

chính xác cao khi sử dụng phương pháp này, tuy nhiên số lượng bài báo là một vấn đề cần

quan tâm. Cách tiếp cận thứ hai là gán nhãn bài báo tự động dựa vào ảnh hưởng của chúng

vào giá cổ phiếu. Phương pháp này không chính xác bằng phương pháp thứ nhất vì sự thay

đổi giá không chỉ ra nhãn thực sự của bài báo trong nhiều trường hợp. Ví dụ, mặc dù bài

6

báo là tích cực ảnh hưởng đến sự tăng giá cổ phiếu, tuy nhiên khủng hoảng tài chính có thể

làm rớt giá cổ phiếu. Ngoài ra, do áp dụng nghiên cứu tại thị trường chứng khoán Việt Nam

nơi tin tức không phản ánh chính xác tình hình hoạt động của công ty như ở nước ngoài, tin

tức tại thị trường chứng khoán Việt Nam có thể bị thao túng bởi một số cá nhân tung tin

đồn làm cho giá cổ phiếu giảm hoặc tăng theo ý muốn của họ nên việc tìm được một nguồn

tin tức đáng tin cậy là việc vô cùng quan trọng.

2.1.4. Xây dựng bộ từ điển đánh giá mức độ quan trọng của từ

Trong các nghiên cứu gần đây của nhóm tác giả Mizumoto trong [15] và nhóm tác

giả Yang Gao trong [16], hướng tiếp cận là dự đoán xu hướng chứng khoán có sử dụng

phương pháp Sentiment dictionary – là một từ điển đánh giá mức độ tác động tích cực hay

tiêu cực của từ đến bài báo nhằm mục đích tăng thêm mức độ chính xác cho việc đánh

trọng số từ.

Nhóm đã tìm hiểu và đề xuất việc xây dựng một bộ từ điển sentiment được xây dựng

với mục đích tìm cách nâng cao độ chính xác của bài báo tiếng Việt. Đầu tiên nhóm sử

dụng bộ từ điển tiếng Việt của tác giả Duc Ho (Viet74k), sau đó sử dụng công cụ

VNTagger của tác giả Phuong Le trong [17] nhằm mục đích gán nhãn từ loại (tính từ, danh

từ, động từ,…) cho từ điển và chỉ lọc ra tính từ và động từ (tăng, mạnh,…). Cuối cùng, tiến

hành gán nhãn các bài báo dựa vào giá cổ phiếu và duyệt qua tất cả các bài báo trong văn

bản, đếm số lần từ trong từ điển xuất hiện trong bài báo với phân lớp tăng và số lần từ trong

từ điển xuất hiện trong bài báo với phân lớp giảm và áp dụng công thức (1) (2) để tính chỉ

số của từng từ trong từ điển:

t p ,wi=¿P∨ ¿|P|+¿N∨¿ (1 )¿

¿

t n ,wi=¿N∨ ¿|P|+¿N∨¿ (2 ) ¿

¿

Với tp,wi là điểm ứng với ảnh hưởng tích cực của từ wi trong từ điển, tn,wi là điểm ứng

với ảnh hưởng tiêu cực của từ wi trong từ điển. |P| là số văn bản được gán nhãn tăng mà từ t

xuất hiện, |N| là số văn bản được gán nhãn giảm mà từ t xuất hiện.

Sau khi đã duyệt qua tất cả các bài báo, những từ trong từ điển mà không xuất hiện ở

trong bài báo nào của phân lớp tăng và giảm sẽ bị loại bỏ để giảm thời gian xử lý.

7

2.1.5. Đánh trọng số của từ trong văn bản

Sau khi đã loại bỏ bớt các từ không cần thiết, sau đó tạo ra một từ điển luật dựa vào

việc phân tích các từ trong văn bản. Mỗi một dòng trong từ điển đại diện cho một văn bản

gồm: số lượng từ tương ứng trong văn bản, dánh sách các từ, trọng số của từng từ. Để đánh

trọng số cho từng luật em sử dụng phương pháp Delta TFIDF của nhóm tác giả Prollochs

trong [8], mục tiêu của việc cải tiến là tăng độ quan trọng của luật được phân bố không đều

giữa lớp giảm và lớp tăng và giảm độ quan trọng của luật được phân bố đều giữa lớp giảm

và lớp tăng. Chi tiết thuật toán như sau:

V t ,d=Ct ,d∗log2¿¿

Với Ct,d là số lần luật t xuất hiện trong tin tức d, Pt là số văn bản được gán nhãn tăng

mà luật t xuất hiện, |P| là số văn bản được gán nhãn tăng trong toàn bộ văn bản, N t là số văn

bản được gán nhãn giảm mà luật t xuất hiện, |N| là số văn bản được gán nhãn giảm trong

toàn bộ văn bản, Vt,d là trọng số cho luật t trong văn bản d

2.1.6. Giảm số chiêu của từ trong văn bản

Phương pháp giảm số chiều văn bản có thể được chia ra thành: thuật toán FE

(Feature extraction) của Martineau và cộng sự trong [9] và thuật toán FS (Feature selection)

của nhóm tác giả Kaya trong [5]. Thuật toán FS chọn một tập con của các luật có tính đại

diện cao nhất từ bộ từ điển luật và từ đó lập bộ luật mới với số chiều đã được giảm bớt đáng

kể Thuật toán FE biến đổi bộ luật ban đầu thành một bộ luật với không gian luật nhỏ hơn để

giảm bớt số chiều. Mặc dù thuật toán FE đã được chứng minh rất hiệu quả cho việc giảm số

chiều, tuy nhiên tập luật quá lớn thường làm một số thuật toán FE không có khả năng giải

quyết vì độ tính toán phức tạp vì thế thuật toán FS được sử dụng phổ biến hơn cho việc giải

quyết vấn đề giảm số chiều của từ điển luật.

Trong nghiên cứu này, em sẽ chỉ áp dụng thuật toán FS. Đã có rất nhiều nghiên cứu

được tiến hành trong giải thuật FS của nhóm tác giả Hayes trong [10] trong việc phân loại

văn bản như: MI (Mutual information), IG (Information Gain), GSS (GSS Coefficient),

CHI (Chi square), RS (Relevancy Score). Gần đây, nghiên cứu của Lewis và cộng sự trong

[6] đã cho thấy thuật toán OCFS cho hiệu suất cao trong thuật toán FS. Ý tưởng chính của

thuật toán OCFS là:

Tính centroid m=1,2,…,c cho mỗi phân lớp của bộ huấn luyện

8

Tính centroid m cho tất cả các phân lớp của bộ huấn luyện

Tính điểm của từng luật i-th

Chọn K luật có điển cao nhất

Em sẽ dùng thuật toán OCFS trong việc giảm số chiều trong bài nghiên cứu này.

2.1.7. Phân lớp cho văn bản

Dựa vào các cách tiếp cận gần đây: theo nhóm tác giả Minh Nguyen trong [4] có 2

hoặc 3 lớp được định nghĩa để dự báo xu hướng thị trường: 2 lớp tương ứng với tăng và

giảm và 3 lớp tương ứng với tăng, giảm, trung lập. Mục tiêu chung của xử lý tin tức là để

phân lớp tin tức vào 2 lớp: tăng hoặc giảm với cổ phiếu được chọn. Thỉnh thoảng việc phân

lớp được mở rộng bằng việc định nghĩa lớp trung lập như cách làm của nhóm tác giả

Sebastiani trong [11].

2.2. Chi tiết hệ thống

Em thu thập các bài báo từ trang web vietstock.vn trong khoản thời gian từ tháng

01/2014 đến tháng 05/2015. Kết quả, em thu được 2725 bài báo. Trong nghiên cứu, em chỉ

chọn các bài báo chung về kinh tế Việt Nam và các bài báo liên quan đến hoạt động kinh

doanh của các công ty liên quan trong rổ VN30 (BVH, CII, CSM, DPM, DRC, FLC,

FPT, GMD, HAG, HCM, HPG, HSG, HVG, IJC, ITA, KBC, KDC, MBB, MSN,

OGC, PPC, PVD, PVT, REE, SSI, STB, VCB, VIC, VNM, VSM) thuộc sàn giao dịch

Hồ Chí Minh. Để tiện cho quá trình so sánh dựa trên khoản thời gian và số lượng bài báo

em chia chương trình ra làm 3 mẫu gồm: mẫu 1 chứa các tin tức từ tháng 01/2015 đến

tháng 05/2015, mẫu 2 chứa các tin tức từ tháng 06/2014 đến tháng 05/2015, mẫu 3 chứa các

tin tức từ tháng 01/2014 đến tháng 05/2015 như bảng 1.

Bảng 1.Chi tiết bài báo theo từng mẫu

Tập mẫu

Số lượng bài báo

Tập

huấn luyện

Tập

kiểm tra

T

ổng số

Mẫu 1 (5

tháng)1090 465

1

555

Mẫu 2 (10 1499 640 2

9

tháng) 139

Mẫu 3 (15

tháng)1730 741

2

471

Em sử dụng SVM của tác giả Vapnik trong [2] làm phương pháp máy học để phân

loại bài báo. SVM được chứng minh là một phương pháp phân loại văn bản hiệu quả nhất

với cả tiếng Việt cũng như tiếng Anh. SVM dựa vào biên quyết định, nhằm chia các mẫu

của các lớp khác nhau. Một biên quyết định tốt phải cách xa các mẫu của tất cả các lớp đã

được tách biệt. SVM được xem là dễ triển khai hơn các giải thuật phân lớp khác, tuy nhiên

người sử dụng chưa quen với nó thường đạt kết quả không như mong muốn khi họ triển

khai thuật toán trên. Do đó em sử dụng công cụ LibSVM của nhóm tác giả Chang trong [1]

để tiến hành quá trình phân lớp. LibSVM là một thư viện được thiết kế cho phương pháp

máy học SVM. Mục tiêu của thư viện là giúp người dùng tùy biến và triển khai SVM đạt

kết quả tối ưu nhất.

Chương 3. KẾT QUẢ THỰC NGHIỆM

Ma trận kết hợp (Confusion matrix), precision (độ chính xác giữa các mẫu), độ phủ

(recall) và accuracy (độ chính xác) được sử dụng để đánh giá mô hình đề xuất. Trong ma

trận kết hợp, TP và TN chỉ ra phân lớp đúng cho các lớp tương ứng, FP và FN chỉ ra phân

lớp sai cho các lớp tương ứng.

Bảng 2.Ma trận kết hợp

Lớp dự đoán

Tăng Giảm

Lớp

thực tế

T

ăngTP FN

G

iảmFP TN

Accuracy là phần tăng dự đoán là tăng (TP) và giảm dự đoán là giảm (TN), precision

được định nghĩa là tăng dự đoán là tăng (TP) chia cho tổng của tăng được dự đoán là tăng

10

(TP) và giảm được dự đoán là tăng (FP). Recall được định nghĩa là tăng được dự đoán là

tăng (TP) chia cho tổng của tăng dự đoán là tăng (TP) và tăng được dự đoán là giảm (FN).

Các công thức tương ứng như sau:

Accuracy= TP+TNTP+TN+FP+FN

(1)

Precision= TPTP+FP

(2)

Recall= TPTP+FN

(3)

Để tìm được mô hình tối ưu nhất cho hệ thống dự đoán xu hướng chứng khoán, em

tiến hành kiểm tra hoạt động của hệ thống với nhiều cách tiếp cận khác nhau. Em tiến hành

so sánh hiệu suất của ba mô hình phân loại văn bản sau đây: mô hình 1 sử dụng phương

pháp TFIDF thông thường, mô hình 2 sử dụng thuật toán TFIDF cải tiến, mô hình 3 sử

dụng cả thuật toán TFIDF cải tiến kết hợp với bộ từ điển đánh giá mức độ ảnh hưởng của từ

sử dụng dữ liệu bài báo của mẫu 1, ngoài ra em cũng chọn các tham số tối ưu nhất cho

phương pháp máy học SVM như sau: Loại SVM là C-SVM, hàm kernel là RBF với tham

số C=4148, g=0.00048.

Bảng 3.Bảng so sánh phương pháp Alpha TFIDF và TFIDF

Cách tiếp cận

Các độ đo

A

ccuracy

Pr

ecision

R

ecall

F-

Measure

Alpha TFIDF0.

696

0.

695

0

.938

0.7

959

Alpha TFIDF và từ điển mức độ ảnh

hưởng

0.

763

0.

748

0

.945

0.8

0

TFIDF0.

602

0.

626

0

.911

0.7

427

Bảng trên cho thấy sự tối ưu của thuật toán đánh trọng số alpha TFIDF so với phương

pháp TFIDF với độ chính xác được cải thiện lên thêm 9.4% từ 60.2% lên 69.6% đối với

việc phân lớp bài báo Tiếng Việt. Ngoài ra việc kết hợp phương pháp Alpha TFIDF và bộ

11

từ điển mức độ ảnh hưởng của từ được đề xuất thì độ chính xác tăng thêm 6.7% từ 69.6%

lên 76.3%. Vì vậy em sẽ sử dụng kết hợp cả phương pháp alpha TFIDF và bộ từ điển mức

độ ảnh hưởng trong mô hình.

Tiếp theo, em tiến hành so sánh độ đo của 3 mẫu thời gian ứng với 5 tháng, 10 tháng,

15 tháng để tìm hiểu độ chính xác của hệ thống khi tăng số lượng bài báo và khoản thời

gian dài hơn.

Mẫu 1 Mẫu 2 Mẫu 30

102030405060708090

100

AccuracyPrecisionRecall

Các mẫu thời gian

Phần

trăm

(%)

Hình 2. Biểu đồ so sánh các mẫu theo khoản thời gian

Biểu đồ trên cho thấy độ chính xác (accuracy) của mẫu 1 là tốt nhất khoản 76% với độ

phủ (recall) lên đến 94%. Ở mẫu 2 độ chính xác (accuracy) giảm xuống còn 66.5%, tuy

nhiên ở mẫu 3 độ chính xác (accuracy) lại tăng lên 71.4%. Ở cả 2 mẫu này độ chính xác

giữa các mẫu (precision) lại tăng lên 80% lớn hơn so với mẫu 1, điều này là do số lượng bài

báo tăng lên nên nâng cao đáng kể độ chính xác giữa các mẫu dự đoán. Nhìn chung thì độ

chính xác (accuracy) của hệ thống luôn ở trên mức 65% còn việc độ chính xác (accuracy)

cao thấp giữa các mẫu là do có sự nhiễu trong các tin tức thu thập được.

Để chứng minh khả năng dự đoán xu hướng trong thực tế, em sử dụng dữ liệu giá

đóng cửa của chứng khoán rổ VN30 vào tháng 03/2015. Sau đó, chọn các bài báo trong

cùng khoản thời gian trên và sử dụng mô hình tiến hành dự đoán xu hướng giá. Theo kết

quả thu được trong hình 3, ta thấy xu hướng tăng (+1), giảm (-1) được thể hiện bằng đường

bên dưới đường biểu diễn giá cho thấy kết quả dự đoán xu hướng so với giá thực tế của cổ

phiếu rổ VN30. Kết quả thực nghiệm cho thấy việc dự đoán xu hướng thông qua tin tức tài

chính có độ tương quan khá cao với sự giao động của giá thực tế.

12

Hình 3. Biểu đồ giá và dự đoán xu hướng trong tháng 03/2015

Qua phần thử nghiệm ở trên, mô hình được xây dựng cho thấy tính khả thi trong việc

dự đoán xu hướng chứng dựa vào tin tức tài chính tại thị trường chứng khoán Việt Nam.

Ngoài ra việc kết hợp một số phương pháp như alpha TFIDF cũng như việc xây dựng một

bộ từ điển đánh giá mức độ ảnh hưởng của từ lên bài báo cho thấy độ chính xác của hệ

thống được cải thiện so với khi không sử dụng các phương pháp cải tiến trên.

Chương 4. KẾT LUẬN

Trong bài nghiên cứu này, em đã chứng minh việc sử dụng tin tức tài chính có ảnh

hưởng đến giá cổ phiếu tại Việt Nam và cụ thể trong kết quả thực nghiệm là rổ VN30. Để

đạt được điều đó, tin tức tài chính cùng với giá chứng khoán được đưa vào đánh giá. Và

qua quá trình thực nghiệm đã chứng minh tin tức tài chính có sự tương quan với giá chứng

khoán. Tuy nhiên, tỉ lệ chính xác của chương trình có thể được nâng cao nếu tìm được một

nguồn tin tức đáng tin cậy và phản ánh đúng thực tế thị trường chứng khoán tại Việt Nam.

Trong tương lai, nhóm sẽ tiến hành cải thiện độ tin cậy của chương trình dựa vào việc cải

tiến thuật toán SVM, sử dụng phương pháp huấn luyện sử dụng phương pháp thống kê

Naïve Bayes để so sánh với SVM nhằm cải thiện độ chính xác việc phân loại tin tức.

13

Chương 5. TÀI LIỆU THAM KHẢO

[1] Chang, C. C., C. J. Lin, “LIBSVM: a library for support vector machines. ACM transactions on intelligent systems and technology 2: 27: 1–27: 27.” (2012).

[2] Cortes, Vladimir Vapnik, “Support-vector networks.” Machine learning 20.3 (1995): 273-297.

[3] Dien Dinh, Hoang Kiem, “Vietnamese Word Segmentation.” NLPRS. Vol. 1. 2001.[4] Nguyên Thi Minh, Azim Roussanaly, “A hybrid approach to word segmentation of

Vietnamese texts.” Language and Automata Theory and Applications. Springer Berlin Heidelberg, 2008. 240-249.

[5] Kaya, MI Yasef, “Stock price prediction using financial news articles.” Information and Financial Engineering (ICIFE), 2010 2nd IEEE International Conference on. IEEE, 2010.

[6] Lewis, David D, “Feature selection and feature extraction for text categorization.” Proceedings of the workshop on Speech and Natural Language. Association for Computational Linguistics, 1992.

[7] Yan, Jun, “OCFS: optimal orthogonal centroid feature selection for text categorization.” Proceedings of the 28th annual international ACM SIGIR conference on Research and development in information retrieval. ACM, 2005.

[8] Prollochs, Nicolas, “Enhancing Sentiment Analysis of Financial News by Detecting Negation Scopes.” System Sciences (HICSS), 2015 48th Hawaii International Conference on. IEEE, 2015.

[9] Martineau, Justin, “Delta TFIDF: An Improved Feature Space for Sentiment Analysis.” ICWSM. 2009.

[10] Hayes, Phillip J., “Tcs: a shell for content-based text categorization.”Artificial Intelligence Applications, 1990., Sixth Conference on. IEEE, 1990.

[11] Sebastiani, Fabrizio, “Machine learning in automated text categorization.” ACM computing surveys (CSUR) 34.1 (2002): 1-47.

[12] Lauren, Stefan, “Stock trend prediction using simple moving average supported by news classification.” Advanced Informatics: Concept, Theory and Application (ICAICTA), 2014 International Conference of. IEEE, 2014.

[13] Lin, Yuling, “An SVM-based approach for stock market trend prediction.” Neural Networks (IJCNN), The 2013 International Joint Conference on. IEEE, 2013.

[14] Thomas, James D., “Integrating genetic algorithms and text learning for financial prediction.” Data Mining with Evolutionary Algorithms(2000): 72-75.

[15] Mizumoto, Keisuke, “Sentiment analysis of stock market news with semi-supervised learning.” Computer and Information Science (ICIS), 2012 IEEE/ACIS 11th International Conference on. IEEE, 2012.

[16] Gao, Yang, "Sentiment classification for stock news." Pervasive Computing and Applications (ICPCA), 2010 5th International Conference on. IEEE, 2010.

[17] Le-Hong, Phuong, “An empirical study of maximum entropy approach for part-of-speech tagging of Vietnamese texts.” Traitement Automatique des Langues Naturelles-TALN 2010. 2010.

14

dự Đoán xu hướng chứng khoán tại sàn hose dựa trên tin tức tài chính

Documents