Matlab的网络采集程序


偶尔看到这段代码,有点意思,勇哥记录下来把玩一下。

作者管它叫网络爬虫,其实是嘘头,因为它只不过是批量采集网页,然后用正则表达式写入excel中罢了。

netMarketing类库中的httpClass类可比这个强大多了。


勇哥试了一下,下面的代码由于目标页面已经改版,所以现有正则表达式采集规则已经失效,采集不到东西了。

所以代码只能是仅供参考。

clear;clc;
warning off;
for year = 2010:2011 %年份
   for season = 1:4 %季度   
     fprintf('%d年%d季度的数据...', year, season)
     [sourcefile, status] = urlread(sprintf('http://vip.stock.finance.sina.com.cn/corp/go.php/vMS_MarketHistory/stockid/000001/type/S.phtml?year=%d&season=%d', year));
   if ~status
     error('读取出错!\n')
   end

   expr1 = '\s+(\d\d\d\d-\d\d-\d\d)\s*';%获取日期('s'空格字符间的日期数据)
   [datefile, date_tokens]= regexp(sourcefile, expr1, 'match', 'tokens');%返回正则表达式的两个关键字 'match'和 'tokens'
   date = cell(size(date_tokens));

   for idx = 1:length(date_tokens)
      date{idx} = date_tokens{idx}{1};%length(date_tokens)行 1列
   end

   expr2 = '<div align="center">(\d*\.?\d*)</div>'; %从源文件中获取目标数据
   [datafile, data_tokens] = regexp(sourcefile, expr2, 'match', 'tokens');
   data = zeros(size(data_tokens));

   for idx = 1:length(data_tokens)
      data(idx) = str2double(data_tokens{idx}{1}); %length(data_tokens)行 1列
   end

   data = reshape(data, 6, length(data)/6 )'; %重排 数据表格形式为6列,(length(data)/6)行)
   filename = sprintf('%d年',year); %文件名
   pathname = [pwd '\data']; %路径名

  if ~exist(pathname,'dir')
    mkdir(pathname);
  end

  fullfilepath = [pwd '\data\' filename];
  % 保存数据到Excel
  sheet = sprintf('第%d季度', season); %工作表名称
  xlswrite(fullfilepath, date' , sheet);
  range = sprintf('B1:%s%d',char(double('B')+size(data,2)-1), size(data,1)); %从源文件中获取的目标数据的放置范围
  xlswrite(fullfilepath, data, sheet, range);
  fprintf('OK!\n')
  end
end
fprintf('全部完成!\n')


--------------------- 

作者:hackpig
来源:
www.skcircle.com
版权声明:本文为博主原创文章,转载请附上博文链接!


本文出自勇哥的网站《少有人走的路》wwww.skcircle.com,转载请注明出处!讨论可扫码加群:

发表评论:

◎欢迎参与讨论,请在这里发表您的看法、交流您的观点。

会员中心
搜索
«    2024年4月    »
1234567
891011121314
15161718192021
22232425262728
2930
网站分类
标签列表
最新留言
    热门文章 | 热评文章 | 随机文章
文章归档
友情链接
  • 订阅本站的 RSS 2.0 新闻聚合
  • 扫描加本站机器视觉QQ群,验证答案为:halcon勇哥的机器视觉
  • 点击查阅微信群二维码
  • 扫描加勇哥的非标自动化群,验证答案:C#/C++/VB勇哥的非标自动化群
  • 扫描加站长微信:站长微信:abc496103864
  • 扫描加站长QQ:
  • 扫描赞赏本站:
  • 留言板:

Powered By Z-BlogPHP 1.7.2

Copyright Your skcircle.com Rights Reserved.

鄂ICP备18008319号


站长QQ:496103864 微信:abc496103864