设为首页|加入收藏|登陆邮箱欢迎来到国家新闻出版广电总局广播电视规划院
【40】 分布式采集在互联网视听节目采集中的应用

阅读次数: 802 次    信息来源: 信息研究所

作者:周侠    陕西省广播电视监管中心多媒体科

摘要:本文根据陕西广播电视监测中心互联网视听节目内容管理分析系统的实际技术应用,阐述了分布式采集技术在互联网视听节目监管系统中的应用,并介绍了数据处理技术、节目智能分析等相关技术。

关键词:分布式;采集;智能分析

 

0 引言

    陕西广播电视监测中心互联网视听节目内容管理分析系统的搜索引擎主要采用高速分级、分布式、负载平衡技术,通过多级任务分布可以充分利用计算机资源,搜索引擎24小时不间断的扫描需要监控网络范围的站点,从而找到其中的网络音视频站点。

 

1 系统工作原理

    针对通用搜索引擎的问题,本次系统建设重新调整了网络爬取子系统,优化后的网页爬取系统主要由WEB数据信息存取和分析子系统、WEB数据信息收集控制子系统、分布式数据处理系统三个部分组成。这三部分分别对数据的采集和分析作了改进,并且增加了分布式数据处理的部分,大大提高了系统的搜索效率。优化后的系统流程如图1所示。

 

2 系统组成模块
2.1 WEB数据信息存取和分析子系统

    根据WEB数据信息收集控制子系统提供的URL和相关信息,使用HTTP协议,在Internet上获取相关资源,并能就对方主机返回的不同状态码作出相应处理。对取回的WEB页面进行分析,自动对中文编码进行识别和转化,对中文信息进行分词、提取页面的标题、关键词、摘要以及其中的超链。将分析的结果通过扩展接口提交给信息收集控制子系统。

    主控程序对WEB页面进行分析并仲裁。根据网页上出现的特征值信息,判断这个网页是否为重要网页,例如网页上出现节目链接或出现很高的具有媒体特征的权值。主控程序会将重要网页的相关信息保存到数据库中。

(全文详见《广播与电视技术》2014年10月刊。)

 

发表评论 欢迎读者发表评论,请将字数限定在200字以内
姓名: 单位: 行业或职位:

还没有评论
意见反馈 法律声明 网站地图 设计支持
Copyright@ 国家新闻出版广电总局广播电视规划院010-86091273北京市西城区复兴门外大街2号