首页 新闻动态 科学研究 论文著作 科研成果 成果演示 人才培养 实验室人员  

KDDcup2004取得并列第一名

2004-08-27

  8月27日,中国科学院计算技术研究所召开了“KDD Cup 2004参赛汇报会”,总结计算所参赛队伍的工作并庆祝在竞赛中取得的成绩。

  KDD Cup是由美国计算机学会(ACM)组织的知识发现和数据挖掘国际竞赛;它每年伴随ACM SIGKDD会议同时举行。顾名思义,“知识发现和数据挖掘”就是指通过分析大量数据,挖掘和发现数据中隐藏的规律和知识。KDD Cup竞赛向数据挖掘领域的学术界和工业界开放,其目标是找出最有创新性和最有效的数据挖掘方法。从1997起,每年一届,到今年KDD Cup 已经是第八届了。在每年的ACM SIGKDD会议举行之前的三四个月,组织者在互联网上公布比赛任务,参赛者必须在指定日期前提交结果。经组织者评审后,在SIGKDD会议上公布比赛结果,并邀请优胜者作报告。竞赛题目通常都是当前各个学科中实际的热门数据挖掘问题,具有较高的挑战性。往年的题目和数据来源于经济、制药、生物、信息等领域中的实际问题。针对这些问题和数据的解决方法同时具有学术价值和工业价值。

  今年的KDD Cup竞赛(http://kodiak.cs.cornell.edu/kddcup/)有两个任务,一个是生物信息学领域的蛋白质序列同源性预测问题,另一个是量子物理中的粒子分类问题。蛋白质序列同源性搜索是目前生物学和生物信息学领域中非常普遍的问题。在这种搜索中,本地用户提交蛋白质序列到服务器,服务器搜索数据库并返回与输入序列同源的序列。其中存在的一个重要的问题就是如何自动判断搜索结果的正确性,即是否与用户提交的序列真正同源。在本次竞赛的蛋白质同源性预测问题中,一个数据样本包含74个属性值,刻画了一个返回序列与输入序列的匹配程度。对于训练样本还包括一个类别标签(是否同源)。训练样本(类别已知)的数量接近15万个,测试样本(类别未知)的数量接近14万个。要求参赛者通过运用各种数据挖掘、机器学习手段从训练数据中找出规律,对测试数据中的未知类别进行预测,并采用四个性能指标评价预测能力。在量子物理的粒子分类问题中,要求参赛者对产生于高能碰撞实验的两类粒子进行分类,分类的依据是描述粒子的78个属性值。这个问题与蛋白质同源性预测问题一样有四个性能评价指标。

  在各级领导的支持下,计算所组织了参赛队伍,与香港科技大学计算机系合作,由该系的杨强教授担任技术指导,他们日夜奋战,集中力量解决蛋白质同源性预测问题,并针对四个性能指标提交了预测结果。在来自世界各地的59个参赛队伍中,取得了两个单项指标排名第一,四个指标综合排名并列第一名的成绩,并受邀参加今年的SIGKDD会议。这是国内单位首次在KDD Cup竞赛中获得此荣誉。参加此次汇报会的有计算所的领导,香港科技大学的教授,以及参赛人员。

  具体内容参见连接:http://www.jdl.ac.cn/kddcup2004

人才招聘 | 友情连接 | 联系我们 | 地理位置
版权所有©2002-2016 先进人机通信技术联合实验室
京ICP备05002832号