GlaxosMithKline R&D使用Hadoop创建数据平台,以获得科学数据的内部共享
Pharmaceuticals公司Glaxosmithkline(GSK)通过计划改善了其研发(研发)能力,以通过在研发部门开发药物的发展来实现DALAGENENTATED。
2015年,GSK探讨了一个数据策略,解决了分享数据所面临的挑战。GSK的研发运营中有约10,000名科学家,但它们之间的药物发展和试验的数据很少。
在现在三年的数据策略之前,来自药物试验和实验的所有数据都有不同的格式并储存在不同的地方,称为2015年GSK的研发业务的首席数据官员。
他说,过去的传统数据仓库已经完成了一些工作,并尝试使用Oracle和Teradata等技术进行结构和组织数据。“但我们真正寻找的东西是在更广泛的规模上解决问题的事情,”Ramsey说。
“制药公司生产大量数据,但它是在垂直筒仓中产生的,”他说。“例如,在发现中,存在有生产的实验数据,用于进展新药,但实际上并没有真正在研发组织中分享该信息的能力,并利用该信息的聚合的权力更好决定。”
GSK认识到这是一个约束,因此招聘Ramsey作为首席数据官员,以定义数据战略ross的研发操作,所以信息可以用作战略资产,而不是仅供运营。
他通过确定该部门在数据使用方面的境地开始。“我最初在整个研发人口中进行了一项调查,其中包括竞争来自麻省理工学院的数据,衡量数据成熟度,并获得了非常高的回应率,”他说。
“一般来说,反馈确认了人们可以访问他们自己创造的数据但不能真正分享的假设。”
在创建综合信息平台方面,他评估了这一点,并发现了一个综合信息平台,发现R&D的重点努力分享数据,并且该技术所需的技术未到位。
当组织正在发展药物时,科学家们做实验。所以你有数千名科学家们在尝试确定它是否成功时进行实验。但在GSK,他们都在完成这些实验,基于inpidual计划。“将所有这些实验都在一起,”Ramsey说。
“在开始实验之前,他们可以分析已经完成的所有类似实验并从中获得了洞察力。最糟糕的情况是有人做了一个已经完成的实验,“他说。
组织套锁大量临床试验。这些是用某些重点的结果完成,这是强名主义者试图实现的 - 他们将实现与否。“但如果你没有把所有的临床试验放在一起,你会失去该汇总知识的价值。”
该组织决定将Hadoop作为基础,使其能够以正确的格式将信息从不同的操作源从不同的格式中提升,因此可以开始策划和合理化。Hadoop是用于存储结构化和非结构化数据的开源软件。
公司必须从头开始。“我们建立了一个新的平台,因为这项技术之前没有在GSK上使用过,”Ramsey说。
它综合了许多其他技术,将数据带入平台并合理化。
Hesaid这个项目永远不会真正结束,因为数据团队不断炼制的东西并找到新的用例。大多数作品在GSK的全球中心完成了内部,没有传统的系统集成器关系,但它确实在AcaileSuch中作为数据科学和分析的一些较小专家工作。
为此,GSK建立了大约十几个小型软件供应商的生态系统来支持平台。这包括加利福尼亚的启动水线数据,例如,提供元数据存储库技术。这确保了一旦数据在平台中,GSK可以搜索并查看信息存在的位置,谁在过去使用它。
GSK还在考虑使用超级计算技术开发新药的人工智能(AI)。