Python数据分析和数据化运营 (一)


第一章
    1.1
        1.1.2数据化运营是什么?
            是指通过数据化的工具和技术,方法,对运营过程中的各个环节进行科学分析引导和应用,从而达到优化运营效果和效率,降低成本,提高效率的目的。
        
            1.数据化运营的意义:
                提高运营决策效率
                提高运营决策正确性
                优化运营执行过程
                提升投资回报
            
            2.数据化运营的2种方式
                辅助决策数据化运营
                    辅助决策式数据化运营即运营的决策支持,它是以决策主题为中心,借助计算机相关技术辅助决策者通过数据、模型、知识等进行业务决策,起到帮助、协助和辅助决策者的目的。例如:通过为决策者提供促销商品销量,来为企业促销活动提供有关订货、销售等方面的支持。
                数据驱动式数据化运营
                    数据驱动式数据化运营是指整个运营运作流程以最大化结果为目标,以关键数据为触发和优化方式,将运营业务的工作流程、逻辑、技巧封装为特定应用,借助计算机技术并结合企业内部流程和机制形成一体化的数据化工作流程。例如:个性化推荐是一种数据驱动数据化运营方式。
                
                两种数据化运营的差异点
                    辅助决策式数据化运营和数据驱动式数据化运营是两个层次的数据应用,数据驱动相对于辅助决策的实现难度更高、数据价值体现更大。
                        辅助决策为业务决策方服务,整个过程都由运营人员掌控,数据是辅助角色。
                        数据驱动的过程由数据掌控,数据是主体,实现该过程需要IT、自动化系统、算法等支持,数据驱动具有自主导向性、自我驱动性和效果导向性的特征。

                    注意 由于数据和流程本身会存在缺陷以及运营业务通常都有强制性规则的需求,因此即使在数据驱动数据化运营过程中也会加入人工干预因素。但即使如此,数据作为数据驱动的核心不变,数据即决策主体本身。
                    
            3.数据化运营的工作流程
                第一阶段:数据需求沟通
                    需求产生
                        由运营部门产生的某些数据化运营需求,例如预测商品销量、找到异常订单、确定营销目标人群名单等。
                    需求沟通
                        针对运营部门提出的需求进行面对面沟通和交流,主要沟通两方面内容:
                            一是业务需求沟通,包括需求产生的背景、要解决的问题、预期达到的效果等;
                            二是数据现状沟通,包括数据存储环境、主要字段、数据字典、数据量、更新频率、数据周期等,如果没有数据则需要制定数据采集规则并开始采集数据,该过程中可能需要IT部门的协助;
                            三是数据与分析的关联性沟通,根据与运营人员的沟通,了解业务背景下哪些是常见的带有业务背景的数据、不同场景会导致数据如何变化、分析中会涉及到哪些关键字段或场景数据等,业务人员丰富的经验会帮助数据工作者少走很多坑。
                第二阶段:数据分析建模
                    获取数据
                        要获取数据化运营分析所需的数据,需要经过特定授权从数据库或文件中得到数据。
                    数据预处理
                        在该过程中对数据进行质量检验、样本均衡、分类汇总、合并数据集、删除重复项、数据分区、排序、数据离散化、数据标准化、过滤变量、转置、查找转换、数据脱敏、数据转换、抽样、异常值和缺失值处理等。
                    数据分析建模
                        运用多种数据分析和挖掘方法,对数据进行分析建模。方法包括统计分析、OLAP分析、回归、聚类、分类、关联、异常检测、时间序列、协同过滤、主题模型、路径分析、漏斗分析等。
                    数据结论输出
                        数据结论的输出有多种方式,常见的方式是数据分析或挖掘建模报告,另外还包括Excel统计结果、数据API输出、数据结果返回数据库、数据结果直接集成到应用程序中进行自动化运营用用(例如短信营销)。
                第三阶段:数据落地应用
                    数据结论沟通
                        对于输出的形式为报告、Excel统计结果等方式的内容,通常都需要与运营对象进行深入沟通,主要沟通的内容是将通过数据得到的结论和结果与业务进行沟通,通过沟通来初步验证结论的正确性、可靠性和可行性,并对结果进行修正。如果没有可行性,那么需要返回第二阶段重新开始数据分析建模流程。
                    数据部署应用
                        经过沟通具有可行性的数据结论,可直接应用到运营执行环节。例如,将预测结果作为下一月份的KPI目标,将选择出来的用户作为重点客户进行二次营销。
                    后续效果监测和反馈
                        大多数的数据化运营分析都不是“一次性”的,尤其当已经进行部署应用之后,需要对之前的数据结论在实践中的效果做二次验证,若有必要则需要进行结论的再次修正和意见反馈。

                    注意:很多人认为数据化运营工作应该从数据产生之后开始,这是错误的观念,原因在于数据化运营工作的起始是需求产生,而需求的产生跟数据的产生往往没有必然关系。

        1.1.3 Python用于数据化运营
        Python可以将数据化运营过程中的来源于企业内外部的海量、多类型、异构、多数据源的数据有效整合到一起,提供丰富的集成、开发、分析、建模和部署应用。
        Python高效的开发效率能帮助数据化运营在最短的时间内进行概念验证,并提供科学的预测结果,为数据化运营的快速和准确提供基础。
        Python可以将数据工作流程和IT工作流程无缝对接,有利于实现数据工作跟运营工作的融合,这也是数据驱动式数据化运营的工作方法,有利于真正实现数字化、智能化的运营工作
        
    1.2 工具和组件
        numpy:可以高效处理数据,提供数组支持,很多模块都依赖,
        pandas:用于进行数据探索和数据分析
        matplotlib :作图模块,解决可视化问题
        scipy 主要进行数值计算,同时支持矩阵运算,并提供了很多高等数据处理功能,比如积分,傅里叶变换,微积分方程求解等
        statsmodels 这个模块主要用于文本挖掘
        sklearn(scikit-learn),keras:前者机器学习,后者深度学习
        
        统计分析:Statsmodels
        中文处理:结巴分词
        文本挖掘:Gensim
        爬虫和解析:requests、Beautiful Soup、xml
        图像处理:OpenCV和PIL
        数据读取:xlrd、pymongo、mysql.connector
        数据预处理:imblearn
        展示美化类:graphviz、prettytable、wordcloud、mpl_toolkits、pydotplus
        
    1.3 机器学习框架 TensorFlow
        Tesseract-OCR(光学字符识别) :  https://sourceforge.net/projects/tesseract-ocr-alt/files/下载名为“tesseract-ocr-setup-3.02.02.exe”的安装包。
    
    案例:
        chapter1
            ......


免责声明!

本站转载的文章为个人学习借鉴使用,本站对版权不负任何法律责任。如果侵犯了您的隐私权益,请联系本站邮箱yoyou2525@163.com删除。



 
粤ICP备18138465号  © 2018-2025 CODEPRJ.COM